View
221
Download
0
Category
Preview:
Citation preview
Tesaurus llistade descriptorslliures i indexacioacuteautomagravetica Manela Juncagrave Campdepadroacutes PID_00193277
CC-BY-NC-ND bull PID_00193277 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Els textos i imatges publicats en aquesta obra estan subjectes ndashllevat que sindiqui el contrarindash a una llicegravencia de Reconeixement-NoComercial-SenseObraDerivada (BY-NC-ND) v30 Espanya de Creative Commons Podeu copiar-los distribuir-los i transmetrelspuacuteblicament sempre que en citeu lautor i la font (FUOC Fundacioacute per a la Universitat Oberta de Catalunya) no en feu un uacutescomercial i no en feu obra derivada La llicegravencia completa es pot consultar a httpcreativecommonsorglicensesby-nc-nd30eslegalcodeca
CC-BY-NC-ND bull PID_00193277 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Iacutendex
Introduccioacute 5
Objectius 6
1 Indexacioacute i recuperacioacute amb tesaurus 7
11 Tesaurus al Web 7
12 Com srsquoindexa amb un tesaurus 8
13 Creacioacute drsquoun tesaurus 12
14 Recuperacioacute amb tesaurus 13
141 Proceacutes de cerca amb un tesaurus 13
15 Activitats 16
151 Indexacioacute del contingut drsquoarticles 16
152 Construccioacute manual i automagravetica de tesaurus 16
153 Recuperacioacute amb tesaurus 19
16 Solucioacute 19
161 Indexacioacute drsquoarticles 19
162 Construccioacute manual i automagravetica de tesaurus 19
2 Indexacioacute amb llistes de descriptors lliures etiquetes i
indexacioacute social 24
21 Descriptors lliures al Web 24
22 Etiquetes i indexacioacute social 25
221 Etiquetes 25
222 Indexacioacute social 27
223 Folksonomia 29
23 La recuperacioacute amb descriptors lliures 32
24 Activitats drsquoindexacioacute amb descriptors lliures 33
3 Indexacioacute automagravetica 34
31 Com srsquoindexa automagraveticament 34
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament 39
321 Cercadors 39
322 Recuperacioacute en un web estructurat 40
323 Web semagraventic indexacioacute i recuperacioacute 41
Bibliografia 43
CC-BY-NC-ND bull PID_00193277 5 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Introduccioacute
Aquest mogravedul tracta dels tesaurus les llistes de descriptors lliures i les llistes
de paraules clau o indexacioacute automagravetica
Els tesaurus soacuten un llenguatge documental que ha sabut unir els avantatges de
tots els llenguatges anteriors eacutes una classificacioacute en la seva presentacioacute jeragraver-
quica eacutes una llista de relacions semagraventiques en la seva presentacioacute alfabegravetica
i es pot recuperar per paraules clau en els seus iacutendexs permutats
En el primer apartat srsquoexpliquen tres operacions amb aquest llenguatge com
srsquoindexa com es crea un tesaurus nou i com es recupera Lrsquoactivitat final con-
sisteix a crear un tesaurus en tres presentacions diferents
Lrsquoapartat sobre els descriptors lliures tracta especialment de la seva aplicacioacute
al Web on ha representat una revolucioacute el fet de convertir cada internauta en
autor editor i documentalista alhora
Aixiacute mateix tracta de les etiquetes o tags els seus inicis i tipus I tambeacute de
la indexacioacute social o tagging i dels factors que els han fet adients per al Web
de les motivacions de lrsquoindexador (egoista amiguista altruista o populista) i
del resultat final de tot plegat conegut com a folksonomia o classificacioacute feta
pel poble
La recuperacioacute amb aquest llenguatge planteja sospesar els avantatges que pro-
porciona una gran comunitat de persones indexant davant els desavantatges
de la manca de control del vocabulari
Finalment el darrer apartat tracta sobre la indexacioacute automagravetica explica com
funciona un programa drsquoaquest tipus i quines opcions srsquousen en lrsquoactualitat
decidir quina part del text srsquoindexa automagraveticament mantenir o eliminar sig-
nes de puntuacioacute i nombres quegrave srsquoha de fer amb les paraules buides (elimi-
nar-les des del comenccedilament contextualitzar-les mantenir-les per a fer opera-
cions meacutes endavant) aplicacioacute de megravetodes estadiacutestics linguumliacutestics o semagraventics
La recuperacioacute amb aquest llenguatge passa ineludiblement pels cercadors del
Web ja que eacutes la base dels seus robots Lrsquoapartat srsquoacaba amb els canvis que
srsquoespera que comportaragrave el Web semagraventic sobre aixograve ja que passarem a recu-
perar en un web estructurat
CC-BY-NC-ND bull PID_00193277 6 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Objectius
Els objectius que ha drsquoassolir lrsquoestudiant amb aquest mogravedul didagravectic soacuten els
seguumlents
1 Indexar amb tesaurus de manera especiacutefica
2 Construir un tesaurus a mida
3 Conegraveixer el proceacutes de recuperacioacute amb tesaurus i saber usar les referegravencies
semagraventiques del llenguatge
4 Identificar les llistes de descriptors lliures al Web marcadors socials webs
per a compartir imatges i viacutedeos etc
5 Aprendre quegrave soacuten les etiquetes la indexacioacute social i les folksonomies
6 Ser conscient dels avantatges i inconvenients en la recuperacioacute per etique-
tes
7 Aprendre quines opcions drsquoindexacioacute automagravetica hi ha en lrsquoactualitat i en
quines liacutenies de treball srsquoestagrave investigant
8 Conegraveixer el paper dels llenguatges documentals en la recuperacioacute amb cer-
cadors generals i en un web estructurat amb metadades i ontologies
9 Adquirir prou elements de judici i coneixement per poder estar al corrent
de les noves investigacions que vagin sorgint en lrsquoentorn dels llenguatges
documentals i del Web semagraventic
CC-BY-NC-ND bull PID_00193277 7 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1 Indexacioacute i recuperacioacute amb tesaurus
Indexar amb un tesaurus igual que amb tots els llenguatge documentals post-
coordinats eacutes molt senzill Soacuten llenguatges en quegrave no hi ha sintaxi per tant
la dificultat no estagrave en la composicioacute lrsquoordre i la sintaxi del terme drsquoindexacioacute
sinoacute en la seleccioacute dels descriptors
11 Tesaurus al Web
Hi ha un gran nombre de tesaurus en liacutenia i gratuiumlts a la Xarxa Trobem tesau-
rus drsquoagricultura astronomia biblioteconomia biologia art etc A continua-
cioacute nrsquooferim una seleccioacute classificada per temes
Llista de tesaurus en liacutenia
Temagravetica Nom del tesaurus
Agricultura AGROVOC
Astronomia The Astronomy Thesaurus
Biblioteconomia IEDCYT - Tesauro de Biblioteconomiacutea y DocumentacioacutenDOCUTES Universitat de Leoacuten
Biologia IEDCYT - Tesauro de Biologiacutea Animal
Ciegravencia IEDCYT - Tesauro SNIPES
Demografia Population Multilingual Thesaurus
Economia EUROVOC ThesaurusIEDCYT - Tesauro ISOC de Economiacutea
Educacioacute EUROVOC Thesaurus
Empresa EUROVOC ThesaurusIEDCYT - Tesauro de Propiedad Industrial
Geografia EUROVOC ThesaurusGetty Thesaurus of Geographic NamesIEDCYT - Tesauro de Topoacutenimos
Geologia IEDCYT - Tesauro de Geologiacutea
Histograveria IEDCYT - Tesauro de Historia Contemporaacutenea de EspantildeaHistograveria de Catalunya
Llenguailiteratura Traces Base de dades de llengua i literatura catalanes - Tesaurus
Matemagravetiques BUCM Tesamat Biblioteca Complutense
Propietatindustrial CSIC - Tesauro de Propiedad Industrial
Psicologia IEDYCT - Tesauro ISOC de Psicologiacutea
La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista
Tesaurus
Els tesaurus soacuten llenguatgesnaturals controlats postcoor-dinats jeragraverquics i alfabegravetics ique indexen per conceptes
CC-BY-NC-ND bull PID_00193277 8 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Temagravetica Nom del tesaurus
Sociologia EUROVOC ThesaurusIEDCYT - Tesauro de Sociologiacutea
Topogravenims CSIC - Tesauro de Topoacutenimos
Urbanisme IEDCYT - Tesauro de Urbanismo
Genegraverics UNESCOHistograveria de CatalunyaMicrotesaurus temagravetics de la UBSPINES del IEDCYTERIC
La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista
12 Com srsquoindexa amb un tesaurus
El proceacutes per a indexar amb tesaurus i per extensioacute amb qualsevol llenguat-
ge documental postcoordinat el trobem gragraveficament explicat en la norma
UNE-50-121-91 annex A pagraveg 7
CC-BY-NC-ND bull PID_00193277 9 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Descripcioacute del proceacutes drsquoindexacioacute amb llenguatges postcoordinats
CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-
duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica
i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta
ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que
li interessen poden ser en diverses microdisciplines i en diferents nivells de
sagnia
Exemple de descriptors en diferents microdisciplines
Document Indexacioacute
Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201
Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades
Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]
Exemple de descriptors en diferents nivells de sagnia
Document Indexacioacute
Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit
Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)
En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes
Noms propis i geogragravefics
Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)
CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de
cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el
terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-
toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora
En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i
admegraves en el tesaurus llista de candidats per Candidatures electorals
En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-
collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes
una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista
en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en
un camp que es diu Descriptors candidats
Reflexioacute
Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada
CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
13 Creacioacute drsquoun tesaurus
Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la
jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada
Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-
guumles i nou en els multilinguumles
1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus
2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines
3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives
4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)
5) Enriquiment del tesaurus per mitjagrave de relacions associatives
6) Elaboracioacute de lrsquoesborrany del tesaurus
7) Formacioacute dels indicadors
8) Test del tesaurus
9) Revisioacute final i primera edicioacute
Els descriptors de cada microdisciplina poden estar ordenats de tres maneres
diferents
bull Cronologravegicament
bull Alfabegraveticament
bull Segons el proceacutes
Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen
un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar
despreacutes primagraveria secundagraveria i superior
Reflexioacute
Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus
Lectures recomanades
Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)
CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tres tipus drsquoordenacions
Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la
conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores
com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en
quegrave veiem que Economia general precedeix la resta
bull [Histograveria econogravemica]
bull [Economia general]
bull [Economia agragraveria]
bull [Economia pesquera]
bull [Economia industrial]
bull [Comerccedil]
bull [Hoteleria i turisme]
bull [Finances]
bull [Economia de lrsquoempresa]
14 Recuperacioacute amb tesaurus
La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes
meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi
poden afegir tants descriptors com es consideri oportuacute
Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per
randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast
conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu
SID tant per noms geogragravefics com personals tiacutetols o entitats
141 Proceacutes de cerca amb un tesaurus
El proceacutes de cerca amb tesaurus teacute tres parts
bull Recollida de conceptes
bull Traduccioacute al llenguatge
CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Formulacioacute de la cerca
Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-
mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-
sauro de Biblioteconomiacutea y Documentacioacuten)
Recollidadeconceptes
El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar
tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es
formuli de manera exhaustiva a fi de recollir tots els conceptes interessants
per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus
Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus
Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc
Traduccioacutealllenguatge
Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los
al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-
sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada
El documentalista es pot trobar en dues situacions troba el concepte expressat
meacutes o menys de la manera que pensava o beacute no el troba
1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-
saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-
ca pels motius seguumlents
a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-
descriptor i el descriptor acceptat
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten
b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-
ceptada
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten
c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany
el descriptor
Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]
CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-
calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera
Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute
jeragraverquica i la permutada
2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que
lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En
posarem un exemple de cada
Exemple de termes paralmiddotlels
El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido
Exemple de termes genegraverics
Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica
Exemple de termes especiacutefics
Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus
TE Clasificaciones
TE Lenguajes de indizacioacuten
3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)
permeten localitzar altres descriptors que continguin la paraula clau que cer-
quem enqualsevolposicioacutedeldescriptor
Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar
Automatizacioacuten de archivos
Historia de los archivos
Sistemas nacionales de archivos
Formulacioacutedelacerca
Observacioacute
Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret
CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Finalment formularagrave la cerca distribuint els conceptes en els camps de la
base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes
drsquooperadors booleans si cal
15 Activitats
Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-
tica els tesaurus
151 Indexacioacute del contingut drsquoarticles
A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text
complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber
quin article i quin tesaurus heu drsquousar
152 Construccioacute manual i automagravetica de tesaurus
Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme
un programa de programari lliure amb les caracteriacutestiques seguumlents
bull Dues microdisciplines [Cadena documental] [Indexacioacute]
bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC
bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental
bull Es faciliten els descriptors ordenats per microdisciplines
A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre
predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en
aquesta taula
Taula resum de sigles en catalagrave castellagrave i anglegraves
Catalagrave Castellagrave Anglegraves
Domini(noeacutesobligatori) DOM DOM DOM
Notesdrsquoaclariment NANE (aclari-mentexplicativa)
NA SC (scope note)
Equivalegravencia Empreu EM USE USE
Empratper EP UP UF
Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)
Jerarquia Termegenegraveric TA TG BT (broad term)
Termeespeciacutefic TE TE NT (narrow term)
Relacioacuteassociativa TR TR RT
Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en
facetes Aquests descriptors ja estan controlats en la forma
La presentacioacute jeragraverquicacom a base dels tesaurus
La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades
CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Acceacutes directe al fons
bull Acceacutes lliure
bull Adquisicioacute
bull Anagravelisi de contingut
bull Anagravelisi documental
bull Anagravelisi formal
bull Bases de dades
bull Catagravelegs
bull Causes de degradacioacute externes
bull Causes de degradacioacute internes
bull Cercadors
bull Compra
bull Descripcioacute bibliogragravefica
bull Dipogravesit legal
bull Directoris
bull Donacioacute
bull Emmagatzematge i conservacioacute
bull Fase drsquoanagravelisi i tractament
bull Fase de sortida
bull Fase drsquoentrada
bull Formacioacute drsquousuaris
bull Guies butlletins
bull Indexacioacute
bull Instruments de cerca
bull Intercanvi
bull Inventaris
bull Ordenacioacute
bull Ordenacioacute altament significativa
bull Ordenacioacute amb significat limitat
bull Ordenacioacute no significativa
bull Poliacutetica de seleccioacute
bull Portals
bull Preparacioacute del material
bull Preacutestec
bull Processament tegravecnic
bull Recepcioacute
bull Registre
bull Reprografia
bull Resum
bull Resum automagravetic
bull Resum indicatiu
bull Resum informatiu
bull Resum selectiu
bull Seleccioacute
bull Serveis de difusioacute
bull Serveis de referegravencia
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Els textos i imatges publicats en aquesta obra estan subjectes ndashllevat que sindiqui el contrarindash a una llicegravencia de Reconeixement-NoComercial-SenseObraDerivada (BY-NC-ND) v30 Espanya de Creative Commons Podeu copiar-los distribuir-los i transmetrelspuacuteblicament sempre que en citeu lautor i la font (FUOC Fundacioacute per a la Universitat Oberta de Catalunya) no en feu un uacutescomercial i no en feu obra derivada La llicegravencia completa es pot consultar a httpcreativecommonsorglicensesby-nc-nd30eslegalcodeca
CC-BY-NC-ND bull PID_00193277 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Iacutendex
Introduccioacute 5
Objectius 6
1 Indexacioacute i recuperacioacute amb tesaurus 7
11 Tesaurus al Web 7
12 Com srsquoindexa amb un tesaurus 8
13 Creacioacute drsquoun tesaurus 12
14 Recuperacioacute amb tesaurus 13
141 Proceacutes de cerca amb un tesaurus 13
15 Activitats 16
151 Indexacioacute del contingut drsquoarticles 16
152 Construccioacute manual i automagravetica de tesaurus 16
153 Recuperacioacute amb tesaurus 19
16 Solucioacute 19
161 Indexacioacute drsquoarticles 19
162 Construccioacute manual i automagravetica de tesaurus 19
2 Indexacioacute amb llistes de descriptors lliures etiquetes i
indexacioacute social 24
21 Descriptors lliures al Web 24
22 Etiquetes i indexacioacute social 25
221 Etiquetes 25
222 Indexacioacute social 27
223 Folksonomia 29
23 La recuperacioacute amb descriptors lliures 32
24 Activitats drsquoindexacioacute amb descriptors lliures 33
3 Indexacioacute automagravetica 34
31 Com srsquoindexa automagraveticament 34
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament 39
321 Cercadors 39
322 Recuperacioacute en un web estructurat 40
323 Web semagraventic indexacioacute i recuperacioacute 41
Bibliografia 43
CC-BY-NC-ND bull PID_00193277 5 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Introduccioacute
Aquest mogravedul tracta dels tesaurus les llistes de descriptors lliures i les llistes
de paraules clau o indexacioacute automagravetica
Els tesaurus soacuten un llenguatge documental que ha sabut unir els avantatges de
tots els llenguatges anteriors eacutes una classificacioacute en la seva presentacioacute jeragraver-
quica eacutes una llista de relacions semagraventiques en la seva presentacioacute alfabegravetica
i es pot recuperar per paraules clau en els seus iacutendexs permutats
En el primer apartat srsquoexpliquen tres operacions amb aquest llenguatge com
srsquoindexa com es crea un tesaurus nou i com es recupera Lrsquoactivitat final con-
sisteix a crear un tesaurus en tres presentacions diferents
Lrsquoapartat sobre els descriptors lliures tracta especialment de la seva aplicacioacute
al Web on ha representat una revolucioacute el fet de convertir cada internauta en
autor editor i documentalista alhora
Aixiacute mateix tracta de les etiquetes o tags els seus inicis i tipus I tambeacute de
la indexacioacute social o tagging i dels factors que els han fet adients per al Web
de les motivacions de lrsquoindexador (egoista amiguista altruista o populista) i
del resultat final de tot plegat conegut com a folksonomia o classificacioacute feta
pel poble
La recuperacioacute amb aquest llenguatge planteja sospesar els avantatges que pro-
porciona una gran comunitat de persones indexant davant els desavantatges
de la manca de control del vocabulari
Finalment el darrer apartat tracta sobre la indexacioacute automagravetica explica com
funciona un programa drsquoaquest tipus i quines opcions srsquousen en lrsquoactualitat
decidir quina part del text srsquoindexa automagraveticament mantenir o eliminar sig-
nes de puntuacioacute i nombres quegrave srsquoha de fer amb les paraules buides (elimi-
nar-les des del comenccedilament contextualitzar-les mantenir-les per a fer opera-
cions meacutes endavant) aplicacioacute de megravetodes estadiacutestics linguumliacutestics o semagraventics
La recuperacioacute amb aquest llenguatge passa ineludiblement pels cercadors del
Web ja que eacutes la base dels seus robots Lrsquoapartat srsquoacaba amb els canvis que
srsquoespera que comportaragrave el Web semagraventic sobre aixograve ja que passarem a recu-
perar en un web estructurat
CC-BY-NC-ND bull PID_00193277 6 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Objectius
Els objectius que ha drsquoassolir lrsquoestudiant amb aquest mogravedul didagravectic soacuten els
seguumlents
1 Indexar amb tesaurus de manera especiacutefica
2 Construir un tesaurus a mida
3 Conegraveixer el proceacutes de recuperacioacute amb tesaurus i saber usar les referegravencies
semagraventiques del llenguatge
4 Identificar les llistes de descriptors lliures al Web marcadors socials webs
per a compartir imatges i viacutedeos etc
5 Aprendre quegrave soacuten les etiquetes la indexacioacute social i les folksonomies
6 Ser conscient dels avantatges i inconvenients en la recuperacioacute per etique-
tes
7 Aprendre quines opcions drsquoindexacioacute automagravetica hi ha en lrsquoactualitat i en
quines liacutenies de treball srsquoestagrave investigant
8 Conegraveixer el paper dels llenguatges documentals en la recuperacioacute amb cer-
cadors generals i en un web estructurat amb metadades i ontologies
9 Adquirir prou elements de judici i coneixement per poder estar al corrent
de les noves investigacions que vagin sorgint en lrsquoentorn dels llenguatges
documentals i del Web semagraventic
CC-BY-NC-ND bull PID_00193277 7 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1 Indexacioacute i recuperacioacute amb tesaurus
Indexar amb un tesaurus igual que amb tots els llenguatge documentals post-
coordinats eacutes molt senzill Soacuten llenguatges en quegrave no hi ha sintaxi per tant
la dificultat no estagrave en la composicioacute lrsquoordre i la sintaxi del terme drsquoindexacioacute
sinoacute en la seleccioacute dels descriptors
11 Tesaurus al Web
Hi ha un gran nombre de tesaurus en liacutenia i gratuiumlts a la Xarxa Trobem tesau-
rus drsquoagricultura astronomia biblioteconomia biologia art etc A continua-
cioacute nrsquooferim una seleccioacute classificada per temes
Llista de tesaurus en liacutenia
Temagravetica Nom del tesaurus
Agricultura AGROVOC
Astronomia The Astronomy Thesaurus
Biblioteconomia IEDCYT - Tesauro de Biblioteconomiacutea y DocumentacioacutenDOCUTES Universitat de Leoacuten
Biologia IEDCYT - Tesauro de Biologiacutea Animal
Ciegravencia IEDCYT - Tesauro SNIPES
Demografia Population Multilingual Thesaurus
Economia EUROVOC ThesaurusIEDCYT - Tesauro ISOC de Economiacutea
Educacioacute EUROVOC Thesaurus
Empresa EUROVOC ThesaurusIEDCYT - Tesauro de Propiedad Industrial
Geografia EUROVOC ThesaurusGetty Thesaurus of Geographic NamesIEDCYT - Tesauro de Topoacutenimos
Geologia IEDCYT - Tesauro de Geologiacutea
Histograveria IEDCYT - Tesauro de Historia Contemporaacutenea de EspantildeaHistograveria de Catalunya
Llenguailiteratura Traces Base de dades de llengua i literatura catalanes - Tesaurus
Matemagravetiques BUCM Tesamat Biblioteca Complutense
Propietatindustrial CSIC - Tesauro de Propiedad Industrial
Psicologia IEDYCT - Tesauro ISOC de Psicologiacutea
La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista
Tesaurus
Els tesaurus soacuten llenguatgesnaturals controlats postcoor-dinats jeragraverquics i alfabegravetics ique indexen per conceptes
CC-BY-NC-ND bull PID_00193277 8 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Temagravetica Nom del tesaurus
Sociologia EUROVOC ThesaurusIEDCYT - Tesauro de Sociologiacutea
Topogravenims CSIC - Tesauro de Topoacutenimos
Urbanisme IEDCYT - Tesauro de Urbanismo
Genegraverics UNESCOHistograveria de CatalunyaMicrotesaurus temagravetics de la UBSPINES del IEDCYTERIC
La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista
12 Com srsquoindexa amb un tesaurus
El proceacutes per a indexar amb tesaurus i per extensioacute amb qualsevol llenguat-
ge documental postcoordinat el trobem gragraveficament explicat en la norma
UNE-50-121-91 annex A pagraveg 7
CC-BY-NC-ND bull PID_00193277 9 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Descripcioacute del proceacutes drsquoindexacioacute amb llenguatges postcoordinats
CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-
duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica
i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta
ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que
li interessen poden ser en diverses microdisciplines i en diferents nivells de
sagnia
Exemple de descriptors en diferents microdisciplines
Document Indexacioacute
Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201
Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades
Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]
Exemple de descriptors en diferents nivells de sagnia
Document Indexacioacute
Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit
Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)
En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes
Noms propis i geogragravefics
Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)
CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de
cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el
terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-
toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora
En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i
admegraves en el tesaurus llista de candidats per Candidatures electorals
En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-
collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes
una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista
en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en
un camp que es diu Descriptors candidats
Reflexioacute
Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada
CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
13 Creacioacute drsquoun tesaurus
Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la
jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada
Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-
guumles i nou en els multilinguumles
1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus
2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines
3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives
4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)
5) Enriquiment del tesaurus per mitjagrave de relacions associatives
6) Elaboracioacute de lrsquoesborrany del tesaurus
7) Formacioacute dels indicadors
8) Test del tesaurus
9) Revisioacute final i primera edicioacute
Els descriptors de cada microdisciplina poden estar ordenats de tres maneres
diferents
bull Cronologravegicament
bull Alfabegraveticament
bull Segons el proceacutes
Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen
un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar
despreacutes primagraveria secundagraveria i superior
Reflexioacute
Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus
Lectures recomanades
Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)
CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tres tipus drsquoordenacions
Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la
conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores
com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en
quegrave veiem que Economia general precedeix la resta
bull [Histograveria econogravemica]
bull [Economia general]
bull [Economia agragraveria]
bull [Economia pesquera]
bull [Economia industrial]
bull [Comerccedil]
bull [Hoteleria i turisme]
bull [Finances]
bull [Economia de lrsquoempresa]
14 Recuperacioacute amb tesaurus
La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes
meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi
poden afegir tants descriptors com es consideri oportuacute
Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per
randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast
conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu
SID tant per noms geogragravefics com personals tiacutetols o entitats
141 Proceacutes de cerca amb un tesaurus
El proceacutes de cerca amb tesaurus teacute tres parts
bull Recollida de conceptes
bull Traduccioacute al llenguatge
CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Formulacioacute de la cerca
Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-
mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-
sauro de Biblioteconomiacutea y Documentacioacuten)
Recollidadeconceptes
El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar
tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es
formuli de manera exhaustiva a fi de recollir tots els conceptes interessants
per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus
Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus
Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc
Traduccioacutealllenguatge
Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los
al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-
sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada
El documentalista es pot trobar en dues situacions troba el concepte expressat
meacutes o menys de la manera que pensava o beacute no el troba
1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-
saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-
ca pels motius seguumlents
a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-
descriptor i el descriptor acceptat
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten
b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-
ceptada
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten
c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany
el descriptor
Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]
CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-
calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera
Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute
jeragraverquica i la permutada
2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que
lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En
posarem un exemple de cada
Exemple de termes paralmiddotlels
El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido
Exemple de termes genegraverics
Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica
Exemple de termes especiacutefics
Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus
TE Clasificaciones
TE Lenguajes de indizacioacuten
3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)
permeten localitzar altres descriptors que continguin la paraula clau que cer-
quem enqualsevolposicioacutedeldescriptor
Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar
Automatizacioacuten de archivos
Historia de los archivos
Sistemas nacionales de archivos
Formulacioacutedelacerca
Observacioacute
Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret
CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Finalment formularagrave la cerca distribuint els conceptes en els camps de la
base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes
drsquooperadors booleans si cal
15 Activitats
Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-
tica els tesaurus
151 Indexacioacute del contingut drsquoarticles
A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text
complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber
quin article i quin tesaurus heu drsquousar
152 Construccioacute manual i automagravetica de tesaurus
Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme
un programa de programari lliure amb les caracteriacutestiques seguumlents
bull Dues microdisciplines [Cadena documental] [Indexacioacute]
bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC
bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental
bull Es faciliten els descriptors ordenats per microdisciplines
A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre
predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en
aquesta taula
Taula resum de sigles en catalagrave castellagrave i anglegraves
Catalagrave Castellagrave Anglegraves
Domini(noeacutesobligatori) DOM DOM DOM
Notesdrsquoaclariment NANE (aclari-mentexplicativa)
NA SC (scope note)
Equivalegravencia Empreu EM USE USE
Empratper EP UP UF
Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)
Jerarquia Termegenegraveric TA TG BT (broad term)
Termeespeciacutefic TE TE NT (narrow term)
Relacioacuteassociativa TR TR RT
Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en
facetes Aquests descriptors ja estan controlats en la forma
La presentacioacute jeragraverquicacom a base dels tesaurus
La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades
CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Acceacutes directe al fons
bull Acceacutes lliure
bull Adquisicioacute
bull Anagravelisi de contingut
bull Anagravelisi documental
bull Anagravelisi formal
bull Bases de dades
bull Catagravelegs
bull Causes de degradacioacute externes
bull Causes de degradacioacute internes
bull Cercadors
bull Compra
bull Descripcioacute bibliogragravefica
bull Dipogravesit legal
bull Directoris
bull Donacioacute
bull Emmagatzematge i conservacioacute
bull Fase drsquoanagravelisi i tractament
bull Fase de sortida
bull Fase drsquoentrada
bull Formacioacute drsquousuaris
bull Guies butlletins
bull Indexacioacute
bull Instruments de cerca
bull Intercanvi
bull Inventaris
bull Ordenacioacute
bull Ordenacioacute altament significativa
bull Ordenacioacute amb significat limitat
bull Ordenacioacute no significativa
bull Poliacutetica de seleccioacute
bull Portals
bull Preparacioacute del material
bull Preacutestec
bull Processament tegravecnic
bull Recepcioacute
bull Registre
bull Reprografia
bull Resum
bull Resum automagravetic
bull Resum indicatiu
bull Resum informatiu
bull Resum selectiu
bull Seleccioacute
bull Serveis de difusioacute
bull Serveis de referegravencia
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Iacutendex
Introduccioacute 5
Objectius 6
1 Indexacioacute i recuperacioacute amb tesaurus 7
11 Tesaurus al Web 7
12 Com srsquoindexa amb un tesaurus 8
13 Creacioacute drsquoun tesaurus 12
14 Recuperacioacute amb tesaurus 13
141 Proceacutes de cerca amb un tesaurus 13
15 Activitats 16
151 Indexacioacute del contingut drsquoarticles 16
152 Construccioacute manual i automagravetica de tesaurus 16
153 Recuperacioacute amb tesaurus 19
16 Solucioacute 19
161 Indexacioacute drsquoarticles 19
162 Construccioacute manual i automagravetica de tesaurus 19
2 Indexacioacute amb llistes de descriptors lliures etiquetes i
indexacioacute social 24
21 Descriptors lliures al Web 24
22 Etiquetes i indexacioacute social 25
221 Etiquetes 25
222 Indexacioacute social 27
223 Folksonomia 29
23 La recuperacioacute amb descriptors lliures 32
24 Activitats drsquoindexacioacute amb descriptors lliures 33
3 Indexacioacute automagravetica 34
31 Com srsquoindexa automagraveticament 34
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament 39
321 Cercadors 39
322 Recuperacioacute en un web estructurat 40
323 Web semagraventic indexacioacute i recuperacioacute 41
Bibliografia 43
CC-BY-NC-ND bull PID_00193277 5 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Introduccioacute
Aquest mogravedul tracta dels tesaurus les llistes de descriptors lliures i les llistes
de paraules clau o indexacioacute automagravetica
Els tesaurus soacuten un llenguatge documental que ha sabut unir els avantatges de
tots els llenguatges anteriors eacutes una classificacioacute en la seva presentacioacute jeragraver-
quica eacutes una llista de relacions semagraventiques en la seva presentacioacute alfabegravetica
i es pot recuperar per paraules clau en els seus iacutendexs permutats
En el primer apartat srsquoexpliquen tres operacions amb aquest llenguatge com
srsquoindexa com es crea un tesaurus nou i com es recupera Lrsquoactivitat final con-
sisteix a crear un tesaurus en tres presentacions diferents
Lrsquoapartat sobre els descriptors lliures tracta especialment de la seva aplicacioacute
al Web on ha representat una revolucioacute el fet de convertir cada internauta en
autor editor i documentalista alhora
Aixiacute mateix tracta de les etiquetes o tags els seus inicis i tipus I tambeacute de
la indexacioacute social o tagging i dels factors que els han fet adients per al Web
de les motivacions de lrsquoindexador (egoista amiguista altruista o populista) i
del resultat final de tot plegat conegut com a folksonomia o classificacioacute feta
pel poble
La recuperacioacute amb aquest llenguatge planteja sospesar els avantatges que pro-
porciona una gran comunitat de persones indexant davant els desavantatges
de la manca de control del vocabulari
Finalment el darrer apartat tracta sobre la indexacioacute automagravetica explica com
funciona un programa drsquoaquest tipus i quines opcions srsquousen en lrsquoactualitat
decidir quina part del text srsquoindexa automagraveticament mantenir o eliminar sig-
nes de puntuacioacute i nombres quegrave srsquoha de fer amb les paraules buides (elimi-
nar-les des del comenccedilament contextualitzar-les mantenir-les per a fer opera-
cions meacutes endavant) aplicacioacute de megravetodes estadiacutestics linguumliacutestics o semagraventics
La recuperacioacute amb aquest llenguatge passa ineludiblement pels cercadors del
Web ja que eacutes la base dels seus robots Lrsquoapartat srsquoacaba amb els canvis que
srsquoespera que comportaragrave el Web semagraventic sobre aixograve ja que passarem a recu-
perar en un web estructurat
CC-BY-NC-ND bull PID_00193277 6 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Objectius
Els objectius que ha drsquoassolir lrsquoestudiant amb aquest mogravedul didagravectic soacuten els
seguumlents
1 Indexar amb tesaurus de manera especiacutefica
2 Construir un tesaurus a mida
3 Conegraveixer el proceacutes de recuperacioacute amb tesaurus i saber usar les referegravencies
semagraventiques del llenguatge
4 Identificar les llistes de descriptors lliures al Web marcadors socials webs
per a compartir imatges i viacutedeos etc
5 Aprendre quegrave soacuten les etiquetes la indexacioacute social i les folksonomies
6 Ser conscient dels avantatges i inconvenients en la recuperacioacute per etique-
tes
7 Aprendre quines opcions drsquoindexacioacute automagravetica hi ha en lrsquoactualitat i en
quines liacutenies de treball srsquoestagrave investigant
8 Conegraveixer el paper dels llenguatges documentals en la recuperacioacute amb cer-
cadors generals i en un web estructurat amb metadades i ontologies
9 Adquirir prou elements de judici i coneixement per poder estar al corrent
de les noves investigacions que vagin sorgint en lrsquoentorn dels llenguatges
documentals i del Web semagraventic
CC-BY-NC-ND bull PID_00193277 7 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1 Indexacioacute i recuperacioacute amb tesaurus
Indexar amb un tesaurus igual que amb tots els llenguatge documentals post-
coordinats eacutes molt senzill Soacuten llenguatges en quegrave no hi ha sintaxi per tant
la dificultat no estagrave en la composicioacute lrsquoordre i la sintaxi del terme drsquoindexacioacute
sinoacute en la seleccioacute dels descriptors
11 Tesaurus al Web
Hi ha un gran nombre de tesaurus en liacutenia i gratuiumlts a la Xarxa Trobem tesau-
rus drsquoagricultura astronomia biblioteconomia biologia art etc A continua-
cioacute nrsquooferim una seleccioacute classificada per temes
Llista de tesaurus en liacutenia
Temagravetica Nom del tesaurus
Agricultura AGROVOC
Astronomia The Astronomy Thesaurus
Biblioteconomia IEDCYT - Tesauro de Biblioteconomiacutea y DocumentacioacutenDOCUTES Universitat de Leoacuten
Biologia IEDCYT - Tesauro de Biologiacutea Animal
Ciegravencia IEDCYT - Tesauro SNIPES
Demografia Population Multilingual Thesaurus
Economia EUROVOC ThesaurusIEDCYT - Tesauro ISOC de Economiacutea
Educacioacute EUROVOC Thesaurus
Empresa EUROVOC ThesaurusIEDCYT - Tesauro de Propiedad Industrial
Geografia EUROVOC ThesaurusGetty Thesaurus of Geographic NamesIEDCYT - Tesauro de Topoacutenimos
Geologia IEDCYT - Tesauro de Geologiacutea
Histograveria IEDCYT - Tesauro de Historia Contemporaacutenea de EspantildeaHistograveria de Catalunya
Llenguailiteratura Traces Base de dades de llengua i literatura catalanes - Tesaurus
Matemagravetiques BUCM Tesamat Biblioteca Complutense
Propietatindustrial CSIC - Tesauro de Propiedad Industrial
Psicologia IEDYCT - Tesauro ISOC de Psicologiacutea
La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista
Tesaurus
Els tesaurus soacuten llenguatgesnaturals controlats postcoor-dinats jeragraverquics i alfabegravetics ique indexen per conceptes
CC-BY-NC-ND bull PID_00193277 8 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Temagravetica Nom del tesaurus
Sociologia EUROVOC ThesaurusIEDCYT - Tesauro de Sociologiacutea
Topogravenims CSIC - Tesauro de Topoacutenimos
Urbanisme IEDCYT - Tesauro de Urbanismo
Genegraverics UNESCOHistograveria de CatalunyaMicrotesaurus temagravetics de la UBSPINES del IEDCYTERIC
La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista
12 Com srsquoindexa amb un tesaurus
El proceacutes per a indexar amb tesaurus i per extensioacute amb qualsevol llenguat-
ge documental postcoordinat el trobem gragraveficament explicat en la norma
UNE-50-121-91 annex A pagraveg 7
CC-BY-NC-ND bull PID_00193277 9 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Descripcioacute del proceacutes drsquoindexacioacute amb llenguatges postcoordinats
CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-
duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica
i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta
ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que
li interessen poden ser en diverses microdisciplines i en diferents nivells de
sagnia
Exemple de descriptors en diferents microdisciplines
Document Indexacioacute
Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201
Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades
Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]
Exemple de descriptors en diferents nivells de sagnia
Document Indexacioacute
Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit
Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)
En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes
Noms propis i geogragravefics
Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)
CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de
cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el
terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-
toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora
En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i
admegraves en el tesaurus llista de candidats per Candidatures electorals
En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-
collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes
una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista
en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en
un camp que es diu Descriptors candidats
Reflexioacute
Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada
CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
13 Creacioacute drsquoun tesaurus
Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la
jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada
Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-
guumles i nou en els multilinguumles
1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus
2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines
3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives
4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)
5) Enriquiment del tesaurus per mitjagrave de relacions associatives
6) Elaboracioacute de lrsquoesborrany del tesaurus
7) Formacioacute dels indicadors
8) Test del tesaurus
9) Revisioacute final i primera edicioacute
Els descriptors de cada microdisciplina poden estar ordenats de tres maneres
diferents
bull Cronologravegicament
bull Alfabegraveticament
bull Segons el proceacutes
Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen
un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar
despreacutes primagraveria secundagraveria i superior
Reflexioacute
Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus
Lectures recomanades
Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)
CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tres tipus drsquoordenacions
Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la
conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores
com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en
quegrave veiem que Economia general precedeix la resta
bull [Histograveria econogravemica]
bull [Economia general]
bull [Economia agragraveria]
bull [Economia pesquera]
bull [Economia industrial]
bull [Comerccedil]
bull [Hoteleria i turisme]
bull [Finances]
bull [Economia de lrsquoempresa]
14 Recuperacioacute amb tesaurus
La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes
meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi
poden afegir tants descriptors com es consideri oportuacute
Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per
randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast
conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu
SID tant per noms geogragravefics com personals tiacutetols o entitats
141 Proceacutes de cerca amb un tesaurus
El proceacutes de cerca amb tesaurus teacute tres parts
bull Recollida de conceptes
bull Traduccioacute al llenguatge
CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Formulacioacute de la cerca
Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-
mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-
sauro de Biblioteconomiacutea y Documentacioacuten)
Recollidadeconceptes
El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar
tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es
formuli de manera exhaustiva a fi de recollir tots els conceptes interessants
per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus
Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus
Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc
Traduccioacutealllenguatge
Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los
al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-
sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada
El documentalista es pot trobar en dues situacions troba el concepte expressat
meacutes o menys de la manera que pensava o beacute no el troba
1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-
saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-
ca pels motius seguumlents
a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-
descriptor i el descriptor acceptat
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten
b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-
ceptada
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten
c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany
el descriptor
Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]
CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-
calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera
Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute
jeragraverquica i la permutada
2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que
lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En
posarem un exemple de cada
Exemple de termes paralmiddotlels
El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido
Exemple de termes genegraverics
Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica
Exemple de termes especiacutefics
Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus
TE Clasificaciones
TE Lenguajes de indizacioacuten
3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)
permeten localitzar altres descriptors que continguin la paraula clau que cer-
quem enqualsevolposicioacutedeldescriptor
Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar
Automatizacioacuten de archivos
Historia de los archivos
Sistemas nacionales de archivos
Formulacioacutedelacerca
Observacioacute
Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret
CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Finalment formularagrave la cerca distribuint els conceptes en els camps de la
base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes
drsquooperadors booleans si cal
15 Activitats
Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-
tica els tesaurus
151 Indexacioacute del contingut drsquoarticles
A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text
complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber
quin article i quin tesaurus heu drsquousar
152 Construccioacute manual i automagravetica de tesaurus
Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme
un programa de programari lliure amb les caracteriacutestiques seguumlents
bull Dues microdisciplines [Cadena documental] [Indexacioacute]
bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC
bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental
bull Es faciliten els descriptors ordenats per microdisciplines
A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre
predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en
aquesta taula
Taula resum de sigles en catalagrave castellagrave i anglegraves
Catalagrave Castellagrave Anglegraves
Domini(noeacutesobligatori) DOM DOM DOM
Notesdrsquoaclariment NANE (aclari-mentexplicativa)
NA SC (scope note)
Equivalegravencia Empreu EM USE USE
Empratper EP UP UF
Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)
Jerarquia Termegenegraveric TA TG BT (broad term)
Termeespeciacutefic TE TE NT (narrow term)
Relacioacuteassociativa TR TR RT
Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en
facetes Aquests descriptors ja estan controlats en la forma
La presentacioacute jeragraverquicacom a base dels tesaurus
La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades
CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Acceacutes directe al fons
bull Acceacutes lliure
bull Adquisicioacute
bull Anagravelisi de contingut
bull Anagravelisi documental
bull Anagravelisi formal
bull Bases de dades
bull Catagravelegs
bull Causes de degradacioacute externes
bull Causes de degradacioacute internes
bull Cercadors
bull Compra
bull Descripcioacute bibliogragravefica
bull Dipogravesit legal
bull Directoris
bull Donacioacute
bull Emmagatzematge i conservacioacute
bull Fase drsquoanagravelisi i tractament
bull Fase de sortida
bull Fase drsquoentrada
bull Formacioacute drsquousuaris
bull Guies butlletins
bull Indexacioacute
bull Instruments de cerca
bull Intercanvi
bull Inventaris
bull Ordenacioacute
bull Ordenacioacute altament significativa
bull Ordenacioacute amb significat limitat
bull Ordenacioacute no significativa
bull Poliacutetica de seleccioacute
bull Portals
bull Preparacioacute del material
bull Preacutestec
bull Processament tegravecnic
bull Recepcioacute
bull Registre
bull Reprografia
bull Resum
bull Resum automagravetic
bull Resum indicatiu
bull Resum informatiu
bull Resum selectiu
bull Seleccioacute
bull Serveis de difusioacute
bull Serveis de referegravencia
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 5 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Introduccioacute
Aquest mogravedul tracta dels tesaurus les llistes de descriptors lliures i les llistes
de paraules clau o indexacioacute automagravetica
Els tesaurus soacuten un llenguatge documental que ha sabut unir els avantatges de
tots els llenguatges anteriors eacutes una classificacioacute en la seva presentacioacute jeragraver-
quica eacutes una llista de relacions semagraventiques en la seva presentacioacute alfabegravetica
i es pot recuperar per paraules clau en els seus iacutendexs permutats
En el primer apartat srsquoexpliquen tres operacions amb aquest llenguatge com
srsquoindexa com es crea un tesaurus nou i com es recupera Lrsquoactivitat final con-
sisteix a crear un tesaurus en tres presentacions diferents
Lrsquoapartat sobre els descriptors lliures tracta especialment de la seva aplicacioacute
al Web on ha representat una revolucioacute el fet de convertir cada internauta en
autor editor i documentalista alhora
Aixiacute mateix tracta de les etiquetes o tags els seus inicis i tipus I tambeacute de
la indexacioacute social o tagging i dels factors que els han fet adients per al Web
de les motivacions de lrsquoindexador (egoista amiguista altruista o populista) i
del resultat final de tot plegat conegut com a folksonomia o classificacioacute feta
pel poble
La recuperacioacute amb aquest llenguatge planteja sospesar els avantatges que pro-
porciona una gran comunitat de persones indexant davant els desavantatges
de la manca de control del vocabulari
Finalment el darrer apartat tracta sobre la indexacioacute automagravetica explica com
funciona un programa drsquoaquest tipus i quines opcions srsquousen en lrsquoactualitat
decidir quina part del text srsquoindexa automagraveticament mantenir o eliminar sig-
nes de puntuacioacute i nombres quegrave srsquoha de fer amb les paraules buides (elimi-
nar-les des del comenccedilament contextualitzar-les mantenir-les per a fer opera-
cions meacutes endavant) aplicacioacute de megravetodes estadiacutestics linguumliacutestics o semagraventics
La recuperacioacute amb aquest llenguatge passa ineludiblement pels cercadors del
Web ja que eacutes la base dels seus robots Lrsquoapartat srsquoacaba amb els canvis que
srsquoespera que comportaragrave el Web semagraventic sobre aixograve ja que passarem a recu-
perar en un web estructurat
CC-BY-NC-ND bull PID_00193277 6 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Objectius
Els objectius que ha drsquoassolir lrsquoestudiant amb aquest mogravedul didagravectic soacuten els
seguumlents
1 Indexar amb tesaurus de manera especiacutefica
2 Construir un tesaurus a mida
3 Conegraveixer el proceacutes de recuperacioacute amb tesaurus i saber usar les referegravencies
semagraventiques del llenguatge
4 Identificar les llistes de descriptors lliures al Web marcadors socials webs
per a compartir imatges i viacutedeos etc
5 Aprendre quegrave soacuten les etiquetes la indexacioacute social i les folksonomies
6 Ser conscient dels avantatges i inconvenients en la recuperacioacute per etique-
tes
7 Aprendre quines opcions drsquoindexacioacute automagravetica hi ha en lrsquoactualitat i en
quines liacutenies de treball srsquoestagrave investigant
8 Conegraveixer el paper dels llenguatges documentals en la recuperacioacute amb cer-
cadors generals i en un web estructurat amb metadades i ontologies
9 Adquirir prou elements de judici i coneixement per poder estar al corrent
de les noves investigacions que vagin sorgint en lrsquoentorn dels llenguatges
documentals i del Web semagraventic
CC-BY-NC-ND bull PID_00193277 7 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1 Indexacioacute i recuperacioacute amb tesaurus
Indexar amb un tesaurus igual que amb tots els llenguatge documentals post-
coordinats eacutes molt senzill Soacuten llenguatges en quegrave no hi ha sintaxi per tant
la dificultat no estagrave en la composicioacute lrsquoordre i la sintaxi del terme drsquoindexacioacute
sinoacute en la seleccioacute dels descriptors
11 Tesaurus al Web
Hi ha un gran nombre de tesaurus en liacutenia i gratuiumlts a la Xarxa Trobem tesau-
rus drsquoagricultura astronomia biblioteconomia biologia art etc A continua-
cioacute nrsquooferim una seleccioacute classificada per temes
Llista de tesaurus en liacutenia
Temagravetica Nom del tesaurus
Agricultura AGROVOC
Astronomia The Astronomy Thesaurus
Biblioteconomia IEDCYT - Tesauro de Biblioteconomiacutea y DocumentacioacutenDOCUTES Universitat de Leoacuten
Biologia IEDCYT - Tesauro de Biologiacutea Animal
Ciegravencia IEDCYT - Tesauro SNIPES
Demografia Population Multilingual Thesaurus
Economia EUROVOC ThesaurusIEDCYT - Tesauro ISOC de Economiacutea
Educacioacute EUROVOC Thesaurus
Empresa EUROVOC ThesaurusIEDCYT - Tesauro de Propiedad Industrial
Geografia EUROVOC ThesaurusGetty Thesaurus of Geographic NamesIEDCYT - Tesauro de Topoacutenimos
Geologia IEDCYT - Tesauro de Geologiacutea
Histograveria IEDCYT - Tesauro de Historia Contemporaacutenea de EspantildeaHistograveria de Catalunya
Llenguailiteratura Traces Base de dades de llengua i literatura catalanes - Tesaurus
Matemagravetiques BUCM Tesamat Biblioteca Complutense
Propietatindustrial CSIC - Tesauro de Propiedad Industrial
Psicologia IEDYCT - Tesauro ISOC de Psicologiacutea
La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista
Tesaurus
Els tesaurus soacuten llenguatgesnaturals controlats postcoor-dinats jeragraverquics i alfabegravetics ique indexen per conceptes
CC-BY-NC-ND bull PID_00193277 8 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Temagravetica Nom del tesaurus
Sociologia EUROVOC ThesaurusIEDCYT - Tesauro de Sociologiacutea
Topogravenims CSIC - Tesauro de Topoacutenimos
Urbanisme IEDCYT - Tesauro de Urbanismo
Genegraverics UNESCOHistograveria de CatalunyaMicrotesaurus temagravetics de la UBSPINES del IEDCYTERIC
La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista
12 Com srsquoindexa amb un tesaurus
El proceacutes per a indexar amb tesaurus i per extensioacute amb qualsevol llenguat-
ge documental postcoordinat el trobem gragraveficament explicat en la norma
UNE-50-121-91 annex A pagraveg 7
CC-BY-NC-ND bull PID_00193277 9 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Descripcioacute del proceacutes drsquoindexacioacute amb llenguatges postcoordinats
CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-
duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica
i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta
ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que
li interessen poden ser en diverses microdisciplines i en diferents nivells de
sagnia
Exemple de descriptors en diferents microdisciplines
Document Indexacioacute
Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201
Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades
Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]
Exemple de descriptors en diferents nivells de sagnia
Document Indexacioacute
Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit
Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)
En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes
Noms propis i geogragravefics
Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)
CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de
cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el
terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-
toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora
En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i
admegraves en el tesaurus llista de candidats per Candidatures electorals
En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-
collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes
una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista
en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en
un camp que es diu Descriptors candidats
Reflexioacute
Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada
CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
13 Creacioacute drsquoun tesaurus
Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la
jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada
Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-
guumles i nou en els multilinguumles
1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus
2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines
3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives
4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)
5) Enriquiment del tesaurus per mitjagrave de relacions associatives
6) Elaboracioacute de lrsquoesborrany del tesaurus
7) Formacioacute dels indicadors
8) Test del tesaurus
9) Revisioacute final i primera edicioacute
Els descriptors de cada microdisciplina poden estar ordenats de tres maneres
diferents
bull Cronologravegicament
bull Alfabegraveticament
bull Segons el proceacutes
Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen
un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar
despreacutes primagraveria secundagraveria i superior
Reflexioacute
Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus
Lectures recomanades
Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)
CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tres tipus drsquoordenacions
Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la
conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores
com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en
quegrave veiem que Economia general precedeix la resta
bull [Histograveria econogravemica]
bull [Economia general]
bull [Economia agragraveria]
bull [Economia pesquera]
bull [Economia industrial]
bull [Comerccedil]
bull [Hoteleria i turisme]
bull [Finances]
bull [Economia de lrsquoempresa]
14 Recuperacioacute amb tesaurus
La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes
meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi
poden afegir tants descriptors com es consideri oportuacute
Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per
randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast
conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu
SID tant per noms geogragravefics com personals tiacutetols o entitats
141 Proceacutes de cerca amb un tesaurus
El proceacutes de cerca amb tesaurus teacute tres parts
bull Recollida de conceptes
bull Traduccioacute al llenguatge
CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Formulacioacute de la cerca
Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-
mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-
sauro de Biblioteconomiacutea y Documentacioacuten)
Recollidadeconceptes
El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar
tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es
formuli de manera exhaustiva a fi de recollir tots els conceptes interessants
per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus
Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus
Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc
Traduccioacutealllenguatge
Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los
al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-
sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada
El documentalista es pot trobar en dues situacions troba el concepte expressat
meacutes o menys de la manera que pensava o beacute no el troba
1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-
saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-
ca pels motius seguumlents
a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-
descriptor i el descriptor acceptat
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten
b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-
ceptada
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten
c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany
el descriptor
Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]
CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-
calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera
Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute
jeragraverquica i la permutada
2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que
lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En
posarem un exemple de cada
Exemple de termes paralmiddotlels
El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido
Exemple de termes genegraverics
Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica
Exemple de termes especiacutefics
Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus
TE Clasificaciones
TE Lenguajes de indizacioacuten
3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)
permeten localitzar altres descriptors que continguin la paraula clau que cer-
quem enqualsevolposicioacutedeldescriptor
Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar
Automatizacioacuten de archivos
Historia de los archivos
Sistemas nacionales de archivos
Formulacioacutedelacerca
Observacioacute
Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret
CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Finalment formularagrave la cerca distribuint els conceptes en els camps de la
base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes
drsquooperadors booleans si cal
15 Activitats
Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-
tica els tesaurus
151 Indexacioacute del contingut drsquoarticles
A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text
complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber
quin article i quin tesaurus heu drsquousar
152 Construccioacute manual i automagravetica de tesaurus
Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme
un programa de programari lliure amb les caracteriacutestiques seguumlents
bull Dues microdisciplines [Cadena documental] [Indexacioacute]
bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC
bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental
bull Es faciliten els descriptors ordenats per microdisciplines
A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre
predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en
aquesta taula
Taula resum de sigles en catalagrave castellagrave i anglegraves
Catalagrave Castellagrave Anglegraves
Domini(noeacutesobligatori) DOM DOM DOM
Notesdrsquoaclariment NANE (aclari-mentexplicativa)
NA SC (scope note)
Equivalegravencia Empreu EM USE USE
Empratper EP UP UF
Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)
Jerarquia Termegenegraveric TA TG BT (broad term)
Termeespeciacutefic TE TE NT (narrow term)
Relacioacuteassociativa TR TR RT
Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en
facetes Aquests descriptors ja estan controlats en la forma
La presentacioacute jeragraverquicacom a base dels tesaurus
La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades
CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Acceacutes directe al fons
bull Acceacutes lliure
bull Adquisicioacute
bull Anagravelisi de contingut
bull Anagravelisi documental
bull Anagravelisi formal
bull Bases de dades
bull Catagravelegs
bull Causes de degradacioacute externes
bull Causes de degradacioacute internes
bull Cercadors
bull Compra
bull Descripcioacute bibliogragravefica
bull Dipogravesit legal
bull Directoris
bull Donacioacute
bull Emmagatzematge i conservacioacute
bull Fase drsquoanagravelisi i tractament
bull Fase de sortida
bull Fase drsquoentrada
bull Formacioacute drsquousuaris
bull Guies butlletins
bull Indexacioacute
bull Instruments de cerca
bull Intercanvi
bull Inventaris
bull Ordenacioacute
bull Ordenacioacute altament significativa
bull Ordenacioacute amb significat limitat
bull Ordenacioacute no significativa
bull Poliacutetica de seleccioacute
bull Portals
bull Preparacioacute del material
bull Preacutestec
bull Processament tegravecnic
bull Recepcioacute
bull Registre
bull Reprografia
bull Resum
bull Resum automagravetic
bull Resum indicatiu
bull Resum informatiu
bull Resum selectiu
bull Seleccioacute
bull Serveis de difusioacute
bull Serveis de referegravencia
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 6 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Objectius
Els objectius que ha drsquoassolir lrsquoestudiant amb aquest mogravedul didagravectic soacuten els
seguumlents
1 Indexar amb tesaurus de manera especiacutefica
2 Construir un tesaurus a mida
3 Conegraveixer el proceacutes de recuperacioacute amb tesaurus i saber usar les referegravencies
semagraventiques del llenguatge
4 Identificar les llistes de descriptors lliures al Web marcadors socials webs
per a compartir imatges i viacutedeos etc
5 Aprendre quegrave soacuten les etiquetes la indexacioacute social i les folksonomies
6 Ser conscient dels avantatges i inconvenients en la recuperacioacute per etique-
tes
7 Aprendre quines opcions drsquoindexacioacute automagravetica hi ha en lrsquoactualitat i en
quines liacutenies de treball srsquoestagrave investigant
8 Conegraveixer el paper dels llenguatges documentals en la recuperacioacute amb cer-
cadors generals i en un web estructurat amb metadades i ontologies
9 Adquirir prou elements de judici i coneixement per poder estar al corrent
de les noves investigacions que vagin sorgint en lrsquoentorn dels llenguatges
documentals i del Web semagraventic
CC-BY-NC-ND bull PID_00193277 7 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1 Indexacioacute i recuperacioacute amb tesaurus
Indexar amb un tesaurus igual que amb tots els llenguatge documentals post-
coordinats eacutes molt senzill Soacuten llenguatges en quegrave no hi ha sintaxi per tant
la dificultat no estagrave en la composicioacute lrsquoordre i la sintaxi del terme drsquoindexacioacute
sinoacute en la seleccioacute dels descriptors
11 Tesaurus al Web
Hi ha un gran nombre de tesaurus en liacutenia i gratuiumlts a la Xarxa Trobem tesau-
rus drsquoagricultura astronomia biblioteconomia biologia art etc A continua-
cioacute nrsquooferim una seleccioacute classificada per temes
Llista de tesaurus en liacutenia
Temagravetica Nom del tesaurus
Agricultura AGROVOC
Astronomia The Astronomy Thesaurus
Biblioteconomia IEDCYT - Tesauro de Biblioteconomiacutea y DocumentacioacutenDOCUTES Universitat de Leoacuten
Biologia IEDCYT - Tesauro de Biologiacutea Animal
Ciegravencia IEDCYT - Tesauro SNIPES
Demografia Population Multilingual Thesaurus
Economia EUROVOC ThesaurusIEDCYT - Tesauro ISOC de Economiacutea
Educacioacute EUROVOC Thesaurus
Empresa EUROVOC ThesaurusIEDCYT - Tesauro de Propiedad Industrial
Geografia EUROVOC ThesaurusGetty Thesaurus of Geographic NamesIEDCYT - Tesauro de Topoacutenimos
Geologia IEDCYT - Tesauro de Geologiacutea
Histograveria IEDCYT - Tesauro de Historia Contemporaacutenea de EspantildeaHistograveria de Catalunya
Llenguailiteratura Traces Base de dades de llengua i literatura catalanes - Tesaurus
Matemagravetiques BUCM Tesamat Biblioteca Complutense
Propietatindustrial CSIC - Tesauro de Propiedad Industrial
Psicologia IEDYCT - Tesauro ISOC de Psicologiacutea
La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista
Tesaurus
Els tesaurus soacuten llenguatgesnaturals controlats postcoor-dinats jeragraverquics i alfabegravetics ique indexen per conceptes
CC-BY-NC-ND bull PID_00193277 8 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Temagravetica Nom del tesaurus
Sociologia EUROVOC ThesaurusIEDCYT - Tesauro de Sociologiacutea
Topogravenims CSIC - Tesauro de Topoacutenimos
Urbanisme IEDCYT - Tesauro de Urbanismo
Genegraverics UNESCOHistograveria de CatalunyaMicrotesaurus temagravetics de la UBSPINES del IEDCYTERIC
La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista
12 Com srsquoindexa amb un tesaurus
El proceacutes per a indexar amb tesaurus i per extensioacute amb qualsevol llenguat-
ge documental postcoordinat el trobem gragraveficament explicat en la norma
UNE-50-121-91 annex A pagraveg 7
CC-BY-NC-ND bull PID_00193277 9 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Descripcioacute del proceacutes drsquoindexacioacute amb llenguatges postcoordinats
CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-
duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica
i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta
ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que
li interessen poden ser en diverses microdisciplines i en diferents nivells de
sagnia
Exemple de descriptors en diferents microdisciplines
Document Indexacioacute
Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201
Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades
Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]
Exemple de descriptors en diferents nivells de sagnia
Document Indexacioacute
Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit
Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)
En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes
Noms propis i geogragravefics
Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)
CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de
cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el
terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-
toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora
En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i
admegraves en el tesaurus llista de candidats per Candidatures electorals
En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-
collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes
una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista
en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en
un camp que es diu Descriptors candidats
Reflexioacute
Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada
CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
13 Creacioacute drsquoun tesaurus
Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la
jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada
Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-
guumles i nou en els multilinguumles
1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus
2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines
3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives
4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)
5) Enriquiment del tesaurus per mitjagrave de relacions associatives
6) Elaboracioacute de lrsquoesborrany del tesaurus
7) Formacioacute dels indicadors
8) Test del tesaurus
9) Revisioacute final i primera edicioacute
Els descriptors de cada microdisciplina poden estar ordenats de tres maneres
diferents
bull Cronologravegicament
bull Alfabegraveticament
bull Segons el proceacutes
Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen
un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar
despreacutes primagraveria secundagraveria i superior
Reflexioacute
Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus
Lectures recomanades
Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)
CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tres tipus drsquoordenacions
Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la
conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores
com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en
quegrave veiem que Economia general precedeix la resta
bull [Histograveria econogravemica]
bull [Economia general]
bull [Economia agragraveria]
bull [Economia pesquera]
bull [Economia industrial]
bull [Comerccedil]
bull [Hoteleria i turisme]
bull [Finances]
bull [Economia de lrsquoempresa]
14 Recuperacioacute amb tesaurus
La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes
meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi
poden afegir tants descriptors com es consideri oportuacute
Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per
randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast
conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu
SID tant per noms geogragravefics com personals tiacutetols o entitats
141 Proceacutes de cerca amb un tesaurus
El proceacutes de cerca amb tesaurus teacute tres parts
bull Recollida de conceptes
bull Traduccioacute al llenguatge
CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Formulacioacute de la cerca
Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-
mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-
sauro de Biblioteconomiacutea y Documentacioacuten)
Recollidadeconceptes
El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar
tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es
formuli de manera exhaustiva a fi de recollir tots els conceptes interessants
per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus
Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus
Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc
Traduccioacutealllenguatge
Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los
al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-
sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada
El documentalista es pot trobar en dues situacions troba el concepte expressat
meacutes o menys de la manera que pensava o beacute no el troba
1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-
saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-
ca pels motius seguumlents
a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-
descriptor i el descriptor acceptat
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten
b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-
ceptada
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten
c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany
el descriptor
Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]
CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-
calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera
Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute
jeragraverquica i la permutada
2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que
lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En
posarem un exemple de cada
Exemple de termes paralmiddotlels
El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido
Exemple de termes genegraverics
Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica
Exemple de termes especiacutefics
Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus
TE Clasificaciones
TE Lenguajes de indizacioacuten
3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)
permeten localitzar altres descriptors que continguin la paraula clau que cer-
quem enqualsevolposicioacutedeldescriptor
Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar
Automatizacioacuten de archivos
Historia de los archivos
Sistemas nacionales de archivos
Formulacioacutedelacerca
Observacioacute
Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret
CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Finalment formularagrave la cerca distribuint els conceptes en els camps de la
base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes
drsquooperadors booleans si cal
15 Activitats
Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-
tica els tesaurus
151 Indexacioacute del contingut drsquoarticles
A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text
complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber
quin article i quin tesaurus heu drsquousar
152 Construccioacute manual i automagravetica de tesaurus
Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme
un programa de programari lliure amb les caracteriacutestiques seguumlents
bull Dues microdisciplines [Cadena documental] [Indexacioacute]
bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC
bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental
bull Es faciliten els descriptors ordenats per microdisciplines
A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre
predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en
aquesta taula
Taula resum de sigles en catalagrave castellagrave i anglegraves
Catalagrave Castellagrave Anglegraves
Domini(noeacutesobligatori) DOM DOM DOM
Notesdrsquoaclariment NANE (aclari-mentexplicativa)
NA SC (scope note)
Equivalegravencia Empreu EM USE USE
Empratper EP UP UF
Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)
Jerarquia Termegenegraveric TA TG BT (broad term)
Termeespeciacutefic TE TE NT (narrow term)
Relacioacuteassociativa TR TR RT
Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en
facetes Aquests descriptors ja estan controlats en la forma
La presentacioacute jeragraverquicacom a base dels tesaurus
La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades
CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Acceacutes directe al fons
bull Acceacutes lliure
bull Adquisicioacute
bull Anagravelisi de contingut
bull Anagravelisi documental
bull Anagravelisi formal
bull Bases de dades
bull Catagravelegs
bull Causes de degradacioacute externes
bull Causes de degradacioacute internes
bull Cercadors
bull Compra
bull Descripcioacute bibliogragravefica
bull Dipogravesit legal
bull Directoris
bull Donacioacute
bull Emmagatzematge i conservacioacute
bull Fase drsquoanagravelisi i tractament
bull Fase de sortida
bull Fase drsquoentrada
bull Formacioacute drsquousuaris
bull Guies butlletins
bull Indexacioacute
bull Instruments de cerca
bull Intercanvi
bull Inventaris
bull Ordenacioacute
bull Ordenacioacute altament significativa
bull Ordenacioacute amb significat limitat
bull Ordenacioacute no significativa
bull Poliacutetica de seleccioacute
bull Portals
bull Preparacioacute del material
bull Preacutestec
bull Processament tegravecnic
bull Recepcioacute
bull Registre
bull Reprografia
bull Resum
bull Resum automagravetic
bull Resum indicatiu
bull Resum informatiu
bull Resum selectiu
bull Seleccioacute
bull Serveis de difusioacute
bull Serveis de referegravencia
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 7 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1 Indexacioacute i recuperacioacute amb tesaurus
Indexar amb un tesaurus igual que amb tots els llenguatge documentals post-
coordinats eacutes molt senzill Soacuten llenguatges en quegrave no hi ha sintaxi per tant
la dificultat no estagrave en la composicioacute lrsquoordre i la sintaxi del terme drsquoindexacioacute
sinoacute en la seleccioacute dels descriptors
11 Tesaurus al Web
Hi ha un gran nombre de tesaurus en liacutenia i gratuiumlts a la Xarxa Trobem tesau-
rus drsquoagricultura astronomia biblioteconomia biologia art etc A continua-
cioacute nrsquooferim una seleccioacute classificada per temes
Llista de tesaurus en liacutenia
Temagravetica Nom del tesaurus
Agricultura AGROVOC
Astronomia The Astronomy Thesaurus
Biblioteconomia IEDCYT - Tesauro de Biblioteconomiacutea y DocumentacioacutenDOCUTES Universitat de Leoacuten
Biologia IEDCYT - Tesauro de Biologiacutea Animal
Ciegravencia IEDCYT - Tesauro SNIPES
Demografia Population Multilingual Thesaurus
Economia EUROVOC ThesaurusIEDCYT - Tesauro ISOC de Economiacutea
Educacioacute EUROVOC Thesaurus
Empresa EUROVOC ThesaurusIEDCYT - Tesauro de Propiedad Industrial
Geografia EUROVOC ThesaurusGetty Thesaurus of Geographic NamesIEDCYT - Tesauro de Topoacutenimos
Geologia IEDCYT - Tesauro de Geologiacutea
Histograveria IEDCYT - Tesauro de Historia Contemporaacutenea de EspantildeaHistograveria de Catalunya
Llenguailiteratura Traces Base de dades de llengua i literatura catalanes - Tesaurus
Matemagravetiques BUCM Tesamat Biblioteca Complutense
Propietatindustrial CSIC - Tesauro de Propiedad Industrial
Psicologia IEDYCT - Tesauro ISOC de Psicologiacutea
La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista
Tesaurus
Els tesaurus soacuten llenguatgesnaturals controlats postcoor-dinats jeragraverquics i alfabegravetics ique indexen per conceptes
CC-BY-NC-ND bull PID_00193277 8 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Temagravetica Nom del tesaurus
Sociologia EUROVOC ThesaurusIEDCYT - Tesauro de Sociologiacutea
Topogravenims CSIC - Tesauro de Topoacutenimos
Urbanisme IEDCYT - Tesauro de Urbanismo
Genegraverics UNESCOHistograveria de CatalunyaMicrotesaurus temagravetics de la UBSPINES del IEDCYTERIC
La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista
12 Com srsquoindexa amb un tesaurus
El proceacutes per a indexar amb tesaurus i per extensioacute amb qualsevol llenguat-
ge documental postcoordinat el trobem gragraveficament explicat en la norma
UNE-50-121-91 annex A pagraveg 7
CC-BY-NC-ND bull PID_00193277 9 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Descripcioacute del proceacutes drsquoindexacioacute amb llenguatges postcoordinats
CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-
duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica
i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta
ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que
li interessen poden ser en diverses microdisciplines i en diferents nivells de
sagnia
Exemple de descriptors en diferents microdisciplines
Document Indexacioacute
Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201
Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades
Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]
Exemple de descriptors en diferents nivells de sagnia
Document Indexacioacute
Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit
Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)
En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes
Noms propis i geogragravefics
Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)
CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de
cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el
terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-
toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora
En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i
admegraves en el tesaurus llista de candidats per Candidatures electorals
En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-
collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes
una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista
en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en
un camp que es diu Descriptors candidats
Reflexioacute
Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada
CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
13 Creacioacute drsquoun tesaurus
Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la
jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada
Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-
guumles i nou en els multilinguumles
1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus
2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines
3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives
4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)
5) Enriquiment del tesaurus per mitjagrave de relacions associatives
6) Elaboracioacute de lrsquoesborrany del tesaurus
7) Formacioacute dels indicadors
8) Test del tesaurus
9) Revisioacute final i primera edicioacute
Els descriptors de cada microdisciplina poden estar ordenats de tres maneres
diferents
bull Cronologravegicament
bull Alfabegraveticament
bull Segons el proceacutes
Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen
un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar
despreacutes primagraveria secundagraveria i superior
Reflexioacute
Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus
Lectures recomanades
Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)
CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tres tipus drsquoordenacions
Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la
conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores
com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en
quegrave veiem que Economia general precedeix la resta
bull [Histograveria econogravemica]
bull [Economia general]
bull [Economia agragraveria]
bull [Economia pesquera]
bull [Economia industrial]
bull [Comerccedil]
bull [Hoteleria i turisme]
bull [Finances]
bull [Economia de lrsquoempresa]
14 Recuperacioacute amb tesaurus
La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes
meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi
poden afegir tants descriptors com es consideri oportuacute
Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per
randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast
conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu
SID tant per noms geogragravefics com personals tiacutetols o entitats
141 Proceacutes de cerca amb un tesaurus
El proceacutes de cerca amb tesaurus teacute tres parts
bull Recollida de conceptes
bull Traduccioacute al llenguatge
CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Formulacioacute de la cerca
Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-
mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-
sauro de Biblioteconomiacutea y Documentacioacuten)
Recollidadeconceptes
El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar
tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es
formuli de manera exhaustiva a fi de recollir tots els conceptes interessants
per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus
Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus
Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc
Traduccioacutealllenguatge
Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los
al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-
sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada
El documentalista es pot trobar en dues situacions troba el concepte expressat
meacutes o menys de la manera que pensava o beacute no el troba
1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-
saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-
ca pels motius seguumlents
a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-
descriptor i el descriptor acceptat
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten
b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-
ceptada
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten
c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany
el descriptor
Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]
CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-
calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera
Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute
jeragraverquica i la permutada
2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que
lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En
posarem un exemple de cada
Exemple de termes paralmiddotlels
El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido
Exemple de termes genegraverics
Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica
Exemple de termes especiacutefics
Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus
TE Clasificaciones
TE Lenguajes de indizacioacuten
3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)
permeten localitzar altres descriptors que continguin la paraula clau que cer-
quem enqualsevolposicioacutedeldescriptor
Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar
Automatizacioacuten de archivos
Historia de los archivos
Sistemas nacionales de archivos
Formulacioacutedelacerca
Observacioacute
Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret
CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Finalment formularagrave la cerca distribuint els conceptes en els camps de la
base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes
drsquooperadors booleans si cal
15 Activitats
Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-
tica els tesaurus
151 Indexacioacute del contingut drsquoarticles
A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text
complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber
quin article i quin tesaurus heu drsquousar
152 Construccioacute manual i automagravetica de tesaurus
Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme
un programa de programari lliure amb les caracteriacutestiques seguumlents
bull Dues microdisciplines [Cadena documental] [Indexacioacute]
bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC
bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental
bull Es faciliten els descriptors ordenats per microdisciplines
A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre
predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en
aquesta taula
Taula resum de sigles en catalagrave castellagrave i anglegraves
Catalagrave Castellagrave Anglegraves
Domini(noeacutesobligatori) DOM DOM DOM
Notesdrsquoaclariment NANE (aclari-mentexplicativa)
NA SC (scope note)
Equivalegravencia Empreu EM USE USE
Empratper EP UP UF
Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)
Jerarquia Termegenegraveric TA TG BT (broad term)
Termeespeciacutefic TE TE NT (narrow term)
Relacioacuteassociativa TR TR RT
Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en
facetes Aquests descriptors ja estan controlats en la forma
La presentacioacute jeragraverquicacom a base dels tesaurus
La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades
CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Acceacutes directe al fons
bull Acceacutes lliure
bull Adquisicioacute
bull Anagravelisi de contingut
bull Anagravelisi documental
bull Anagravelisi formal
bull Bases de dades
bull Catagravelegs
bull Causes de degradacioacute externes
bull Causes de degradacioacute internes
bull Cercadors
bull Compra
bull Descripcioacute bibliogragravefica
bull Dipogravesit legal
bull Directoris
bull Donacioacute
bull Emmagatzematge i conservacioacute
bull Fase drsquoanagravelisi i tractament
bull Fase de sortida
bull Fase drsquoentrada
bull Formacioacute drsquousuaris
bull Guies butlletins
bull Indexacioacute
bull Instruments de cerca
bull Intercanvi
bull Inventaris
bull Ordenacioacute
bull Ordenacioacute altament significativa
bull Ordenacioacute amb significat limitat
bull Ordenacioacute no significativa
bull Poliacutetica de seleccioacute
bull Portals
bull Preparacioacute del material
bull Preacutestec
bull Processament tegravecnic
bull Recepcioacute
bull Registre
bull Reprografia
bull Resum
bull Resum automagravetic
bull Resum indicatiu
bull Resum informatiu
bull Resum selectiu
bull Seleccioacute
bull Serveis de difusioacute
bull Serveis de referegravencia
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 8 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Temagravetica Nom del tesaurus
Sociologia EUROVOC ThesaurusIEDCYT - Tesauro de Sociologiacutea
Topogravenims CSIC - Tesauro de Topoacutenimos
Urbanisme IEDCYT - Tesauro de Urbanismo
Genegraverics UNESCOHistograveria de CatalunyaMicrotesaurus temagravetics de la UBSPINES del IEDCYTERIC
La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista
12 Com srsquoindexa amb un tesaurus
El proceacutes per a indexar amb tesaurus i per extensioacute amb qualsevol llenguat-
ge documental postcoordinat el trobem gragraveficament explicat en la norma
UNE-50-121-91 annex A pagraveg 7
CC-BY-NC-ND bull PID_00193277 9 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Descripcioacute del proceacutes drsquoindexacioacute amb llenguatges postcoordinats
CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-
duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica
i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta
ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que
li interessen poden ser en diverses microdisciplines i en diferents nivells de
sagnia
Exemple de descriptors en diferents microdisciplines
Document Indexacioacute
Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201
Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades
Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]
Exemple de descriptors en diferents nivells de sagnia
Document Indexacioacute
Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit
Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)
En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes
Noms propis i geogragravefics
Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)
CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de
cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el
terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-
toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora
En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i
admegraves en el tesaurus llista de candidats per Candidatures electorals
En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-
collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes
una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista
en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en
un camp que es diu Descriptors candidats
Reflexioacute
Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada
CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
13 Creacioacute drsquoun tesaurus
Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la
jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada
Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-
guumles i nou en els multilinguumles
1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus
2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines
3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives
4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)
5) Enriquiment del tesaurus per mitjagrave de relacions associatives
6) Elaboracioacute de lrsquoesborrany del tesaurus
7) Formacioacute dels indicadors
8) Test del tesaurus
9) Revisioacute final i primera edicioacute
Els descriptors de cada microdisciplina poden estar ordenats de tres maneres
diferents
bull Cronologravegicament
bull Alfabegraveticament
bull Segons el proceacutes
Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen
un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar
despreacutes primagraveria secundagraveria i superior
Reflexioacute
Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus
Lectures recomanades
Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)
CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tres tipus drsquoordenacions
Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la
conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores
com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en
quegrave veiem que Economia general precedeix la resta
bull [Histograveria econogravemica]
bull [Economia general]
bull [Economia agragraveria]
bull [Economia pesquera]
bull [Economia industrial]
bull [Comerccedil]
bull [Hoteleria i turisme]
bull [Finances]
bull [Economia de lrsquoempresa]
14 Recuperacioacute amb tesaurus
La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes
meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi
poden afegir tants descriptors com es consideri oportuacute
Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per
randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast
conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu
SID tant per noms geogragravefics com personals tiacutetols o entitats
141 Proceacutes de cerca amb un tesaurus
El proceacutes de cerca amb tesaurus teacute tres parts
bull Recollida de conceptes
bull Traduccioacute al llenguatge
CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Formulacioacute de la cerca
Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-
mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-
sauro de Biblioteconomiacutea y Documentacioacuten)
Recollidadeconceptes
El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar
tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es
formuli de manera exhaustiva a fi de recollir tots els conceptes interessants
per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus
Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus
Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc
Traduccioacutealllenguatge
Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los
al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-
sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada
El documentalista es pot trobar en dues situacions troba el concepte expressat
meacutes o menys de la manera que pensava o beacute no el troba
1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-
saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-
ca pels motius seguumlents
a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-
descriptor i el descriptor acceptat
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten
b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-
ceptada
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten
c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany
el descriptor
Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]
CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-
calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera
Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute
jeragraverquica i la permutada
2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que
lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En
posarem un exemple de cada
Exemple de termes paralmiddotlels
El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido
Exemple de termes genegraverics
Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica
Exemple de termes especiacutefics
Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus
TE Clasificaciones
TE Lenguajes de indizacioacuten
3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)
permeten localitzar altres descriptors que continguin la paraula clau que cer-
quem enqualsevolposicioacutedeldescriptor
Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar
Automatizacioacuten de archivos
Historia de los archivos
Sistemas nacionales de archivos
Formulacioacutedelacerca
Observacioacute
Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret
CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Finalment formularagrave la cerca distribuint els conceptes en els camps de la
base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes
drsquooperadors booleans si cal
15 Activitats
Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-
tica els tesaurus
151 Indexacioacute del contingut drsquoarticles
A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text
complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber
quin article i quin tesaurus heu drsquousar
152 Construccioacute manual i automagravetica de tesaurus
Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme
un programa de programari lliure amb les caracteriacutestiques seguumlents
bull Dues microdisciplines [Cadena documental] [Indexacioacute]
bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC
bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental
bull Es faciliten els descriptors ordenats per microdisciplines
A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre
predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en
aquesta taula
Taula resum de sigles en catalagrave castellagrave i anglegraves
Catalagrave Castellagrave Anglegraves
Domini(noeacutesobligatori) DOM DOM DOM
Notesdrsquoaclariment NANE (aclari-mentexplicativa)
NA SC (scope note)
Equivalegravencia Empreu EM USE USE
Empratper EP UP UF
Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)
Jerarquia Termegenegraveric TA TG BT (broad term)
Termeespeciacutefic TE TE NT (narrow term)
Relacioacuteassociativa TR TR RT
Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en
facetes Aquests descriptors ja estan controlats en la forma
La presentacioacute jeragraverquicacom a base dels tesaurus
La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades
CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Acceacutes directe al fons
bull Acceacutes lliure
bull Adquisicioacute
bull Anagravelisi de contingut
bull Anagravelisi documental
bull Anagravelisi formal
bull Bases de dades
bull Catagravelegs
bull Causes de degradacioacute externes
bull Causes de degradacioacute internes
bull Cercadors
bull Compra
bull Descripcioacute bibliogragravefica
bull Dipogravesit legal
bull Directoris
bull Donacioacute
bull Emmagatzematge i conservacioacute
bull Fase drsquoanagravelisi i tractament
bull Fase de sortida
bull Fase drsquoentrada
bull Formacioacute drsquousuaris
bull Guies butlletins
bull Indexacioacute
bull Instruments de cerca
bull Intercanvi
bull Inventaris
bull Ordenacioacute
bull Ordenacioacute altament significativa
bull Ordenacioacute amb significat limitat
bull Ordenacioacute no significativa
bull Poliacutetica de seleccioacute
bull Portals
bull Preparacioacute del material
bull Preacutestec
bull Processament tegravecnic
bull Recepcioacute
bull Registre
bull Reprografia
bull Resum
bull Resum automagravetic
bull Resum indicatiu
bull Resum informatiu
bull Resum selectiu
bull Seleccioacute
bull Serveis de difusioacute
bull Serveis de referegravencia
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 9 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Descripcioacute del proceacutes drsquoindexacioacute amb llenguatges postcoordinats
CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-
duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica
i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta
ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que
li interessen poden ser en diverses microdisciplines i en diferents nivells de
sagnia
Exemple de descriptors en diferents microdisciplines
Document Indexacioacute
Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201
Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades
Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]
Exemple de descriptors en diferents nivells de sagnia
Document Indexacioacute
Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit
Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)
En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes
Noms propis i geogragravefics
Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)
CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de
cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el
terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-
toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora
En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i
admegraves en el tesaurus llista de candidats per Candidatures electorals
En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-
collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes
una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista
en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en
un camp que es diu Descriptors candidats
Reflexioacute
Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada
CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
13 Creacioacute drsquoun tesaurus
Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la
jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada
Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-
guumles i nou en els multilinguumles
1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus
2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines
3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives
4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)
5) Enriquiment del tesaurus per mitjagrave de relacions associatives
6) Elaboracioacute de lrsquoesborrany del tesaurus
7) Formacioacute dels indicadors
8) Test del tesaurus
9) Revisioacute final i primera edicioacute
Els descriptors de cada microdisciplina poden estar ordenats de tres maneres
diferents
bull Cronologravegicament
bull Alfabegraveticament
bull Segons el proceacutes
Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen
un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar
despreacutes primagraveria secundagraveria i superior
Reflexioacute
Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus
Lectures recomanades
Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)
CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tres tipus drsquoordenacions
Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la
conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores
com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en
quegrave veiem que Economia general precedeix la resta
bull [Histograveria econogravemica]
bull [Economia general]
bull [Economia agragraveria]
bull [Economia pesquera]
bull [Economia industrial]
bull [Comerccedil]
bull [Hoteleria i turisme]
bull [Finances]
bull [Economia de lrsquoempresa]
14 Recuperacioacute amb tesaurus
La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes
meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi
poden afegir tants descriptors com es consideri oportuacute
Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per
randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast
conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu
SID tant per noms geogragravefics com personals tiacutetols o entitats
141 Proceacutes de cerca amb un tesaurus
El proceacutes de cerca amb tesaurus teacute tres parts
bull Recollida de conceptes
bull Traduccioacute al llenguatge
CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Formulacioacute de la cerca
Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-
mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-
sauro de Biblioteconomiacutea y Documentacioacuten)
Recollidadeconceptes
El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar
tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es
formuli de manera exhaustiva a fi de recollir tots els conceptes interessants
per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus
Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus
Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc
Traduccioacutealllenguatge
Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los
al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-
sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada
El documentalista es pot trobar en dues situacions troba el concepte expressat
meacutes o menys de la manera que pensava o beacute no el troba
1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-
saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-
ca pels motius seguumlents
a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-
descriptor i el descriptor acceptat
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten
b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-
ceptada
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten
c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany
el descriptor
Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]
CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-
calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera
Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute
jeragraverquica i la permutada
2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que
lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En
posarem un exemple de cada
Exemple de termes paralmiddotlels
El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido
Exemple de termes genegraverics
Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica
Exemple de termes especiacutefics
Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus
TE Clasificaciones
TE Lenguajes de indizacioacuten
3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)
permeten localitzar altres descriptors que continguin la paraula clau que cer-
quem enqualsevolposicioacutedeldescriptor
Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar
Automatizacioacuten de archivos
Historia de los archivos
Sistemas nacionales de archivos
Formulacioacutedelacerca
Observacioacute
Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret
CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Finalment formularagrave la cerca distribuint els conceptes en els camps de la
base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes
drsquooperadors booleans si cal
15 Activitats
Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-
tica els tesaurus
151 Indexacioacute del contingut drsquoarticles
A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text
complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber
quin article i quin tesaurus heu drsquousar
152 Construccioacute manual i automagravetica de tesaurus
Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme
un programa de programari lliure amb les caracteriacutestiques seguumlents
bull Dues microdisciplines [Cadena documental] [Indexacioacute]
bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC
bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental
bull Es faciliten els descriptors ordenats per microdisciplines
A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre
predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en
aquesta taula
Taula resum de sigles en catalagrave castellagrave i anglegraves
Catalagrave Castellagrave Anglegraves
Domini(noeacutesobligatori) DOM DOM DOM
Notesdrsquoaclariment NANE (aclari-mentexplicativa)
NA SC (scope note)
Equivalegravencia Empreu EM USE USE
Empratper EP UP UF
Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)
Jerarquia Termegenegraveric TA TG BT (broad term)
Termeespeciacutefic TE TE NT (narrow term)
Relacioacuteassociativa TR TR RT
Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en
facetes Aquests descriptors ja estan controlats en la forma
La presentacioacute jeragraverquicacom a base dels tesaurus
La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades
CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Acceacutes directe al fons
bull Acceacutes lliure
bull Adquisicioacute
bull Anagravelisi de contingut
bull Anagravelisi documental
bull Anagravelisi formal
bull Bases de dades
bull Catagravelegs
bull Causes de degradacioacute externes
bull Causes de degradacioacute internes
bull Cercadors
bull Compra
bull Descripcioacute bibliogragravefica
bull Dipogravesit legal
bull Directoris
bull Donacioacute
bull Emmagatzematge i conservacioacute
bull Fase drsquoanagravelisi i tractament
bull Fase de sortida
bull Fase drsquoentrada
bull Formacioacute drsquousuaris
bull Guies butlletins
bull Indexacioacute
bull Instruments de cerca
bull Intercanvi
bull Inventaris
bull Ordenacioacute
bull Ordenacioacute altament significativa
bull Ordenacioacute amb significat limitat
bull Ordenacioacute no significativa
bull Poliacutetica de seleccioacute
bull Portals
bull Preparacioacute del material
bull Preacutestec
bull Processament tegravecnic
bull Recepcioacute
bull Registre
bull Reprografia
bull Resum
bull Resum automagravetic
bull Resum indicatiu
bull Resum informatiu
bull Resum selectiu
bull Seleccioacute
bull Serveis de difusioacute
bull Serveis de referegravencia
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-
duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica
i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta
ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que
li interessen poden ser en diverses microdisciplines i en diferents nivells de
sagnia
Exemple de descriptors en diferents microdisciplines
Document Indexacioacute
Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201
Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades
Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]
Exemple de descriptors en diferents nivells de sagnia
Document Indexacioacute
Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit
Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)
En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes
Noms propis i geogragravefics
Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)
CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de
cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el
terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-
toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora
En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i
admegraves en el tesaurus llista de candidats per Candidatures electorals
En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-
collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes
una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista
en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en
un camp que es diu Descriptors candidats
Reflexioacute
Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada
CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
13 Creacioacute drsquoun tesaurus
Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la
jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada
Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-
guumles i nou en els multilinguumles
1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus
2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines
3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives
4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)
5) Enriquiment del tesaurus per mitjagrave de relacions associatives
6) Elaboracioacute de lrsquoesborrany del tesaurus
7) Formacioacute dels indicadors
8) Test del tesaurus
9) Revisioacute final i primera edicioacute
Els descriptors de cada microdisciplina poden estar ordenats de tres maneres
diferents
bull Cronologravegicament
bull Alfabegraveticament
bull Segons el proceacutes
Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen
un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar
despreacutes primagraveria secundagraveria i superior
Reflexioacute
Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus
Lectures recomanades
Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)
CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tres tipus drsquoordenacions
Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la
conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores
com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en
quegrave veiem que Economia general precedeix la resta
bull [Histograveria econogravemica]
bull [Economia general]
bull [Economia agragraveria]
bull [Economia pesquera]
bull [Economia industrial]
bull [Comerccedil]
bull [Hoteleria i turisme]
bull [Finances]
bull [Economia de lrsquoempresa]
14 Recuperacioacute amb tesaurus
La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes
meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi
poden afegir tants descriptors com es consideri oportuacute
Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per
randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast
conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu
SID tant per noms geogragravefics com personals tiacutetols o entitats
141 Proceacutes de cerca amb un tesaurus
El proceacutes de cerca amb tesaurus teacute tres parts
bull Recollida de conceptes
bull Traduccioacute al llenguatge
CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Formulacioacute de la cerca
Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-
mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-
sauro de Biblioteconomiacutea y Documentacioacuten)
Recollidadeconceptes
El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar
tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es
formuli de manera exhaustiva a fi de recollir tots els conceptes interessants
per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus
Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus
Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc
Traduccioacutealllenguatge
Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los
al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-
sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada
El documentalista es pot trobar en dues situacions troba el concepte expressat
meacutes o menys de la manera que pensava o beacute no el troba
1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-
saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-
ca pels motius seguumlents
a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-
descriptor i el descriptor acceptat
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten
b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-
ceptada
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten
c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany
el descriptor
Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]
CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-
calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera
Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute
jeragraverquica i la permutada
2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que
lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En
posarem un exemple de cada
Exemple de termes paralmiddotlels
El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido
Exemple de termes genegraverics
Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica
Exemple de termes especiacutefics
Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus
TE Clasificaciones
TE Lenguajes de indizacioacuten
3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)
permeten localitzar altres descriptors que continguin la paraula clau que cer-
quem enqualsevolposicioacutedeldescriptor
Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar
Automatizacioacuten de archivos
Historia de los archivos
Sistemas nacionales de archivos
Formulacioacutedelacerca
Observacioacute
Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret
CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Finalment formularagrave la cerca distribuint els conceptes en els camps de la
base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes
drsquooperadors booleans si cal
15 Activitats
Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-
tica els tesaurus
151 Indexacioacute del contingut drsquoarticles
A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text
complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber
quin article i quin tesaurus heu drsquousar
152 Construccioacute manual i automagravetica de tesaurus
Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme
un programa de programari lliure amb les caracteriacutestiques seguumlents
bull Dues microdisciplines [Cadena documental] [Indexacioacute]
bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC
bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental
bull Es faciliten els descriptors ordenats per microdisciplines
A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre
predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en
aquesta taula
Taula resum de sigles en catalagrave castellagrave i anglegraves
Catalagrave Castellagrave Anglegraves
Domini(noeacutesobligatori) DOM DOM DOM
Notesdrsquoaclariment NANE (aclari-mentexplicativa)
NA SC (scope note)
Equivalegravencia Empreu EM USE USE
Empratper EP UP UF
Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)
Jerarquia Termegenegraveric TA TG BT (broad term)
Termeespeciacutefic TE TE NT (narrow term)
Relacioacuteassociativa TR TR RT
Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en
facetes Aquests descriptors ja estan controlats en la forma
La presentacioacute jeragraverquicacom a base dels tesaurus
La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades
CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Acceacutes directe al fons
bull Acceacutes lliure
bull Adquisicioacute
bull Anagravelisi de contingut
bull Anagravelisi documental
bull Anagravelisi formal
bull Bases de dades
bull Catagravelegs
bull Causes de degradacioacute externes
bull Causes de degradacioacute internes
bull Cercadors
bull Compra
bull Descripcioacute bibliogragravefica
bull Dipogravesit legal
bull Directoris
bull Donacioacute
bull Emmagatzematge i conservacioacute
bull Fase drsquoanagravelisi i tractament
bull Fase de sortida
bull Fase drsquoentrada
bull Formacioacute drsquousuaris
bull Guies butlletins
bull Indexacioacute
bull Instruments de cerca
bull Intercanvi
bull Inventaris
bull Ordenacioacute
bull Ordenacioacute altament significativa
bull Ordenacioacute amb significat limitat
bull Ordenacioacute no significativa
bull Poliacutetica de seleccioacute
bull Portals
bull Preparacioacute del material
bull Preacutestec
bull Processament tegravecnic
bull Recepcioacute
bull Registre
bull Reprografia
bull Resum
bull Resum automagravetic
bull Resum indicatiu
bull Resum informatiu
bull Resum selectiu
bull Seleccioacute
bull Serveis de difusioacute
bull Serveis de referegravencia
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de
cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el
terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-
toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora
En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i
admegraves en el tesaurus llista de candidats per Candidatures electorals
En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-
collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes
una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista
en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en
un camp que es diu Descriptors candidats
Reflexioacute
Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada
CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
13 Creacioacute drsquoun tesaurus
Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la
jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada
Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-
guumles i nou en els multilinguumles
1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus
2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines
3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives
4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)
5) Enriquiment del tesaurus per mitjagrave de relacions associatives
6) Elaboracioacute de lrsquoesborrany del tesaurus
7) Formacioacute dels indicadors
8) Test del tesaurus
9) Revisioacute final i primera edicioacute
Els descriptors de cada microdisciplina poden estar ordenats de tres maneres
diferents
bull Cronologravegicament
bull Alfabegraveticament
bull Segons el proceacutes
Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen
un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar
despreacutes primagraveria secundagraveria i superior
Reflexioacute
Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus
Lectures recomanades
Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)
CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tres tipus drsquoordenacions
Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la
conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores
com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en
quegrave veiem que Economia general precedeix la resta
bull [Histograveria econogravemica]
bull [Economia general]
bull [Economia agragraveria]
bull [Economia pesquera]
bull [Economia industrial]
bull [Comerccedil]
bull [Hoteleria i turisme]
bull [Finances]
bull [Economia de lrsquoempresa]
14 Recuperacioacute amb tesaurus
La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes
meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi
poden afegir tants descriptors com es consideri oportuacute
Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per
randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast
conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu
SID tant per noms geogragravefics com personals tiacutetols o entitats
141 Proceacutes de cerca amb un tesaurus
El proceacutes de cerca amb tesaurus teacute tres parts
bull Recollida de conceptes
bull Traduccioacute al llenguatge
CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Formulacioacute de la cerca
Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-
mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-
sauro de Biblioteconomiacutea y Documentacioacuten)
Recollidadeconceptes
El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar
tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es
formuli de manera exhaustiva a fi de recollir tots els conceptes interessants
per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus
Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus
Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc
Traduccioacutealllenguatge
Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los
al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-
sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada
El documentalista es pot trobar en dues situacions troba el concepte expressat
meacutes o menys de la manera que pensava o beacute no el troba
1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-
saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-
ca pels motius seguumlents
a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-
descriptor i el descriptor acceptat
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten
b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-
ceptada
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten
c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany
el descriptor
Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]
CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-
calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera
Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute
jeragraverquica i la permutada
2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que
lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En
posarem un exemple de cada
Exemple de termes paralmiddotlels
El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido
Exemple de termes genegraverics
Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica
Exemple de termes especiacutefics
Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus
TE Clasificaciones
TE Lenguajes de indizacioacuten
3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)
permeten localitzar altres descriptors que continguin la paraula clau que cer-
quem enqualsevolposicioacutedeldescriptor
Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar
Automatizacioacuten de archivos
Historia de los archivos
Sistemas nacionales de archivos
Formulacioacutedelacerca
Observacioacute
Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret
CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Finalment formularagrave la cerca distribuint els conceptes en els camps de la
base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes
drsquooperadors booleans si cal
15 Activitats
Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-
tica els tesaurus
151 Indexacioacute del contingut drsquoarticles
A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text
complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber
quin article i quin tesaurus heu drsquousar
152 Construccioacute manual i automagravetica de tesaurus
Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme
un programa de programari lliure amb les caracteriacutestiques seguumlents
bull Dues microdisciplines [Cadena documental] [Indexacioacute]
bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC
bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental
bull Es faciliten els descriptors ordenats per microdisciplines
A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre
predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en
aquesta taula
Taula resum de sigles en catalagrave castellagrave i anglegraves
Catalagrave Castellagrave Anglegraves
Domini(noeacutesobligatori) DOM DOM DOM
Notesdrsquoaclariment NANE (aclari-mentexplicativa)
NA SC (scope note)
Equivalegravencia Empreu EM USE USE
Empratper EP UP UF
Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)
Jerarquia Termegenegraveric TA TG BT (broad term)
Termeespeciacutefic TE TE NT (narrow term)
Relacioacuteassociativa TR TR RT
Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en
facetes Aquests descriptors ja estan controlats en la forma
La presentacioacute jeragraverquicacom a base dels tesaurus
La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades
CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Acceacutes directe al fons
bull Acceacutes lliure
bull Adquisicioacute
bull Anagravelisi de contingut
bull Anagravelisi documental
bull Anagravelisi formal
bull Bases de dades
bull Catagravelegs
bull Causes de degradacioacute externes
bull Causes de degradacioacute internes
bull Cercadors
bull Compra
bull Descripcioacute bibliogragravefica
bull Dipogravesit legal
bull Directoris
bull Donacioacute
bull Emmagatzematge i conservacioacute
bull Fase drsquoanagravelisi i tractament
bull Fase de sortida
bull Fase drsquoentrada
bull Formacioacute drsquousuaris
bull Guies butlletins
bull Indexacioacute
bull Instruments de cerca
bull Intercanvi
bull Inventaris
bull Ordenacioacute
bull Ordenacioacute altament significativa
bull Ordenacioacute amb significat limitat
bull Ordenacioacute no significativa
bull Poliacutetica de seleccioacute
bull Portals
bull Preparacioacute del material
bull Preacutestec
bull Processament tegravecnic
bull Recepcioacute
bull Registre
bull Reprografia
bull Resum
bull Resum automagravetic
bull Resum indicatiu
bull Resum informatiu
bull Resum selectiu
bull Seleccioacute
bull Serveis de difusioacute
bull Serveis de referegravencia
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
13 Creacioacute drsquoun tesaurus
Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la
jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada
Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-
guumles i nou en els multilinguumles
1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus
2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines
3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives
4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)
5) Enriquiment del tesaurus per mitjagrave de relacions associatives
6) Elaboracioacute de lrsquoesborrany del tesaurus
7) Formacioacute dels indicadors
8) Test del tesaurus
9) Revisioacute final i primera edicioacute
Els descriptors de cada microdisciplina poden estar ordenats de tres maneres
diferents
bull Cronologravegicament
bull Alfabegraveticament
bull Segons el proceacutes
Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen
un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar
despreacutes primagraveria secundagraveria i superior
Reflexioacute
Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus
Lectures recomanades
Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)
CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tres tipus drsquoordenacions
Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la
conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores
com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en
quegrave veiem que Economia general precedeix la resta
bull [Histograveria econogravemica]
bull [Economia general]
bull [Economia agragraveria]
bull [Economia pesquera]
bull [Economia industrial]
bull [Comerccedil]
bull [Hoteleria i turisme]
bull [Finances]
bull [Economia de lrsquoempresa]
14 Recuperacioacute amb tesaurus
La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes
meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi
poden afegir tants descriptors com es consideri oportuacute
Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per
randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast
conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu
SID tant per noms geogragravefics com personals tiacutetols o entitats
141 Proceacutes de cerca amb un tesaurus
El proceacutes de cerca amb tesaurus teacute tres parts
bull Recollida de conceptes
bull Traduccioacute al llenguatge
CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Formulacioacute de la cerca
Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-
mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-
sauro de Biblioteconomiacutea y Documentacioacuten)
Recollidadeconceptes
El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar
tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es
formuli de manera exhaustiva a fi de recollir tots els conceptes interessants
per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus
Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus
Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc
Traduccioacutealllenguatge
Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los
al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-
sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada
El documentalista es pot trobar en dues situacions troba el concepte expressat
meacutes o menys de la manera que pensava o beacute no el troba
1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-
saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-
ca pels motius seguumlents
a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-
descriptor i el descriptor acceptat
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten
b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-
ceptada
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten
c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany
el descriptor
Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]
CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-
calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera
Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute
jeragraverquica i la permutada
2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que
lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En
posarem un exemple de cada
Exemple de termes paralmiddotlels
El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido
Exemple de termes genegraverics
Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica
Exemple de termes especiacutefics
Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus
TE Clasificaciones
TE Lenguajes de indizacioacuten
3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)
permeten localitzar altres descriptors que continguin la paraula clau que cer-
quem enqualsevolposicioacutedeldescriptor
Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar
Automatizacioacuten de archivos
Historia de los archivos
Sistemas nacionales de archivos
Formulacioacutedelacerca
Observacioacute
Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret
CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Finalment formularagrave la cerca distribuint els conceptes en els camps de la
base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes
drsquooperadors booleans si cal
15 Activitats
Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-
tica els tesaurus
151 Indexacioacute del contingut drsquoarticles
A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text
complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber
quin article i quin tesaurus heu drsquousar
152 Construccioacute manual i automagravetica de tesaurus
Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme
un programa de programari lliure amb les caracteriacutestiques seguumlents
bull Dues microdisciplines [Cadena documental] [Indexacioacute]
bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC
bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental
bull Es faciliten els descriptors ordenats per microdisciplines
A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre
predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en
aquesta taula
Taula resum de sigles en catalagrave castellagrave i anglegraves
Catalagrave Castellagrave Anglegraves
Domini(noeacutesobligatori) DOM DOM DOM
Notesdrsquoaclariment NANE (aclari-mentexplicativa)
NA SC (scope note)
Equivalegravencia Empreu EM USE USE
Empratper EP UP UF
Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)
Jerarquia Termegenegraveric TA TG BT (broad term)
Termeespeciacutefic TE TE NT (narrow term)
Relacioacuteassociativa TR TR RT
Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en
facetes Aquests descriptors ja estan controlats en la forma
La presentacioacute jeragraverquicacom a base dels tesaurus
La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades
CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Acceacutes directe al fons
bull Acceacutes lliure
bull Adquisicioacute
bull Anagravelisi de contingut
bull Anagravelisi documental
bull Anagravelisi formal
bull Bases de dades
bull Catagravelegs
bull Causes de degradacioacute externes
bull Causes de degradacioacute internes
bull Cercadors
bull Compra
bull Descripcioacute bibliogragravefica
bull Dipogravesit legal
bull Directoris
bull Donacioacute
bull Emmagatzematge i conservacioacute
bull Fase drsquoanagravelisi i tractament
bull Fase de sortida
bull Fase drsquoentrada
bull Formacioacute drsquousuaris
bull Guies butlletins
bull Indexacioacute
bull Instruments de cerca
bull Intercanvi
bull Inventaris
bull Ordenacioacute
bull Ordenacioacute altament significativa
bull Ordenacioacute amb significat limitat
bull Ordenacioacute no significativa
bull Poliacutetica de seleccioacute
bull Portals
bull Preparacioacute del material
bull Preacutestec
bull Processament tegravecnic
bull Recepcioacute
bull Registre
bull Reprografia
bull Resum
bull Resum automagravetic
bull Resum indicatiu
bull Resum informatiu
bull Resum selectiu
bull Seleccioacute
bull Serveis de difusioacute
bull Serveis de referegravencia
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tres tipus drsquoordenacions
Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la
conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores
com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en
quegrave veiem que Economia general precedeix la resta
bull [Histograveria econogravemica]
bull [Economia general]
bull [Economia agragraveria]
bull [Economia pesquera]
bull [Economia industrial]
bull [Comerccedil]
bull [Hoteleria i turisme]
bull [Finances]
bull [Economia de lrsquoempresa]
14 Recuperacioacute amb tesaurus
La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes
meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi
poden afegir tants descriptors com es consideri oportuacute
Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per
randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast
conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu
SID tant per noms geogragravefics com personals tiacutetols o entitats
141 Proceacutes de cerca amb un tesaurus
El proceacutes de cerca amb tesaurus teacute tres parts
bull Recollida de conceptes
bull Traduccioacute al llenguatge
CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Formulacioacute de la cerca
Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-
mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-
sauro de Biblioteconomiacutea y Documentacioacuten)
Recollidadeconceptes
El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar
tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es
formuli de manera exhaustiva a fi de recollir tots els conceptes interessants
per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus
Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus
Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc
Traduccioacutealllenguatge
Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los
al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-
sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada
El documentalista es pot trobar en dues situacions troba el concepte expressat
meacutes o menys de la manera que pensava o beacute no el troba
1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-
saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-
ca pels motius seguumlents
a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-
descriptor i el descriptor acceptat
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten
b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-
ceptada
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten
c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany
el descriptor
Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]
CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-
calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera
Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute
jeragraverquica i la permutada
2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que
lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En
posarem un exemple de cada
Exemple de termes paralmiddotlels
El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido
Exemple de termes genegraverics
Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica
Exemple de termes especiacutefics
Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus
TE Clasificaciones
TE Lenguajes de indizacioacuten
3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)
permeten localitzar altres descriptors que continguin la paraula clau que cer-
quem enqualsevolposicioacutedeldescriptor
Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar
Automatizacioacuten de archivos
Historia de los archivos
Sistemas nacionales de archivos
Formulacioacutedelacerca
Observacioacute
Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret
CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Finalment formularagrave la cerca distribuint els conceptes en els camps de la
base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes
drsquooperadors booleans si cal
15 Activitats
Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-
tica els tesaurus
151 Indexacioacute del contingut drsquoarticles
A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text
complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber
quin article i quin tesaurus heu drsquousar
152 Construccioacute manual i automagravetica de tesaurus
Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme
un programa de programari lliure amb les caracteriacutestiques seguumlents
bull Dues microdisciplines [Cadena documental] [Indexacioacute]
bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC
bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental
bull Es faciliten els descriptors ordenats per microdisciplines
A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre
predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en
aquesta taula
Taula resum de sigles en catalagrave castellagrave i anglegraves
Catalagrave Castellagrave Anglegraves
Domini(noeacutesobligatori) DOM DOM DOM
Notesdrsquoaclariment NANE (aclari-mentexplicativa)
NA SC (scope note)
Equivalegravencia Empreu EM USE USE
Empratper EP UP UF
Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)
Jerarquia Termegenegraveric TA TG BT (broad term)
Termeespeciacutefic TE TE NT (narrow term)
Relacioacuteassociativa TR TR RT
Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en
facetes Aquests descriptors ja estan controlats en la forma
La presentacioacute jeragraverquicacom a base dels tesaurus
La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades
CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Acceacutes directe al fons
bull Acceacutes lliure
bull Adquisicioacute
bull Anagravelisi de contingut
bull Anagravelisi documental
bull Anagravelisi formal
bull Bases de dades
bull Catagravelegs
bull Causes de degradacioacute externes
bull Causes de degradacioacute internes
bull Cercadors
bull Compra
bull Descripcioacute bibliogragravefica
bull Dipogravesit legal
bull Directoris
bull Donacioacute
bull Emmagatzematge i conservacioacute
bull Fase drsquoanagravelisi i tractament
bull Fase de sortida
bull Fase drsquoentrada
bull Formacioacute drsquousuaris
bull Guies butlletins
bull Indexacioacute
bull Instruments de cerca
bull Intercanvi
bull Inventaris
bull Ordenacioacute
bull Ordenacioacute altament significativa
bull Ordenacioacute amb significat limitat
bull Ordenacioacute no significativa
bull Poliacutetica de seleccioacute
bull Portals
bull Preparacioacute del material
bull Preacutestec
bull Processament tegravecnic
bull Recepcioacute
bull Registre
bull Reprografia
bull Resum
bull Resum automagravetic
bull Resum indicatiu
bull Resum informatiu
bull Resum selectiu
bull Seleccioacute
bull Serveis de difusioacute
bull Serveis de referegravencia
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Formulacioacute de la cerca
Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-
mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-
sauro de Biblioteconomiacutea y Documentacioacuten)
Recollidadeconceptes
El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar
tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es
formuli de manera exhaustiva a fi de recollir tots els conceptes interessants
per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus
Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus
Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc
Traduccioacutealllenguatge
Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los
al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-
sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada
El documentalista es pot trobar en dues situacions troba el concepte expressat
meacutes o menys de la manera que pensava o beacute no el troba
1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-
saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-
ca pels motius seguumlents
a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-
descriptor i el descriptor acceptat
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten
b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-
ceptada
En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten
c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany
el descriptor
Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]
CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-
calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera
Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute
jeragraverquica i la permutada
2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que
lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En
posarem un exemple de cada
Exemple de termes paralmiddotlels
El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido
Exemple de termes genegraverics
Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica
Exemple de termes especiacutefics
Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus
TE Clasificaciones
TE Lenguajes de indizacioacuten
3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)
permeten localitzar altres descriptors que continguin la paraula clau que cer-
quem enqualsevolposicioacutedeldescriptor
Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar
Automatizacioacuten de archivos
Historia de los archivos
Sistemas nacionales de archivos
Formulacioacutedelacerca
Observacioacute
Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret
CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Finalment formularagrave la cerca distribuint els conceptes en els camps de la
base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes
drsquooperadors booleans si cal
15 Activitats
Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-
tica els tesaurus
151 Indexacioacute del contingut drsquoarticles
A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text
complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber
quin article i quin tesaurus heu drsquousar
152 Construccioacute manual i automagravetica de tesaurus
Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme
un programa de programari lliure amb les caracteriacutestiques seguumlents
bull Dues microdisciplines [Cadena documental] [Indexacioacute]
bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC
bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental
bull Es faciliten els descriptors ordenats per microdisciplines
A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre
predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en
aquesta taula
Taula resum de sigles en catalagrave castellagrave i anglegraves
Catalagrave Castellagrave Anglegraves
Domini(noeacutesobligatori) DOM DOM DOM
Notesdrsquoaclariment NANE (aclari-mentexplicativa)
NA SC (scope note)
Equivalegravencia Empreu EM USE USE
Empratper EP UP UF
Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)
Jerarquia Termegenegraveric TA TG BT (broad term)
Termeespeciacutefic TE TE NT (narrow term)
Relacioacuteassociativa TR TR RT
Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en
facetes Aquests descriptors ja estan controlats en la forma
La presentacioacute jeragraverquicacom a base dels tesaurus
La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades
CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Acceacutes directe al fons
bull Acceacutes lliure
bull Adquisicioacute
bull Anagravelisi de contingut
bull Anagravelisi documental
bull Anagravelisi formal
bull Bases de dades
bull Catagravelegs
bull Causes de degradacioacute externes
bull Causes de degradacioacute internes
bull Cercadors
bull Compra
bull Descripcioacute bibliogragravefica
bull Dipogravesit legal
bull Directoris
bull Donacioacute
bull Emmagatzematge i conservacioacute
bull Fase drsquoanagravelisi i tractament
bull Fase de sortida
bull Fase drsquoentrada
bull Formacioacute drsquousuaris
bull Guies butlletins
bull Indexacioacute
bull Instruments de cerca
bull Intercanvi
bull Inventaris
bull Ordenacioacute
bull Ordenacioacute altament significativa
bull Ordenacioacute amb significat limitat
bull Ordenacioacute no significativa
bull Poliacutetica de seleccioacute
bull Portals
bull Preparacioacute del material
bull Preacutestec
bull Processament tegravecnic
bull Recepcioacute
bull Registre
bull Reprografia
bull Resum
bull Resum automagravetic
bull Resum indicatiu
bull Resum informatiu
bull Resum selectiu
bull Seleccioacute
bull Serveis de difusioacute
bull Serveis de referegravencia
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-
calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera
Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute
jeragraverquica i la permutada
2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que
lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En
posarem un exemple de cada
Exemple de termes paralmiddotlels
El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido
Exemple de termes genegraverics
Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica
Exemple de termes especiacutefics
Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus
TE Clasificaciones
TE Lenguajes de indizacioacuten
3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)
permeten localitzar altres descriptors que continguin la paraula clau que cer-
quem enqualsevolposicioacutedeldescriptor
Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar
Automatizacioacuten de archivos
Historia de los archivos
Sistemas nacionales de archivos
Formulacioacutedelacerca
Observacioacute
Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret
CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Finalment formularagrave la cerca distribuint els conceptes en els camps de la
base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes
drsquooperadors booleans si cal
15 Activitats
Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-
tica els tesaurus
151 Indexacioacute del contingut drsquoarticles
A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text
complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber
quin article i quin tesaurus heu drsquousar
152 Construccioacute manual i automagravetica de tesaurus
Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme
un programa de programari lliure amb les caracteriacutestiques seguumlents
bull Dues microdisciplines [Cadena documental] [Indexacioacute]
bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC
bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental
bull Es faciliten els descriptors ordenats per microdisciplines
A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre
predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en
aquesta taula
Taula resum de sigles en catalagrave castellagrave i anglegraves
Catalagrave Castellagrave Anglegraves
Domini(noeacutesobligatori) DOM DOM DOM
Notesdrsquoaclariment NANE (aclari-mentexplicativa)
NA SC (scope note)
Equivalegravencia Empreu EM USE USE
Empratper EP UP UF
Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)
Jerarquia Termegenegraveric TA TG BT (broad term)
Termeespeciacutefic TE TE NT (narrow term)
Relacioacuteassociativa TR TR RT
Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en
facetes Aquests descriptors ja estan controlats en la forma
La presentacioacute jeragraverquicacom a base dels tesaurus
La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades
CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Acceacutes directe al fons
bull Acceacutes lliure
bull Adquisicioacute
bull Anagravelisi de contingut
bull Anagravelisi documental
bull Anagravelisi formal
bull Bases de dades
bull Catagravelegs
bull Causes de degradacioacute externes
bull Causes de degradacioacute internes
bull Cercadors
bull Compra
bull Descripcioacute bibliogragravefica
bull Dipogravesit legal
bull Directoris
bull Donacioacute
bull Emmagatzematge i conservacioacute
bull Fase drsquoanagravelisi i tractament
bull Fase de sortida
bull Fase drsquoentrada
bull Formacioacute drsquousuaris
bull Guies butlletins
bull Indexacioacute
bull Instruments de cerca
bull Intercanvi
bull Inventaris
bull Ordenacioacute
bull Ordenacioacute altament significativa
bull Ordenacioacute amb significat limitat
bull Ordenacioacute no significativa
bull Poliacutetica de seleccioacute
bull Portals
bull Preparacioacute del material
bull Preacutestec
bull Processament tegravecnic
bull Recepcioacute
bull Registre
bull Reprografia
bull Resum
bull Resum automagravetic
bull Resum indicatiu
bull Resum informatiu
bull Resum selectiu
bull Seleccioacute
bull Serveis de difusioacute
bull Serveis de referegravencia
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Finalment formularagrave la cerca distribuint els conceptes en els camps de la
base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes
drsquooperadors booleans si cal
15 Activitats
Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-
tica els tesaurus
151 Indexacioacute del contingut drsquoarticles
A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text
complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber
quin article i quin tesaurus heu drsquousar
152 Construccioacute manual i automagravetica de tesaurus
Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme
un programa de programari lliure amb les caracteriacutestiques seguumlents
bull Dues microdisciplines [Cadena documental] [Indexacioacute]
bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC
bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental
bull Es faciliten els descriptors ordenats per microdisciplines
A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre
predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en
aquesta taula
Taula resum de sigles en catalagrave castellagrave i anglegraves
Catalagrave Castellagrave Anglegraves
Domini(noeacutesobligatori) DOM DOM DOM
Notesdrsquoaclariment NANE (aclari-mentexplicativa)
NA SC (scope note)
Equivalegravencia Empreu EM USE USE
Empratper EP UP UF
Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)
Jerarquia Termegenegraveric TA TG BT (broad term)
Termeespeciacutefic TE TE NT (narrow term)
Relacioacuteassociativa TR TR RT
Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en
facetes Aquests descriptors ja estan controlats en la forma
La presentacioacute jeragraverquicacom a base dels tesaurus
La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades
CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Acceacutes directe al fons
bull Acceacutes lliure
bull Adquisicioacute
bull Anagravelisi de contingut
bull Anagravelisi documental
bull Anagravelisi formal
bull Bases de dades
bull Catagravelegs
bull Causes de degradacioacute externes
bull Causes de degradacioacute internes
bull Cercadors
bull Compra
bull Descripcioacute bibliogragravefica
bull Dipogravesit legal
bull Directoris
bull Donacioacute
bull Emmagatzematge i conservacioacute
bull Fase drsquoanagravelisi i tractament
bull Fase de sortida
bull Fase drsquoentrada
bull Formacioacute drsquousuaris
bull Guies butlletins
bull Indexacioacute
bull Instruments de cerca
bull Intercanvi
bull Inventaris
bull Ordenacioacute
bull Ordenacioacute altament significativa
bull Ordenacioacute amb significat limitat
bull Ordenacioacute no significativa
bull Poliacutetica de seleccioacute
bull Portals
bull Preparacioacute del material
bull Preacutestec
bull Processament tegravecnic
bull Recepcioacute
bull Registre
bull Reprografia
bull Resum
bull Resum automagravetic
bull Resum indicatiu
bull Resum informatiu
bull Resum selectiu
bull Seleccioacute
bull Serveis de difusioacute
bull Serveis de referegravencia
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Acceacutes directe al fons
bull Acceacutes lliure
bull Adquisicioacute
bull Anagravelisi de contingut
bull Anagravelisi documental
bull Anagravelisi formal
bull Bases de dades
bull Catagravelegs
bull Causes de degradacioacute externes
bull Causes de degradacioacute internes
bull Cercadors
bull Compra
bull Descripcioacute bibliogragravefica
bull Dipogravesit legal
bull Directoris
bull Donacioacute
bull Emmagatzematge i conservacioacute
bull Fase drsquoanagravelisi i tractament
bull Fase de sortida
bull Fase drsquoentrada
bull Formacioacute drsquousuaris
bull Guies butlletins
bull Indexacioacute
bull Instruments de cerca
bull Intercanvi
bull Inventaris
bull Ordenacioacute
bull Ordenacioacute altament significativa
bull Ordenacioacute amb significat limitat
bull Ordenacioacute no significativa
bull Poliacutetica de seleccioacute
bull Portals
bull Preparacioacute del material
bull Preacutestec
bull Processament tegravecnic
bull Recepcioacute
bull Registre
bull Reprografia
bull Resum
bull Resum automagravetic
bull Resum indicatiu
bull Resum informatiu
bull Resum selectiu
bull Seleccioacute
bull Serveis de difusioacute
bull Serveis de referegravencia
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Transferegravencia
Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-
lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els
descriptors ja classificats en les tres facetes i controlats en la forma
[Evolucioacute histograverica]
bull Bilindex [1983]
bull Guiacutea para los encabezamientos de materia [1934]
bull Indexacioacute automagravetica [1957]
bull Library of Congress subject headings [1909]
bull List of subject headings for small libraries [1923]
bull List of subject headings for use in dictionary catalogs [1895]
bull Lista de encabezamientos de materia para bibliotecas [1967]
bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-
MEAU [1980]
bull Reacutepertoire de vedettes-matiegravere RVM [1946]
bull Rules for a dictionary catalog [1876]
bull Segle XIX
bull Segle XX (1900-1950)
bull Segle XX (1950-1999)
[Llenguatges documentals]
bull Autoritats
bull Descriptor
bull Descriptors controlats
bull Descriptors lliures
bull Encapccedilalaments de mategraveria
bull Llenguatges codificats
bull Llenguatges controlats
bull Llenguatge de descriptors
bull Llenguatges de paraules clau
bull Llenguatges documentals
bull Llenguatge lliure
bull Llenguatges de mategraveria
bull Llenguatges de postcoordinacioacute
bull Llenguatges precoordinats
bull Llista drsquoautoritats
bull Llista drsquoencapccedilalaments de mategraveria
bull Llista de descriptors lliures
bull Llista de paraules clau
bull Notacions
bull Paraules clau
bull Segons el nivell drsquoanagravelisi
bull Segons el nivell de control
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull Segons el nivell de coordinacioacute
bull Segons la naturalesa dels termes
bull Sistema de classificacioacute
bull Termes drsquoindexacioacute
bull Tesaurus
bull Tipologies de llenguatges documentals
[Llenguatges naturals]
bull Ambiguumlitat del llenguatge natural
bull Homofonia
bull Homografia
bull Homoniacutemia
bull Polisegravemia
bull Sinoniacutemia
153 Recuperacioacute amb tesaurus
Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-
nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-
mentacioacute
bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de
documentacioacute
bull Informacioacute sobre tractament de la documentacioacute dels museus militars i
lrsquoatencioacute als usuaris
bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-
sures de seguretat
bull Opcions laborals per a bibliotecaris i arxivers
bull Indexacioacute automagravetica i llei de Zipf
16 Solucioacute
Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes
amunt
161 Indexacioacute drsquoarticles
La solucioacute es treballaragrave a lrsquoaula
162 Construccioacute manual i automagravetica de tesaurus
Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Solucioacuteenpartalapresentacioacutealfabegravetica
Presentem cinc exemples corresponents a totes les posicions que pot tenir un
descriptor en aquest tesaurus I totes les sigles que defineixen les relacions
semagraventiques existents
bull Amb un punt al davant Fase drsquoentrada
bull Amb dos punts al davant Seleccioacute
bull Amb tres punts al davant Poliacutetica de seleccioacute
bull Amb quatre punts al davant Ordenacioacute altament significativa
bull Amb cinc punts al davant Resum automagravetic
bull Drsquoun no-descriptor al descriptor acceptat Extracts
Extracts
EM Resum automagravetic
Faseentrada
Observacioacute
Fixeu-vos que els descriptorsvan en ordre alfabegravetic
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
TC Cadena documental
Seleccioacute
Adquisicioacute
TE
Recepcioacute
Ordenacioacutealtamentsignificativa
TC Cadena documental
TA Ordenacioacute
Llenguatges codificatsTR
Sistemes de classificacioacute
Poliacuteticadeseleccioacute
TC Cadena documental
TA Seleccioacute
Resumautomagravetic
EP Extracts
TC Cadena documental
TA Resum
Seleccioacute
TC Cadena documental
TA Fase drsquoentrada
TE Poliacutetica de seleccioacute
SolucioacuteenpartalrsquoiacutendexKWIC
Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els
unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-
barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en
lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus
Dipogravesit legal
Llenguatge Lliure
Acceacutes lliure
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al
KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que
tenen algun article com les no srsquoindexen ja que es consideren paraules buides
(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)
Dipogravesit legal
List of subject headings for small libraries [1923]
Library of Congress subject headings [1909]
Ordenacioacute amb significat limitat
List of subject headings for small libraries [1923]
List of subject headings for use in dictionary catalogs [1895]
Lista de encabezamientos de materia para bibliotecas [1967]
Ambiguumlitat del llenguatge natural
Llenguatge lliure
Llenguatges codificats
Llenguatges controlats
Llenguatges de descriptors
Llenguatges documentals
Tipologies de llenguatges documentals
Llenguatges de mategraveria
Llenguatges de paraules clau
Llenguatges de postcoordinacioacute
Llenguatges precoordinats
Llista drsquoautoritats
Llista drsquoencapccedilalaments de mategraveria
Llista de descriptors lliures
Llista de paraules clau
Acceacutes lliure
Llenguatge lliure
Descriptors lliures
Observacioacute
Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social
La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en
temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes
del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el
terme existeixi No comprova com srsquoescriu Hi ha plena llibertat
21 Descriptors lliures al Web
Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes
meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges
(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-
xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre
marques de tota mena de productes
bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr
Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces
drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les
adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador
localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-
lament localment
bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies
sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de
fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix
altres funcionalitats de valor afegit als mapes
bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar
fotografies digitals que funciona com una xarxa social Eacutes un servei molt
utilitzat pels usuaris de blogs com a dipogravesit de fotos
bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos
clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut
amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats
poden pujar un nombre ilmiddotlimitat de viacutedeos
bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar
un blog fagravecilment
bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-
set milions de criacutetiques de productes drsquouna agravemplia gamma de categories
(electrogravenica moda salut etc) Les recomanacions provenen de persones
Llistes de descriptorslliures
Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-
dors nous a partir del grau de satisfaccioacute dels productes
22 Etiquetes i indexacioacute social
Cada usuari indexa els descriptors lliures que li semblen millors Milions
drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions
sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris
no hi ha descriptors predeterminats
Aquesta manera drsquoindexar no professional i sense llenguatge documental con-
trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el
tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes
les etiquetes assignades pels usuaris
Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans
pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen
sinoacute que tambeacute editen i descriuen els seus documents
Com diu Mari Carmen Marcos (2009)
ldquocadascuacute eacutes autor editor i documentalista alhorardquo
Terminologia
Trobarem diversos termes per a cada concepte
bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental
bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web
bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble
221 Etiquetes
James Surowiecki
James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)
Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte
digital com un web un viacutedeo o una foto per tal de descriurersquol en forma
i contingut
Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-
mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-
ra que van ser les primeres metadades encara que molt mancades drsquoestructura
Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-
zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun
rentaplats etc
Exemple
Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja
observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i
que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps
Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute
i posar el focus en el lector
Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-
tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple
Llenguatges_documentals)
Ros-Martin (2008) va classificar les etiquetes en aquests grups
1) Les basades en el contingut temagravetic
Exemple Capiacutetol_indexacioacute_social
2) Les basades en el context o emmagatzematge
Exemple Mogravedul3_cap2
3) Les subjectives
Exemple Uacutetil
4) Els atributs que no es derivin del contingut
Exemple UOC
5) Les drsquoorganitzacioacute o de recordatori de tasques
Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan
El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un
espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia
entre elles perograve que permeten la comparticioacute de categories entre usuaris Es
presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la
frequumlegravencia drsquouacutes
Separacioacute amb guioacute
Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Font imatge presa de Flickr
222 Indexacioacute social
Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors
seguumlents
1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges
controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-
solibles Els llenguatge documentals controlats no soacuten adequats en entorns en
quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos
tipus creades per un documentalista per lrsquoautor del document o per un robot
Amb les etiquetes podem afegir una altra via la de les metadades creades pels
usuaris (Mathes 2004)
2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques
drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la
documentacioacute com els internautes del Web
3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de
documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)
4) Permeten indexar documents com ara una imatge o un viacutedeo que no van
acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per
humans i no per robots
5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics
sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les
paraules realment meacutes uacutetils
6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-
macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de
la indexacioacute que han fet els altres
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Lectures recomanades
Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)
KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging
per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius
bases de dades i biblioteques per a donar valor afegit a les seves bases de dades
(per exemple la base de dades Complured de la Universidad Complutense de
Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris
i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus
Twitter i aixiacute donar meacutes visibilitat a la institucioacute
Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries
La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent
bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)
bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)
Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca
Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari
Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-
cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious
bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom
CRAIUBreferencia)
bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)
(httpdeliciouscombrelreferencia20)
bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom
bibliotecacps)
Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que
obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal
com queda recollit en la taula que hi ha a continuacioacute
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar
Tipus drsquoetiquetatge Benefici social Motivacioacute
Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo
Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social
Alta per benefici propi
Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet
Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats
Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup
Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky
Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa
Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal
Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant
Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident
Font basat en Javier Cantildeada (2006)
La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la
terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats
(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat
que un llenguatge documental controlat lrsquohagi recollit pregraveviament)
Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits
amb el mateix grau
bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos
amb poques etiquetes (exhaustivitat baixa)
bull Hi pot haver documents indexats per a moltes persones que ens dona-
ran enfocaments diferents sobre el mateix document o hi pot haver docu-
ments sense indexar
223 Folksonomia
La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-
janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-
fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-
litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un
vocabulari habitual No busquen la precisioacute
Les folksonomies tenen dues dimensions relacionades (Hassan Montero
2006) la personal i la colmiddotlectiva
(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
bull En la personal personomia cada usuari confecciona el seu propi iacutendex
drsquoetiquetes
bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a
generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta
molt interessant en indexacioacute perquegrave un document descrit per cent usu-
aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre
recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per
agregacioacute
Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008
i Weller 2007)
bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un
indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el
cas de Flickr
bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat
per diverses persones com eacutes el cas dels marcadors socials
La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes
com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en
quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes
(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat
de Yahoo
Reflexioacute
Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong
Milers de persones que indexen etiquetes representa un volum considerable
Eacutes evident que contenen molta informacioacute no solament sobre el contingut del
document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de
cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments
1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-
xement (Navoni i Gonzaacutelez 2009)
a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute
que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques
drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-
bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
b) Combinar les folksonomies amb sistemes controlats com ontologies Es
tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms
drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per
lrsquousuari
Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa
2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies
a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-
quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en
el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-
trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes
un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web
que permeten la indexacioacute social en dos grups els que permeten posar etique-
tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir
etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-
nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)
b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008
Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-
truccions per a indexar Apunten que les folksonomies han estat un canvi en
la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien
assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute
Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre
bull Lrsquouacutes de substantius quantitatius i no quantitatius
bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-
tre unitermes)
bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem
bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-
ma de lrsquoetiqueta
bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol
que teacute amb el concepte que srsquoetiqueta
bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-
ogragravefics provinents de llenguatges controlats com tesaurus) de temps de
forma de gegravenere
Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-
trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-
ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha
(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera
colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-
lari controlat
Observacioacute
Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)
23 La recuperacioacute amb descriptors lliures
La indexacioacute amb descriptors lliures que tothom ha fet de manera individual
(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan
milers de persones fan el mateix Malgrat els inconvenients de la manca de
control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el
moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute
Avantatges i inconvenients de la recuperacioacute amb descriptors lliures
Avantatges Inconvenients
1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia
1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-
raula tuya que nomeacutes teacute significat en Botagravenica)
2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau
En resum
La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
24 Activitats drsquoindexacioacute amb descriptors lliures
1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes
Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o
en proposariacuteeu de noves
2) Calculeu la taxa de coheregravencia entre indexadors a Delicious
3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-
xen
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
3 Indexacioacute automagravetica
La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un
algoritme (o programa) a un document electrogravenic per tal drsquoidentificar
els termes que puguin representar la mategraveria i ser usats com a termes
drsquoindexacioacute i recuperacioacute en un iacutendex o llista
La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa
meacutes viable per a indexar el Web
31 Com srsquoindexa automagraveticament
El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en
format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica
bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en
moviment (viacutedeo) que habitualment no va acompanyada de text
bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal
contrasenya) i tota la que es generi dinagravemicament (continguda en bases de
dades) el que coneixem com a internet invisible i que es calcula que supera
en cinc vegades el Web visible
Despreacutes es prenen tot un seguit de decisions
1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i
paraules clau o pot estar estructurat amb metadades tant per al contingut com
per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen
campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules
clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el
primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-
les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els
termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual
Indexacioacute automagravetica
La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau
Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF
2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-
tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-
ters que no aporten significat perograve que en determinats contextos poden ser
determinants
Observacioacute
LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Nombre N2 TV1
Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)
Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute
3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-
ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que
aporten poc valor de contingut Es coneixen com a llistes de paraules buides
en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-
mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han
drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents
a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-
raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja
que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-
gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions
tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots
els temps verbals
b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista
de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet
evitar dos inconvenients greus
bull Paraules amb significat que esdevenen buides
En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context
bull Paraules buides que esdevenen importants en la indexacioacute
En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides
c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-
mes
Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute
un paper important Els sistemes que els eviten disposen drsquoaltres eines per a
reduir significativament el nombre de paraules indexades com per exemple
tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem
dels marcadors discursius on veurem com paraules en principi buides ajuden
molt en la decisioacute de quins termes seleccionar
4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens
queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot
ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia
Observacioacute
LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)
Exemple de metadades
Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes
estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre
sequumlencial beacute alternant els megravetodes
Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-
magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons
eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides
(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser
seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-
den usar sols o en combinacioacute)
PLN
El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans
Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents
bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla
a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la
indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-
cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent
Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-
dexar amb la resta
b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat
de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de
ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar
les paraules clau entre els documents del fons per detectar quines soacuten realment
discriminatives
c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun
text es classifiquen segons la seva capacitat per a discriminar uns documents
dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el
modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells
termes que causen la magravexima separacioacute possible entre els documents drsquouna
colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana
entre els documents Per tant les millors paraules soacuten les que aconsegueixen la
distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute
especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades
a les frases i a grups de paraules
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades
de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que
permeten analitzar el text en tres nivells de profunditat paraula frase i text
Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en
diferents disciplines
Paraula Morfologia
Paraula dins la frase Sintaxi
Paraula dins el text Semagraventica
Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els
unitermes i els documents en quegrave apareixen Cada uniterme va associat a un
document i a una posicioacute dins el document (per exemple al tiacutetol)
6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de
les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-
dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute
de llenguatges controlats en tasques drsquoindexacioacute automagravetica
a)Elsmarcadorsdiscursius
El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament
un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-
teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del
robot de les relacions semagraventiques que es deriven de cinc grups de marcadors
i drsquoaquiacute inferir un coneixement
Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa
soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)
Exemples drsquoalguns marcadors discursius
Marcadors Exemples
Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors
Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve
Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas
Operadorsargumentadors En realitat en el fonsEn concret en particular
Marcadorsconversacionals Naturalment sens dubteVeritat Eh
Lectura complementagraveria
Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara
bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi
Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a
partir del document i controlaragrave millor les parts discursives (introduccioacute cos
conclusions) i les parts orgagraveniques del text
El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna
altra estaven ordenats amb els marcadors anteriors
Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats
Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)
Observacioacute
Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text
b)Laparticipacioacutedellenguatgedocumentalcontrolat
Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-
ment automagravetiques
El funcionament a grans trets consisteix en el fet que el robot detecta
les paraules meacutes significatives del document i les compara amb un vo-
cabulari controlat com un tesaurus o algun tipus de classificacioacute que a
partir de les seves referegravencies proposa un terme controlat per indexar
En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona
qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de
tres tipus
bull Categoritzacioacute basada en regles
bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars
bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-
na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de
documents exemplars
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant
un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual
tots els llenguatges documentals es beneficien
Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos
drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot
classificar de manera automagravetica o semiautomagravetica com es pot descompondre
un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com
es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada
el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per
suggerir etiquetes noves
De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals
meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els
tenim en format SKOS
bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)
bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)
bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-
web-servicesusing-api)
32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
321 Cercadors
Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir
podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos
o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-
ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica
Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules
contingudes en els textos de la seva base de dades Funciona beacute per a textos
perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia
Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes
que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave
seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google
i rebent respostes en temps real) En realitat els cercadors no rastregen el Web
en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i
creen els seus fitxers inversos que es van actualitzant
Exemple
Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva
base de dades del fitxer invers per aixograve la cerca es resol en segons
La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en
quin ordre presenta els milers de resultats que troba Les solucions han anat
evolucionant en el temps primer eren els documents que contenien els ter-
mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google
introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i
que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute
la qualitat externa que li atribueixen altres fonts
322 Recuperacioacute en un web estructurat
La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes
drsquoontologies i els motors drsquoinferegravencia
El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades
per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-
des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per
lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-
mules que altres usuaris hagin usat reiteradament
Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-
versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-
neres i en quegrave coexisteixen amb una anarquia organitzada de dades
entrellaccedilades (documents opinions relacions etc)
Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-
turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades
percamps
Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)
Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran
directament a la pregunta no oferiran un conjunt de documents en quegrave apa-
regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb
la resposta
Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-
sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-
cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques
parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar
Observacioacute
Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc
Estadiacutestiques de buscadors
Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan
cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa
cerques llargues i elaborades amb operadors booleans perograve els cercadors poden
emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per
aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la
pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve
el robot el controla
Exemple
Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums
2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna
en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-
lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-
ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els
termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-
guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix
el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes
Exemple
Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia
323 Web semagraventic indexacioacute i recuperacioacute
El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un
futur Web amb pagravegines organitzades estructurades i codificades de tal
manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar
a partir dels seus continguts
Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i
coherent de la informacioacute (Codina Pedraza 2007)
El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)
que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-
taforma des de la qual es treballi
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada
els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb
metadades (que poden haver estat generades manualment o automagraveticament)
se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els
termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies
Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave
en una combinacioacute de tots els sistemes actuals aixiacute
bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats
(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts
drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per
la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies
de la salut com ara MESH
bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop
meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-
logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-
nualment a partir drsquoontologies
bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del
Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-
da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades
Aquestes metadades al seu torn poden haver estat generades de manera
intelmiddotlectual o per un robot automagravetic
bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures
o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-
xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-
vestigant en robots que reconeguin formes simples en les imatges de tota
manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes
dels internautes
Un cas interessant els wikis i les ontologies
Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki
La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no
en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-
dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-
soldre problemes ben definits a partir drsquooperacions ben definides que
es duran a terme sobre dades ben definides (W3C 1999)
Webs recomanats
Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica
Bibliografia
Manuals i articles de revista
AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles
AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles
Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn
Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt
Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt
Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea
Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea
Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea
Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)
Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia
Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama
Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)
Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)
Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)
Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library
Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt
Recommended