415

Click here to load reader

Tesis Madrid - Tesauros

Embed Size (px)

Citation preview

  • 7/13/2019 Tesis Madrid - Tesauros

    1/415

    UNIVERSIDAD COMPLUTENSE DE MADRID

    FACULTAD DE FILOLOGA

    Departamento de Filologa Romnicas, Eslavas y Lingstica General

    LA CONSTRUCCIN DE TESAUROSACADMICOS: UN MODELO GENERAL Y UN

    MTODO INDUCTIVO CON APLICACIN AL E-LEARNING.

    MEMORIA PARA OPTAR AL GRADO DE DOCTOR

    PRESENTADA POR

    Ana M. Fernndez-Pampilln Cesteros

    Bajo la direccin de los doctores

    Covadonga Lpez Alonso

    Alfredo Fernndez-Valmayor Crespo

    Madrid, 2010

    ISBN: 978-84-693-6551-9 Ana M. Fernndez-Pampilln Cesteros, 2010

  • 7/13/2019 Tesis Madrid - Tesauros

    2/415

    UNIVERSIDAD COMPLUTENSE DE MADRIDFACULTAD DE FILOLOGA

    Departamento de Filologa Romnica, Eslava y Lingstica General

    rea de Lingstica General

    La construccin de tesauros acadmicos. Un

    modelo general y un mtodo inductivo con

    aplicacin al e-learning

    Memoria para optar al grado de doctor presentada por:

    Ana M. Fernndez-Pampilln Cesteros

    Dirigida por los doctores:

    Covadonga Lpez Alonso

    Alfredo Fernndez-Valmayor Crespo

    Noviembre 2009

  • 7/13/2019 Tesis Madrid - Tesauros

    3/415

  • 7/13/2019 Tesis Madrid - Tesauros

    4/415

    A mi marido, Miguel

    A mis hijos Miguel y Javier

    A mi Familia

  • 7/13/2019 Tesis Madrid - Tesauros

    5/415

  • 7/13/2019 Tesis Madrid - Tesauros

    6/415

    Agradecimientos

    Durante todos estos aos de trabajo de tesis he tenido firmes apoyos sin los que

    difcilmente habra podido empezar y terminarlo. El primero de ellos ha sido el de mis

    directores, Covadonga Lpez Alonso y Alfredo Fernndez-Valmayor, a quienes debo la

    mayor parte de lo que he aprendido como investigadora y a quienes agradezco no slo su

    sabia y experimentada gua sino, tambin, la confianza permanente y el empuje en los

    momentos difciles.

    Tambin he contado con el apoyo de mis compaeros y colegas en la Universidad: Mara

    Matesanz, compaera de investigacin y amiga desde el ao 1996, fecha en la que nos

    incorporamos a la Universidad; le agradezco, sobre todo, sus enseanzas lexicogrficas,

    lingsticas y su sereno apoyo humano; Elena de Miguel y Olimpia Prez, antiguas alumnas

    y ahora colegas, que me han ayudado con las clases, la memoria y otras mil cosas ms;

    tambin, mi ms profundo agradecimiento a mis compaeros en la Facultad de Informtica

    Jos Luis Sierra, Antonio Navarro, Antonio Sarasa, Carmen Fernndez, Luis Hernndez

    que me han invitado a formar parte de sus equipos y proyectos de investigacin, que han

    impulsado y enriquecido mi investigacin, y me han proporcionado apoyo financiero; mis

    compaeros de la oficina del Campus Virtual: Jess Cristbal, Jorge Merino, Miguel

    Peralta, Yoli Roldn, siempre dispuestos a ayudarme con las mltiples dudas y problemastcnicos y con los tuve la oportunidad de trabajar para crear el Campus Virtual de la UCM

    bajo la direccin de Alfredo Fernndez-Valmayor; David Carabantes, a quien agradezco

    que me haya ayudado a salvar los obstculos del final de esta carrera; Sara Olmos, artista y

    diseadora grfica, a quien doy las gracias por el precioso diseo de la portada de la tesis y

    por el regalo de su disponibilidad; mis compaeros del Comit de Coordinacin del

    Campus Virtual, con los que he compartido aos de experiencia y trabajo en la enseanza y

    aprendizaje virtual.

    Quiero expresar mi sincero agradecimiento al Decano de la Facultad de Filologa, Dmaso

    Lpez, y a mis compaeros del equipo decanal, que han apoyado firmemente mi dedicacin

    a la tesis; al personal del equipo de Informtica y Teconologas de la Facultad, que trabajan

    o han trabajado conmigo estos ltimos aos y que me han cubierto en muchos momentos

    para que pudiera tener huecos de trabajo dedicado a la tesis. Tambin, mi agradecimiento

    iii

  • 7/13/2019 Tesis Madrid - Tesauros

    7/415

    a Amelia Sanz, compaera incansable en el Vicedecanato de Tecnologas; a Jorge Ars,

    compaero actual que con gran paciencia me ha sobrellevado en estos ltimos meses de

    tesis; a mis compaeros de titulacin, de Departamento, colegas y personal de la Facultad

    que me han ayudado a quitar algunas de las piedras que han aparecido en el camino. Son

    muchas las personas que, de una u otra forma, me han brindado su apoyo y que han

    facilitado con su profesionalidad y amabilidad mi trabajo de investigacin.

    Esta investigacin se ha llevado a cabo dentro de los proyectos de investigacin que han

    enmarcado y financiado mi trabajo investigador: Objetos de aprendizaje en el Campus

    Virtual (OdA-Virtual) (TIN2005-08788-C04-01)1; Un modelo hipermedia modular para

    la enseanza de la Lingstica General (TIN2005-08788-C04-03)2; Arquitecturas

    Avanzadas en Campus Virtuales (AACV) (TIN2009-14317-C03-01/TSI)3; Integracin

    de plataformas y servicios en el campus virtual (IPS-CV) (TIN2008-06708-C03-01/TSI)4;

    Tecnologas de Marcado Descriptivo XML- como base a un Proceso de Desarrollo de

    Software Guiado por Lenguajes (UCM-Santander Central Hispano)5; y Glosario

    interactivo para el aprendizaje de conocimientos jurdicos en el campus virtual abierto

    (PIMCD 66/2008)6.

    He podido contar, adems, con el apoyo de mis amigos y familia; mis amigos que, sin

    perder la paciencia, han seguido mi trabajo, me han ayudado con los nios e, incluso, se

    han encargado de organizar las pocas veladas que hemos podido pasar juntos; Gloria ha

    sido mi apoyo en casa durante todas estas tardes de trabajo

    Finalmente, quiero dar las gracias a mi familia, a mis padres, mis padres polticos; mis

    abuelos (que ya no estn), mis hermanos, especialmente Enrique quien, con su saber y

    experiencia en bases de datos, me ha aportado valiossimas ideas. Ellos me han soportado

    con admirable paciencia durante estos aos de tesis, se han preocupado y ocupado de mis

    1Duracin:1/Enero/2006 hasta 1/Junio/2009. Investigador responsable: Afredo Fernndez-Valmayor.

    2Investigadora responsable: Covadonga Lpez Alonso.3 Entidades participantes: Universidad Complutense de Madrid (Facultad de Informtica), Universidad

    Nacional de Educacin a Distancia (Facultad de Informtica). Duracin, desde: 01/Enero/10 a:

    31/Diciembre/12. Investigador responsable: Antonio Navarro Martn.4 Entidades participantes: Universidad Complutense de Madrid (Facultad de Informtica). Duracin:

    01/Enero/09 a: 31/Diciembre/09. Investigador responsable: Antonio Navarro Martn.5Entidades participantes: Facultad de Filologa de la UCM, Facultad de Informtica UCM, Duracin desde:

    1/Enero/2008 hasta: 31/Diciembre/2009. Investigador responsable: Jos Luis Sierra Rodrguez.6Entidades participantes: Facultad de Filologa; Facultad de Derecho; Facultad de Ciencias Fsicas de laUCM, Duracin desde 1/2/2008 a 31/12/2008.

    iv

  • 7/13/2019 Tesis Madrid - Tesauros

    8/415

    tareas familiares, regalndome todo el tiempo que he necesitado (y ha sido mucho) para

    hacer este trabajo; a mi marido, Miguel, y mis hijos, Miguel y Javier, les doy las gracias,

    adems, por haber renunciado a tantas horas juntos, por haberlo comprendido e, incluso,

    haber hecho de este trabajo de tesis un proyecto familiar ms.

    A todos, mi ms sincero agradecimiento.

    v

  • 7/13/2019 Tesis Madrid - Tesauros

    9/415

    vi

  • 7/13/2019 Tesis Madrid - Tesauros

    10/415

    ndice General

    Resumen ..........................................................................................................................xiAbstract ........................................................................................................................ xiii

    Captulo 1. Marco de la tesis ............................................................................................1

    1.1. Panorama general............................................................................................11.2. Introduccin....................................................................................................21.3. Motivacin......................................................................................................71.4. Objetivos e hiptesis de trabajo ....................................................................10

    1.4.1. Objetivos...........................................................................................101.4.2. Hiptesis ...........................................................................................11

    1.5. Metodologa de trabajo .................................................................................121.6. Estructura de la memoria ..............................................................................13

    Captulo 2. Los vocabularios para la explotacin de recursos didcticos digitalizados.17

    2.1. Introduccin..................................................................................................182.2. Definiciones del trmino vocabulario...........................................................202.3. El contenido semntico de los vocabularios.................................................262.4. Los vocabularios en los sistemas de recuperacin de la informacin ..........30

    2.4.1. El vocabulario en la indexacin........................................................332.4.2. El vocabulario en la bsqueda y navegacin....................................39

    2.5. Los vocabularios en la explotacin didctica de recursos digitalizados.......422.6. Tipos de vocabularios para la explotacin de recursos didcticos

    digitalizados................................................................................................47

    2.6.1. Vocabulario simple o lista de valores...............................................482.6.2. Clasificaciones y taxonomas ...........................................................492.6.3. Tesauros............................................................................................522.6.4. Ontologas.........................................................................................582.6.5. Glosarios y diccionarios ...................................................................63

    2.7. Resumen y conclusiones del captulo...........................................................66

    Captulo 3.Los entornos virtuales de enseanza y aprendizaje e-learning ...................69

    3.1. Las plataformas e-learningy los espacios de aprendizaje............................703.2. El uso de las plataformas e-learningen los campus virtuales......................82

    3.2.1. La forma de los campus virtuales.....................................................833.2.1.1. Modelo centrado en la tecnologa ........................................843.2.1.2. Modelos centrados en la institucin.....................................853.2.1.3. Modelo centrado en el estudiante .........................................863.2.1.4. Modelo centrado en el profesor............................................87

    3.2.2 La arquitectura de un campus virtual ................................................883.2.3. El uso didctico del campus virtual..................................................91

    3.2.3.1. El uso didctico del campus virtual desde la experiencia ....923.2.3.2. El uso didctico y la evolucin del e-learning .....................95

    3.3. La aportacin de los tesauros en el contexto del e-learning.........................973.3.1. Un ejemplo de clasificacin de recursos educativos con metadatos

    LOM y taxonomas o tesauros.........................................................1043.4 Resumen y conclusiones del captulo ..........................................................110

    vii

  • 7/13/2019 Tesis Madrid - Tesauros

    11/415

    Captulo 4.El modelo de los estndares de construccin de tesauros de explotacin .113

    4.1. Introduccin a los modelo de datos ............................................................1134.2. Caractersticas y requisitos de los tesauros de explotacin ........................117

    4.2.1. Caractersticas.................................................................................1174.2.2. Requisitos .......................................................................................120

    4.3. Los modelos de datos estndar para la construccin de tesauros deexplotacin: el estndar ANSI-NISO Z39.19...........................................1224.3.1. El contenido del tesauro .................................................................124

    4.3.1.1. Trminos.............................................................................1244.3.1.2. Categoras...........................................................................1254.3.1.3. Relaciones semnticas........................................................1264.3.1.4. Objetos de contenido..........................................................1304.3.1.5. ndices ................................................................................131

    4.3.2. Acceso al contenido........................................................................1314.3.3. Operaciones de modificacin .........................................................135

    4.4. La aplicacin de los modelos alfabtico y sistemtico de los estndares a la construccin de tesauros...........................................................................1374.4.1. El modelo alfabtico.......................................................................1384.4.2. El modelo sistemtico.....................................................................140

    4.5. Resumen y conclusiones del captulo.........................................................147

    Captulo 5. Los modelos informticos para la construccin de tesauros deexplotacin ........................................................................................................151

    5.1. La informatizacin de los tesauros .............................................................1515.2. Modelos de datos conceptuales ..................................................................156

    5.2.1. Modelos basados en grafos.............................................................1565.2.1.1. Redes semnticas................................................................1615.2.1.2. Hipertexto...........................................................................165

    5.2.2. Modelos Entidad-Relacin y Entidad Relacin Extendido ............1685.2.3. Modelo Orientado a Objetos ..........................................................174

    5.3. Modelos de implementacin de datos.........................................................1785.3.1. Modelo relacional...........................................................................1785.3.2. Modelos basados en lenguajes de marcado XML ..........................186

    5.3.2.1. Modelos basados en el Resource Description Framework(RDF) .....................................................................................191

    - El modelo RDF/RDFS.........................................................191- El modelo Ontology Web Language (OWL) ......................198- El modelo Simple Knowledge Organization (SKOS-Core)199- Consideraciones finales sobre los modelos basados en RDF200

    5.3.2.2. Modelos procedentes del e-learning..................................202- IMS Vocabulary Definition Exchange (IMS VDEX).........202- CEN Exchange of Vocabularies (CEN XVD) ....................205- Consideraciones finales sobre modelos procedentes del e-

    learning................................................................................2095.4. Resumen y conclusiones del captulo .........................................................210

    viii

  • 7/13/2019 Tesis Madrid - Tesauros

    12/415

    Captulo 6.El modelo higraph lxico para la construccin de los tesauros .................213

    6.1. El modelo matemtico y visual de los higraphs .........................................2146.1.1. Sintaxis ...........................................................................................2146.1.2. Semntica .......................................................................................218

    6.2. El tesauro como un sistema autnomo de signos .......................................2196.3. El modelo de higraph lxico para tesauros .................................................221

    6.3.1. Sintaxis ...........................................................................................2226.3.2 Semntica ........................................................................................225

    6.3.2.1. El clculo del valor del significado de los trminos...........2266.3.2.2. El valor del significado de las categoras ...........................229

    6.4. Implementacin del modelo HL .................................................................2336.4.1. El uso de software de gestin de higraphs para la construccin y

    manipulacin automtica de los HL................................................2336.4.2. El uso del modelo de datos relacional para la construccin y gestin

    automtica de los HL.......................................................................234

    6.4.2.1. Diseo del HL relacional....................................................2356.4.2.2. Ejemplo ..............................................................................2426.5. Resumen y conclusiones del captulo .........................................................245

    Captulo 7.Una metodologa para la construccin inductiva de tesauros acadmicos deexplotacin ....................................................................................................................247

    7.1. Mtodos de construccin de tesauros .........................................................2487.1.1. El proceso de construccin .............................................................2487.1.2. La construccin automtica............................................................258

    7.2. Una nueva metodologa para la construccin de tesauros acadmicos deexplotacin ...............................................................................................259

    7.2.1. Justificacin y premisas..................................................................2597.2.2. Descripcin del mtodo ..................................................................262

    7.3. Resumen y conclusiones del captulo.........................................................275

    Captulo 8.Casos prcticos ..........................................................................................277

    8.1. La especializacin de tesauros generales....................................................2778.1.1. Introduccin....................................................................................2778.1.2. Utilizacin del tesauro de referencia ETB en espaol....................2788.1.3. Aplicacin del mtodo....................................................................2818.1.4. Resultados y discusin ...................................................................287

    8.2. La reconstruccin, como tesauro, del ndice temtico de un museo virtualacadmico.................................................................................................2908.2.1. Introduccin....................................................................................2908.2.2. El proceso de ingeniera inversa: identificacin, extraccin e

    interpretacin de estructuras-t .........................................................2938.2.3. El proceso de reconstruccin del ndice como tesauro: insercin de

    las estructuras HL ............................................................................3018.2.4. Resultados.......................................................................................3088.2.5. Discusin ........................................................................................312

    8.3. La creacin de un tesauro en elglosario explicativoe-derecho.................3148.3.1. Introduccin....................................................................................314

    8.3.2. Anlisis del tesauro del glosario e-derecho....................................3188.3.3. La construccin del tesauro e-derecho ...........................................319

    ix

  • 7/13/2019 Tesis Madrid - Tesauros

    13/415

    x

    8.3.4. Resultados.......................................................................................3258.3.5. Discusin ........................................................................................327

    8.4. Resumen y Conclusiones del captulo ........................................................328

    Captulo 9.Recapitulacin, conclusiones finales y lneas de trabajo futuro ................331

    9.1. Recapitulacin ............................................................................................3319.1.1. Objeto de estudio ............................................................................3319.1.2. Cuestiones de investigacin ...........................................................3329.1.3. Hiptesis de trabajo ........................................................................3339.1.4. Anlisis crtico del estado de la cuestin........................................333

    9.1.4.1. Naturaleza y aplicaciones de los tesauros de explotacin..3349.1.4.2. Contexto de trabajo acadmico del e-learning...................3369.1.4.3. Estructuras-t........................................................................3379.1.4.4. Modelos para la construccin de tesauros ..........................3389.1.4.5. Mtodos de construccin de tesauros.................................345

    9.1.5. Conclusiones parciales del anlisis.................................................3489.1.6. Mtodo de demostracin ................................................................3509.1.7. Recogida de datos ...........................................................................3519.1.8. El modelo propuesto.......................................................................3529.1.9. El mtodo propuesto.......................................................................3549.1.10. La experimentacin ......................................................................356

    9.1.10.1. La especializacin de tesauros generales .........................3569.1.10.2. La reconstruccin, como tesauro, del ndice temtico de un

    museo virtual acadmico........................................................3579.1.10.3. La creacin de un tesauro para el glosario explicativo e-

    derecho...................................................................................358

    9.1.10.4. Evaluacin de los tesauros resultado................................3599.2. Conclusiones finales ...................................................................................3619.3. Lneas de trabajo futuro ..............................................................................364

    Bibliografa...................................................................................................................367

    Apndice A. ndice de tesauros ..................................................................................395

    Apndice B. Esquema relacional SQL de un higraph lxico...................................399

  • 7/13/2019 Tesis Madrid - Tesauros

    14/415

    Resumen

    Este trabajo puede catalogarse como una contribucin dentro de la Lingstica

    Computacional a la Tecnologa Educativa, concretamente al e-learning. El objetivo es

    facilitar la construccin de los tesauros acadmicos de explotacin en formato electrnico

    y, por ello, estos tesauros hay que entenderlos como sistemas lingsticos para expresar y

    organizar el conocimiento de un dominio. En ellos se utilizan trminos y relaciones

    semnticas del mismo lenguaje especfico usado en los materiales o las colecciones de

    recursos docentes o de investigacin creados por y para la actividad acadmica, siempre en

    entornos electrnicos de enseanza y aprendizaje. El propsito de estos tesauros es: i)

    ayudar al profesor a organizar conceptualmente sus materiales, haciendo ms fcil su

    localizacin, seleccin, y uso; y ii) ayudar al alumno a entender y aprender los conceptos y

    a usar de forma adecuada la lengua de especialidad de la disciplina o rea de conocimiento

    que cubra el tesauro.

    Nuestra propuesta es un modelo dinmico formal que representa, mediante estructuras

    relacionales, el contenido de los tesauros. Con l se da soporte a un mtodo de construccin

    incremental e inductivo que genera los tesauros como parte del proceso de creacin de

    materiales didcticos o de investigacin, reproduciendo el modo en que los autores

    organizan y describen estos materiales. El modelo y mtodo Higraph Lxico proporcionanel fundamento para la creacin de aplicaciones informticas de carcter general que sirvan

    para que los profesores, investigadores y estudiantes puedan crear, visualizar, manipular y

    actualizar automticamente sus tesauros acadmicos de explotacin.

    xi

  • 7/13/2019 Tesis Madrid - Tesauros

    15/415

    xii

  • 7/13/2019 Tesis Madrid - Tesauros

    16/415

    Abstract

    This work can be considered as a contribution, within Computational Linguistics, to

    Educational Technology, specifically to e-learning. The aim is to facilitate theconstruction of academic thesauri for electronic exploitation. These thesauri are,

    therefore, to be understood as linguistic systems for the expression and organization of a

    domain's knowledge. They use the same terms and semantic relations as the language

    found in materials or series of teaching and research resources created by and for

    academic activity, always within the realm of electronic teaching and learning. The aim

    of these thesauri is to i) help the teacher organize didactic as well as research

    materials conceptually, thus facilitating the localization, selection and use thereof; and

    ii) help the student understand and learn concepts and use, accurately, the language

    specific to the discipline or field of knowledge covered by the thesaurus.

    Our proposal is a dynamic formal model which represents, by means of relational

    structures,the highly intertwined and changeable contents of thesauri. It gives supportto an incremental and inductive construction method which generates thesauri as part of

    the creation process of teaching and research materials and which replicates the way

    authors organize and describe those materials. The HL model and method provides the

    foundation for the creation of general computer applications which may help teachers,

    researchers and students automatically build, visualize and update their thesauri for

    academic exploitation.

    xiii

  • 7/13/2019 Tesis Madrid - Tesauros

    17/415

    xiv

  • 7/13/2019 Tesis Madrid - Tesauros

    18/415

    Captulo1

    Marco de la tesis1.1 Panorama general

    El presente trabajo se ha desarrollado dentro de un Proyecto de Investigacin y

    Desarrollo Tecnolgico financiado por el Ministerio de Educacin y Ciencia con ttulo

    Objetos de aprendizaje en el Campus Virtual (OdA-Virtual) (TIN2005-08788-C04-

    01)1 en el que han participado las Facultades de Informtica, Filologa, y Geografa e

    Historia. El objetivo del proyecto, recientemente terminado, era desarrollar los procesos,

    metodologas, plataformas y arquitecturas que den soporte a la participacin de

    profesores y alumnos en la construccin y utilizacin de Objetos de Aprendizaje (OdA)

    en el entorno de un campus virtual. Ya desde el inicio del proyecto se haba detectado la

    necesidad de disponer de un nuevo tipo de tesauros acadmicos de explotacin para la

    clasificacin, indexacin y bsqueda de los OdA que los profesores creaban y utilizaban

    de forma colaborativa en los entornos de enseanza y aprendizaje virtuales. Esta

    necesidad motiv este trabajo de tesis. Los trabajos de investigacin interdisciplinares

    (Informtica, Lingstica e Historia) de los tres subproyectos dieron el soporte y marco

    de aplicacin necesario para el planteamiento y desarrollo de esta tesis:

    1) el subproyecto de Informtica tena como objetivo desarrollar la base tericasobre la que fundamentar la definicin y construccin de los procesos,

    metodologas y plataformas que deben constituir el entorno que permita a

    profesores y alumnos elaborar OdA;

    2) el subproyecto de lingstica, Un modelo hipermedia modular para laenseanza de la Lingstica General (TIN2005-08788-C04-03) 2, tena como

    objetivo bsico el desarrollo de una metodologa modular que permita analizar y

    estructurar la informacin contenida en los OdA en el marco de un campus

    virtual, para apoyar la enseanza y la investigacin; y

    3) el subproyecto de Geografa e Historia, Estudio y construccin de ObjetosVirtuales en Geografa e Historia (TIN2005-08788-C04-04)3 tena como

    objetivo estudiar la construccin de OdA que se puedan componer y que

    1

    Duracin:1/Enero/2006 hasta 1/Junio/2009. Investigador responsable: Afredo Fernndez-Valmayor.2Investigadora responsable: Covadonga Lpez Alonso.

    3Investigadora responsable: Mercedes Guinea Bueno.

    1

  • 7/13/2019 Tesis Madrid - Tesauros

    19/415

    integren los trabajos de investigacin y el material docente generado por los

    profesores de esta rea de conocimiento dentro del marco del Campus Virtual de

    la UCM. Con este fin, este grupo llev a cabo una lnea de investigacin basada

    en la reutilizacin del material grfico, documental y musestico existente en el

    Departamento de Historia de Amrica II (museo, laboratorio, archivos, informes

    de investigacin y/o notas de clase) y en los otros centros de investigacin

    participantes (CNRS y University of Texas en San Antonio) para la realizacin y

    distribucin en la web de estos OdA.

    Posteriormente, otros proyectos han permitido, y estn permitiendo, aplicar los

    resultados obtenidos en esta investigacin, aportando una experiencia valiosa para

    corregir y mejorar de forma incremental la propuesta inicial: a) Arquitecturas

    Avanzadas en Campus Virtuales (AACV), financiado por el Ministerio de Ciencia y

    Tecnologa (TIN2009-14317-C03-01/TSI)4; b) Integracin de plataformas y servicios

    en el campus virtual (IPS-CV), financiado por el Ministerio de Ciencia y Tecnologa

    (TIN2008-06708-C03-01/TSI)5; c) Tecnologas de Marcado Descriptivo XML- como

    base a un Proceso de Desarrollo de Software Guiado por Lenguajes, financiado por

    UCM-Santander Central Hispano6; y d) Glosario interactivo para el aprendizaje de

    conocimientos jurdicos en el campus virtual abierto (PIMCD 66/2008), financiado por

    el Vicerrectorado de Desarrollo y Calidad de la Docencia de la UCM7.

    A todos ellos nuestro agradecimiento.

    1.2. Introduccin

    En la actividad universitaria surge la necesidad de expresar y organizar el conocimiento

    y las creaciones intelectuales desarrolladas o difundidas por los profesores,

    investigadores y estudiantes en entornos electrnicos de formacin universitaria, los

    campus virtuales, con este tipo de repertorios que denominaremos tesauros acadmicosde explotacin.

    4Entidades participantes: Universidad Complutense de Madrid (Facultad de Informtica), UniversidadNacional de Educacin a Distancia (Facultad de Informtica). Duracin, desde: 01/Enero/10 a:31/Diciembre/12. Investigador responsable: Antonio Navarro Martn.5 Entidades participantes: Universidad Complutense de Madrid (Facultad de Informtica). Duracin:

    01/Enero/09 a: 31/Diciembre/09. Investigador responsable: Antonio Navarro Martn.6 Entidades participantes: Facultad de Filologa de la UCM, Facultad de Informtica UCM, Duracin

    desde: 1/Enero/2008 hasta: 31/Diciembre/2009. Investigador responsable: Jos Luis Sierra Rodrguez.7Entidades participantes: Facultad de Filologa de la UCM (Area de Lingstica General), Facultad de

    Derecho, Facultad de Ciencias Fsicas. Duracin desde: 1/Febrero/2008 hasta:31/Diciembre/2008.Investigador responsable: Mara de la Sierra Flores Doa. Coordinadora delsubproyecto de informatizacin: Ana Fernndez-Pampilln.

    2

  • 7/13/2019 Tesis Madrid - Tesauros

    20/415

    Un tesauroes un vocabulario limitado, generalmente de palabras especializadas, dotado

    de sus correspondencias semnticas, y elegido para que represente las nociones que

    figuran en un texto dado para su empleo en informtica y en el establecimiento de

    ndices (Martnez de Sousa, 1995). Los trminos de un tesauro estn formalmente

    organizados de forma que se hacen explcitas las relaciones entre los conceptos, por

    ejemplo, de hiponimia-hiperonimia. Las relaciones estndar entre los trminos de un

    tesauro son las relaciones semnticas de equivalencia8, jerrquicas y asociativas, y se

    visualizan mediante marcadores estndares y recprocos (ANSI/NISO Z39.19, 2005).

    Los tesauros son herramientas lingsticas que sirven para ayudar a las personas o a las

    mquinas a encontrar los trminos ms apropiados para expresar una idea (Aitchinson y

    Clarke, 2004). Sus aplicaciones ms frecuentes son de tipo (i) lingstico, (ii)

    documentalista, (iii) informtico y (iv) acadmico.

    i) Desde el punto de vista lingstico, el tesauro se concibe como una herramientade soporte para el escritor que le ayuda a encontrar los trminos ms adecuados

    a la idea que quiere expresar en sus composiciones literarias. Un ejemplo

    paradigmtico es el tesauro de Roget9, actualmente disponible en formato papel

    y electrnico10. El tesauro de Roget no organiza los trminos alfabticamente

    como en otros vocabularios tradicionales, diccionarios, glosarios, enciclopedias,

    sino que se agrupan de forma sistemtica segn los conceptos que expresan. De

    esta forma el usuario puede ir desde la idea a la palabra; desde la palabra a la

    idea (Casares, 1959).

    La estrategia de bsqueda en cualquier tesauro es similar a la de un diccionario

    ideolgico11 cuando se quiere encontrar el trmino ms adecuado a una idea:

    primero, debe expresarse con toda claridad el problema, o la cuestin, cuya

    solucin interesa buscar con algn trmino o trminos; segundo, si la

    organizacin sistemtica del tesauro o del diccionario ideolgico- es correcta a

    partir del trmino o trminos que expresan el problema o bien se encuentra la

    8 En los estndares de tesauros para la Recuperacin de Informacin no se incluyen relaciones de

    oposicin ni de homografa.9Thesaurus of English Words and PhrasesClassified and Arranged so as to Facilitate the Expression of

    Ideas and Assist in Literary Composition, de Peter Mark Roget publicado en 1852.10

    Se puede consultar una versin en lnea en: http://poets.notredame.ac.jp/Roget/contents.html11

    En la lexicografa espaola, el diccionario ideolgico es un tipo de diccionario onomasiolgico -parte

    de los conceptos-, cuyos lemas estn ordenados alfabticamente y encabezan un grupo de palabras que

    corresponden a un campo lxico determinado (Haensch, 1997: 67-68). En lengua inglesa, se entiende pordiccionario ideolgico un diccionario clasificado por temas. En lexicografa francesa, el diccionarioideolgico se corresponde con el diccionario analgico.

    3

    http://poets.notredame.ac.jp/Roget/contents.htmlhttp://poets.notredame.ac.jp/Roget/contents.html
  • 7/13/2019 Tesis Madrid - Tesauros

    21/415

    serie de trminos asociados a la consulta o bien se ir explorando la red del

    tesauro guindose por las clasificaciones y las relaciones semnticas que

    conectan los trminos. Las series de trminos pueden incluso cruzarse cuando

    comparten sus significados. Para precisar el significado, los trminos pueden

    incluir notas de mbito12 y tambin cualificadores13 porque en un tesauro es

    primordial que cada trmino represente un solo concepto. La bsqueda puede

    hacerse en profundidad, siguiendo las relaciones de tipo hiponimia-hiperonimia,

    o en anchura, siguiendo las relaciones de tipo asociativo.

    En el caso inverso, cuando se quiere encontrar el significado de una palabra en

    el tesauro, la forma de proceder es diferente de la habitual en otras obras

    lexicogrficas que incluyen definiciones de los trminos. En los tesauros el

    significado de un trmino viene determinado por las relaciones con los otros

    trminos y por las notas de mbito, si existen. El tesauro presenta, a travs de

    su estructura, una serie de relaciones que establece en general el contexto de

    "significado" de un trmino dado, con especial referencia a trminos de

    connotacin ms amplia o ms restringida. Normalmente esto basta para indicar

    la interpretacin que se hace de un trmino. A veces, cuando un trmino se

    interpreta vagamente en el uso comn o cuando diferentes diccionarios le

    asignan significados diversos, es necesario extender la nota de aplicacin hasta

    que constituya una definicin completa (UNE 50106, 1990). El procedimiento

    consiste, en este caso, por lo tanto, en explorar el tesauro a partir de la palabra

    buscada: en primer lugar, se consultan los trminos sinnimos y las notas de

    mbito, si existen; en segundo lugar, los hipernimos e hipnimos cercanos; y

    en tercero, los trminos asociados.

    ii) En el contexto de trabajo del documentalista, el tesauro es un lenguajedocumental. Un lenguaje documental es un lenguaje controlado que se usa para

    representar la informacin contenida en un conjunto de documentos, con el fin

    de facilitar su almacenamiento y su posterior recuperacin. El lenguaje se

    controla con reglas que normalizan la forma de los trminos en tres niveles: en el

    nivel morfolgico, definiendo la categora gramatical o la flexin; en el nivel

    12 Es una explicacin o definicin de un trmino. Cuando el tesauro se utiliza para la indexacin dedocumentos o de cualquier objeto con contenido informacional, las notas de mbito sirven para indicar el

    uso que se le quiere dar en ese lenguaje de indexacin.13Un cualificador es otro trmino situado entre parntesis que se aade al trmino para desambiguar su

    significado, indicando, por ejemplo, el rea temtica respecto de la cual debe interpretarse.

    4

  • 7/13/2019 Tesis Madrid - Tesauros

    22/415

    sintctico, definiendo las combinaciones de trminos, llamada coordinacin; y

    en el nivel semntico, restringiendo el significado de los trminos con las notas

    de mbito y los cualificadotes para que un trmino slo represente un concepto y

    un concepto slo sea representado por un trmino. El objetivo es describir de

    forma precisa el contenido de los documentos, evitando la ambigedad del

    lenguaje natural. El tesauro es un tipo de lenguaje documental postcoordinado,

    que permite la identificacin de los documentos utilizando cualquier

    combinacin de trminos del tesauro, no necesariamente prefijada como ocurre

    con los lenguajesprecoordinados- con el fin de representar de forma flexible los

    documentos mediante la yuxtaposicin de conceptos. Aqu radica uno de los

    puntos fuertes de los tesauros, respecto de otros tipos de lenguajes documentales

    precoordinados como las clasificaciones, proporcionan una descripcin flexible

    y exhaustiva del contenido temtico de los documentos que incrementa, con los

    mltiples puntos de vista que proporcionan las combinaciones de trminos no

    prefijadas, las posibilidades de recuperacin (Laguens, 2006).

    iii)Este uso de los tesauros como lenguajes documentales se extiende tambin alcontexto informtico de la Recuperacin de Informacin14. Larecuperacin de

    informacin (RI) es una rama multidisciplinar15que estudia los mecanismos de

    representacin, almacenamiento, organizacin y acceso a la informacin en

    colecciones de documentos, en los contenidos de los documentos, en bases de

    datos o en la Web (Baeza-Yates y Ribeiro-Neto, 1999). Los tesauros se

    incorporan en los sistemas de RI desde los aos cincuenta con la idea de

    transformar los conceptos y sus relaciones que se expresan en los documentos,

    en un lenguaje ms regularizado, con los sinnimos controlados y las estructuras

    morfosintcticas simplificadas (Brownson, 1957)16. De esta forma, la persona -

    o aplicacin software- que indexa y la que busca utilizan un mismo lenguaje.

    Incluso cuando en la bsqueda de informacin se puede utilizar texto libre, el

    tesauro es til para extender los trminos de consulta con sinnimos o

    hipernimos, de forma que aumenten las posibilidades de recuperar lo que se

    desea. Adems, si se necesita restringir la bsqueda para aumentar la precisin

    14El tesauro fue utilizado por primera vez para la recuperacin de informacin en 1956 por Peter Luhn de

    IBM (Aitchinson y Clarke, 2004).15 Algunas disciplinas involucradas son la Informtica, la Psicologa cognitiva, la Lingstica y la

    Biblioteconoma y la Documentacin.16Este texto es una de una de las primeras referencias al uso de los tesauros como herramientas de apoyo

    a la RI. Tomado de: (Aitchinson y Clarke, 2004; Gil, 1998a).

    5

  • 7/13/2019 Tesis Madrid - Tesauros

    23/415

    de los resultados- el tesauro proporciona los hipnimos de los trminos de

    bsqueda. En definitiva, desde el punto de vista de la RI, el tesauro se utiliza

    como una herramienta de apoyo para indexar, clasificar, buscar, o seleccionar

    informacin (Lancaster, 1986).

    La Web es, actualmente, el soporte universal para la produccin,

    almacenamiento y difusin de la informacin. Este soporte, sin embargo, carece

    de mecanismos de carcter general para organizar y describir de forma coherente

    el gran volumen de informacin (Berners-Lee et al., 2001), por lo que es un

    problema recuperar, operar e integrar tanta informacin y tan heterognea

    (Stuckenschmidt, van Harmelen, 2005)17. La aplicacin de tesauros y otros

    tipos de vocabularios18como categorizaciones, taxonomas y ontologas- para la

    identificacin y organizacin de la informacin es un mecanismo que mejora la

    efectividad en la recuperacin de la informacin en la Web, no slo porque

    permite expandir los trminos de consulta para lograr una mayor exhaustividad o

    precisin en las bsquedas, sino tambin porque proporciona una descripcin del

    marco conceptual de la informacin en un sublenguaje controlado del lenguaje

    natural (Soergel, 2002). Combinado esto ltimo con la posibilidad de crear

    estructuras hipertextuales en la Web, permite construir tesauros electrnicos

    accesibles en lnea- para visualizar un mapa terminolgico-conceptual en el

    que navegar, explorar y seleccionar los contenidos de informacin que se desean

    (Aitchison et al., 2000). Ejemplos paradigmticos de este uso son los tesauros

    que se incorporan en los motores de bsqueda Web de las Bibliotecas Digitales

    por ejemplo el tesauro de la Biblioteca de la UCM19- o de grandes de bases de

    datos documentales tesauro EUROVOC20- o en los motores de bsqueda Web

    en Internet Simpli21.

    Otra de las aplicaciones de los tesauros, derivadas de su concepcin como mapa

    terminolgico-conceptual, es la de facilitar la combinacin de informacin

    heterognea en Internet (Stuckenschmidt, van Harmelen, 2005; Soergel, 2002).

    Los tesauros, y tambin las ontologas, son utilizados por las personas o las

    aplicaciones software como modelos formales compartidos de un dominio de

    17Este aspecto se trata en el prefacio y el captulo 1.

    18 Utilizamos el trmino vocabulario para referirnos a estos tipos de repertorios porque es el trminoutilizado en los estndares de construccin de tesauros.19

    http://alfama.sim.ucm.es/tesauro/tesauroPublic.htm20http://europa.eu/eurovoc/

    21http://www.simpli.com/

    6

  • 7/13/2019 Tesis Madrid - Tesauros

    24/415

    informacin respecto del cual se refieren e interpretan las diferentes fuentes de

    informacin. Se trata, en este caso, de utilizar el tesauro para: (i) calcular el

    grado de cercana semntica de los contenidos de informacin de las diferentes

    fuentes de informacin respecto de la consulta del usuario; (ii) proporcionar un

    lenguaje comn de consulta para las mltiples fuentes de informacin; y (iii)

    establecer correspondencias entre los trminos de descripcin de los contenidos

    de las distintas fuentes. Este tipo de aplicacin de los tesauros se utiliza en los

    repositorios digitales22 federados de recursos, que son mltiples almacenes de

    contenidos y de recursos web interconectados e integrados de forma

    transparente al usuario (IMS Digital Repositories, 2003). Normalmente, la

    aplicacin de interconexin utiliza un tesauro u ontologa general de referencia

    para establecer las correspondencias semnticas entre los contenidos de los

    distintos repositorios que pueden, incluso, tener tesauros propios ms

    especficos.

    iv)Finalmente, otra de las aplicaciones destacadas de los tesauros es la acadmica(Soergel, 2002). El tesauro (i) gua al estudiante en la bsqueda y asimilacin de

    la informacin como parte integral del proceso de resolucin de problemas en el

    aprendizaje y en el trabajo intelectual; (ii) proporciona al profesor un marco

    conceptual coherente para clasificar sus contenidos didcticos digitalizados,

    facilitando su almacenamiento, recuperacin y uso posterior en entornos

    electrnicos de enseanza y aprendizaje (plataformas e-learning); (iii) ayuda al

    investigador en la formulacin, exploracin y estructuracin del contexto

    conceptual de la cuestin o hiptesis de investigacin23, ya que proporciona

    clasificaciones consistentes de las distintas aproximaciones, variables o criterios

    sobre un tema y el estado de la cuestin.

    1.3. Motivacin

    Lo que ha motivado este trabajo de tesis es la necesidad de definir, en los entornos

    acadmicos universitarios, una nueva forma de entender, construir y usar los tesauros.

    El tesauro, desdeeste punto de vista, es un instrumento para sistematizar y expresar el

    22Un repositorio digital es una coleccin de recursos accesibles mediante una conexin en red en la queno es necesario conocer cul es la estructura de la coleccin. En esto ltimo se diferencia de las bases de

    datos, en las que es imprescindible conocer la estructura de las colecciones para acceder y gestionarlas.23Por ejemplo, ayuda a definir las dimensiones de un problema y los aspectos que deben considerarse en

    su resolucin.

    7

  • 7/13/2019 Tesis Madrid - Tesauros

    25/415

    conocimiento desarrollado o recopilado, individual o colectivamente, durante la

    investigacin o el aprendizaje sobre un tema o una disciplina. Esta necesidad nace,

    probablemente, de la reciente disponibilidad de los entornos y herramientas TIC

    necesarios para que el profesor pueda, de forma eficaz, construir y poner en marcha sus

    propios recursos didcticos y de investigacin. Para referirnos a esta nueva concepcin

    del tesauro introducimos el trmino tesauro acadmico. Un tesauro acadmico, por lo

    tanto, se distingue de otros tesauros porque es un tesauro creado por profesores,

    investigadores y estudiantes con el conocimiento y lenguaje propios de una determinada

    rea de especialidad con el fin de utilizarlo, principalmente, en un entorno acadmico.

    Este aprovechamiento es variado: (i) para organizar conceptualmente los materiales

    didcticos y de investigacin del profesor, haciendo ms fcil su localizacin, seleccin

    y uso; y (ii) para la enseanza de los conceptos y el manejo de la lengua de especialidad

    de la disciplina o rea de conocimiento que cubra el tesauro24. En cualquiera de los

    casos, se trata de utilizar el tesauro para explotar los conocimientos, contenidos o

    recursos didcticos y de investigacin y, por lo tanto, lo denominamos tesauro

    acadmico de explotacin.

    Actualmente, el conocimiento, los contenidos y los recursos educativos se difunden y

    utilizan en los campus virtuales, especialmente en el contexto acadmico universitario.

    Los campus virtualesson espacios electrnicos en Internet, creados con plataformase-

    learning, donde los profesores y alumnos interaccionan para ensear y aprender e

    incluso, investigar. Esta interaccin se denomina enseanza y aprendizaje electrnico

    (e-learning)y, por ello, en los campus virtuales, los contenidos y los recursos didcticos

    estn digitalizados y el conocimiento se difunde digitalmente. Normalmente, los

    responsables de la creacin, almacenamiento, clasificacin y uso del conocimiento,

    contenidos y recursos son los profesores.

    Los tesauros acadmicos para la explotacin de materiales y recursos didcticos en

    entornos digitales deben representar los contenidos de estos materiales y recursos

    utilizando el lenguaje especfico de los profesores para que sean realmente tiles. Y aqu

    radica el problema: es muy difcil disponer de tesauros con un alcance y naturaleza

    ajustados a las necesidades del profesor. Adems, la bsqueda del tesauro ms

    24 Mediante actividades didcticas colaborativas que favorezcan la consulta y estudio del tesauro. Por

    ejemplo, las actividades de construccin, exploracin y bsqueda de trminos o de materiales didcticospermiten que el alumno se familiarice con los trminos y las relaciones conceptuales propias de undominio o especialidad.

    8

  • 7/13/2019 Tesis Madrid - Tesauros

    26/415

    apropiado, su estudio y el uso de tesauros de referencia25supone un esfuerzo grande sin

    garantas de que vaya a ser rentable: la experiencia indica que los usuarios tienen

    dificultades para comprender y aplicar estos recursos lingsticos en la clasificacin de

    sus contenidos y recursos digitalizados (CEN CWA 14871, 2003).

    La falta de precisin en la definicin del dominio -de conocimiento, contenidos o

    recursos- que se necesita explotar, y los desajustes entre el lenguaje del tesauro y el

    lenguaje de los usuarios, profesores, investigadores y estudiantes, restan efectividad a

    estos tesauros (Lancaster, 1986:157). Algunos de los problemas que surgen son:

    (1) la dispersin de datos: en la coleccin aparecen constantemente palabras que el

    tesauro no es capaz de normalizar26(Prez Agera, 2004);

    (2) la ambigedad semntica es excesiva, incluso en tesauros de dominio especfico

    (Prez Agera, 2006); y

    (3) los desajustes conceptuales entre la estructura (categoras y relaciones semnticas)

    del tesauro y la concepcin que tiene el usuario de ese dominio 27 (Gruninger y Lee,

    2002).

    Las soluciones posibles son, o bien adaptar los tesauros disponibles, o bien crear

    tesauros nuevos (Aitchinson et al., 2000). En ambos casos, se trata de un proceso

    complejo porque requiere amplios conocimientos en modelos y metodologa de

    construccin de tesauros y en modelos y metodologas informticas. La construccin y

    mantenimiento de tesauros son, adems, procesos costosos, porque necesitan una

    prolongada y considerable inversin de tiempo y de recursos materiales y personales; en

    consecuencia, en pocos casos estas soluciones estn al alcance de los profesores que,

    aunque son especialistas en su materia y en ensear, no lo son en tesauros o en

    informtica.

    Adems, los tesauros electrnicos requieren modelos y aplicaciones informticas para

    su creacin, mantenimiento y gestin. El dominio lxico, en general, es un dominio

    complejo que contiene una gran cantidad y tipologa de relaciones y que est en

    permanente evolucin, con cambios que afectan no slo al contenido sino tambin a la

    estructura. Desde el punto de vista informtico, la construccin de los tesauros

    25Tesauro de libre acceso y uso, construido por un comit de expertos oficialmente constituido para que

    sirva de referencia en el dominio o especialidad, con el objetivo de unificar el lenguaje y favorecer lainteroperabilidad.26No es posible resolverlo con una actualizacin peridica hecha a mano en funcin del crecimiento de lacoleccin.27

    Los tesauros de referencia constituyen una conceptualizacin elaborada y consensuada por un gruporeconocido de especialistas [ANSI/NISO Z39.19, 2005] que normalmente no son los usuarios finales dedicho vocabulario.

    9

  • 7/13/2019 Tesis Madrid - Tesauros

    27/415

    electrnicos actuales presenta dos problemas que afectan a la efectividad del tesauro y

    que limitan la disponibilidad de herramientas software de carcter general:

    1) los modelos de datos con capacidad de expresar de forma completa estructuras de

    informacin complejas en permanente cambio como los modelos basados en grafos no

    son modelos suficientemente eficientes y, viceversa, los modelos de datos ms

    eficientes, por ejemplo, el modelo relacional, son modelos con menos capacidad de

    representacin conceptual.

    2) los modelos de datos no son suficientemente generales como para obtener esquemas

    de datos uniformes e independientes del dominio que permitan un tratamiento uniforme

    del tesauro. Los tesauros se disean mediante tcnicas de anlisis y clasificacin

    aplicadas al dominio de conocimiento -mtodos deductivos- o al conjunto de trminos

    fuente -mtodos inductivos. El resultado es la produccin de esquemas de organizacin

    ajustados al contenidoprevistodel tesauro. Estos esquemas de organizacin se traducen

    a esquemas de datos informticos, aplicando algn modelo de datos adecuado para ese

    esquema y para los objetivos del tesauro. Los sistemas informticos para construir y

    gestionar los tesauros necesitan utilizar estos esquemas de datos fijos para poder

    interpretar correctamente el contenido del tesauro. Pero las continuas modificaciones

    que surgen en el mbito del tesauro no slo cambian el contenido sino que tambin

    pueden afectar a la estructura de datos prevista inicialmente. Modificar el esquema de

    datos puede suponer rehacer todo el tesauro, porque los datos organizados con un

    esquema antiguo pueden no ser coherentes con un esquema de organizacin nuevo. En

    consecuencia, las posibilidades de construccin, actualizacin, intercambio y

    reutilizacin de los tesauros estn limitadas por el uso de un esquema de datos

    inicialmente establecido.

    1.4. Objetivos e hiptesis de trabajo1.4.1. Objetivos

    El objetivo de este trabajo es definir una nueva forma de entender y construir los nuevos

    tesauros acadmicos de explotacin, tesauros de especialidad, creados en formato

    electrnico por los profesores e investigadores, especialistas en su disciplina, con fines

    de explotacin en actividades didcticas e-learning y/o actividades investigadoras. Para

    ello es necesario encontrar un mecanismo, fcil de aplicar, para construir tesauros que

    sistematicen y expresen las ideas propias desarrolladas o recopiladas en contenidos o

    10

  • 7/13/2019 Tesis Madrid - Tesauros

    28/415

    recursos digitales, individual o colectivamente, durante la investigacin, la enseanza o

    el aprendizaje sobre un tema o una disciplina.

    Este objetivo general se puede desglosar en los siguientes objetivos especficos:

    1.- Encontrar estructuras del lenguaje de especialidad, las estructuras terminolgicas en

    semntica libre28, de forma abreviada, estructuras-t, que utilizan los profesores o

    autores para expresar las ideas que representan un dominio de conocimiento, de

    contenidos o de una coleccin de recursos. Por estructuras terminolgicas en semntica

    libre nos referimos a pequeas redes de trminos con relaciones semnticas una o

    varias simultneamente- que no estn previamente establecidas, que estn inmersas en

    el contenido y/o meta-contenido de materiales educativos, y que son propuestas por uno

    o varios especialistas de esa comunidad de forma libre -por medio de una eleccin libre-

    , lo que no implica que sean originales o nicas.

    2.- Buscar un modelo de datos informtico general y flexible que sirva para recoger las

    estructuras-t en un sistema de signos formado por trminos y categoras que estn

    relacionados semnticamente y que est en permanente cambio. Este modelo podra

    tambin considerarse un meta-modelo para los tesauros, puesto que sirve para crear los

    esquemas conceptuales, ajustados al dominio, que estructuran los tesauros.

    3.- Ofrecer una metodologa que, utilizando el modelo anterior, sea capaz de construir

    sistemticamente el tesauro a partir de las estructuras terminolgicas, en semntica

    libre, de los contenidos o recursos digitales.

    Este modelo y metodologa deben servir de base para construir aplicaciones

    informticas que, de forma general, puedan utilizar los equipos docentes para crear y

    gestionar sus tesauros acadmicos de explotacin.

    1.4.1. Hiptesis de trabajo

    Para la consecucin de estos objetivos se plantea las siguientes hiptesis de trabajo:

    Si se considera que:

    1) la lengua es un sistema estructurado de signos en el que el valordel significadode cada elemento depende de su posicin diferencial respecto de los dems 29;

    28 Elegimos esta denominacin por analoga con sintaxis libre que supone estructuras sintcticas noconsolidadas en la lengua como formas de cita (Lyons, 1977 pp. 22-26).29

    Esta concepcin sistmica del tesauro se basa en una semntica diferencial que tiene su origen en lapropuesta de F. Saussure, El valor de una palabra en su parte conceptual est constituida nicamente porsus conexiones y diferencias con los otros trminos de la lengua [] (Saussure, 1916: 220).

    11

  • 7/13/2019 Tesis Madrid - Tesauros

    29/415

    2) los tesauros son representaciones parciales de una lengua restringidos a lasnociones de un dominio de conocimiento mediante trminos organizados en

    grupos por relaciones semnticas; y

    3) existe un modelo formal capaz de representar esta concepcin de la lengua y deltesauro; en consecuencia

    4) es posible representar de forma general y uniforme cualquier tesauro, conindependencia de su naturaleza y aplicacin, y es posible sistematizar el proceso

    de construccin y actualizacin de tesauros a partir de grupos de trminos

    organizados por relaciones semnticas como las estructuras-t.

    Teniendo en cuenta estos presupuestos, este trabajo puede catalogarse como una

    contribucin dentro de la Lingstica Computacional a la Tecnologa Educativa,

    concretamente al e-learning, cuyo objetivo es facilitar la construccin de los tesauros

    electrnicos, entendidos como sistemas lingsticos de representacin del contenido de

    un dominio, utilizando el mismo lenguaje especfico con el que se expresa el

    conocimiento sobre los materiales o las colecciones de recursos docentes o de

    investigacin creados por y para la actividad acadmica en los entornos electrnico de

    enseanza y aprendizaje.

    1.5. Metodologa de trabajoLa metodologa aplicada para la consecucin de los objetivos y la demostracin de la

    hiptesis consta de las seis etapas siguientes:

    1. establecimiento de la cuestin de investigacin;2. anlisis del estado del arte:

    2.1.anlisis de los vocabularios y los tesauros desde el punto de vista lingstico,documentalista e informtico, en particular los vocabularios y tesauros de

    explotacin;2.2.anlisis de los entornos acadmicos de trabajo e-learning, en particular cmo se

    crean y utilizan los contenidos didcticos o de investigacin y las colecciones

    de recursos educativos;

    2.3.anlisis de las caractersticas y requisitos de los tesauros de explotacin;2.4.anlisis de los modelos estndares de construccin de tesauros monolinges;2.5.anlisis de los modelos informticos de representacin de tesauros: los enfoques

    tericos y sus aplicaciones al e-learning; y

    2.6.anlisis de los mtodos de construccin de tesauros de explotacin;

    12

  • 7/13/2019 Tesis Madrid - Tesauros

    30/415

    3. planteamiento de la hiptesis de trabajo;4. observacin, recogida de datos y estudio de antecedentes utilizando fuentes de tipo:

    4.1.tecnolgico-educativo: observacin y estudio de los procesos de creacin,clasificacin y uso de contenidos y recursos didcticos en entornos virtuales

    (proyecto OdA). Experiencias directas en el Campus Virtual UCM. Revisin de

    otras experiencias en universidades y organismos; y

    4.2.lexicogrfico y documentalista. Observacin y estudio de los mtodos deconstruccin y uso de vocabularios en general, y de vocabularios aplicados a la

    recuperacin de informacin y la explotacin acadmica en entornos digitales

    accesibles en la Web: campus virtual, bibliotecas digitales, repositorios de

    recursos educativos y bases de datos documentales;

    5. mtodo de demostracin:5.1.modelo: planteamiento y desarrollo;5.2.modelo: experimentacin30;5.3.modelo: evaluacin, ajustes y primeras conclusiones;5.4.mtodo: planteamiento y desarrollo;5.5.mtodo: experimentacin31; y5.6.mtodo: evaluacin, ajustes del mtodo y conclusiones del mtodo

    6. Estudio de resultados y establecimiento de las conclusiones finales1.6. Estructura de la memoria

    Hemos organizado la memoria en nueve captulos. En este primer captulo se establece

    el marco general de la tesis explicando el contexto de investigacin donde se ha

    integrado esta tesis, una introduccin sobre el objeto de estudio que son los tesauros, las

    cuestiones que han motivacin de esta investigacin, los objetivos e hiptesis del

    trabajo, la metodologa aplicada en la investigacin y, finalmente, la descripcin de la

    estructura de esta memoria.

    El segundo captulo, los vocabularios para la explotacin de recursos didcticos

    digitalizados, revisa el papel que juegan los vocabularios en la explotacin de los

    30Aplicacin del modelo a una muestra de tesauros y vocabularios ya existentes, uno de referencia: el

    tesauro europeo ETB en su versin espaola y dos tesauros acadmicos de explotacin: (i) el vocabulariodel repositorio CHASQUI creado por el equipo de investigacin de Geografa e Historia, y (ii) el tesaurodel glosario explicativo sobre derecho electrnico creado por un equipo de profesores de la Facultad de

    Derecho.31 Aplicacin del mtodo a la misma muestra de tesauros que se utiliz para la experimentacin del

    modelo.

    13

  • 7/13/2019 Tesis Madrid - Tesauros

    31/415

    recursos didcticos digitalizados; para ello, se revisa el concepto interdisciplinar de

    vocabulario, de vocabulario controlado, vocabulario de explotacin y los tipos de

    vocabularios de explotacin, entre los que se encuentran los tesauros de explotacin de

    recursos didcticos en entornos e-learning.

    En el tercer captulo, los entornos virtuales de enseanza y aprendizaje, se presenta una

    sntesis de los conceptos relacionados con el e-learningpuesto que es el contexto donde

    surgen y se utilizan los vocabularios electrnicos, en general, y los tesauros acadmicos

    de explotacin, en particular, como sistemas de referencia para la explotacin del

    conocimiento creado por los profesores, investigadores y estudiantes en su actividad

    acadmica.

    El cuarto captulo, el modelo de los estndares de construccin de tesauros de

    explotacin, lo dedicamos, fundamentalmente, a revisar este modelo que establece la

    naturaleza del contenido, los modos de presentacin, y las reglas de modificacin en los

    tesauros monolnges; el captulo se completa con una revisin sobre el concepto y los

    tipos de modelos de datos; las caractersticas y requisitos de los tesauros de explotacin,

    y los modelos tradicionales alfabtico y sistemtico.

    En el captulo quinto, los modelos informticos para la construccin de tesauros de

    explotacin, se revisan los modelos de datos ms utilizados para la construccin de

    tesauros y se analizan respecto a las caractersticas y requisitos de los tesauros de

    explotacin.

    El captulo sexto, el modelo higraph lxico para la construccin de los tesauros,

    presenta nuestra propuesta de modelo general para la representacin sistemtica y visual

    del contenido de los tesauros; previamente, se introducen los modelos matemtico y

    visual de los higraph y lingstico del significado de los signos que constituyen el

    fundamento de la propuesta.

    El captulo sptimo, una metodologa para la construccin inductiva de tesauros

    acadmicos de explotacin, revisa, en primer lugar, los mtodos generales de

    construccin de tesauros y, en segundo lugar, presenta la metodologa nueva de

    construccin inductiva de los tesauros acadmicos de explotacin que proponemos y

    que est basada en el modelo higraph lxico y en las estructuras-t creadas por los

    profesores.

    En el captulo octavo, casos prcticos, se presenta la experimentacin del modelo y

    mtodo propuestos en los captulos anteriores con tres tipos de tesauros de explotacin

    acadmica que son diferentes en propsito, tipos de estructuras-t y resultados.

    14

  • 7/13/2019 Tesis Madrid - Tesauros

    32/415

    El captulo noveno recoge una recopilacin de toda la investigacin, las conclusiones

    finales y las lneas de trabajo futuro.

    La bibliografa recoge las referencias en las que se ha basado el anlisis del estado de la

    cuestin y las relativas a la lnea de investigacin. El apndice A muestra la lista de

    tesauros utilizados en esta memoria, y el apndice B el cdigo del esquema de datos

    relacional del modelo HL que proponemos.

    15

  • 7/13/2019 Tesis Madrid - Tesauros

    33/415

    16

  • 7/13/2019 Tesis Madrid - Tesauros

    34/415

    Captulo 2

    Los vocabularios para la explotacin de recursos

    didcticos digitalizadosDesde la idea a la palabra; desde la palabra a la idea

    (Casares, 1942)

    Entendemos por explotacin de recursos didcticos digitalizados el utilizarlos

    eficazmente, mediante la informtica y las Tecnologas de la Informacin y

    Comunicaciones (TIC), para obtener el mximo provecho acadmico. Para ello es

    imprescindible que las personas y las aplicaciones informticas sean capaces de acceder

    y entender fcilmente qu contienen estos recursos, que suelen estar almacenados en

    colecciones digitales poco accesibles por su gran tamao. Este captulo describe el papel

    que juegan los vocabularios en la explotacin de los recursos didcticos digitalizados.

    Para ello, se revisa: 1) el concepto interdisciplinar de vocabulario, de vocabulario

    controlado, y su contenido; y 2) los tipos de vocabularios, entre ellos los tesauros,

    aplicados a la explotacin de los recursos didcticos en entornos de enseanza y

    aprendizaje electrnico, e-learning.

    La primera cuestin, concepto y naturaleza de los vocabularios, se trata en las secciones

    segunda y tercera: la seccin segunda, Definiciones del trmino vocabulario, revisa el

    significado los trminos vocabulario y vocabulario controlado, en las disciplinas de

    Lingstica y Tecnologa Lingstica, Tecnologa Educativa, Recuperacin de

    Informacin y Biblioteconoma y la Documentacin. La tercera seccin, El contenido

    semntico de los vocabularios, analiza los tipos de relaciones semnticas que pueden

    contener en los vocabularios.

    La segunda cuestin, los tipos de vocabularios y su aplicacin a la explotacin e-learning, se trata en las tres secciones restantes de la forma siguiente: la cuarta seccin,

    Los vocabularios en los sistemas de recuperacin de informacin, describe el papel

    que juegan los vocabularios en los sistemas de RI, especialmente en los procesos de

    indexacin, bsqueda y navegacin. La quinta seccin, El uso de vocabularios para la

    explotacin didctica de recursos digitalizados, revisa las aproximaciones actuales a la

    representacin semntica de los recursos digitalizados usando metadatos y/o

    vocabularios En la sexta seccin, Tipos de vocabularios para la explotacin de recursosdidcticos digitalizados, se describen los tipos de vocabularios y su aplicacin a la

    17

  • 7/13/2019 Tesis Madrid - Tesauros

    35/415

    recuperacin de recursos educativos. Finalmente, en la sptima y ltima seccin, se

    resume y se presentan algunas conclusiones del captulo.

    2.1 Introduccin

    Los vocabularios son recursos lingsticos que permiten acceder al conocimiento a

    travs de la palabra (Bougarev, 1996). Constituyen un mecanismo para organizar la

    informacin de un modo flexible y especialmente adecuado para entornos de trabajo en

    los que la informacin se crea de forma colaborativa y libre como en los Campus

    Virtuales (CV) universitarios centrados en el profesor. Sin embargo, es preciso tener en

    cuenta que el concepto de vocabulario es ambiguo, porque depende de la disciplina y de

    la aplicacin. Para la construccin de un vocabulario es imprescindible la definicinprecisa de su naturaleza y objetivos. En caso contrario, se corre el riesgo de que los

    resultados sean un mero recopilatorio de palabras, no uniforme, incompleto y poco

    coherente que restan eficacia al vocabulario.

    Un vocabulario o lxico1 se define, desde el punto de vista lingstico, como (1) el

    conjunto de palabras de un idioma; (2) un diccionario (libro); (3) el conjunto de palabras

    pertenecientes al uso de una regin, de una profesin u oficio, de un campo semntico

    de un escritor, etc., o simplemente, (4) el libro en que se contienen; (DRAE, 2001).

    Se trata de un trmino con un significado poco preciso y con un amplio contexto de

    aplicacin2. Pueden distinguirse, adems, varios tipos de vocabularios: (i) las listas de

    trminos, (ii) los glosarios, (iii) las clasificaciones y taxonomas, (iv) los tesauros, (v)

    las ontologas, (vi) los diccionarios y (vii) los lexicones3 (CEN CWA14871, 2003).

    Cuando este inventario de palabras se sistematiza y administra adecuadamente el

    vocabulario sirve de herramienta para identificar, describir, acceder y explorar todos los

    objetos digitales con un contenido (documentos, sitios web, software, ) relativo a un

    dominio de conocimiento (Aitchison et al., 2000; Rodrguez y Ronda, 2005).

    Sin embargo, la ambigedad y la polisemia del lenguaje natural hacen inevitable la

    existencia de varios vocabularios para describir un mismo conjunto de objetos, con los

    consiguientes problemas de compatibilidad (Buckland et al., 1999). Los trminos

    1 En el DRAE 2001, lxico es sinnimo de vocabulario en su tercera acepcin.2 Fundamentalmente, en el procesamiento del lenguaje natural (Gibbon, 2000), clasificacin conceptual(Garshol, 2004), clasificacin documental (Buckland et al., 1999), indexacin y recuperacin de

    informacin (Lancaster, 1986).3 Lexicn se define como diccionario (DRAE,2001) y como lxico de una lengua (Martnez deSousa,1995).

    18

  • 7/13/2019 Tesis Madrid - Tesauros

    36/415

    utilizados por los autores para describir el contenido de sus objetos digitales pueden no

    coincidir con los que se utilizan para organizarlos en los sistemas de almacenamiento y,

    probablemente, no coincidirn con los que utilizan los usuarios cuando los buscan. Esto

    ltimo significa que los usuarios, en sus consultas, tienen que utilizar los mismos

    trminos empleados por los autores e indexadores4 para encontrar los objetos; para ello,

    o bien conocen el vocabulario de indexacin, o bien tienen la capacidad de descubrir las

    varias y diversas formas de expresar un concepto. Entonces, puede una persona

    expresar su peticin con sus propias palabras y obtener el material que desea?

    Los vocabularios controlados intentan recoger de las lenguas los trminos que expresan

    cada concepto, seleccionar el ms apropiado como preferido y realizar reenvos desde

    los otros para conducir al usuario hasta el preferido. Cuando el vocabulario controlado

    se utiliza para la recuperacin de objetos, stos se indexan con los trminos preferidos.

    De esta forma el usuario tiene libertad para buscar con cualquiera de los trminos,

    preferidos o no preferidos. El vocabulario conducir manualmente o automticamente

    de la consulta a los objetos indexados. El vocabulario ser til slo si sirve como

    lenguaje comn de interfaz entre los trminos de descripcin de los objetos de

    contenido y los usuarios que buscan dichos objetos.

    Adems, algunos tipos de vocabularios controlados, como las taxonomas y los

    tesauros, agrupan los trminos en categoras temticas detalladas aadiendo una

    funcionalidad ms a sus posibles aplicaciones: la clasificacin u ordenacin de los

    conceptos u objetos del dominio temtico. Algunos autores consideran que un

    vocabulario controlado constituye un mapa conceptual5 o un esquema conceptual6

    del dominio, que se puede utilizar como ayuda al usuario para sintetizar y relacionar los

    conceptos u objetos del mbito del vocabulario e incluso como herramienta de

    exploracin del dominio de conocimiento (Duncan, 1990; Jones et al., 1995; Garshol,

    2004; Marzal et al., 2006).

    4 La indexacin es el proceso de escoger los trminos del vocabulario controlado que mejor describen losobjetos de contenido, trminos preferidos, y asociarlos con dichos objetos.5 Un mapa conceptual es una herramienta para representar y organizar grficamente el conocimiento.Incluye conceptos y relaciones. Los conceptos se representan mediante etiquetas que, normalmente, sonpalabras o grupos de palabras (Novak y Caas, 2008).6 Un esquema conceptual es la representacin de una base de datos conceptual. Una base de datos

    conceptual es una abstraccin del mundo real. Los esquema conceptuales incluyen tipos de entidades quese representan mediante etiquetas que, normalmente, son palabras o grupos de palabras, y tipos derelaciones entre los tipos de entidades (Ullman, 1988).

    19

  • 7/13/2019 Tesis Madrid - Tesauros

    37/415

    2.2. Definiciones del trmino vocabulario

    Desde el punto de vista lingstico y lexicogrfico, la terminologa utilizada para definir

    las distintas obras lexicogrficas es, en general, poco precisa. Como se ha adelantado,resulta frecuente encontrar bajo un mismo trmino obras lexicogrficas muy diversas

    entre s (ver p. ej. Tablas 2.1, 2.2, 2.3). El trmino vocabulario, que ahora vamos a

    tratar, se utiliza con frecuencia como sinnimo de diccionario y de lxico y, al mismo

    tiempo, se usa tanto para referirse a obras que registran el lxico de una determinada

    rea de conocimiento, materia, regin, etc., como a inventarios de palabras ordenados

    alfabticamente, lo que reflejan las definiciones de los diccionarios de uso del espaol

    ms frecuentes

    7

    (Tabla 2.3).Diccionario Definicin

    (DRAE, 2001) 1.Libro en el que se recogen y explican de forma ordenada voces de una o ms lenguas, de una

    ciencia o de una materia determinada.

    2. Catlogo numeroso de noticias importantes de un mismo gnero, ordenado alfabticamente.

    Diccionario bibliogrfico, biogrfico, geogrfico.

    (CLAVE, 2002) 1 Inventario en el que se recogen y definen las palabras de uno o ms idiomas, generalmente por

    orden alfabtico. ... SINN.lxico

    2Inventario en el que se recogen y explican los trminos propios de una ciencia o de una materia,

    generalmente por orden alfabtico. ...

    (Seco et al., 1999) a) Libro en que se recogen las palabras de una lengua, colocadas segn un orden dado, gralm.

    alfabtico, y acompaadas de su definicin, explicacin o equivalencia.

    b) Con un compl especificador: Libro en que se recogen las palabras (de una materia

    determinada), por orden alfabtico y acompaadas de su definicin, explicacin o equivalencia.

    (Moliner, 1998) Libro en que se da una serie ms o menos completa de las palabras de un idioma o de una

    materia determinada, definidas o con su equivalencia en otro idioma, generalmente por orden

    alfabtico: Diccionario etimolgico. Diccionario plurilinge. Diccionario de sinnimos.

    Diccionario tcnico. Lxico, vocabulario. *Tratado de cierta materia en que los conceptos

    explicados estn ordenados alfabticamente: Diccionario de historia (o de filosofa)

    (Martnez de

    Sousa, 1995)

    1) Recopilacin de las palabras, locuciones, giros y sintagmas de una lengua o, dentro de ella, los

    trminos de una ciencia, tcnica, arte, especialidad, etc., generalmente dispuestos en orden

    alfabtico (sin. abecedario, vocabulario).

    2) Libro en el que al lado de las palabras de una lengua, generalmente colocadas en orden alfabtico,

    figuran sus equivalentes en otras u otras lenguas.

    7 (DRAE, 2001), (CLAVE, 2002), (Seco et al., 1999), (Moliner, 1998), (Martnez de Sousa, 1995).

    20

  • 7/13/2019 Tesis Madrid - Tesauros

    38/415

    3) Obra que ofrece por orden alfabtico nombres, hechos, noticias, etc., referentes a un orden de

    conocimientos.

    4) ABECEDARIO, cualquier lista cuyos trminos aparecen en orden alfabtico.

    Tabla 2.1. Definicin del trmino diccionario

    Diccionario Definicin

    (DRAE, 2001) 1.Catlogo de palabras oscuras o desusadas, con definicin o explicacin de cada una de ellas.

    2. Catlogo de palabras de una misma disciplina, de un mismo campo de estudio, etc., definidas

    o comentadas.

    3. Conjunto de glosas o comentarios, normalmente sobre textos de un mismo autor.

    (CLAVE, 2002) s. m. Catlogo de palabras oscuras, desusadas o tcnicas, con definicin o explicacin de cada una

    de ellas.

    SEM. dist. delxico(conjunto de palabras de una lengua; inventario de palabras de un idioma con

    definicin).

    (Seco et al.,

    1999)

    m 1 Conjunto breve de palabras definidas o comentadas, pertenecientes a un texto o autor o a un

    mbito determinado

    (Moliner, 1998) Catlogo de palabras, generalmente con una definicin o explicacin, sobre un asunto

    determinado, especficas de alguna disciplina, con alguna caracterstica en comn, etc.

    *Vocabulario.

    (Martnez de

    Sousa, 1995)

    1) Repertorio de voces cuyo fin es explicar un texto medieval o clsico, la obra de un autor, un texto

    dialectal, etc.

    2) Repertorio no exhaustivo de palabras, generalmente tcnicas, de una jerga determinada, como la

    ecologa, la biologa, la bibliologa, etc.

    Tabla 2.2. Definicin del trmino glosario

    Diccionario Definicin

    (DRAE, 2001) 1. Conjunto de palabras de un idioma.

    2. diccionario( libro).

    3. Conjunto de palabras de un idioma pertenecientes al uso de una regin, a una actividad

    determinada, a un campo semntico dado, etc. Vocabulario andaluz, jurdico, tcnico, de la

    caza, de la afectividad.

    4. Libro en que se contienen.

    5. Catlogo o lista de palabras, ordenadas con arreglo a un sistema, y con definiciones o

    explicaciones sucintas.

    21

  • 7/13/2019 Tesis Madrid - Tesauros

    39/415

    6. Conjunto de palabras que usa o conoce alguien.

    7. coloq.Persona que dice o interpreta la mente o dicho de otro. Hablar por vocabulario. No

    necesitar de vocabulario.

    (CLAVE, 2002) 1Conjunto de palabras que componen una lengua o que pertenecen a una regin, a una persona o a

    un campo determinados. ... SINN.lxico

    2Libro o lista en que se contiene este conjunto de palabras explicadas de una forma ms o menos

    breve. ...

    (Seco et al.,

    1999)

    m 1Conjunto de palabras (de un idioma).

    b)Conjunto de palabras propias (de una regin, de una actividad, de un grupo humano o de una

    pers. determinados).

    2Catlogo ordenado y con definiciones sucintas de las palabras del vocabulario esp(1b).

    (Moliner, 1998) Serie de palabras reunidas segn cierto criterio y ordenadas alfabtica o sistemticamente; porejemplo, de palabras referentes a cierto oficio o de las precisas para redactar un tema o ejercicio

    en el aprendizaje de un idioma extranjero. Tecnologa, terminologa. Serie alfabtica de las

    palabras de una lengua.

    *Diccionario. Conjunto de palabras de una lengua.

    Lxico. Particularmente, el utilizado o conocido por una persona

    (Martnez de

    Sousa, 1995)

    1) Conjunto de palabras de un idioma.

    2) Conjunto de palabras regionales, de una profesin u oficio, de un campo semntico, de un

    escritor, etc.

    3) Libro en que se contienen los trminos de un vocabulario.

    4) Lista de palabras definidas sucintamente y colocadas por orden alfabtico al final de un trabajo o

    un libro.

    5) Diccionario

    Tabla 2.3. Definicin del trmino vocabulario

    En otras disciplinas, en cambio, el significado y naturaleza de los vocabularios es ms

    preciso y orientado a las aplicaciones, pero con diferencias entre ellas. La figura 2.1

    muestra el contexto interdisciplinar en el que revisamos el concepto y uso de los

    vocabularios: la Lingstica, Biblioteconoma y Documentacin, y las reas

    tecnolgicas de la Tecnologa Lingstica (TL), la Tecnologa Educativa (TE) y la

    Recuperacin de Informacin (RI).

    22

  • 7/13/2019 Tesis Madrid - Tesauros

    40/415

    Figura 2.1. El contexto interdisciplinar de los vocabularios

    En las reas tecnolgicas de Recuperacin de Informacin (RI), Tecnologa Educativa

    (TE) y Tecnologa Lingstica (TL), los vocabularios se utilizan como componentes

    software que aportan una descripcin conceptual y una dimensin pragmtica y

    emprica del dominio de informacin.

    Los Sistemas RI aplican, normalmente, vocabularios controlados para evitar la

    ambigedad y polisemia del lenguaje (Lancaster, 1986). Un vocabulario controlado,

    como ya hemos mencionado, es una lista de trminos enumerados explcitamente, noambiguos y no redundantes. Esta lista es elaborada y mantenida por una autoridad de

    registro con los objetivos ideales de8:

    1. Traducir cualquier trmino del lenguaje natural (utilizados por los autores,indexadores y usuarios) a los trminos utilizados para indexar los objetos a

    recuperar.

    2. Mantener laconsistenciaen los formatos y la asignacin de trminos.3.

    Recoger y explotar las

    relaciones semnticasentre los trminos.

    4. Proporcionar un marco de clasificacin y navegacin que ayude a los usuarios aencontrar el objeto de contenido deseado. Y

    5. Apoyar los procesos de bsqueda y localizacin de los objetos digitales concontenido.

    Este concepto y uso de vocabulario procede, en realidad, del rea de Biblioteconoma y

    Documentacin. En esta disciplina losvocabularios son siempre controlados (Lewis y

    8 Ver especificacin estndar de construccin de tesauros monolinges (ANSI/NISO Z39.19, 2005).

    23

  • 7/13/2019 Tesis Madrid - Tesauros

    41/415

    Sparck-Jones, 1996) y se definen como lenguajes documentales9 que aportan un sistema

    comn y universal de clasificacin de las obras bibliogrficas y de los documentos.

    Dentro de los vocabularios se distingue entre vocabularios precoordinados y

    postcoordiandos (Lancaster, 1986), como ya vimos, los vocabularios precoordinados

    estn formados por trminos y combinaciones de trminos prefijadas para representar la

    materia o tema de cada documento del dominio. Normalmente se estructuran como

    vocabularios jerrquicos o asociativos. En esta categora estn los sistemas de

    clasificacin y las listas tradicionales de materias (encabezamientos por materias) como

    el Sistema de Clasificacin Decimal de Melvil Dewey, que fue creado en 1875 en

    Estados Unidos. Los lenguajes postcoordinados, por el contrario, estn formados por

    trminos y relaciones entre ellos que definen mltiples combinaciones posibles. Durante

    la fase de bsqueda se combinan los trminos del vocabulario para obtener una

    combinacin lo ms cercana posible a la consulta del usuario. Los objetos digitales se

    indexan, por lo tanto, con tantos trminos como se necesite. Los vocabularios usados en

    la RI y Biblioteconoma y Documentacin tienden a ser, en la actualidad,

    postcoordinados, porque permiten una mayor libertad de consulta y menos

    conocimiento del lenguaje especializado por parte del usuario (Antelman et al., 2006)

    Para laTecnologa Lingstica el vocabulario es un tipo de recurso lxico10 que recoge,

    de una lengua (vocabularios monolinges) o varias lenguas (multilnges), las palabras,

    sus relaciones, definiciones y otra informacin (Gibbon, 2000). Estos vocabularios

    pueden clasificarse en vocabularios en formato electrnico y vocabularios

    computacionales, lexicones computacionales. Los vocabularios en formato electrnico

    son digitalizaciones de los vocabularios en papel11 que permiten capacidades de

    almacenamiento, prcticamente ilimitadas, y formas de acceso ms rpidas y exactas a

    los contenidos. Sin embargo, las posibilidades de procesar automticamente su

    9 Un lenguaje documental es un conjunto de trminos o procedimientos sintcticos convencionales que seutilizan para representar el contenido de un documento con el fin de permitir su recuperacin (Slype,1991).10 El trmino recurso lingstico se refiere a un conjunto de datos del habla o de las lenguas y susdescripciones en un formato legible para las mquinas, utilizado, por ejemplo, para la construccinmejora o evaluacin de los sistemas o algoritmos de procesamiento del lenguaje natural y del habla orecursos para el software de bsqueda, para los estudios lingsticos, la publicacin electrnica, latraduccin, etc. Ejemplos de recursos lingsticos son los corpus de texto y habla, los lexiconescomputacionales, las bases de datos terminolgicas, (ELRA, 2003).11 Esta forma es anterior a los vocabularios computacionales. Los primeros vocabularios electrnicos secrean en la dcada de los 80. Los vocabularios computacionales se comienzan a construir en los aos 90,

    aunque los modelos y tcnicas de construccin son muy anteriores, de los aos 60. Los vocabularioscomputacionales utilizados hasta comienzos de los 90 eran demasidado pequeos (en media 36 palabras)como para ser considerados verdaderos vocabularios (Guthrie et al., 1996).

    24

  • 7/13/2019 Tesis Madrid - Tesauros

    42/415

    contenido son limitadas, ya que se reducen a operaciones de nivel morfosintctico sobre

    las formas ortogrficas12, puesto que reproducen estructuras de organizacin del

    conocimiento lxico, previstas y preparadas para uso humano (Fernndez-Pampilln y

    Matesanz, 2003)13. Se utilizan con fines primordialmente lingsticos, aunque tambin

    se han aplicado, desde la tecnologa lingstica, como fuente para extraer el

    conocimiento lxico para los vocabularios computacionales (Byrd et al., 1987; Walker

    et al., 1995)

    Los vocabularios o lexicones computacionales, que son objeto de la Tecnologa

    Lingstica y del Procesamiento del Lenguaje Natural (PLN)14, se conciben como bases

    de datos y de conocimiento lxico diseados para el procesamiento automtico de las

    lenguas naturales (Allen, 1995). En estos vocabularios, el conocimiento lxico se hace

    explcito15 y se organiza con modelos de datos informticos que permiten un

    tratamiento automtico ms inteligente, basado no slo en operaciones a nivel

    morfolgico y sintctico sino tambin en la interpretacin de los datos explcitos16

    (Brachman y Levesque, 1985; Bertino et al., 2001; Berners-Lee et al., 2001).

    Constituyen un componente bsico en la arquitectura de los Sistemas PLN, y

    normalmente son accesibles para las personas a travs de interfaces que abstraen las

    estructuras de los datos17. Son imprescindibles en el desarrollo de aplicaciones basadas

    en Tecnologas Lingsticas como los correctores ortogrficos y de estilo, la

    recuperacin de informacin, el indexado y descripcin de documentos y recursos

    (ELRA, 2003). Dos fuentes de distribucin de lexicones computacionales son, por

    ejemplo, la agencia europea ELRA18 y el consorcio americano LDC 19.

    12 Visu