34
Construcción de bibliotecas digitales Greenstone

Taller Greenstone Conceptos

  • Upload
    rdonoso

  • View
    5.353

  • Download
    0

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Taller Greenstone Conceptos

Construcción de bibliotecas digitales

Greenstone

Page 2: Taller Greenstone Conceptos

Que es una “biblioteca digital”?

Las computadoras hacen activa a la informaciónWWW ≠ BD!— organización, selección

Es una colección de objetos digitales (texto, video, audio) junto a métodos de acceso y recuperación

locales o remotos.

Page 3: Taller Greenstone Conceptos

Para qué sirven las BD?

Adm. de conocimientos/contenidosAdministrar y acceder a repositorios de información internos

Comunicación, educación, investigaciónE-journals, e-prints, e-books, e-learning

Acceso a colecciones culturales

Archivo y preservación

Page 4: Taller Greenstone Conceptos

Software BD: requerimientos claves

Tipos de documentos (libros, periódicos, páginas web, …)Formatos (texto, PDF, Word, PS, HTML …)Adquisición de contenidos (online y offline)

Metadata, content taggingIndexación y recuperación

Indexación estructurada / full textExtracción automática de metadatos

AlmacenamientoCompresión de datosAlmacenamiento eficiente de metadatosUbicación rápida de metadatos y documentos

Acceso y entregaBúsquedas estructuradas, navegación jerárquicaDistribución en CD/DVD

Page 5: Taller Greenstone Conceptos

Software BD: Más requerimientos

Escalable para grandes coleccionesSoporte MultilingualAdm. de seguridad de accesoMonitoreo y reporte de utilizaciónConformidad con estándares

XML, Dublin Core, UnicodeInteroperación

OAI, Z39.50, MARC, CDS/ISIS, …

Page 6: Taller Greenstone Conceptos

“Colecciones” de material digitalHasta varios Gb de texto …… + imágenes asociadas, películas, mp3,etc, etcTotalmente “indexada”Servida en WWW, o publicada en CD-ROMMulti-plataforma (Unix + Windows + Mac)Multi-formato de documentos y metadataMulti-lingual: documentos e interfasesMultimediaMetadata: estándar y no-estándar

A qué se apunta…

Page 7: Taller Greenstone Conceptos

Greenstone ha sido elaborado como parte del proyecto de Biblioteca Digital de Nueva Zelanda por la Universidad de Waikato y actualmente es desarrollado y distribuido en colaboración con la UNESCO y la ONG Human Info. Es un software de código abierto disponible en http://www.greenstone.org bajo los términos y condiciones de la Licencia Pública General de GNU.

Qué es Greenstone?

Page 8: Taller Greenstone Conceptos

Qué es Greenstone?

Paquete de software para crear, mantener y distribuir colecciones digitales

Código abierto (Open-source)

Desarrollado por la University de Waikato

Socios para su distribución:

UNESCO

Human Info NGO, Bélgica

Page 9: Taller Greenstone Conceptos

Plugins — documento nuevo, formatos de metadatosClasificadores — creación libre

Greenstone

Accesible via Web browserEl Servidor corre en Windows y UnixColecciones publicadas en CD-ROM

Acceso

Full-text y por camposOpciones flexibles de navegaciónBasado en Metadata (Dublin Core)Independiente en cada colecciónBúsqueda jerárquica de frases

Búsqueda/ navegación

Documentos e interfasesChino, Arabe, Maori, Ruso, etcMultimedia: video, audio

Multilingual

Extensible

Page 10: Taller Greenstone Conceptos

Proceso de construcción de una colección

Nº 1 Definición del alcance de la colección.

Nº 2 Configuración de la colección.

Nº 3 Selección e importación de los documentos.

Nº 4 Agregado de metadatos.

Nº 5 Construcción de la colección.

Nº 6 Puesta en servicio / Recuperación de la información.

Page 11: Taller Greenstone Conceptos

Proceso de construcción de una colección

Input: un conjunto de documentosGreenstone “importa” esos documentos y los convierte al formato GA (XML/HTML)Greenstone “construye” los índices y las estructuras de navegación usando los archivos GAEl archivo de configuración de la colección determina la conversión del contenido, la extracción y construcción de índices y los clasificadoresLa presentación de los resultados de las búsquedas y/o clasificadores y de la interfase se determina con las cadenas deformateo y las macros

Page 12: Taller Greenstone Conceptos

Documentos

Import Conversion al formato GAExtracción de metadatos

GA + docs fuente

Build

Collect.cfg(plugins)

Estructuras de índices y navegación, compresión…

ColecciónGreenstone

Collect.cfg(índices,

clasificadores)

Metadatosadicionales GLI

Buscar ResultadosCollect.cfg + macros

(main.cfg)

Page 13: Taller Greenstone Conceptos

Modelo jerárquico de documento

Metadatos especificados a cualquier nivel

Page 14: Taller Greenstone Conceptos

Búsqueda y navegaciónBúsqueda

Navegación por metadatos

Titulo Fecha Medio

Dublin Core / ad hoc

Page 15: Taller Greenstone Conceptos

Múltiples índices de búsqueda

Independientes entre una colección y otra

Page 16: Taller Greenstone Conceptos

Consultas lógicas y otros ajustes

Page 17: Taller Greenstone Conceptos

Plugins (conectores)

Usados en la construcción para poderprocesar los documentos de origen.

Circuito del Plugin: los archivos son pasados por cada uno, en orden, hastaencontrar uno que pueda procesarlo.

GAPlug procesa archivos GA generados durante el importArcPlug procesa archivos GA listados en archives.infRecPlug recorre estructuras de carpetas recursivamente

TEXTPlugHTMLPlugEMAILPlugWORDPlugRTFPlugPDFPlugPSPlugFoxPlug…

Page 18: Taller Greenstone Conceptos

Clasificador AZList

Page 19: Taller Greenstone Conceptos

Clasificador DateList

Page 20: Taller Greenstone Conceptos

Clasificador List

Page 21: Taller Greenstone Conceptos

Clasificador Hierarchy

Page 22: Taller Greenstone Conceptos

Cadenas de Formateo

texto de documentosclasificadores (HList o VList separadas)resultados de búsquedas

HTML[Text]: muestra el texto del doc.[Title], [Howto] …: muestra metadata[link] … [/link]: link al documento[parent]: refiere al documento “padre”[icon]: icono de carpeta o páginasentencias if / or statement

format

componentes

Se interpretan al mostrar la interfase o el documento

Page 23: Taller Greenstone Conceptos

Plataformas

Sistemas operativos:Windows (+95)Linux (cualquier versión)Unix Mac OS X (algunos problemas con GLI)

Restricciones:No corre sobre Windows 3.1/3.11Para la Interfase de Bibliotecario (GLI) se necesitaJava— el cual no está mas soportado en Windows 95

Espacio en disco50 MB para el programa

250 MB para la colección de demo (opcional)25 MB para la función “exportar a CD”

Page 24: Taller Greenstone Conceptos

Métodos de instalación

Instalar desde el ejecutableWindowsLinux

Instalar compilando el código fuenteWindowsLinuxUnixMac

Page 25: Taller Greenstone Conceptos

Instalación de Greenstone

95/98/Me

Unix

Se necesita usuario“root” para instalar

Versióncompleta

Versióncompleta

Versióncompleta

Código probado Códigoprobado

No probado

Linux Sun Solaris o Macintosh OS/X

Otros

Windows o Unix?

Windows

Binarios para todaslas versiones

?????? Versióncompleta

Versióncompleta

3.x NT/2000

Solo “Administradores”pueden instalarlo

Page 26: Taller Greenstone Conceptos

Biblioteca Local

El paquete de instalación de Windows contiene todos loscomponentes necesarios para instalar Greenstone con la colección de demo.

Directorio de instalación por defecto:C:\archivos de programa\greenstone

Levantar la aplicación:Inicio Greenstone digital library

Usar la Interfase de Bibliotecario(GLI): Inicio Greenstone digital library

Page 27: Taller Greenstone Conceptos

Biblioteca Local vs Biblioteca Web

Biblioteca local: standaloneSirve colecciones en una PC …Y a otros en una misma redIncluye un servidor Web integrado

Biblioteca Web: usa un server web externoApache, Microsoft PWS/IIS

Page 28: Taller Greenstone Conceptos

Biblioteca Local vs Biblioteca Web

Windows: ambas opcionesTodas las versiones: 95, 98, NT, 2000, ME, XPBinariosGeneralmente se usa la biblioteca local (sino hay queconfigurar el servidor web)Biblioteca web funciona con Microsoft PWS, IIS

Unix, Mac OS/10: biblioteca web soloUsa Apache (u otro servidor web)Linux binaries suppliedProbado en SUN Solaris, Mac OS/10Necesita GDBM (estandar en Linux)

Page 29: Taller Greenstone Conceptos

Práctica

Instalación de Greenstone y colecciones de demo

(Práctica)

Page 30: Taller Greenstone Conceptos

$GSDLHOME

collect

demo

C:\Program Files\gsdl

bin, etc, images, macrossrc, lib, packages

english.dmfrench.dmspanish.dm

Otras colecciones

Estructura de Greenstone

Page 31: Taller Greenstone Conceptos

Conversión del Documento

Indices Clasificadores

Indice textocompleto

Base de datos

Archivosasociados

Import

Build

Documento

Metadatos

Ambos

Extracción de metadatos

Formateo interno

Page 32: Taller Greenstone Conceptos

Documento

Metadatos

Ambos

txts, PDF, PostScript, codigo fuente, imágenes …

HTML, WORD, Email, TIFF, …

Formato XML , BibTex, OAI, MARC, …

Identificar idioma, acrónimos, miniaturas de imágenes

Procesos

Recorrer estructuras de directorios, partir archivos, abrir ZIPs…

XMLIncluye MetadatosDivisión en seccionesLinks a archivos externos

Extraer metadatos

Conversión del Documento

Formateo interno

Page 33: Taller Greenstone Conceptos

Herramienta GLI

Ejercicio:

Descripción y armado de una pequeña colección

Page 34: Taller Greenstone Conceptos

Herramienta GLI

Diego Spano

[email protected]