18
Greenstone Greenstone Basado en el trabajo de Jesús Basado en el trabajo de Jesús Tramullas Tramullas Depto. CC. Documentación /Univ. de Zaragoza Depto. CC. Documentación /Univ. de Zaragoza http://tramullas.com http://tramullas.com

Greenstone

  • Upload
    felton

  • View
    72

  • Download
    3

Embed Size (px)

DESCRIPTION

Greenstone. Basado en el trabajo de Jesús Tramullas Depto. CC. Documentación /Univ. de Zaragoza http://tramullas.com. Greenstone…. Es una aplicación para bibliotecas digitales… Su objetivo es trabajar con documentos con contenido textual, imagen, audio, video, etc. - PowerPoint PPT Presentation

Citation preview

Page 1: Greenstone

GreenstoneGreenstone

Basado en el trabajo de Jesús TramullasBasado en el trabajo de Jesús TramullasDepto. CC. Documentación /Univ. de ZaragozaDepto. CC. Documentación /Univ. de Zaragoza

http://tramullas.comhttp://tramullas.com

Page 2: Greenstone

Greenstone…Greenstone…

Es una aplicación para bibliotecas Es una aplicación para bibliotecas digitales…digitales…

Su objetivo es trabajar con documentos con Su objetivo es trabajar con documentos con contenido textual, imagen, audio, video, etc.contenido textual, imagen, audio, video, etc.

La interface de visualización es en html y La interface de visualización es en html y permite una visualización total del contenidopermite una visualización total del contenido

Organiza los documentos en colecciones…Organiza los documentos en colecciones…

Permite desarrollar estructuras de Permite desarrollar estructuras de organización de la colección…organización de la colección…

Page 3: Greenstone

AplicacionesAplicaciones

En organizaciones y/o servicios de En organizaciones y/o servicios de información que utilicen documentos información que utilicen documentos digitalesdigitales

Indexa y busca sobre texto completo Indexa y busca sobre texto completo además de hacerlo sobre los metadatosademás de hacerlo sobre los metadatos

Es multilingüe: utiliza Es multilingüe: utiliza UnicodeUnicode

Page 4: Greenstone

ArquitecturaArquitectura

Aplicación en PerlAplicación en Perl

Usa el motor de representación y Usa el motor de representación y recuperación de información MG, o su recuperación de información MG, o su versión avanzada MGPP, que usan el versión avanzada MGPP, que usan el modelo vectorialmodelo vectorial

Codifica toda la información en Codifica toda la información en XMLXML

Necesita de un servidor web de soporteNecesita de un servidor web de soporte

Incorpora una interfaz gráfica en JavaIncorpora una interfaz gráfica en Java

Page 5: Greenstone

RequerimientosRequerimientos

Versiones Versiones binarias ejecutablesbinarias ejecutables para para Linux, Windows y MacLinux, Windows y Mac

Requiere un intérprete Requiere un intérprete PerlPerl

Requiere un Requiere un servidor webservidor web

Requiere Requiere Java Runtime EnvironmentJava Runtime Environment, , JREJRE

Para otros Unix hay código fuente que es Para otros Unix hay código fuente que es necesario compilarnecesario compilar

Page 6: Greenstone

Greenstone en acciónGreenstone en acción

Da acceso a una interfaz predefinida, Da acceso a una interfaz predefinida, donde muestra las colecciones donde muestra las colecciones disponiblesdisponiblesLa selección de una de ellas lleva a la La selección de una de ellas lleva a la consulta de la mismaconsulta de la mismaLa interfaz está muy estandarizada: barra La interfaz está muy estandarizada: barra de botones, campo de expresión de de botones, campo de expresión de búsqueda y listado de respuestasbúsqueda y listado de respuestasEl acceso es libre a la interfaz de El acceso es libre a la interfaz de busqueda y recuperaciónbusqueda y recuperación

Page 7: Greenstone

La consulta en GreenstoneLa consulta en Greenstone

Uso de las opciones en la barra de menú, Uso de las opciones en la barra de menú, y del campo de búsqueday del campo de búsqueda

Une los términos con ANDUne los términos con AND

Uso de comillas para frasesUso de comillas para frases

Existencia de una interfaz más avanzada, Existencia de una interfaz más avanzada, a través de a través de PreferenciasPreferencias

Visualiza los documentos según haya sido Visualiza los documentos según haya sido predefinido por el creador de la colecciónpredefinido por el creador de la colección

Page 8: Greenstone

Creación de coleccionesCreación de colecciones

El proceso clave es la creación de El proceso clave es la creación de coleccionescolecciones

Es necesario definir claramente el Es necesario definir claramente el objetivo, contenido, características y objetivo, contenido, características y organización de la colecciónorganización de la colección

Interfaces de creación:Interfaces de creación:– Greenstone Librarian InterfaceGreenstone Librarian Interface, GLI, GLI– Línea de órdenesLínea de órdenes

Page 9: Greenstone

Greenstone Librarian InterfaceGreenstone Librarian Interface, GLI, GLI

Método recomendado (y recomendable) Método recomendado (y recomendable) desde la versión 2.41adesde la versión 2.41a

Interfaz en Java que necesita el JREInterfaz en Java que necesita el JRE

Integra todos los pasos necesarios para Integra todos los pasos necesarios para crear una coleccióncrear una colección

Comprobar las Comprobar las PreferenciasPreferencias

Page 10: Greenstone

Desarrollo de la colección, 1Desarrollo de la colección, 1

Definir el nombre y la descripción de la Definir el nombre y la descripción de la coleccióncolecciónSeleccionar el conjunto de metadatos a Seleccionar el conjunto de metadatos a utilizarutilizarCrea un fichero básico de configuración Crea un fichero básico de configuración de la colecciónde la colecciónSelección de los documentos a incluirSelección de los documentos a incluirAsignación de metadatos a cada uno de Asignación de metadatos a cada uno de los documentoslos documentos

Page 11: Greenstone

Desarrollo de la colección, 2Desarrollo de la colección, 2

Es necesario definir los tipos de Es necesario definir los tipos de documentos, y los documentos, y los pluginsplugins necesarios para necesarios para su manipulaciónsu manipulación

Definir tipos de búsquedaDefinir tipos de búsqueda

Definir índices para las búsquedasDefinir índices para las búsquedas

Definir los clasificadoresDefinir los clasificadores

Definir los formatos de presentaciónDefinir los formatos de presentación

Construir la colección… e informe de Construir la colección… e informe de erroreserrores

Page 12: Greenstone

PluginsPlugins

Son los procesadores de los tipos de Son los procesadores de los tipos de documentosdocumentosSon terceros programas, pueden aparecer Son terceros programas, pueden aparecer nuevosnuevosSe pueden seleccionar y configurarSe pueden seleccionar y configurarCuatro son necesarios: Cuatro son necesarios: BasPlugBasPlug, , GAPlugGAPlug, , ArcPlugArcPlug y y RecPlugRecPlugLos más importantes: TextPlug, Los más importantes: TextPlug, WordPlug, PDFPlug, IsisPlug, EMAILPlug, WordPlug, PDFPlug, IsisPlug, EMAILPlug, ExcelPlug, LaTeXPlug, PSPPlug…ExcelPlug, LaTeXPlug, PSPPlug…

Page 13: Greenstone

ClasificadoresClasificadores

Criterios de organización de los Criterios de organización de los documentos de la coleccióndocumentos de la colección

Suelen aparecer en forma de botonesSuelen aparecer en forma de botones

Clasificadores:Clasificadores:– ListList– AzList, AzCompactListAzList, AzCompactList– DateListDateList– HierarchyHierarchy– Phind…Phind…

Page 14: Greenstone

Nuestra experianciaNuestra experiancia

Instalación LinuxInstalación Linux

Si bien tiene algunos inconvenientes ya que Si bien tiene algunos inconvenientes ya que necesita que estén instalados ciertos necesita que estén instalados ciertos componentes y en el manual de instalación no componentes y en el manual de instalación no indica cuales, una vez que estos están indica cuales, una vez que estos están instalados no tiene mayor dificultad, la inteface instalados no tiene mayor dificultad, la inteface es buena y se configura fácilmente, en la es buena y se configura fácilmente, en la versión 2.60 han corregidos alguno errores con versión 2.60 han corregidos alguno errores con respecto a esto.respecto a esto.

Page 15: Greenstone

Nuestra experienciaNuestra experiencia

Interface para crear coleccionesInterface para crear coleccionesMuy amena e intuitiva, su pueden configurar los Muy amena e intuitiva, su pueden configurar los plugins que procesan los distintos tipos de plugins que procesan los distintos tipos de documentos, se puede asociar un conjunto de documentos, se puede asociar un conjunto de metadatos a cada archivo de la colección, se metadatos a cada archivo de la colección, se puede indicar la forma de recuperación de las puede indicar la forma de recuperación de las colecciones, (institución, letra, tema, etc), se colecciones, (institución, letra, tema, etc), se puede editar el formato de visualización (no fue puede editar el formato de visualización (no fue investigado a fondo) entre otras cosas.investigado a fondo) entre otras cosas.

Page 16: Greenstone

Nuestra ExperienciaNuestra Experiencia

Marcado de las tesis para que se puedan ver en capítulosMarcado de las tesis para que se puedan ver en capítulos

El marcado es sencillo, cualquier persona con conocimientos El marcado es sencillo, cualquier persona con conocimientos intermedios de HTML lo puede hacer, lo recomendable en todos los intermedios de HTML lo puede hacer, lo recomendable en todos los casos es convertir el documento a html, por lo que habría que casos es convertir el documento a html, por lo que habría que conseguir un buen programa, el mejor resultado que conseguí para conseguir un buen programa, el mejor resultado que conseguí para convertir docs es con el convertir docs es con el CZ-Doc2htmlCZ-Doc2html y después aplicando el y después aplicando el Bresoft Word HTML cleanupBresoft Word HTML cleanup, para “limpiar” el documento ya que , para “limpiar” el documento ya que deja mucho “basura” de Word al convertirlo, y esto dificulta el deja mucho “basura” de Word al convertirlo, y esto dificulta el marcado.marcado.

En el caso de pdf el procedimiento es el mismo.En el caso de pdf el procedimiento es el mismo.

Después de la conversión hay que recorrer todo el documento de Después de la conversión hay que recorrer todo el documento de punta a punta para observar si se corresponde con el original, ya punta a punta para observar si se corresponde con el original, ya que puede haber algunos problemas con las tablas y listas.que puede haber algunos problemas con las tablas y listas.En promedio (depende de la cantidad de capítulos, exagerada En promedio (depende de la cantidad de capítulos, exagerada muchas veces y de la fidelidad de la conversión) el formateo de la muchas veces y de la fidelidad de la conversión) el formateo de la tesis en capítulos nos llevó entre uno y dos días de trabajo.tesis en capítulos nos llevó entre uno y dos días de trabajo.

Page 17: Greenstone

Nuestra ExperienciaNuestra Experiencia

Tratamiento de tesis escaneadasTratamiento de tesis escaneadasEn líneas generales el ocr interpretó bien el En líneas generales el ocr interpretó bien el texto.texto. Problemas:Problemas:

1.1. Se pierden las listas, sobre todo si en lugar de Se pierden las listas, sobre todo si en lugar de puntos, se usó otro caracter.puntos, se usó otro caracter.

2.2. Las tablas salen bien en cuanto al contenido, Las tablas salen bien en cuanto al contenido, se pierde todo el formato, por lo que hay que se pierde todo el formato, por lo que hay que reconstruirlasreconstruirlas

Page 18: Greenstone

Nuestra ExperienciaNuestra Experiencia

3.3. Imágenes y formulas, principal problema, no se puede Imágenes y formulas, principal problema, no se puede obtener automáticamente, hay que escanear uno por obtener automáticamente, hay que escanear uno por uno, por lo que con una tesis con muchas formulas uno, por lo que con una tesis con muchas formulas como es el comun en exactas, ingenieria, etc., el como es el comun en exactas, ingenieria, etc., el trabajo que lleva es mucho y tedioso.trabajo que lleva es mucho y tedioso.Una buena manera de tratar las formulas, podría ser, Una buena manera de tratar las formulas, podría ser, conseguir el texto en Word y escribirlas de vuelta con conseguir el texto en Word y escribirlas de vuelta con el constructor de formulas (se va a conseguir una el constructor de formulas (se va a conseguir una calidad mejor que escanearlas, si bien es mas calidad mejor que escanearlas, si bien es mas trabajoso)trabajoso)

4.4. El tiempo de tratamiento de las tesis escaneadas El tiempo de tratamiento de las tesis escaneadas depende de la cantidad de gráficos y formulas que depende de la cantidad de gráficos y formulas que tengan.tengan.