Upload
felton
View
72
Download
3
Embed Size (px)
DESCRIPTION
Greenstone. Basado en el trabajo de Jesús Tramullas Depto. CC. Documentación /Univ. de Zaragoza http://tramullas.com. Greenstone…. Es una aplicación para bibliotecas digitales… Su objetivo es trabajar con documentos con contenido textual, imagen, audio, video, etc. - PowerPoint PPT Presentation
Citation preview
GreenstoneGreenstone
Basado en el trabajo de Jesús TramullasBasado en el trabajo de Jesús TramullasDepto. CC. Documentación /Univ. de ZaragozaDepto. CC. Documentación /Univ. de Zaragoza
http://tramullas.comhttp://tramullas.com
Greenstone…Greenstone…
Es una aplicación para bibliotecas Es una aplicación para bibliotecas digitales…digitales…
Su objetivo es trabajar con documentos con Su objetivo es trabajar con documentos con contenido textual, imagen, audio, video, etc.contenido textual, imagen, audio, video, etc.
La interface de visualización es en html y La interface de visualización es en html y permite una visualización total del contenidopermite una visualización total del contenido
Organiza los documentos en colecciones…Organiza los documentos en colecciones…
Permite desarrollar estructuras de Permite desarrollar estructuras de organización de la colección…organización de la colección…
AplicacionesAplicaciones
En organizaciones y/o servicios de En organizaciones y/o servicios de información que utilicen documentos información que utilicen documentos digitalesdigitales
Indexa y busca sobre texto completo Indexa y busca sobre texto completo además de hacerlo sobre los metadatosademás de hacerlo sobre los metadatos
Es multilingüe: utiliza Es multilingüe: utiliza UnicodeUnicode
ArquitecturaArquitectura
Aplicación en PerlAplicación en Perl
Usa el motor de representación y Usa el motor de representación y recuperación de información MG, o su recuperación de información MG, o su versión avanzada MGPP, que usan el versión avanzada MGPP, que usan el modelo vectorialmodelo vectorial
Codifica toda la información en Codifica toda la información en XMLXML
Necesita de un servidor web de soporteNecesita de un servidor web de soporte
Incorpora una interfaz gráfica en JavaIncorpora una interfaz gráfica en Java
RequerimientosRequerimientos
Versiones Versiones binarias ejecutablesbinarias ejecutables para para Linux, Windows y MacLinux, Windows y Mac
Requiere un intérprete Requiere un intérprete PerlPerl
Requiere un Requiere un servidor webservidor web
Requiere Requiere Java Runtime EnvironmentJava Runtime Environment, , JREJRE
Para otros Unix hay código fuente que es Para otros Unix hay código fuente que es necesario compilarnecesario compilar
Greenstone en acciónGreenstone en acción
Da acceso a una interfaz predefinida, Da acceso a una interfaz predefinida, donde muestra las colecciones donde muestra las colecciones disponiblesdisponiblesLa selección de una de ellas lleva a la La selección de una de ellas lleva a la consulta de la mismaconsulta de la mismaLa interfaz está muy estandarizada: barra La interfaz está muy estandarizada: barra de botones, campo de expresión de de botones, campo de expresión de búsqueda y listado de respuestasbúsqueda y listado de respuestasEl acceso es libre a la interfaz de El acceso es libre a la interfaz de busqueda y recuperaciónbusqueda y recuperación
La consulta en GreenstoneLa consulta en Greenstone
Uso de las opciones en la barra de menú, Uso de las opciones en la barra de menú, y del campo de búsqueday del campo de búsqueda
Une los términos con ANDUne los términos con AND
Uso de comillas para frasesUso de comillas para frases
Existencia de una interfaz más avanzada, Existencia de una interfaz más avanzada, a través de a través de PreferenciasPreferencias
Visualiza los documentos según haya sido Visualiza los documentos según haya sido predefinido por el creador de la colecciónpredefinido por el creador de la colección
Creación de coleccionesCreación de colecciones
El proceso clave es la creación de El proceso clave es la creación de coleccionescolecciones
Es necesario definir claramente el Es necesario definir claramente el objetivo, contenido, características y objetivo, contenido, características y organización de la colecciónorganización de la colección
Interfaces de creación:Interfaces de creación:– Greenstone Librarian InterfaceGreenstone Librarian Interface, GLI, GLI– Línea de órdenesLínea de órdenes
Greenstone Librarian InterfaceGreenstone Librarian Interface, GLI, GLI
Método recomendado (y recomendable) Método recomendado (y recomendable) desde la versión 2.41adesde la versión 2.41a
Interfaz en Java que necesita el JREInterfaz en Java que necesita el JRE
Integra todos los pasos necesarios para Integra todos los pasos necesarios para crear una coleccióncrear una colección
Comprobar las Comprobar las PreferenciasPreferencias
Desarrollo de la colección, 1Desarrollo de la colección, 1
Definir el nombre y la descripción de la Definir el nombre y la descripción de la coleccióncolecciónSeleccionar el conjunto de metadatos a Seleccionar el conjunto de metadatos a utilizarutilizarCrea un fichero básico de configuración Crea un fichero básico de configuración de la colecciónde la colecciónSelección de los documentos a incluirSelección de los documentos a incluirAsignación de metadatos a cada uno de Asignación de metadatos a cada uno de los documentoslos documentos
Desarrollo de la colección, 2Desarrollo de la colección, 2
Es necesario definir los tipos de Es necesario definir los tipos de documentos, y los documentos, y los pluginsplugins necesarios para necesarios para su manipulaciónsu manipulación
Definir tipos de búsquedaDefinir tipos de búsqueda
Definir índices para las búsquedasDefinir índices para las búsquedas
Definir los clasificadoresDefinir los clasificadores
Definir los formatos de presentaciónDefinir los formatos de presentación
Construir la colección… e informe de Construir la colección… e informe de erroreserrores
PluginsPlugins
Son los procesadores de los tipos de Son los procesadores de los tipos de documentosdocumentosSon terceros programas, pueden aparecer Son terceros programas, pueden aparecer nuevosnuevosSe pueden seleccionar y configurarSe pueden seleccionar y configurarCuatro son necesarios: Cuatro son necesarios: BasPlugBasPlug, , GAPlugGAPlug, , ArcPlugArcPlug y y RecPlugRecPlugLos más importantes: TextPlug, Los más importantes: TextPlug, WordPlug, PDFPlug, IsisPlug, EMAILPlug, WordPlug, PDFPlug, IsisPlug, EMAILPlug, ExcelPlug, LaTeXPlug, PSPPlug…ExcelPlug, LaTeXPlug, PSPPlug…
ClasificadoresClasificadores
Criterios de organización de los Criterios de organización de los documentos de la coleccióndocumentos de la colección
Suelen aparecer en forma de botonesSuelen aparecer en forma de botones
Clasificadores:Clasificadores:– ListList– AzList, AzCompactListAzList, AzCompactList– DateListDateList– HierarchyHierarchy– Phind…Phind…
Nuestra experianciaNuestra experiancia
Instalación LinuxInstalación Linux
Si bien tiene algunos inconvenientes ya que Si bien tiene algunos inconvenientes ya que necesita que estén instalados ciertos necesita que estén instalados ciertos componentes y en el manual de instalación no componentes y en el manual de instalación no indica cuales, una vez que estos están indica cuales, una vez que estos están instalados no tiene mayor dificultad, la inteface instalados no tiene mayor dificultad, la inteface es buena y se configura fácilmente, en la es buena y se configura fácilmente, en la versión 2.60 han corregidos alguno errores con versión 2.60 han corregidos alguno errores con respecto a esto.respecto a esto.
Nuestra experienciaNuestra experiencia
Interface para crear coleccionesInterface para crear coleccionesMuy amena e intuitiva, su pueden configurar los Muy amena e intuitiva, su pueden configurar los plugins que procesan los distintos tipos de plugins que procesan los distintos tipos de documentos, se puede asociar un conjunto de documentos, se puede asociar un conjunto de metadatos a cada archivo de la colección, se metadatos a cada archivo de la colección, se puede indicar la forma de recuperación de las puede indicar la forma de recuperación de las colecciones, (institución, letra, tema, etc), se colecciones, (institución, letra, tema, etc), se puede editar el formato de visualización (no fue puede editar el formato de visualización (no fue investigado a fondo) entre otras cosas.investigado a fondo) entre otras cosas.
Nuestra ExperienciaNuestra Experiencia
Marcado de las tesis para que se puedan ver en capítulosMarcado de las tesis para que se puedan ver en capítulos
El marcado es sencillo, cualquier persona con conocimientos El marcado es sencillo, cualquier persona con conocimientos intermedios de HTML lo puede hacer, lo recomendable en todos los intermedios de HTML lo puede hacer, lo recomendable en todos los casos es convertir el documento a html, por lo que habría que casos es convertir el documento a html, por lo que habría que conseguir un buen programa, el mejor resultado que conseguí para conseguir un buen programa, el mejor resultado que conseguí para convertir docs es con el convertir docs es con el CZ-Doc2htmlCZ-Doc2html y después aplicando el y después aplicando el Bresoft Word HTML cleanupBresoft Word HTML cleanup, para “limpiar” el documento ya que , para “limpiar” el documento ya que deja mucho “basura” de Word al convertirlo, y esto dificulta el deja mucho “basura” de Word al convertirlo, y esto dificulta el marcado.marcado.
En el caso de pdf el procedimiento es el mismo.En el caso de pdf el procedimiento es el mismo.
Después de la conversión hay que recorrer todo el documento de Después de la conversión hay que recorrer todo el documento de punta a punta para observar si se corresponde con el original, ya punta a punta para observar si se corresponde con el original, ya que puede haber algunos problemas con las tablas y listas.que puede haber algunos problemas con las tablas y listas.En promedio (depende de la cantidad de capítulos, exagerada En promedio (depende de la cantidad de capítulos, exagerada muchas veces y de la fidelidad de la conversión) el formateo de la muchas veces y de la fidelidad de la conversión) el formateo de la tesis en capítulos nos llevó entre uno y dos días de trabajo.tesis en capítulos nos llevó entre uno y dos días de trabajo.
Nuestra ExperienciaNuestra Experiencia
Tratamiento de tesis escaneadasTratamiento de tesis escaneadasEn líneas generales el ocr interpretó bien el En líneas generales el ocr interpretó bien el texto.texto. Problemas:Problemas:
1.1. Se pierden las listas, sobre todo si en lugar de Se pierden las listas, sobre todo si en lugar de puntos, se usó otro caracter.puntos, se usó otro caracter.
2.2. Las tablas salen bien en cuanto al contenido, Las tablas salen bien en cuanto al contenido, se pierde todo el formato, por lo que hay que se pierde todo el formato, por lo que hay que reconstruirlasreconstruirlas
Nuestra ExperienciaNuestra Experiencia
3.3. Imágenes y formulas, principal problema, no se puede Imágenes y formulas, principal problema, no se puede obtener automáticamente, hay que escanear uno por obtener automáticamente, hay que escanear uno por uno, por lo que con una tesis con muchas formulas uno, por lo que con una tesis con muchas formulas como es el comun en exactas, ingenieria, etc., el como es el comun en exactas, ingenieria, etc., el trabajo que lleva es mucho y tedioso.trabajo que lleva es mucho y tedioso.Una buena manera de tratar las formulas, podría ser, Una buena manera de tratar las formulas, podría ser, conseguir el texto en Word y escribirlas de vuelta con conseguir el texto en Word y escribirlas de vuelta con el constructor de formulas (se va a conseguir una el constructor de formulas (se va a conseguir una calidad mejor que escanearlas, si bien es mas calidad mejor que escanearlas, si bien es mas trabajoso)trabajoso)
4.4. El tiempo de tratamiento de las tesis escaneadas El tiempo de tratamiento de las tesis escaneadas depende de la cantidad de gráficos y formulas que depende de la cantidad de gráficos y formulas que tengan.tengan.