View
7.354
Download
4
Embed Size (px)
Citation preview
Recolector de Documentos
Diversidad DocumentalBlogs
Revistas electronicas
Prensa Historica
Tesis
Paginas Web
Correo electronico
RSS
Fotografias
Etc...
Recolector de Documentos
Diversidad de Formatos y Normas
PDF de Adobe
MS Office PPT, DOC, XLS
Imagenes JPG, GIF
RSS, ATOM, RSS2...
HTML, XML...
Dublin Core
HL7
Ascii, UTF-8, ANSI...
Recolector de Documentos ¿Que informacion se extrae?
Metadatos
Texto Completo
Informacion introducida manualmente
.....
1 Recolectar enlaces URLExtrae los enlaces URL de una pagina a partir de una direccion URL
2 Lector de XMLLee XML de medios, RSS, ATOM...
3 Importa ficheros de disco De directorios, cds, dvd..
4 Introduccion manual de registros Permite el registro manual de documentos.
Estructura jerarquica
Cuadro de Clasificacion / Expediente / Volumen / DocumentoPublicacion / Numero / Pagina
Calculo de la materia
Calcula la materia probable comparando los terminos con una base de terminos por materia
CREDITOSEste es un software para uso no comercial, para otros usos consulte las respectivas licencias
Utiliza el siguiente software de apoyo, integrandolo en la gestor de base de datos:
Exiftool para la extraccion de metadatos, ExifTool by Phil Harveyhttp://www.sno.phy.queensu.ca/~phil/exiftool/
Gettext para la extraccion de texto plano de documentos, Kryloff Technologies, Inc. http://www.kryltech.com/
Vbscript y Cscript para facilitar y optimizar el uso de programas externos y para extraer XML, URL y metadatos de paginas HTMLhttp://www.microsoft.com
La base de datos esta realizada con Velneo para trabajar sobre plataformas windows.http://www.velneo.comv