Upload
lita
View
58
Download
6
Embed Size (px)
DESCRIPTION
Utilería para digitalizar, generar OCR y crear archivos PDF de código abierto Luis René Salas López [email protected] Coordinación de Automatización Bibliotecaria Xalapa. Reconocimiento Óptico de Caracteres. OCR. Los despido a todos. _ Estoy muy cansado… Quiero dormirme . - PowerPoint PPT Presentation
Citation preview
Primer Foro Universitario de Software Libre3, 4, y 5 de Junio de 2013
Proyecto GNU
FreeBSD
Linux
Utilería para digitalizar, generar OCR y crear archivos PDF de código abierto
Luis René Salas Ló[email protected]
Coordinación de Automatización Bibliotecaria
Xalapa
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Reconocimiento Óptico de Caracteres
Los despido a todos._Estoy muy cansado… Quiero dormirme._¿No vas a merendar?_No. Tengo mucho sueño...
OCR
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Tesseract-OCR
• Desarrollado por HP entre 1985 y 1994.• Nunca se usó en un producto HP.• Código liberado en 2005 y adoptado por
Google.• Altamente portable• Reconoce más de 60 lenguajes.
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Creación del documento
• Cuando se realiza el proceso de OCR sobre una imagen, podemos obtener un archivo con ubicación espacial del texto: hocr
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Creación del documento
• hOcr2Pdf.NETEs una librería para convertir .hocr html producidos por el motor Tessract-OCR o Cuneiform en pdf buscable. Liberado bajo licencia GNU General Public License version 2 (GPLv2).
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Creación del documento
• iTextSharpEs una librería compatible con C# de iText para java de código abierto para la creación y manipulación de archivos PDF. Liberado bajo licencia Affero GNU Public License.
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Creación del documento
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Creación del PDF
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Capacidad de búsqueda
Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013
Referencias
• “hOcr2Pdf.NET”, consultada por Internet el 29 de Abril del 2013. Dirección de Internet: https://hocrtopdf.codeplex.com/
• “iTextSharp”, consultada por Internet el 29 de Abril del 2013. Dirección de Internet: http://sourceforge.net/projects/itextsharp/
• “Tesseract-OCR”, consultada por Internet el 29 de Abril del 2013. Dirección de Internet: https://code.google.com/p/tesseract-ocr/