Upload
claudia-gutierrez
View
260
Download
2
Embed Size (px)
Citation preview
Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto
Olga AcostaElena Gamboa Claudia Gutierrez
Repositorios
Institucionales
Sistemas de Recuperaci
ón de Informació
n
Bases de datos de revistas
Repositorios de
Tesis
Grandes volúmenes de Información en formatos
digitales
Administran
Gestionan
Recuperan
Extracción de Información
Información
Herramientas de
Extracción de Información
Extracción Terminológi
ca
Análisis del Contenido
Extracción de Información• Es una subdisciplina es un sub disciplina de la Inteligencia
Artificial
• Utiliza las técnicas de procesamiento de lenguaje natural para explorar un dominio del conocimiento específico (conjunto de documentos).
• De acuerdo con Riloff y Lorenzen (1999), un sistema de EI obtiene información de textos en lengua natural y para un dominio específico, donde se debe definir previamente el dominio y los tipos de información de interés.
La Extracción de Información nos permite :
Realizar el análisis del contenido de los documentos (análisis del discurso)
Extracción terminológica para crear un vocabulario controlado, tesauros u ontologías.
Realizar un análisis terminológico
Extraccion de Información Sitio de Transparencia
• El proceso de extracción de información en este caso específico tiene como propósito semi - automatizar la obtención de datos relacionados con los indicadores del modelo de evaluación de de los sitios de gobierno abierto: Directorio de transparencia Activa y Portal de datos de gobierno.
• Herramientas utilizadas:
Lenguaje de Programación Python
Libreria BeautifulSoup
Sketchengine
Modelo Modelo para la Evaluación de los Datos Abiertos
De acuerdo a los estándares por W3C y el G8 se ha fijado el siguiente modelos de evaluación de datos abiertos:
Usando BeautifulSoup
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
Usando Sketchengine:• Es una herramienta computacional que permite realizar el análisis
linguístico de un corpus ( conjuntos de textos de un mismo dominio del conocimiento).
• Es un programa que se puede consultar en la web: http://www.sketchengine.co.uk/
Usando Sketchengine
1. Crear un corpus :
Es muy importante seleccionar el idioma ya que sketcheengine nos permite trabajar en diferentes idiomas .
Usando Sketchengine• Sketchengine permite formar un corpus a partir de una url dada o de un archivo soportando
los siguientes tipos formatos:.doc, .docx, .htm, .html, .pdf, .ps, .tar.bz2, .tar.gz, .tgz, .tmx, .txt, .vert, .xml, .zip. txt .
• También puedo subir los archivos a su servidor.
Usando Sketchengine• Una vez formado el corpus puedo explorarlo utilizando las
funciones del módulo de exploración:
• Concordance • Word List • Word Sketch• Thesaurus• Find X• Sketch-Diff
E.I para un sitio de gobierno abierto
• Pasos previos a la extracción de información:• Construir un diagrama de la estructura del sitio a explorar• Determinar la muestra de las entidades del directorio de
transparencia Establecer los niveles de navegación • Explorar y aprender usar las herramientas (BeautifulSoup y
Sketch Egine)
Pasos para la E.I.
Conclusiones• Las herramientas de Extracción de información constituyen una
valiosa herramienta para los profesionales de la información.
• Permiten realizar el análisis terminológico y de contenido de un corpus de un dominio del conocimiento.
• Permite establecer un vocabulario normalizado altamente representativo del contenido del los documentos.
• Permite extraer información específica y significativa para los análisis de contenido.