Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno...

Preview:

Citation preview

Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Olga AcostaElena Gamboa Claudia Gutierrez

Repositorios

Institucionales

Sistemas de Recuperaci

ón de Informació

n

Bases de datos de revistas

Repositorios de

Tesis

Grandes volúmenes de Información en formatos

digitales

Administran

Gestionan

Recuperan

Extracción de Información

Información

Herramientas de

Extracción de Información

Extracción Terminológi

ca

Análisis del Contenido

Extracción de Información• Es una subdisciplina es un sub disciplina de la Inteligencia

Artificial

• Utiliza las técnicas de procesamiento de lenguaje natural para explorar un dominio del conocimiento específico (conjunto de documentos).

• De acuerdo con Riloff y Lorenzen (1999), un sistema de EI obtiene información de textos en lengua natural y para un dominio específico, donde se debe definir previamente el dominio y los tipos de información de interés.

La Extracción de Información nos permite :

Realizar el análisis del contenido de los documentos (análisis del discurso)

Extracción terminológica para crear un vocabulario controlado, tesauros u ontologías.

Realizar un análisis terminológico

Extraccion de Información Sitio de Transparencia

• El proceso de extracción de información en este caso específico tiene como propósito semi - automatizar la obtención de datos relacionados con los indicadores del modelo de evaluación de de los sitios de gobierno abierto: Directorio de transparencia Activa y Portal de datos de gobierno.

• Herramientas utilizadas:

Lenguaje de Programación Python

Libreria BeautifulSoup

Sketchengine

Modelo Modelo para la Evaluación de los Datos Abiertos

De acuerdo a los estándares por W3C y el G8 se ha fijado el siguiente modelos de evaluación de datos abiertos:

Usando BeautifulSoup

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

Usando Sketchengine:• Es una herramienta computacional que permite realizar el análisis

linguístico de un corpus ( conjuntos de textos de un mismo dominio del conocimiento).

• Es un programa que se puede consultar en la web: http://www.sketchengine.co.uk/

Usando Sketchengine

1. Crear un corpus :

Es muy importante seleccionar el idioma ya que sketcheengine nos permite trabajar en diferentes idiomas .

Usando Sketchengine• Sketchengine permite formar un corpus a partir de una url dada o de un archivo soportando

los siguientes tipos formatos:.doc, .docx, .htm, .html, .pdf, .ps, .tar.bz2, .tar.gz, .tgz, .tmx, .txt, .vert, .xml, .zip. txt .

• También puedo subir los archivos a su servidor.

Usando Sketchengine• Una vez formado el corpus puedo explorarlo utilizando las

funciones del módulo de exploración:

• Concordance • Word List • Word Sketch• Thesaurus• Find X• Sketch-Diff

E.I para un sitio de gobierno abierto

• Pasos previos a la extracción de información:• Construir un diagrama de la estructura del sitio a explorar• Determinar la muestra de las entidades del directorio de

transparencia Establecer los niveles de navegación • Explorar y aprender usar las herramientas (BeautifulSoup y

Sketch Egine)

Pasos para la E.I.

Conclusiones• Las herramientas de Extracción de información constituyen una

valiosa herramienta para los profesionales de la información.

• Permiten realizar el análisis terminológico y de contenido de un corpus de un dominio del conocimiento.

• Permite establecer un vocabulario normalizado altamente representativo del contenido del los documentos.

• Permite extraer información específica y significativa para los análisis de contenido.

Recommended