16
Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto Olga Acosta Elena Gamboa Claudia Gutierrez

Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Embed Size (px)

Citation preview

Page 1: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Olga AcostaElena Gamboa Claudia Gutierrez

Page 2: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Repositorios

Institucionales

Sistemas de Recuperaci

ón de Informació

n

Bases de datos de revistas

Repositorios de

Tesis

Grandes volúmenes de Información en formatos

digitales

Administran

Gestionan

Recuperan

Page 3: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Extracción de Información

Información

Herramientas de

Extracción de Información

Extracción Terminológi

ca

Análisis del Contenido

Page 4: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Extracción de Información• Es una subdisciplina es un sub disciplina de la Inteligencia

Artificial

• Utiliza las técnicas de procesamiento de lenguaje natural para explorar un dominio del conocimiento específico (conjunto de documentos).

• De acuerdo con Riloff y Lorenzen (1999), un sistema de EI obtiene información de textos en lengua natural y para un dominio específico, donde se debe definir previamente el dominio y los tipos de información de interés.

Page 5: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

La Extracción de Información nos permite :

Realizar el análisis del contenido de los documentos (análisis del discurso)

Extracción terminológica para crear un vocabulario controlado, tesauros u ontologías.

Realizar un análisis terminológico

Page 6: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Extraccion de Información Sitio de Transparencia

• El proceso de extracción de información en este caso específico tiene como propósito semi - automatizar la obtención de datos relacionados con los indicadores del modelo de evaluación de de los sitios de gobierno abierto: Directorio de transparencia Activa y Portal de datos de gobierno.

• Herramientas utilizadas:

Lenguaje de Programación Python

Libreria BeautifulSoup

Sketchengine

Page 7: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Modelo Modelo para la Evaluación de los Datos Abiertos

De acuerdo a los estándares por W3C y el G8 se ha fijado el siguiente modelos de evaluación de datos abiertos:

Page 8: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Usando BeautifulSoup

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

Page 9: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Usando Sketchengine:• Es una herramienta computacional que permite realizar el análisis

linguístico de un corpus ( conjuntos de textos de un mismo dominio del conocimiento).

• Es un programa que se puede consultar en la web: http://www.sketchengine.co.uk/

Page 10: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Usando Sketchengine

1. Crear un corpus :

Es muy importante seleccionar el idioma ya que sketcheengine nos permite trabajar en diferentes idiomas .

Page 11: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Usando Sketchengine• Sketchengine permite formar un corpus a partir de una url dada o de un archivo soportando

los siguientes tipos formatos:.doc, .docx, .htm, .html, .pdf, .ps, .tar.bz2, .tar.gz, .tgz, .tmx, .txt, .vert, .xml, .zip. txt .

• También puedo subir los archivos a su servidor.

Page 12: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Usando Sketchengine• Una vez formado el corpus puedo explorarlo utilizando las

funciones del módulo de exploración:

• Concordance • Word List • Word Sketch• Thesaurus• Find X• Sketch-Diff

Page 13: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

E.I para un sitio de gobierno abierto

• Pasos previos a la extracción de información:• Construir un diagrama de la estructura del sitio a explorar• Determinar la muestra de las entidades del directorio de

transparencia Establecer los niveles de navegación • Explorar y aprender usar las herramientas (BeautifulSoup y

Sketch Egine)

Page 14: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Pasos para la E.I.

Page 15: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto
Page 16: Herramientas de Extracción de Información para la Creación de un Corpus de un Sitio de Gobierno Abierto

Conclusiones• Las herramientas de Extracción de información constituyen una

valiosa herramienta para los profesionales de la información.

• Permiten realizar el análisis terminológico y de contenido de un corpus de un dominio del conocimiento.

• Permite establecer un vocabulario normalizado altamente representativo del contenido del los documentos.

• Permite extraer información específica y significativa para los análisis de contenido.