68
Gestión digital de la información del papel a la web semántica Christian Sifaqui 25.10.2012

Gestión digital de la información, iSummit Loxa 2012

Embed Size (px)

DESCRIPTION

Presentación para iSummit Loxa 2012

Citation preview

Page 1: Gestión digital de la información, iSummit Loxa 2012

Gestión digital de la informacióndel papel a la web semántica

Christian Sifaqui

25.10.2012

Page 2: Gestión digital de la información, iSummit Loxa 2012

Congreso Nacional de Chile

Page 3: Gestión digital de la información, iSummit Loxa 2012
Page 4: Gestión digital de la información, iSummit Loxa 2012

Roles de la BCN

Rol parlamentario, ser un instrumento relevante, a juicio de los parlamentarios y el parlamento, para el cabal cumplimiento de sus compromisos y el atisbamiento de nuevos escenarios posibles de país

Page 5: Gestión digital de la información, iSummit Loxa 2012

Roles de la BCN

Rol parlamentario, ser un instrumento relevante, a juicio de los parlamentarios y el parlamento, para el cabal cumplimiento de sus compromisos y el atisbamiento de nuevos escenarios posibles de país

Rol societal, ser el repositorio del Archivo del Parlamento, en especial de la historia de la Ley y de la labor parlamentaria

Page 6: Gestión digital de la información, iSummit Loxa 2012

Roles de la BCN

Rol parlamentario, ser un instrumento relevante, a juicio de los parlamentarios y el parlamento, para el cabal cumplimiento de sus compromisos y el atisbamiento de nuevos escenarios posibles de país

Rol societal, ser el repositorio del Archivo del Parlamento, en especial de la historia de la Ley y de la labor parlamentaria

Rol público, ser el espacio de conocimiento y comprensión de los ámbitos de interés social prioritarios para el país con énfasis en lo político y lo jurídico

Page 7: Gestión digital de la información, iSummit Loxa 2012

Roles de la BCN

Rol parlamentario, ser un instrumento relevante, a juicio de los parlamentarios y el parlamento, para el cabal cumplimiento de sus compromisos y el atisbamiento de nuevos escenarios posibles de país

Rol societal, ser el repositorio del Archivo del Parlamento, en especial de la historia de la Ley y de la labor parlamentaria

Rol público, ser el espacio de conocimiento y comprensión de los ámbitos de interés social prioritarios para el país con énfasis en lo político y lo jurídico

Page 8: Gestión digital de la información, iSummit Loxa 2012

Atendemos y entregamos servicios

Page 9: Gestión digital de la información, iSummit Loxa 2012
Page 10: Gestión digital de la información, iSummit Loxa 2012

Papel

Ha durado miles de años…

… y durará miles de años más

Page 11: Gestión digital de la información, iSummit Loxa 2012

Una historia: procesamiento de diarios

Unidad de Recortes de Prensa:analizaba las noticiasrecortaba físicamente (con tijeras)almacenaba estos recortes en sobres clasificados por

materia, previa asignación de una tarjeta de identificación

actualmente son más de 5 millones de recortes de prensa

Page 12: Gestión digital de la información, iSummit Loxa 2012

Una historia: procesamiento de diarios

ActualmenteDigitalizando recortes (estándares, resolución, …)Metadata (Dublin core, propias …)OCR (calidad, ICR, …)

Estos documentos se ingresan como noticias históricas a nuestro sistema noticias.bcn.cl (después lo veré en detalle)

Page 13: Gestión digital de la información, iSummit Loxa 2012

Una historia: procesamiento de diarios

Unidad de Indización de la prensa: revisaba los diariosredactaba fichas con un resumen y con una referencia al

diariocerrada en 1990 (pasó al olvido)existen 15 ficheros con estas fichas

Page 14: Gestión digital de la información, iSummit Loxa 2012

Una historia: procesamiento de diarios

Prototipo¿será posible relacionar las fichas con los recortes?

Page 15: Gestión digital de la información, iSummit Loxa 2012

Una historia: procesamiento de diarios

Se digitalizaron algunas fichas

Page 16: Gestión digital de la información, iSummit Loxa 2012

Una historia: procesamiento de diarios

Encontró artículo(mismo medio, fecha y contenido)

Encontró para el mismo día contenidossimilares pero de diferentes medios

Encontró en la semana artículos decontenidos similares

Page 17: Gestión digital de la información, iSummit Loxa 2012

Una historia: procesamiento de diarios

Después de 22 años se pudo integrar información on-the-fly, ya que se dispuso digitalmente

Pero…sólo para Senador Anselmo Sule107 fichasdigitalización 107 fichas 10 minutosOCR 5 minutos sin correccióndos personas usaron 2:45 hrs. c/u para revisar OCRs

Tenemos 400.000 fichas app.Sólo un prototipo

Page 18: Gestión digital de la información, iSummit Loxa 2012
Page 19: Gestión digital de la información, iSummit Loxa 2012

http://noticias.bcn.cl 2009-

Page 20: Gestión digital de la información, iSummit Loxa 2012

http://noticias.bcn.cl 2009-

Page 21: Gestión digital de la información, iSummit Loxa 2012

http://noticias.bcn.cl 2009-

radio

tv

Page 22: Gestión digital de la información, iSummit Loxa 2012

http://noticias.bcn.cl 2009-

Page 23: Gestión digital de la información, iSummit Loxa 2012

http://noticias.bcn.cl 2009-

temas “candentes” para la prensa

Page 24: Gestión digital de la información, iSummit Loxa 2012
Page 25: Gestión digital de la información, iSummit Loxa 2012

Definiciones

Open Data: es un idea que impulsa la publicación de datos de forma libre y asequible a cualquier persona para usar y republicar sin restricciones de ningún tipo

Linked Data: es usar la web para conectar datos relacionados que no estaban enlazados previamente. Usa algunas de las mejores prácticas de la Web Semántica

Page 26: Gestión digital de la información, iSummit Loxa 2012

Motivación

Acciones y datos del Estado pueden ser supervisadosMejora transparencia y confianza

Valor público (genera experiencia ciudadana)Colaboración e invetigaciónReutilización de los datos

Información pública pertenece a los ciudadanosFinanciado con recursos públicosROI

Page 27: Gestión digital de la información, iSummit Loxa 2012

Dominios de aplicación

Legislación

Historia política

Page 28: Gestión digital de la información, iSummit Loxa 2012

Legislación

Legislación es información pública…

… y debe ser de dominio público

Page 29: Gestión digital de la información, iSummit Loxa 2012

Legislación

Hacer disponible y facilitar el acceso a la comunidad de las fuentes jurídicas de uso en el Congreso Nacional, junto con educar y fomentar las redes sociales en torno a temas jurídicos

Page 30: Gestión digital de la información, iSummit Loxa 2012

Legislación

Certeza jurídica

Certeza del contenido de la norma legal

Page 31: Gestión digital de la información, iSummit Loxa 2012

Legislación

En los años 50compilación mediante fichas con referencias entre las normas y clasificadas por materia

Page 32: Gestión digital de la información, iSummit Loxa 2012

Legislación

En los 80el sistema de fichas fue reemplazado por un sistema automático basado en STAIRS

A mediados de los 90el sistema anterior se reemplaza por una arquitctura cliente-servidor basada en BASIS PLUS, reconstruyendo en línea en texto completo de las normas

Page 33: Gestión digital de la información, iSummit Loxa 2012

LeyChile

Liberado el 2008

Page 34: Gestión digital de la información, iSummit Loxa 2012

LeyChile

Biblioteca del Congreso Nacional de Chile

Biblioteca del Congreso Nacional de Chile

Ley 220001.- abc2.- def3.- ghi

Ley 220001.- abc2.- def3.- ghi

(original)1.- abc2.- def3.- ghi

(original)1.- abc2.- def3.- ghi

Diario OficialDiario Oficial

Ley 22000Ley 22000

Page 35: Gestión digital de la información, iSummit Loxa 2012

LeyChile

Biblioteca del Congreso Nacional de Chile

Biblioteca del Congreso Nacional de Chile

Ley 253451.- Modifica

ley 22000Art. 1

sustitúyase apor xyz

Ley 253451.- Modifica

ley 22000Art. 1

sustitúyase apor xyz

(original)1.- abc2.- def3.- ghi

(original)1.- abc2.- def3.- ghi

(actualizada)1.- xyzbc

2.- def3.- ghi

(actualizada)1.- xyzbc

2.- def3.- ghi

Ley 253451.- Modifica

ley 22000Art. 1

sustitúyase apor xyz

Ley 253451.- Modifica

ley 22000Art. 1

sustitúyase apor xyz

Ley 22000Ley 22000

Ley 25345Ley 25345

Diario OficialDiario Oficial

Page 36: Gestión digital de la información, iSummit Loxa 2012

LeyChile

Modelar la “vida” de una norma

Page 37: Gestión digital de la información, iSummit Loxa 2012

LeyChile

Modelar la “vida” de una norma

Page 38: Gestión digital de la información, iSummit Loxa 2012

LeyChile

Modelar la “vida” de una norma

Page 39: Gestión digital de la información, iSummit Loxa 2012

LeyChile

Modelar la “vida” de una norma

Page 40: Gestión digital de la información, iSummit Loxa 2012

LeyChile

Modelar la “vida” de una norma

Page 41: Gestión digital de la información, iSummit Loxa 2012

LeyChile

Modelar la “estructura” de una norma

Page 42: Gestión digital de la información, iSummit Loxa 2012

LeyChile

XMLTexto: versiones, hypervículos, referencias, notas

Estructura: Organización jerárquica de las partes de una norma

Metadata: información adicional del documento, como identificación de la norma, materias, términos libres, etc.

Page 43: Gestión digital de la información, iSummit Loxa 2012

LeyChile: nuestra oferta a seres humanos

Page 44: Gestión digital de la información, iSummit Loxa 2012

LeyChile: nuestra oferta a máquinas

WSDL (http://www.leychile.cl/ws/LeyChile.wsdl)

Page 45: Gestión digital de la información, iSummit Loxa 2012

LeyChile: nuestra oferta a máquinas

WSDL (http://www.leychile.cl/ws/LeyChile.wsdl)Links, widgets, web services

(http://llevatelo.bcn.cl)

Page 46: Gestión digital de la información, iSummit Loxa 2012

LeyChile: ¿es posibe incorporarle linked-open data (LOD)?

Extensión natural

Mejorar la interoperabilidad (más formatos)

Crear ontologías del dominio

Ofrecer una solución a consultas complejas usando un endpoint SPARQL

Primer paso: exponer metadata de las normas

Page 47: Gestión digital de la información, iSummit Loxa 2012

Principios LOD: URIs

Diseño cuidadoso (leyes, decretos, reglamentos, resoluciones, decretos ley…)

FRBR

WorkWork ley 20000ley 20000

ExpressionExpression Versión actualizadapara el año 2012

Versión actualizadapara el año 2012

ManisfestationManisfestation archivo XMLarchivo XML

1

N1

1

N

N

ItemItem Archivo físico XML enun servidor específico

Archivo físico XML enun servidor específico

Page 48: Gestión digital de la información, iSummit Loxa 2012

Principios LOD: URIs

http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341Decreto 341; publicado el 11/11/2008; del Ministerio de Educación

http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2008-11-07http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2008-11-07

http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2010-07-20http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2010-07-20

Versión original

Otra versión

Page 49: Gestión digital de la información, iSummit Loxa 2012

Principios LOD: RDF

Page 50: Gestión digital de la información, iSummit Loxa 2012

Principios LOD: enlaces

Relaciones a otros datasets: países (Tratados internacionales)DBPedia, Geonames

Reuso de vocabularios/ontologíasSKOS, DC, FOAF, DBPedia, ORG

Page 51: Gestión digital de la información, iSummit Loxa 2012

Consulta compleja

Encontrar todas las ordenanzas municipales publicadas entre 1995 y 2000, pero que hayan sido modificadas después del 2005

PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ?Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ?Fecha_modificacionWHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005"))}ORDER BY (?pubDate)

PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ?Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ?Fecha_modificacionWHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005"))}ORDER BY (?pubDate)

Page 52: Gestión digital de la información, iSummit Loxa 2012

http://datos.bcn.cl

Primera etapa finalizada en mayo del 2011Más de 300.000 normas exportadas≈27 triplas por norma≈8 millones de triplas

200 a 400 triplas se agregan cada día

Page 53: Gestión digital de la información, iSummit Loxa 2012

David Robinson and Harlan Yu in “El desafío hacia el gobierno abierto en la hora de la igualdad”, Gastón Concha y Alejandra Naser (eds.), Santiago, CEPAL, 2012

“Open data does not create its own demand. The government should compromise the developers”

Page 54: Gestión digital de la información, iSummit Loxa 2012

Visualizaciones

Page 55: Gestión digital de la información, iSummit Loxa 2012

Visualizaciones

Page 56: Gestión digital de la información, iSummit Loxa 2012
Page 57: Gestión digital de la información, iSummit Loxa 2012

Historia política

Rescatar  y poner en servicio a la comunidad la memoria política chilena, resguardando los discursos, actos y rol de los parlamentarios y el Congreso, como al mismo tiempo, el contexto en que se desenvuelve la política chilena y con ello contribuir a que los ciudadanos reconozcan su identidad y sentido político en una perspectiva histórica

Page 58: Gestión digital de la información, iSummit Loxa 2012

Historia política

Reseñas biográficas

Page 59: Gestión digital de la información, iSummit Loxa 2012

Historia política

Reseñas biográficas

Page 60: Gestión digital de la información, iSummit Loxa 2012

Historia políticahttp://datos.bcn.cl/recurso/persona/2371http://datos.bcn.cl/recurso/persona/2371

Page 61: Gestión digital de la información, iSummit Loxa 2012

Historia política

Reseñas biográficas

no tenemos todos los años de nacimiento, ni fallecimiento, ni los lugarespor ejemplo, Salvador de la Cavareda Trucios diputado

suplente por Valparaíso 1824 a 1825 (hermano de Salvador y José Joaquín)

Pero sabemos lo que nos falta:PREFIX bcnbio: <http://datos.bcn.cl/ontologies/bcn-biographies#> select * where { ?a a foaf:Person . OPTIONAL {?a bcnbio:hasBorn ?ano } . FILTER (!bound(?ano)) . }

PREFIX bcnbio: <http://datos.bcn.cl/ontologies/bcn-biographies#> select * where { ?a a foaf:Person . OPTIONAL {?a bcnbio:hasBorn ?ano } . FILTER (!bound(?ano)) . }

Page 62: Gestión digital de la información, iSummit Loxa 2012

Historia política

Reseñas biográficas

Manuel Joaquín Díaz (diputado Congreso Constituyente 1891)

Manuel Joaquín Díaz Besoaín (diputado 1906-1908)

¡No es la misma persona!el primero es Liberal-Democrático y el segundo

Conservador

Page 63: Gestión digital de la información, iSummit Loxa 2012

Historia política

Reseñas biográficas

Juan Esteban Manzano de la Sotta (diputado 1825-1826)

Esteban Ignacio Fernández del Manzano y de la Sotta

¡Es la misma persona!

Page 64: Gestión digital de la información, iSummit Loxa 2012

Historia política

Reseñas biográficas

Carlos Larraín Claro (diputado 1912- 1915)Carlos Larraín Claro, suegro de Jorge Astaburuaga

Lyon (diputado 1924-1927)

¿Es la misma persona?

Page 65: Gestión digital de la información, iSummit Loxa 2012

Visualizaciones

ConformacionesDetalle del

parlamentario

Árbol genealógico Relaciones deparentezco

datos.bcn.cl/GenealogiaParlamentaria

Page 66: Gestión digital de la información, iSummit Loxa 2012

Desarrollo actual

Page 67: Gestión digital de la información, iSummit Loxa 2012

Trabajo actual y futuro

Más datasets: biografías, transparencia, datos geográficos, historia de la ley, documentos legislativos…

Exponer partes de una norma y su metadata

Page 68: Gestión digital de la información, iSummit Loxa 2012

Conclusiones

Open data, open linked data, web semántica es más que una tecnología… es una manera de administrar información

Visualización no es un producto final, es un proceso de realimentación para “purificar” los datos y mejorar la visualización

Crea valor para nosotros mismos 1

Muchos detalles técnicos y desafíos permanecen sin resolver 1

1.- David Robinson and Harlan Yu in “El desafío hacia el gobierno abierto en la hora de la igualdad”, Gastón Concha y Alejandra Naser (eds.), Santiago, CEPAL, 2012