CALIDAD DE DATOS - Uruguay › agencia-gobierno-electronico-sociedad-informac… · - Mediciones...

Preview:

Citation preview

CALIDAD DE DATOS

Diego Rosselli

Objetivos

- Introducción Calidad Datos

- Estrategia aseguramiento calidad

- Lecciones aprendidas

1

2

3

Objetivos

- Introducción Calidad Datos

- Estrategia aseguramiento calidad

- Lecciones aprendidas

1

2

3

Introducción

Calidad:

1

- La percibimos

- La definimos

- La medimos

Datos

Calidad datos: ¿algo nuevo? 1

Reporte Gestión decalidaddatosA B C

1 1 22 1 1

F G H

a c d

D E

1 1

4 2

A B C1 1 22 1 1

F G H

a c d

D E

1 1

4 2

Adecuación al uso

- Calle, número puerta

1

- Calle, esquina, destinatario

- Plano

Calidad - Valor - Expectativas

Puede ser correcto, preciso, actualizado y no colaborar con las necesidades del usuario.

1

Puede no alcanzar o por el contrario superar las expectativas del usuario.

Calidad <> Precisión

Causas de problemas de calidad

- Producción: ingreso manual, sensores, unificar diferentes fuentes

1

Causas de problemas de calidad

- Almacenamiento: ausencia de formato común, diseño inadecuado de base de datos

1

Causas de problemas de calidad

- Utilización: actualización, cambios de requerimientos, errores de interpretación

1

Multi-dimensión de la calidad de datos

- Completitud- Unicidad- Exactitud- Consistencia- Actualidad- Otras: ISO/IEC 25012, ISO 8000

1

Dimensión Unicidad 1

CI Nombre Calle Nro. F.Nto. Edad

1 José Calle A 1 A 3011 José Calle A 1 A 301 José Calle A 1 A 303 María Calle B 2 B 284 Juana Calle C 3 C 29

Unicidad: Medición y Registro 1

CI Nombre Calle Nro. F.Nto. Edad

1 José Calle A 1 A 3011 José Calle A 1 A 301 José Calle A 1 A 303 María Calle B 2 B 284 Juana Calle C 3 C 29

Calidad de cada línea

0

00

1

1

Unicidad: Medición y Registro 1

CI Nombre Calle Nro. F.Nto. Edad

1 José Calle A 1 A 3011 José Calle A 1 A 301 José Calle A 1 A 303 María Calle B 2 B 284 Juana Calle C 3 C 29

Calidad de cada línea

3

33

1

1

Dimensión Completitud 1

CI Nombre Calle Nro. F.Nto. Edad

1 José Calle A 1 A 302 Pepe C4 Juana Calle B 2 203 María Calle C D 40

Falta Inferir

EstimarNC

Completitud: Medición y Registro 1

CI Nombre Calle Nro. F.Nto. Edad

1 José Calle A 1 A 302 Pepe C4 Juana Calle B 2 203 María Calle C D 40

Calidad de cada celda0 1

Dimensión Completitud 1

CI Nombre Calle Nro. F.Nto. Edad

1 José Calle A 1 A 302 Pepe C4 Juana Calle B 2 203 María Calle C D 40

Falta Inferir

EstimarNC

Dimensión Correctitud sintáctica 1

CI Nombre Calle Nro. F.Nto. Edad

1 José Calle A 1 A 302 Pepe Calle D A# C 304 Juana Calle B B& B 403 María Calle C 3 D 40

Entero > 0

Especificación de una métrica 1

Nombre

Tipo resultado

Granularidad

Método medición

Valores correctos

Nombre

{0,1}

Celda

1

Entero > 0

0VC VNC

M1C.SintácticaNumPuerta

Especificación de una métrica 1

Nombre

Tipo resultado

Granularidad

Método medición

Valores correctos

Nombre

{0,1}

Celda

1 0VC VNC

M1C.SintácticaNomEmp

(A-Z)(a-z)+

Corrección de errores y mejoras

Estandarización

Limpieza

Liniers 1324

1000null

3# 2000Liniers

1324

Enriquecimiento Liniers 1324 CP11000

Depto.CuantitativoCualitativo

...

1

Prevención de errores: Catálogos

Direcciones

Datos personales

Liniers 1122

CI

Liniers1324

CP11000

NombreApellido

Esquina

Barrio

1

Prevención de errores: Estándares

Liniers 1324

País Localidad

Número puerta

Tipo vialidad

Letra puerta

Departamento Municipio

Nombre vialidad

Nombre inmueble

Bloque

Torre

Barrio

Sección

Componentesde una

Dirección uy

1

......

Resumen

- Principales conceptos, y dimensiones

- Especificación métrica

- Corrección de errores

- Prevención de errores

1

Objetivos

- Introducción Calidad Datos

- Estrategia aseguramiento calidad

- Lecciones aprendidas

1

2

3

Mediciones de calidad 2SelecciónDimensión

EspecificaciónMétrica

EjecuciónMediciones

Análisisresultados

Corrección deerrores y causas

SelecciónDato

Aseguramiento de calidad 2

Métricas

Dimensiones

Mediciones

Clasificación datos 2

RelevanciaAtr. Rel.

A.1 Si

A.2 NoPrioridad

FuenteAtr. Prioridad

A.3 1

A.4 3

A.6 2

Atr. Fuente

A.5 S1

A.7 S2

... ... ...

Análisiscalidad

Ciclo de vida del dato 2

ProducciónDigitación

Otros sistemas

Uso EdiciónActualización

Sensor

Destrucción

Juan Pepe 1a 12 11 1b 100

IncorrectaPor error

Inconsistencia

Procesos 2

Propiosde los datos

OrigenActualización

Análisisde calidad

Integración

MediciónCorrección

Negocio

Analizar

Construir

Almacenamiento resultados

- Mediciones BD Resultados

2

Mediciones periódicas 2

Medición Diagnóstico

Corrección

Automatizaciónmediciones

Periodicidad

Reportes

Aseguramiento calidad 2

Ciclo vida deldato

Personas-Roles

Clasificaciónde datos

Procesos

Medicionesde calidad

Sistema degestión CD

.. .. ..PrevenciónAlmacenamiento

resultados

Automatizaciónmediciones

Estrategia de comienzo 2

Medición Diagnóstico

Corrección

Sistema degestión CD

Ciclo de vidaProcesos

Clasificación

...AutomatizarSGCDSGCDSGCD

Objetivos

- Introducción Calidad Datos

- Estrategia aseguramiento calidad

- Lecciones aprendidas

1

2

3

Herramientas

- Mediciones con Pentaho PDI- Simplifica implementación- Permite automatizar ejecución- Libre uso

3

Correcciones

- Esfuerzo importante de análisis y corrección de datos y errores

alterar alterar BDsistemasy procesos

3

Datos generados en mediciones 3

CI Att1 Att2

1 A 10

2 B 20

1 C 30

3 D 40

12 mediciones

4 mediciones

celda

línea

Datos generados en mediciones 3

58

3

80.000.000

7.000.000

2.800.000

CI Att1 Att2

1 A 10

2 B 20

1 C 30

3 D 40 Clasificación

Granularidad

Automatización y Paneles

- Automatización de mediciones, para sucesivas ejecuciones

- Diseñar panel de resultados para mostrar resultados a usuarios

3

Espacio de intercambio

MUCHAS GRACIASPOR DUDAS, CONSULTAS O SUGERENCIASJORNADASTECNOLOGICAS@AGESIC.GUB.UY