198
El proceso de análisis y explotación de datos en proyectos de Business Intelligence Módulo 01: Ciclo de vida del Dato en ambientes de BI Alex Rayón Jerez [email protected] Octubre, 2014

Ciclo de vida del dato en ambientes de Business Intelligence

Embed Size (px)

DESCRIPTION

Taller práctico "Ciclo de vida del dato en ambientes de Business Intelligence" como primer paso a la capacitación de una organización para la explotación de los datos para aumentar la inteligencia de negocios.

Citation preview

Page 1: Ciclo de vida del dato en ambientes de Business Intelligence

El proceso de análisis y explotación de datos en proyectos de Business

IntelligenceMódulo 01: Ciclo de vida del Dato en ambientes de BI

Alex Rayón [email protected]

Octubre, 2014

Page 2: Ciclo de vida del dato en ambientes de Business Intelligence

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos

Page 3: Ciclo de vida del dato en ambientes de Business Intelligence

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos

Page 4: Ciclo de vida del dato en ambientes de Business Intelligence

Big Data y sociedadIntroducción

Según un reciente estudio del Supervisor Europeo de Protección

de Datos (EDPS), un 57% de los negocios de la UE utilizan ya algún

sistema para procesar los datos que generan los 369 millones de

internautas europeos

Page 5: Ciclo de vida del dato en ambientes de Business Intelligence

Big Data y sociedadLas 4 V’s del Big Data

Fuente: http://www.business2community.com/digital-marketing/4-vs-big-data-digital-marketing-0914845

Page 6: Ciclo de vida del dato en ambientes de Business Intelligence

Big Data y sociedadNueva sociología

● El concepto Big Data no es tecnológica ni conceptualmente nada nuevoo Realmente, es el tratamiento de datos de toda la vida

en el campo de la Sociología

Fuente: http://escueladebellasartesmanuelbelgrano.wordpress.com/category/4o-ano/sociologia/

Page 7: Ciclo de vida del dato en ambientes de Business Intelligence

Big Data y sociedadNueva sociología (II)

● Sin embargo, lo que sí se dispone ahora es de nuevas tecnologías que facilitan hacer ese tratamiento de datos

● Por lo tanto, el Big Data, no introduce un nuevo modelo para hacer las cosas; sino que aporta una nueva capacidad

Page 8: Ciclo de vida del dato en ambientes de Business Intelligence

Big Data y sociedadEconomía digital

● En la economía digital existen cuatro factores clave1. La tecnología

2. La capa de servicios asociados

3. La capacidad para generar negocios

4. Las competencias digitales: cultura digital

Page 9: Ciclo de vida del dato en ambientes de Business Intelligence

Big Data y sociedadEconomía digital (II)

Fuente: http://mundocontact.com/actualidad/page/119/

La nube se ha consolidado como el modelo sobre el que se desarrolla

el ecosistema digital

Por ello el acceso se ha convertido, como anticipara el sociólogo y

economista Jeremy Rifkin, en la puerta de entrada a la economía

digital

Page 10: Ciclo de vida del dato en ambientes de Business Intelligence

Big Data y sociedadEconomía digital (III)

● La nube impone sus propias reglas de funcionamiento que a su vez van configurando la arquitectura de la economía digital

● Según estimaciones de Deloitte, la actividad económica vinculada a la conectividad, solo en los países en vías de desarrollo, podría generar un aumento del 72% en la tasa de crecimiento del PIB, y más de 140 millones de nuevos puestos de trabajo

Page 11: Ciclo de vida del dato en ambientes de Business Intelligence

Big Data y sociedadLa economía digital (IV)

● Cambio demográficoo Decisiones en manos de generación 70 y 80

o No son aún nativos digitales, pero tienen una serie de valores distintivos:

Individualismo

Personalización

Inmediatez

Fuente: http://www.todocoleccion.net/mabel-somo-generacion-80-una-noche-amor-45-hispavox-1979-pedido-minimo-10%E2%82%AC~x25950258

Page 12: Ciclo de vida del dato en ambientes de Business Intelligence

Big Data y sociedadLa economía digital (V)

From

Consumer-oriented Internet towards

Company-oriented Internet

Source: http://pame95.wordpress.com/2012/11/03/mi-ensayo-planeta-web-2-0-la-intercreatividad-y-web-2-0/

Source: http://antoniotoriz.blogspot.com.es/2013/08/internet-de-las-cosas.html#sthash.hAa2ha7K.dpbs

Page 13: Ciclo de vida del dato en ambientes de Business Intelligence

Big Data y sociedadTransformación digital

Fuente: http://www.mujeresconsejeras.com/estrategia-digital-5-errores-que-puedes-evitar/2014/02/20/

Page 14: Ciclo de vida del dato en ambientes de Business Intelligence

Big Data y sociedadTransformación digital (II)

Source: http://evigo.com/8570-mckinsey-digital-transformation-e-commerce-coming/

Page 15: Ciclo de vida del dato en ambientes de Business Intelligence

Big Data y sociedadPalancas de transformación digital

1)Social Media● Estrategia de captación y fidelización● Objetivo: movilizar actitudes para cambiar

comportamientos● Crecimiento en B2B● Tráfico en buscadores vs. tráfico en redes

sociales

Page 16: Ciclo de vida del dato en ambientes de Business Intelligence

Big Data y sociedadPalancas de transformación digital (II)

2) Movilidad● Uso de móvil ya es superior al del PC

o España, Francia y UK lideran el uso de smartphones

● Aplicaciones B2B a punto de superar las aplicaciones B2Co De una Internet de consumidores a una Internet de

empresaso Entornos B2B: desarrollar canales de comunicación

con consumidor final, que sirvan de prescriptores y hagan pull sobre los distribuidores

Page 17: Ciclo de vida del dato en ambientes de Business Intelligence

Big Data y sociedadPalancas de transformación digital (III)

3) eCommerce● La tecnología expansiona mercados● Plan único estrategia on-off

o Vinculado con estrategias pricing y clientingo Herramientas como Minderest

Fuente: http://www.comunicacion-cultural.com/2012/05/21/la-expansion-internacional-de-las-librerias-abre-nuevos-mercados/comment-page-1/

Page 18: Ciclo de vida del dato en ambientes de Business Intelligence

Big Data y sociedadMarketing digital y datos desestructurados

Las estrategias omnicanal de las empresas (CRM, Call Center, Web, Social Media, etc.) han

traído muchos problemas a las empresas de marketing para poder cuantitivizar la presencia

Fuente: http://www.samueldiosdado.com/02/el-cliente-ya-es-multicanal-es-omnicanal/

Page 19: Ciclo de vida del dato en ambientes de Business Intelligence

Big Data y sociedadMarketing digital y datos desestructurados (II)

Source: http://www.i95dev.com/understanding-omni-channel-and-multichannel/

Page 20: Ciclo de vida del dato en ambientes de Business Intelligence

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos

Page 21: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaSocial Enterprise Stack

Page 22: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaSocial Enterprise Stack (II)

Fuente: http://www.gartner.com/newsroom/id/2643919

Page 23: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaSocial Enterprise Stack (III)

Fuente: http://www.forbes.com/sites/louiscolumbus/2012/11/08/cloud-computing-and-enterprise-software-forecast-update-2012/

Page 24: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaEl caso de Zappos

Fuente: http://www.automotivedigitalmarketing.com/profiles/blogs/social-network-media-savvy

Fuente: http://catalog.flatworldknowledge.com/bookhub/reader/2861?e=cadden_1.0-ch04_s01

Page 25: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaEl caso de Zappos (II)

Fuente: http://www.slideshare.net/CarlaSC/trabajo-final-naming-zappos

Page 26: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaEl caso de Zappos (III)

Reflexión BI.01.1: ¿Cuáles son las ventajas competitivas y competencias clave? ¿Cuán sostenibles son?

1. Equipo 1: Gran volumen de almacenamiento

2. Equipo 2: B2C y Cultura corporativa

3. Equipo 3: Gestión de la información

4. Equipo 4: Gestión de precios

5. Equipo 5: Logística y Operaciones

6. Equipo 6: Gestión de las relaciones B2B

7. Equipo 7: Ventas

Page 27: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaEl caso de Zappos (IV)

Competencia Descripción¿Cómo contribuye a los objetivos del

negocio?

¿Cómo las TIC y las plataformas

digitales ayudan?

¿Es sostenible? ¿Es escalable?

Page 28: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer

● En la actividad digital, todo genera un datoo Tarjetas de crédito

o Teléfonos móviles

o Redes sociales

o Proveedores de Internet

o Tarjeta de fidelización de mercado

Fuente: http://www.privacidadlogica.es/2012/05/31/modelo-de-informe-sobre-sistema-de-control-horario-basado-en-huella-digital/

Page 29: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer (II)

No obtiene respuestas quién posee los datos, sino quien sabe hacer las preguntas

Fuente: http://www.xiskya.com/2012/12/21/una-pregunta-poderosa-por-favor/

Page 30: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer (III)

En la economía digital, captar datos de clientes es cada vez más crítico

o De

1º Vender

2º Capturar el dato

o A

1º Capturar el dato

2º vender

Page 31: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer (IV)

Estrategia de venta directa

1) Gestionar audiencia

2) Capturar datos

3) Convertir a ventas

Page 32: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer (V)

1) Gestionar audiencia

● Fijar público objetivo

● Identificar espacios digitales donde encontrarlos

● Crear espacios propios para captar datos y crear la Base de Datos

● Definir líneas editoriales y métodos de captación

Page 33: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer (VI)

2) Captar datos

● Creación landing page para captar dato

● Pedir datos necesarios y clasificarlos

● Realizar seguimiento

Page 34: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer (VII)

3) Convertir a venta

● Segmentación de usuarios

● Personalización de la oferta

● Planificar acciones

● Realizar seguimiento

Page 35: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer (VIII)

Fuente: http://www3.weforum.org/docs/WEF_ITTC_PersonalDataNewAsset_Report_2011.pdf

Page 36: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer (IX)

Fuente: http://www.theguardian.com/news/datablog/2014/apr/22/how-much-is-personal-data-worth

Page 37: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer (X)

Fuente: http://www.ft.com/intl/cms/s/2/927ca86e-d29b-11e2-88ed-00144feab7de.html#axzz2z2agBB6R

Page 38: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer: aplicaciones de negocio

Page 39: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer: aplicaciones de negocio (II)

Page 40: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer: aplicaciones de negocio (III)

Page 41: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer: aplicaciones de negocio (IV)

Page 42: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer: aplicaciones de negocio (V)

Page 43: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer: aplicaciones de negocio (VI)

Page 44: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer: aplicaciones de negocio (VII)

Reflexión BI.01.2: Pensad en posibles modelos de negocio alrededor de los datos, considerando:

1. Privacidad

2. Monetización

3. Sostenibilidad

4. Clientes directos e indirectos

5. Producto

6. Plataformas tecnológicas necesarias

Page 45: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer: aplicaciones de negocio (VIII)

Modelo EFQM de ExcelenciaFuente: http://www.tqm.es/TQM/ModEur/ModeloEuropeo.htm

Page 46: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaData Layer: aplicaciones de negocio (IX)

Digital Digital

Page 47: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaApplication Layer

Page 48: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaApplication Layer (II)

● Aplicaciones para la gestión internao Aplicaciones que ayuden y faciliten los procesos

internos en las empresas, tales como:

Selección y el control de personal

Gestión de los gastos

Facturas

Aprovisionamiento

Contabilidad

etc.

Page 49: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaApplication Layer (III)

● Aplicaciones de organizacióno Aplicaciones que den soporte a los empleados para

mejorar sus tareas y procesos productivos, permitiéndoles optimizar el tiempo de trabajo, como:

Gestión de emails

Calendarios de reuniones

Videoconferencias

Trabajo en la nube

Gestión de documentos

Trabajo colaborativo

etc.

Page 50: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaApplication Layer (IV)

● Aplicaciones de relación con clientes/ventaso Aplicaciones dirigidas a mejorar y agilizar la relación

con los clientes de una empresa, y que ayuden a ofrecer servicios de venta o información a sus clientes más allá de la tienda física, tales como:

Herramientas de de gestión de la relación con los clientes (CRM),

Marketing

Venta online

etc.

Page 51: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaApplication Layer (V)

List of ERP Software Packages: http://en.wikipedia.org/wiki/List_of_ERP_software_packages

ERP: Enterprise Resource Planning

Page 52: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaApplication Layer (VI)

CRM: Customer Relationship Management

Comparación de software CRM: http://en.wikipedia.org/wiki/Comparison_of_CRM_systems

Page 53: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaApplication Layer (VII)

SCM: Supply Chain Management

Lista de software SCM: http://www.softwareadvice.com/scm/

Page 54: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaApplication Layer (VIII)

DRP: Distribution Resource Planner

Fuente: http://www.libratechno.com/erp.php

Page 55: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaApplication Layer (IX)

KMS: Knowledge Management System

Fuente: http://www.prescientdigital.com/articles/content-management/content-management-in-a-knowledge-management-context/

Page 56: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaApplication Layer (X)

eCommerce

Fuente: http://www.i-fluxtech.com/web-solution/e-Commerce-website.htm

Comparación de software ecommerce: http://en.wikipedia.org/wiki/Comparison_of_shopping_cart_software

Page 57: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaSocial Layer

Fuente: http://www.webvigo.com/blog/el-social-business-intelligence-social-bi/

Page 58: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaSocial Layer (II)

La solución no es contratar a un

Community Manager

Sino redefinir los objetivos y

procedimientos de distintas posicionesya existentes dentro

de las organizacionesFuente: http://www.enterpriseirregulars.com/19667/the-enterprise-2-0-conference-

boston-2010-lots-to-see-and-do/

Page 59: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaSocial Layer (III)

● Ha habido un boom en tipos de medios socialeso La idea ha sido agrupar y conectar personas en

torno a ejes de interés común

o La mayoría han sido gratuitos: ¿dónde está la rentabilidad? La publicidad (Facebook, Twitter) es una tarta muy concentrada

o Casos

Pinterest: escaparate de productos y servicios

Pheed: suscripción a contenidos de pago capitalizando la actividad de personajes célebres

Page 60: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaSocial Layer (IV)

“75% of our employees are young people –digital natives – and this is how they talk to each other. The only way I am going to

get to them is to talk to them in their medium.”

Giam Swiegers

CEO Deloitte Australia

Page 61: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaSocial Layer (V)

Page 62: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaSocial Layer (VI)

● Organizaciones 2.0: redárquicas o adhocráticas

o Capacidad innovadora

o Capacidad de adaptación al entorno

● Cultura innovadora

o Nuevo tipo de directivo o estilos de liderazgo transformadores

o Estilos de gestión de personas

o Procesos de gestión

● Y todo ello, haciendo uso de herramientas 2.0

Page 63: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaSocial Layer (VII)

Page 64: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaSocial Layer (VIII)

● Consultores McKinsey & Company en su diario online McKinsey Quarterly

The rise of the networked enterprise

Page 65: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaSocial Layer (IX)

● Por si esto fuera poco, los datos recogidos por McKinsey prueban que existe una correlación directa entre la implementación del estándar 2.0 y la generación de beneficios tangibles y aumento del ROI

Page 66: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaSocial Layer (X)

Page 67: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaSocial Layer (XI)

Page 68: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaSocial Layer (XII)

● La identidad digital no se está explotando bien

● La influencia que provocan determinados perfiles, y que por ende, generan engagement

¿Cómo podemos detectar esa influencia y cuantitivizarla?

Fuente: http://mattica.com/el-futuro-de-la-identidad-digital/

Page 69: Ciclo de vida del dato en ambientes de Business Intelligence

Aplicaciones empresaSocial Layer (XII)

Reflexión BI.01.3: Las TIC en la capa social. ¿Qué puede aportar las TIC en?

o Formación

o Selección

o Desarrollo

o Sistemas de Gestión Empresarial

o Marketing

o Liderazgo

o Trabajo en equipo

o etc.

Page 70: Ciclo de vida del dato en ambientes de Business Intelligence

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos

Page 71: Ciclo de vida del dato en ambientes de Business Intelligence

Business IntelligenceDefinición

La raíz conceptual de la inteligencia de negocios puede relacionarse con el

libro “El Arte de la Guerra” de Sun Tzu

“Para poder ser exitosos en la Guerra, se debe conocer complemente las fortalezas y debilidades de uno

mismo, así como las del enemigo. El no saber alguna de ellas podría significar

la derrota”

Fuente: http://www.taringa.net/posts/apuntes-y-monografias/17030452/El-arte-de-gobernar-

bien.html

Page 72: Ciclo de vida del dato en ambientes de Business Intelligence

Business IntelligenceDefinición (II)

En 1989, Howard Dresner, un investigador de Gartner Group,

popularizó el acrónimo de BI (Business Intelligence) para indicar

“El conjunto de conceptos y métodospara mejorar la toma de decisiones en

los negocios, utilizando sistemas de apoyo basado en hechos”

Page 73: Ciclo de vida del dato en ambientes de Business Intelligence

Business IntelligenceDefinición (III)

● En la actualidad, incluye una amplia categoría de metodologías, aplicaciones y tecnologías que permiten:o Reunir, acceder, transformar y analizar ...o …. datos, transacciones e información no

estructurada (interna y externa) …o …. con el propósito de ayudar a los usuarios de una

compañía a tomar mejores decisiones de negocio

Page 74: Ciclo de vida del dato en ambientes de Business Intelligence

Business Intelligence¿Big Data?

Source: http://de.nr-apps.com/blog/2014/01/09/zukunft-des-handels-big-data-und-bitcoins/

Page 75: Ciclo de vida del dato en ambientes de Business Intelligence

Business Intelligence¿Big Data? (II)

“More data does not mean more knowledge” [Jenkins2013]

Page 76: Ciclo de vida del dato en ambientes de Business Intelligence

Business IntelligenceModelo integral de una solución BI

Fuente: https://www.pwc.com/ve/es/asesoria-gerencial/boletin/assets/boletin-advisory-edicion-10-2008.pdf

Page 77: Ciclo de vida del dato en ambientes de Business Intelligence

Business IntelligenceModelo integral de una solución BI (II)

SQL

XML

CSV

...

Data Management /

Integration

Ciclo / Proceso

datos

Modelodatos

Dashboard

Report

API

Page 78: Ciclo de vida del dato en ambientes de Business Intelligence

Business IntelligenceModelo integral de una solución BI (III)

Un modelo integral de BI pensado como una refinería de datos

Fuente: http://www.lavozdelsandinismo.com/economia/

2007-04-16/inicia-en-junio-construccion-de-refineria-venezolana-en-nicaragua/

Page 79: Ciclo de vida del dato en ambientes de Business Intelligence

Business IntelligenceComponentes

● Un motor de BI/Analytics tiene que cumplir siempre tres funciones básicaso Obtener datos fuenteso Disponer de un almacén estructurados de datos listos

para explotacióno Ser capaz de generar reports/informes de los datos

Page 80: Ciclo de vida del dato en ambientes de Business Intelligence

Business IntelligenceComponentes (II)

● Estas tres funciones se traducen en:

Proceso ModeloPlataforma explotación

Datos

Ciclo de análisis de datos

Representación para explotación

Información y conocimiento

1 2 3

Page 81: Ciclo de vida del dato en ambientes de Business Intelligence

Business IntelligenceComponentes (III)

● Estas tres funciones se traducen en:

Proceso ModeloPlataforma explotación

Datos

Ciclo de análisis de datos

Representación para explotación

Información y conocimiento

1 2 3

Día 1

Page 82: Ciclo de vida del dato en ambientes de Business Intelligence

Business IntelligenceComponentes (IV)

● Estas tres funciones se traducen en:

Proceso ModeloPlataforma explotación

Datos

Ciclo de análisis de datos

Representación para explotación

Información y conocimiento

1 2 3

Día 2

Page 83: Ciclo de vida del dato en ambientes de Business Intelligence

Business IntelligenceComponentes (V)

● Estas tres funciones se traducen en:

Proceso ModeloPlataforma explotación

Datos

Ciclo de análisis de datos

Representación para explotación

Información y conocimiento

1 2 3

Día 3

Page 84: Ciclo de vida del dato en ambientes de Business Intelligence

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos

Page 85: Ciclo de vida del dato en ambientes de Business Intelligence

Bases de DatosProblema en BI

● Los datos para una marcao Son ubicuoso Inconsistenteso No habilitados para explotación → rendimiento!o Los datos no siempre están en una Base de Datoso Incompletoso Perspectiva de captura y la Perspectiva de explotación

no suelen estar alineadas

Fuente: http://site-bakner.1minutesite.es/

Page 86: Ciclo de vida del dato en ambientes de Business Intelligence

Bases de DatosNecesidad de conocer la BBDD

● La búsqueda de evidencias en grandes volúmenes de datos exige conocer qué tipo de evidencias son necesarias

● Es decir, conocimiento sobre el dominio y entender e interpretar los patrones que se pueden descubrir

Page 87: Ciclo de vida del dato en ambientes de Business Intelligence

Bases de DatosHeterogeneidad

● Las Bases de Datos heterogéneas son un conjunto de BBDD administradas por diferentes SGBDo La heterogeneidad de éstas se debe a que los datos son

de diferentes tipos o formatos

● En el contexto de BBDD heterogéneas se distinguen tres tipos de heterogeneidad:o Semántica

o Esquemática

o Sintáctica

Page 88: Ciclo de vida del dato en ambientes de Business Intelligence

Bases de DatosHeterogeneidad: semántica

● Es la diferencia de la información en el contextoo Se debe a que el significado de la información se

intercambia y tiene que ser entendido a través de más sistemas

● Para resolver el conflicto:o Se recomienda el uso de ontologías

Es la mejor manera de que los individuos comprendan la información de sistemas o BBDD muy diferentes

Page 89: Ciclo de vida del dato en ambientes de Business Intelligence

Bases de DatosHeterogeneidad: semántica (II)

● Ontologíaso Si los metadatos sirven para la estructuración del

contenido, las ontologías hacen posible una semántica para construirlos

o Una ontología es una especificación de una conceptualización

Es decir, un marco común o una estructuraconceptual sistematizada y de consenso

No sólo para almacenar información, sino también para poder buscar y recuperarla

Page 90: Ciclo de vida del dato en ambientes de Business Intelligence

Bases de DatosHeterogeneidad: semántica (III)

● Ontologías (cont.)o Define los términos y las relaciones básicas para la

comprensión de un área del conocimiento, así como las reglas para poder combinar los términos para definir las extensiones de este tipo de vocabulario controlado

Page 91: Ciclo de vida del dato en ambientes de Business Intelligence

Bases de DatosHeterogeneidad: semántica (IV)

● Ontologías (cont.)o Se usan para:

Favorecer la comunicación entre personas, organizaciones y aplicaciones

Lograr la interoperabilidad entre sistemas informáticos

Razonar automáticamente

Ingeniería del software

Page 92: Ciclo de vida del dato en ambientes de Business Intelligence

Bases de DatosHeterogeneidad: semántica (V)

● Ontologías (cont.)o Se componen de

Conceptos: ideas básicas que se intentan formalizar. Pueden ser: clases de objetivos, métodos, planes, estrategias, etc.

Relaciones: interacción y enlace entre los conceptos de un dominio: Ejemplos: subclase-de, parte-de, conectado-a, etc.

Funciones: tipo concreto de relación con una identificación mediante el cálculo de una función

Instancias: representar objetos determinados

Reglas de restricción o axiomas: teoremas que deben cumplir los elementos de la ontología

Page 93: Ciclo de vida del dato en ambientes de Business Intelligence

Bases de DatosHeterogeneidad: semántica (VI)

● Ontologías (cont.)o Las ontologías formales se expresan en un lenguaje

estructurado denominado RDF

Convertir las declaraciones de los recursos en expresiones con la forma sujeto-objeto-predicado

o OWL

Lenguaje de marcado para publicar y compartir datos usando ontologías

Facilita un modelo de marcado construido sobre RDF y codificado en XML

Page 94: Ciclo de vida del dato en ambientes de Business Intelligence

Bases de DatosHeterogeneidad: esquemática

● Diferencias en las abstracciones hechas en cuanto a la definición de clases, atributos y sus relaciones

● Para solucionar:o Esquema compartido y mediador de contexto

El usuario se comunica con el esquema compartido, y éste al resolver los conflictos se comunica con el mediador de contexto que es el encargado de mapear la información

Cuando el esquema tenga la solución a la pregunta se la envía al mediador para que la vuelva a mapear y así pasársela al usuario

Page 95: Ciclo de vida del dato en ambientes de Business Intelligence

Bases de DatosHeterogeneidad: sintáctica

● Se refiere a las diferencias en las representaciones de los datos

Fuente: http://www.juntadeandalucia.es/averroes/ceip_san_rafael/DATOS/INTRODUCCION.htm

Page 96: Ciclo de vida del dato en ambientes de Business Intelligence

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Integración de datos● Aspectos legales y éticos

Page 97: Ciclo de vida del dato en ambientes de Business Intelligence

Tipos de datosVentaja competitiva

● Los datos es tanto un arte como una cienciao Ciencia

Mucha investigación

Nunca hace Data Mining “sin más”

o Arte

Razonamiento crítico

Visión de negocio

Conocimiento del dominio

Page 98: Ciclo de vida del dato en ambientes de Business Intelligence

Tipos de datosCambio

● El avance tecnológico ha cambiadosustantivamente las fuentes de datoso Se estima que el 80% de la información del mundo

está desestructuradao Los datos desestructurados están creciendo a un ritmo

de 15 veces superior a los estructuradoso La capacidad de procesamiento está creciendo a un

ritmo tan alto que no tenemos en ese sentido problemas

o El acceso a la información es realmente fácil para todos

[Eaton2012]

Page 99: Ciclo de vida del dato en ambientes de Business Intelligence

Tipos de datosFuentes

● RDBMS (SQL Server, DB2, Oracle, MySQL, PostgreSQL, Sybase IQ, etc.)

● NoSQL Data: HBase, Cassandra, MongoDB

● OLAP (Mondrian, Palo, XML/A)

● Web (REST, SOAP, XML, JSON)

● Files (CSV, Fixed, Excel, etc.)

● ERP (SAP, Salesforce, OpenERP)

● Hadoop Data: HDFS, Hive

● Web Data: Twitter, Facebook, Log Files, Web Logs

● Others: LDAP/Active Directory, Google Analytics, etc.

Page 100: Ciclo de vida del dato en ambientes de Business Intelligence

Tipos de datosFuentes (II)

Source: http://www.bigdata-startups.com/BigData-startup/understanding-sources-big-data-infographic/

Page 101: Ciclo de vida del dato en ambientes de Business Intelligence

Tipos de datosFuentes (III)

Page 102: Ciclo de vida del dato en ambientes de Business Intelligence

Tipos de datosArchivos

● Documentos escaneados● Formularios● Registros● Archivos en papel● ...

Page 103: Ciclo de vida del dato en ambientes de Business Intelligence

Tipos de datosDocumentos

● XLS● PDF● CSV● email● PPT● HTML● XML● JSON● ...

Page 104: Ciclo de vida del dato en ambientes de Business Intelligence

Tipos de datosMedia

● Imágenes● Vídeos● Audio● Flash● Streaming● Podcasts● ...

Page 105: Ciclo de vida del dato en ambientes de Business Intelligence

Tipos de datosAlmacenamiento de datos

● SQL● NoSQL● Hadoop● Repositorio de documentos● Sistema de ficheros● ...

Page 106: Ciclo de vida del dato en ambientes de Business Intelligence

Tipos de datosAplicaciones de negocio

● CRM● ERP● CMS● HRM● KMS● SCM● LMS● Intranet● ...

Page 107: Ciclo de vida del dato en ambientes de Business Intelligence

Tipos de datosWeb pública

● Portales de datos abiertos● Institutos de estadística● Banco Mundial● Wikipedia● IMDb● ...

Page 108: Ciclo de vida del dato en ambientes de Business Intelligence

Tipos de datosSocial Media

● Twitter● LinkedIn● Facebook● Tumblr● Blog● SlideShare● Instagram● Google+● Chatter● ….

Page 109: Ciclo de vida del dato en ambientes de Business Intelligence

Tipos de datosLogs

● Eventos● Servidores● Aplicaciones● Procesos de negocio● CDRs● Localización móvil● Uso de aplicaciones móviles● Clickstream● ...

Page 110: Ciclo de vida del dato en ambientes de Business Intelligence

Tipos de datosDatos de sensores

● Dispositivos médicos● Sensores de vehículos● Satélites● Videojuegos● ...

Page 111: Ciclo de vida del dato en ambientes de Business Intelligence

Tipos de datosComparación

Archivos Docs Media BBDD Aplicac. Negocio

Web pública

Social Media

Logs Sensores

¿Estructura?

¿Semántica?

¿Esquemática?

¿Sintáctica?

Page 112: Ciclo de vida del dato en ambientes de Business Intelligence

Tipos de datosDesestructurados

Fuente: http://incubator.apache.org/drill/

Apache Drill

Page 113: Ciclo de vida del dato en ambientes de Business Intelligence

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos

Page 114: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datosIntroducción

Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)

Page 115: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datosIntroducción (II)

Page 116: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datosRetos

● Los datos están en todos los sitioso Datos ubicuos

● Son inconsistenteso Los registros están expresados de diferentes maneras

en cada sistema

● Problemas de rendimientoo Hacer consultas a base de datos para resumir los datos

suelen ser largoso Lleva al Sistema Operativo a una carga máxima

● Los datos no siempre están en Bases de Datoso Hojas Excel, servicios web, desestructurados, etc.

Page 117: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datosRetos (II)

● Los datos son incompletos

● Algunos tipos de datos no están registrados en ningún lugaro Al no estar expresados, no podrán ser explotados

● La perspectiva de almacenamiento no suele coincidir con la perspectiva de explotación

● Los usuarios suelen tener recelos para extraer conclusiones de algunos datos

[Mazza2012]

Page 118: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datosModelos

Page 119: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datosModelos (II)

A framework of characteristics for AnalyticsAdam Cooper, 2012 [Cooper2012]

Page 120: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datosProceso

1) Seleccionar 2) Capturar 3) Agregar 4) Procesar 5) Utilizar 6) Refinar

Más datos no es más

conocimiento

Extracción, muestreo y

ética

Proceso de calidad de

datos

Análisis+

Acción

Hacer operativos los

trabajos anteriores

Post-procesamiento

Page 121: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datos1) Seleccionar

1) Seleccionar

● Plantear las preguntas/problemas a resolver● Seleccionar los datos necesarios para responder a las

preguntas formuladas● Éste es precisamente uno de los retos actuales

o ¿Qué datos son los críticos?● Hay que poner sensores allí dónde estén los datos más

relevanteso Para este paso, suele ser interesante contar con

expertos del dominio

Page 122: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datos1) Seleccionar (II)

1) Seleccionar

● Vivimos en una era en la que tener acceso a datos no es el problema

o El reto está en determinar qué datos son significativos y significantes y por qué

Fuente: http://cesar-organizaciones.blogspot.com.es/2011/05/que-es-un-sistema-de-informacion-un.html

Page 123: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datos1) Seleccionar (III)

1) Seleccionar

“The basic question is not what can we

measure? The basic question is what does a good education look like? Big questions”

Page 124: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datos1) Seleccionar (IV)

1) Seleccionar

Actividad BI.01.1. Big questions1. Consumo2. Institucional3. B2B4. Criminalidad5. Educación

Page 125: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datos1) Seleccionar (V)

1) Seleccionar

Actividad BI.01.1. Big questions● Montar equipos de BI

o Arquitecto BI Administrador fuentes de datos, gestor ETL,

herramientas tecnológicaso Data Manager

Administrar datos, minería de datos, analista calidad de datos, administrar metadatos

o Consultor de negocio Procesos a optimizar, necesidades cliente

Transversal

- Conocimiento dominio

- Gestión de proyecto

Page 126: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datos1) Seleccionar (VI)

1) Seleccionar

Actividad BI.01.1. Big questions

● ¿Qué problemas le puedo ayudar a la empresa a resolver?o Generación de datos para su captura

o Procesamiento

o Explotación de datos

Leer aplicaciones de ámbito empresarial

Page 127: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datos2) Capturar

2) Capturar

● Extracción de los datos

o Ante la Variedad de las fuentes de datos, se hace necesario disponer de un proceso ETL

● Así, se podrán transformar datos optimizados para transacciones a datos optimizados para el análisis y el reporting

● Se pueden emplear técnicas de muestreo de datos

● Respetar las leyes y la éticaLeer “Aspectos legales y éticos”

Leer “Tipos de datos”

Page 128: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datos2) Capturar (II)

2) Capturar

Actividad BI.01.2. Integrar en un ETL diferentes tipos de datos necesarios para responder a las preguntas y resolver los problemas● Mínimo 4 diferentes tipos de datos● Listado de acciones de cumplimiento ético y de

leyes

Page 129: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datos2) Capturar (III)

2) Capturar

Page 130: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datos3) Agregar

3) Agregar

● Reto actual: Variedad marketing omnical

● Necesidad de un modelo de datos normalizado para disponer de procesos de datos sostenibles

● Tareas

o Limpieza de datos, Integración, Transformación, Reducción, Modelado, Rectificación de inconsistencias y anomalías, Normalización

Page 131: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datos3) Agregar (II)

3) Agregar

Actividad BI.01.3. Preparar los datos para su posterior explotación● Definir dimensiones (ir)● Definir Reglas de Negocio (ir)● Análisis metadatos (ir)● Flujo de transformación y Reglas de Negocio

(ir)

Leer “Bases de Datos”

Leer “Agregación de Datos”

Page 132: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datos4) Procesar

4) Procesar

● Analizar los datos normalizados y preparados

● Decidir contextos de explotación

o Predicción

o Intervención

o Adaptación

o Personalización

o Recomendación

o Alertas tempranas

o Reflexión

...

Page 133: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datos4) Procesar (II)

4) Procesar

Motor de Analytics

Predicción

Adaptación

Personalización

Recomendación

Intervención

...

Page 134: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datos5) Utilizar

5) Utilizar

● Hacer operativos los trabajos anteriores

● Posibles escenarios de operación

o Dashboard de KPIs

o Informes

o APIs de explotación desde otros sistemas

o ...

Page 135: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datos5) Utilizar (II)

5) Utilizar

Actividad BI.01.4. Pensar en escenarios de puesta en valor del conocimiento descubierto● ¿Qué?● ¿Cómo?● ¿Dónde?● ¿Cuándo?● ¿Por qué?

Page 136: Ciclo de vida del dato en ambientes de Business Intelligence

Ciclo de análisis de datos6) Refinar

6) Refinar

● Post-procesamiento

o Nuevos atributos al modelo

o Nuevos indicadores

o Nuevos tareas de calidad de datos

o Nuevos métodos de análisis

o ….

Page 137: Ciclo de vida del dato en ambientes de Business Intelligence

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Datos estructurados y desestructurados● Ciclo de análisis de datos● Agregación de datos● Aspectos legales y éticos

Page 138: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosIntroducción

● El enfoque de ETL no es suficiente para dar sentido y posibilidad de explotación a los datos agregadoso Los datos, así, deben ser normalizados para poder

eliminar todos los posibles problemas que pueden aparecer en un proceso de integración de datos

o Por ello, se habla de agregación/integración de datos para la normalización de los datos

Page 139: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosIntroducción (II)

● Además, la mala calidad de los datos genera costes de mantenimiento y reparación

● Además de estos aspectos económicos, la mala calidad de datos también afecta a la satisfacción del usuario y a la reputación sobre la toma de decisiones estratégicas

Page 140: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosIntroducción (III)

● La agregación/integración de datos es el paso más complicado de un proyecto de BIo Datanami: puede llegar a consumir hasta el 60-70% de

un proyectoo Según otras fuentes, entre un 70 y un 85%

● Aquí tenemos que hablar de integrar todas las fuentes de datos en un dataset con datos apropiados para el objetivo concreto que se tiene en el proyecto

● Se hace necesario, por lo tanto, un proceso para garantizar la calidad de los datos

Page 141: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosIntroducción (IV)

Source: http://www.learningfrontiers.eu/?q=story/will-analytics-transform-education

Page 142: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosGestión de la calidad de los datos

● La calidad de los datos emergió como una un área de investigación académica a comienzos de los 90o No es nada nuevo tampoco ;-)

● En grandes y pequeñas compañías, la sensibilidad hacia la importancia de la calidad de los datos es un fenómeno más reciente

Page 143: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosGestión de la calidad de los datos (II)

Page 144: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosGestión de la calidad de los datos (III)

● El significado principal de la calidad de los datos es que resulte apropiado para un particular uso que se quiera realizaro Aptitud para ser utilizado

o Adecuación a requisitos

o Un concepto relativo dependiente de las necesidades del usuario

Page 145: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosGestión de la calidad de los datos (IV)

● De este modo, los mismos datos pueden ser evaluados en diferentes grados de calidad en función de las necesidades del usuario

Fuente: http://mitiq.mit.edu/iciq/pdf/an%20evaluation%20framework%20for%20data%20quality%20tools.pdf

Page 146: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosGestión de la calidad de los datos (V)

● Criterios de medición de la calidad (en función de necesidades particulares)o Completitud

Valores de atributos, registros y tablaso Precisión

Fiabilidad y veracidado Consistencia

Respetar una serie de restricciones/reglas de negocioo Relevancia

Usabilidad para los stakeholderso Unicidad

Una entidad (marca, producto, persona, servicio, etc.) es observada en contextos diferentes

[Goasdoué2007]

Page 147: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosCriterios: 1) Completitud

● Falta algún valor? (tabla, columna, instancia)o Ejemplos

Falta el código postal en el 50% de los registros

● Algunas métricaso Ratio de valores ausentes (tabla, columna, instancia)

● Para la mejorao Estimación del valor por técnicas estadísticas

o Ignorar el valor para explotaciones futuras

o Emplearlo, a sabiendas de los problemas que puede originar

Page 148: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosCriterios: 1) Completitud (II)

● El rendimiento del modelo (el porcentaje de predicciones acertadas) dentro del intervalo de confianza establecidos, depende en mucho de esta criterio de calidad

Fuente: http://es.wikipedia.org/wiki/Intervalo_de_confianza

Page 149: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosCriterios: 2) Precisión

● Cercanía entre el valor v y un valor v’ considerando éste como la correcta representación de la realidad que el valor vintenta representar

o Ejemplos

Algunos proveedores que están marcados como Activos fueron a la quiebra hace meses

● Algunas métricas

o Número de estimaciones desviadas

o Comparaciones con valores reales

Fuente: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0864-34662007000200012

Page 150: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosCriterios: 2) Precisión (II)

● Es un parámetro muy relacionado con la precisión, la fiabilidad y la veracidad

● En la práctica, a pesar de la atención que ha recibido, es difícil cuantitivizar la precisión de una medicióno Es una operación muy cara de realizar

o Esto se debe a que para poder realizarlo hay que disponer de datos de referencia externos

o Por ello, se hacen verificaciones menos estrictas (patrones de comienzo de códigos, ratios desproporcionados entre géneros, etc.)

Page 151: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosCriterios: 3) Consistencia

● Los datos son consistentes si satisfacen un conjunto de restricciones

● Para que sea efectivo, se deben establecer unas estrategias de controlo Aquí es donde aparece el concepto de “Regla de

negocio”

De este modo, la consistencia se puede ver como una subdimensión de la precisión

Aún así, la consistencia solo da una medida indirecta de la precisión

● Esta dimensión es esencial en la práctica

Page 152: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosCriterios: 3) Consistencia (II)

● Métricaso ratio de % de conjuntos de datos que satisfacen las

restricciones

● En el contexto de las herramientas de calidad de datos, los flujos de transformación de datos y sus reglas de negocio se centran básicamente en controles de consistencia

Page 153: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosCriterios: 4) Relevancia

● ¿Son los datos relevantes para la tarea que se tiene entre manos?

● Métricaso Grado de utilidad

● Oportunidades de mejorao Encuestas

Preguntando a los stakeholders por el grado de utilidad de las respuestas dadas, ayudará a mejorar la relevancia de tareas de agregación de datos futuras (en especial, la primera tarea de selección de datos)

Page 154: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosCriterios: 4) Relevancia (II)

● Éste es un problema nuclear al Big Datao Con la aparición de grandes volúmenes de datos, los

usuarios en ocasiones se sienten frustrados por la incapacidad para sacar algún dato útil entre toda la maraña de datos

o Por ello, los usuarios pueden tener el prejuicio hacia la poca utilidad de los datos resultantes de un proyecto de BI

o Sin embargo, la utilidad juega un papel central en la aceptación del proyecto

o Por lo tanto, habrá que realmente medirlo (y mejorarlo, en su caso, si procediera)

Page 155: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosCriterios: 5) Unicidad

● Es un problema que aparece cuando una entidad del modelo de datos aparece en más de una ocasióno Ejemplo

Alexander Rayón y Alex Rayón son el mismo empleado, pero observado en dos fuentes de datos diferentes → pudieran parecer dos entidades, al no coincidir a primera vista

Page 156: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosCriterios: 5) Unicidad (II)

● Métricaso % de duplicados

o número de instancias superior a las esperadas (más difícil, por no conocer a priori el número de instancias)

Page 157: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosConjuntos de datos

Dataset

Instancia / Observación / Puntos de datos

Asignar valores a las características definidas en el modelo de datos para diferentes

entidades y sus relaciones

Representado a través de un conjunto de características/atributos/medidas

Atributo de clase (para problemas de predicción)

Page 158: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosEtapas

Definir Procesar Publicar

Page 159: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos1) Definir

Definir

● Dimensioneso Dominio/Contexto: unidad mínima de análisis,

representación y explotacióno Tiempo: real-time o bajo demandao Frecuencia: de medición (fija o variable)o Extracción de atributos: ¿con qué me quedo? (símil de la

extracción de keywords representativas en un texto)o Jerarquía: para consultas (niveles de abstracción)o Granularidad: representación para explotación posterior

Reglas de negocio

Esquema / Diccionario de datos

Modelo de datos

Page 160: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos1) Definir: Reglas de negocio

Source: http://themodernaccountant.com/2012/06/18/pearls-of-wisdom/

Pensando en las dimensiones de calidad de datos anteriormente expuestas

Page 161: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos1) Definir: Reglas de negocio (II)

Nivel Esquema: conflictos nominales y estructura● Homónimos: mismo nombre para diferentes

objetos● Sinónimos: diferentes nombres para el mismo

objeto● Diferentes tipos de datos● Diferentes estructura de componentes● Diferentes restricciones de integridad

Page 162: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos1) Definir: Reglas de negocio (III)

Nivel Instancia● Atributo

o Valores nulos, misspellings, valores crípticos, abreviaciones, valores embebidos, etc.

● Registroo Dependencias de atributo incorrectas (zip y ciudad)

● Tipo de registroo Transposiciones de palabras, registros duplicados, registros

contradictorios● Fuente

o Referencias incorrectas (nº departamento es incorrecto)● Agregación

o Granularidad (ventas por grupo vs. ventas por producto) o puntos de tiempo (semanal, diaria, quincenal, etc.)

Page 163: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos1) Definir: Reglas de negocio (IV)

Page 164: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos1) Definir: Reglas de negocio (V)

Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)

Page 165: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos1) Definir: Esquema / Modelo de datos

Source: http://en.wikipedia.org/wiki/Data_modeling

Page 166: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos1) Definir: Metodología

Source: http://www.blockmagic.eu/main/?page_id=54

Page 167: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos2) Procesar

5) Realimentación - Para evitar trabajos futuros sobre los mismos datos

Procesar Poner los datos a cumplir todas las reglas de negocio

1) Análisis de datos

2) Flujo de transformación y reglas de negocio

3) Verificación

4) Transformación

- Análisis metadatos de los datos: Profiling (1 a 1) o Mining (patrones)

- Quitar duplicados- Atomización → desdoblar en varios campos- Discretización- Normalización: modelo referencial; unión; unicidad; nulos- Integridad- Eliminar ruido (malas observaciones, shocks exógenos, etc.)- Outlier → obtención de conclusiones- Valores vacíos: 1) Eliminar instancia; 2) Predecir por interpolación; 3) Usarlo para procesar- Quitar la tendencia lineal (para fijarse en fluctuaciones… si es lo que interesa)- Validación → dependencias de atributos para validar y corregir

- Verificar efectividad flujo de transformación y reglas de negocio

- Ejecución en serie

Page 168: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos2) Procesar: Quitar duplicados

Fuente: http://tutorialenexcel.blogspot.com.es/2012/10/15-tutorial-excel-manejando-la.html

Page 169: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos2) Procesar: Atomización

Fuente: http://www.educarchile.cl/ech/pro/app/detalle?ID=133092

Page 170: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos2) Procesar: Discretización

Fuente: http://7542.fi.uba.ar/tecnica/sonido-en-windows/

Page 171: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos2) Procesar: Normalización

Fuente: http://www.anmopyc.es/noticia/boletin_de_normalizacion_julio_2014

Page 172: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos2) Procesar: Integridad

Fuente: http://diariodelapelusa.blogspot.com.es/2013/04/de-la-integridad.html

Page 173: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos2) Procesar: Eliminar ruido

Fuente: http://www.dominandocamtasia.com/blog/como-eliminar-el-ruido-de-un-video

Page 174: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos2) Procesar: Gestión outliers

Fuente: http://mathworld.wolfram.com/Outlier.html

Page 175: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos2) Procesar: Gestión valores vacíos

Fuente: http://www.fengfly.com/plus/view-169414-1.html

Page 176: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos2) Procesar: Quitar la tendencia lineal

Fuente: http://www.monografias.com/trabajos96/regresion-lineal-simplificada-agricola/regresion-lineal-simplificada-agricola.shtml

Page 177: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos2) Procesar: Validación

Fuente: http://www.empleoagil.com/contenido.php?id=22

Page 178: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos3) Publicar

Publicar

Estándar a seguir (extensibilidad, productividad y evitar fragmentaciones)

¿Modelo de datos?¿Unidad de registro?

...

Page 179: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos3) Publicar (II)

Fuente: http://www.londonshippingcontainers.co.uk/

Page 180: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos3) Publicar (III)

Source: http://www.activelightning.com/automated_publishing/variable-data-printing.html

Page 181: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datosHerramientas

1. Pentaho Data Integration: Kettle PDI

2. Talend Open Studio

3. DataCleaner

4. Talend Data Quality

5. Google Refine

6. Data Wrangler

7. Potter's Wheel ABC

Interactive Data Transformation Tools (IDTs)

Page 182: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos1) Kettle PDI

● Free to decide where and how realize tasks in terms of:

○ Profiling

○ Cleansing

○ Integrity

○ Validation

● It is based on metadata

Page 183: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos1) Kettle PDI (II)

Page 184: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos2) Talend Open Studio

Page 185: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos3) DataCleaner

● Profiling tool recommended by Pentaho

○ It can also be integrated with Kettle PDI

● Alternatives:

○ Desktop tool

○ Web tool

○ Plugin in Kettle PDI

Page 186: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos3) DataCleaner (II)

● Features

○ Data cleansing

○ Data dictionary definition

○ Pattern, duplicated, null, etc. search and detection

○ Monitoring

○ Full results statistics

○ etc.

Page 187: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos3) DataCleaner (III)

Page 188: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos4) Talend Data Quality

Page 189: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos5) OpenRefine

Page 190: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos6) Data Wrangler

Page 191: Ciclo de vida del dato en ambientes de Business Intelligence

Agregación de datos7) Potter's Wheel ABC

Page 192: Ciclo de vida del dato en ambientes de Business Intelligence

Índice de contenidos

● Big Data e impacto sociedad● Aplicaciones ámbito empresarial● Business Intelligence● Bases de datos● Tipos de datos● Ciclo de análisis de datos● Agregación da datos● Aspectos legales y éticos

Page 193: Ciclo de vida del dato en ambientes de Business Intelligence

Aspectos legales y éticos

Fuente: http://www.educause.edu/ero/article/ethics-big-data-and-analytics-model-application

Page 194: Ciclo de vida del dato en ambientes de Business Intelligence

Aspectos legales y éticos (II)

Page 195: Ciclo de vida del dato en ambientes de Business Intelligence

Aspectos legales y éticos (III)

Page 196: Ciclo de vida del dato en ambientes de Business Intelligence

Aspectos legales y éticos (IV)

Page 197: Ciclo de vida del dato en ambientes de Business Intelligence

Aspectos legales y éticos (V)

Page 198: Ciclo de vida del dato en ambientes de Business Intelligence

El proceso de análisis y explotación de datos en proyectos de Business

IntelligenceMódulo 01: Ciclo de vida del Dato en ambientes de BI

Alex Rayón [email protected]

Octubre, 2014