35
Sistemas de Información Gerencial Tema 7: BIG DATA 1 Ing. Francisco Rodríguez Novoa

Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Sistemas de Información Gerencial

Tema 7: BIG DATA

1

Ing. Francisco Rodríguez Novoa

Page 2: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Índice

Big Data. Big Data Science

¿Por qué Big Data? Google crea el

Modelo de Programación MapReduce

Aplicaciones de BIG DATA

Comentarios Finales

Page 3: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

3

Nuestro mundo gira en torno a los datos Ciencia

Bases de datos de astronomía, genómica,datos medio-ambientales, datos de transporte, …

Ciencias Sociales y Humanidades Libros escaneados, documentos históricos, datos sociales, …

Negocio y Comercio Ventas de corporaciones, transacciones de mercados,

censos, tráfico de aerolíneas, …

Entretenimiento y Ocio Imágenes en internet, películas, ficheros MP3, …

Medicina Datos de pacientes, datos de escaner, radiografías …

Industria, Energía, … Sensores, …

Big Data

Page 4: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

4

Big Data: La explosión de los datos

Page 5: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

15

¿Qué es Big Data?Las 8 V’s de Big Data

Big Data

Volumen

Velocidad

Variedad

Veracidad Valor

Variabilidad

Validez

Volatilidad

Page 6: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

16

No hay una definición estándar

Big data es una colección de datos grande,

complejos, muy difícil de procesar a

través de herramientas de gestión y

procesamiento de datos tradicionales

“Big Data” son datos cuyo

volumen, diversidad y complejidad

requieren nueva arquitectura,

técnicas, algoritmos y análisis

para gestionar y extraer valor y

conocimiento oculto en ellos ...

¿Qué es Big Data?

Page 7: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Big data se refiere a cualquier problema o

característica que represente un reto para

ser procesado con aplicaciones

tradicionales

¿Qué es Big Data?

Page 8: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

18

¿Quién genera Big Data?

Redes sociales y multimedia (todos generamos datos)

Dispositivos móviles

(seguimiento de objetos)

Instrumentos científicos(colección de toda clasede datos)

Redes de sensores(se miden toda clase de datos)

El progreso y la innovación ya no se ven obstaculizados por la capacidad de recopilar datos, sino por la capacidad de gestionar, analizar, sintetizar, visualizar, y descubrir el conocimiento de los datos recopilados de manera oportuna y en una forma escalable

¿Qué es Big Data?

Page 9: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Data Science combines the traditional scientific method with the ability to explore, learn and gain deep insight for (Big) Data

It is not just about finding patterns in data … it is mainly about explaining those patterns

(Big) Data Science

Page 10: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

22

What Happens in an Internet Minute in 2018?

¿Por qué Big Data?

Page 11: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

23

Problema: Escalabilidad de grandes cantidades dedatos

Ejemplo:

Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días

Exploración en un clúster de 1000 nodos = 33 minutos

Solución Divide-Y-Vencerás

¿Por qué Big Data?

Una sola máquina no puede gestionar grandes

volúmenes de datos de manera eficiente

Page 12: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

24

¿Por qué Big Data?

Problema: Escalabilidad de grandes cantidades de datos

Ejemplo:

Exploración 100 TB en 1 nodo @ 50 MB/sec = 23días

Exploración en un clúster de 1000 nodos = 33minutos

Solución Divide-Y-Vencerás

• ¿Cómo podemos procesar

1000 TB or 10000 TB?

Page 13: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

25

Escalabilidad de grandes cantidades de datos

Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días

Exploración en un clúster de 1000 nodos = 33 minutos

Solución Divide-Y-Vencerás

¿Qué ocurre cuando el tamaño de los datos aumenta

y los requerimientos de tiempo se mantiene?

Hace unos años: Había que aumentar los recursos de

hardware (número de nodos). Esto tiene limitaciones de

espacio, costes, …

Google 2004: Paradigma MapReduce

¿Por qué Big Data?

Page 14: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

26

Escalabilidad de grandes cantidades de datos

Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días

Exploración en un clúster de 1000 nodos = 33 minutos

Solución Divide-Y-Vencerás

MapReduce

– Modelo de programación de datos paralela

– Concepto simple, elegante, extensible para múltiples

aplicaciones

• Creado por Google (2004)

– Procesa 20 PB de datos por día (2004)

• Popularizado por el proyecto de codigo abierto Hadoop

– Usado por Yahoo!, Facebook, Amazon, …

MapReduce

Page 15: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

MapReduce

MapReduce es la aproximación más popular para Big Data

Fragmentación de datos con Procesamiento Paralelo

+ Fusión de Modelos

Page 16: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

MapReduce

MapReduce es el entorno más popular para Big Data

Basado en la estructura Valor-

llave.

Dos operaciones:

1. Función Map : Procesa bloques de información

2. Función Reduce function: Fusiona los resultados previous de acuerdo a su llave.

+ Una etapa intermedia de

agrupamiento por llave (Shuffling)

input inputinputinput

mapmap map map

(k , v)(k , v)(k , v) (k , v)

(k’, v’) (k’, v’) (k’, v’)

Shuffling: group values by keys

(k’, v’)

k’, list(v’) k’, list(v’) k’, list(v’)

reduce reduce reduce

v’’ v’’ v’’

output output output

map (k, v) → list (k’, v’)

reduce (k’, list(v’)) → v’’

Page 17: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

31

Características

Paralelización automática:

Dependiendo del tamaño de ENTRADA DE DATOS se

crean mutiples tareas MAP

Dependiendo del número de intermedio <clave, valor>

particiones se pueden crear varias tareas REDUCE

Escalabilidad:

Funciona sobre cualquier cluster de nodos/procesadores

Puede trabajar desde 2 a 10,000 máquinas

Transparencia programación

Manejo de los fallos de la máquina

Gestión de comunicación entre máquina

MapReduce

Page 18: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

MapReduce

Resumiendo:

Ventaja frente a los modelos distribuidos clásicos: El modelo de programación paralela de datos de MapReduce oculta la complejidad de la distribución y tolerancia a fallos.

Claves de su filosofía: Es

escalable: se olvidan los problemas de hardware

más barato: se ahorran costes en hardware, programación y administración (Commodity computing).

MapReduce no es adecuado para todos los problemas, pero cuando funciona, puede ahorrar mucho tiempo

Page 19: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Data Science Model

building

Predictiveand descriptive Analytics

Data Preprocessing

Big Data Analytics:Big Data Preprocessing

¡Se requieren datos de calidad para diseñar modelos de calidad!.

Big Data

Page 20: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Inteligencia de Negocios y el Big Data

• Inteligencia de Negocios es un conjunto de procesos, tecnologías y

personas que tienen la capacidad de transformar los datos en

información y la información en conocimiento, con el objetivo de

optimizar la toma de decisiones empresariales y facilitar la gestión a

través del seguimiento de patrones de conducta y

transaccionalidad.

• La BI abarca un amplio rango de tareas que comprenden la

recolección y consolidación de bases de datos centralizadas a

través de los conceptos de ETL y Datawarehouse; la gestión de

herramientas para el aprovechamiento de la información, basadas

en analítica y minería de datos; junto con un conjunto de

herramientas de visualización y reporte, que incluye tecnologías

como OLAP (On Line Analitical Processing).20

Page 21: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Inteligencia de Negocios y el Big Data

21

• Big Data es el aprovechamiento de grandes volúmenes de

información para tomar decisiones empresariales y optimizar

procesos de negocio. Es notable que las similitudes conceptuales

con la BI permitan generar alguna confusión. En tal sentido, el Big

Data también precisa algunos elementos técnicos de consideración.

• La integración de datos de negocio que no hacen parte del

ecosistema de bases de datos de la empresa (el Datawarehouse),

como por ejemplo datos de fuentes secundarias, implica que se

tengan repositorios de información particulares para la gestión de

Big Data. Muchos de estos datos, trabajados adecuadamente,

pueden llegar a integrarse al datawarehouse. En fases iniciales o en

el trabajo con datos cotidiano, estos pueden ser integrados a

repositorios especiales, conocidos como Datamarts.

Page 22: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Inteligencia de Negocios y el Big Data

22

• Algunas de las distancias puntuales que podrían marcarseentre estos dos temas están dadas por que el concepto de BigData no alude directamente a los procesos o a las personas:es un concepto centrado en los algoritmos y metodologíasque permiten extraer el conocimiento de los datosprocesados.

• Estos datos, a su vez, pueden provenir de una ampliavariedad de fuentes, y bien pueden ser estructurados, comose estila tradicionalmente en las bases de datos de negocio, ono estructurados, lo cual abarca desde datos textuales hastacontenidos multimedia.

Page 23: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Inteligencia de Negocios y el Big Data

23

• También podemos evidenciar que el componente analítico dela BI se potencia desde el Big Data, pero que a su vez, unaconcepción holística y aplicada del Big Data, demanda de lascualidades de la BI. En tal sentido, suponer un escenario dedatos más completo, más abierto y con muchas máscapacidades para procesar, integrar, analizar y distribuirinformación solo puede ser positivo y no debe ser óbice paragenerar diferencias en sus aplicaciones

Page 24: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Inteligencia de Negocios y el Big Data

24

• El escenario idóneo es aquel que nos permite tener muchosmás datos, poder integrarlos y maximizar su calidad ycompletitud, definir metodologías idóneas para suprocesamiento y análisis y asegurarse de que los mismoslleguen a los decisores con tal calidad que el nivel de

dificultad para su transformación en decisiones y parallevarlo a la implementación se reduzca a un mínimo. Solo asíllegaremos a asegurar un entorno de datos lo suficientementefuerte que permita a la organización ser más resistente no por

sus capacidades financieras o materiales, sino por elconocimiento y el talento que la misma ostenta.

Page 25: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Algunas aplicaciones: La banca es

un ámbito de aplicación importante

Page 26: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Algunas aplicaciones

http://www.sciencemag.org/content/347/6221/536

http://elpais.com/elpais/2015/01/29/ciencia/1422520042_066660.html

Page 27: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Identificación por el número de compras

Identificación por el género

Identificación por el poder adquisitivo

Banca: Identificación de personas con las compras de tarjetas de crédito

Page 28: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Aplicaciones de Big Data

• En el 2017, Forbes Insights y EY publicaron un informe, basado en

una encuesta a 1,518 altos ejecutivos de grandes empresas de todo

el mundo. Según dicha encuesta, el 66% de las compañías que

apostaron por la introducción de data analytics en su estrategia de

negocios logró un aumento de al menos 15% en sus utilidades del

2016.

• No solo ha resultado una herramienta auspiciosa en el éxito de la

introducción de productos y servicios al mercado, Big Data también

ayuda a anticipar fracasos difíciles de identificar. En ese sentido, el

60% de los encuestados por Forbes Insights y EY señala haber

conseguido que sus puntos débiles se hayan fortalecido para hacer

frente a los posibles riesgos con los que cuenta toda gran empresa.

28

Page 29: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Aplicaciones de Big Data

• Recientemente, se publicó el “Accenture Analytics Big Success

with Big Data”, que incluye una encuesta a más de 1,000

ejecutivos de empresas que operan en siete industrias y con

sede en 19 países, que han completado al menos una

implementación de Big Data.

• Este informe reveló que el 92% de los encuestados están

satisfechos con los resultados de negocios impulsados por Big

Data y que el 94% manifiesta que estas implementaciones

satisfacen sus necesidades. Para el 89%, resulta fundamental

en el proceso de transformar su organización en una empresa

digital.

29

Page 30: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

BIG DATA en Perú

• Banca y finanzas, consumo masivo y retail son las industrias que

han dado los primeros pasos hacia su digitalización. Ya sea por

recursos financieros o por giro de negocio, estos son los first

movers más obvios; sin embargo, no serán los únicos en usar

esta disciplina como una herramienta esencial.

• SAS Institute, uno de los principales fabricantes de software de

business inteligence del mundo, menciona el caso de la industria

de la salud: al analizar rápidamente grandes cantidades de

información, estructurada y no estructurada, los proveedores de

atención médica pueden proporcionar diagnósticos que salvan

vidas o opciones de tratamiento casi de inmediato. Estas

aplicaciones se irán extendiendo hacia cada vez más industrias,

sin duda30

Page 31: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Ámbito del conocimiento que engloba las habilidades asociadas al análisis inteligente de datos, incluyendo Big Data

Científico de datos

(actualmente se menciona la demanda en big data profesionalmente, entendida como el global).

Comentarios Finales

Page 32: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

179

Comentarios Finales

Big Data es un área emergente y en expansión. Las posibilidades de desarrollo de algoritmos para nuevos datos, aplicaciones reales … es un nicho de investigación y desarrollo en los próximos años.

Oportunidades en Big Data

Page 33: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

La paralelización de los algoritmos de aprendizaje automático junto al particionamiento de datos pueden proporcionar algoritmos de calidad con MapReduce.

Paticionando datos y aplicando el algoritmo a cada parte.

Centrando la atención en la fase de combinacion (reduce). La combinación de modelos es un reto en el diseño de cada algoritmo.

Data Mining, Machine learning and data preprocessing: Inmensa colección de algoritmos frente a los pocos algoritmos en big data analytics.

Comentarios Finales

Page 34: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

Comentarios Finales

Page 35: Tema 7: BIG DATA16 No hay una definición estándar Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento

¡Gracias!