www.consultec.es
Introduccin a Big Data
www.consultec.es
Quines somos?
Gorka Armen+a Developer
[email protected] @joruus
Iaki Elcoro Developer
[email protected] @iceoverow
ndice
1. Introduccin 2. Qu no es Big Data? 3. Qu es Big Data? 4. Utilidades 5. Ejemplo real: Walmart 6. Caractersticas Tcnicas 7. Markets de Datos 8. Hadoop 9. Microsoft HDInsight 10.Demo
www.consultec.es
Introduccin
Big Data es desde hacer un par de aos una de las grandes tendencias dentro del mundo de la tecnologa y del marketing, uno de esos buzzwords que en un momento dado empiezan a propagarse y aparecer por todo internet, las grandes empresas se interesan por ello, se crea una industria alrededor y, de repente, todo el mundo sabe lo que es Big Data. O no
BIG DATA
www.consultec.es
Qu no es Big Data?
Antes de empezar, lo primero es desengaarnos.
Big Data no es una base de datos enorme
Big Data no es un data warehouse enorme
Big Data no es una nueva forma de Business Intelligence
Big Data no es llevar las base de datos a la nube
www.consultec.es
Qu es Big Data? - Situacin actual
Bases de Datos
Relacionales
Bases de Datos
Anal+cas (Data
Warehouse)
Archivos (XML, Logs, )
ERP/CRM
Redes Sociales
Base de Datos NoSQL
APIs
Sensores
RFID
Informacin generada por apps mviles
Y mucho ms.
Y lo que est por venir
Big Data
GPS
Internet de las Cosas
Informacin generada por mquinas
eMails
www.consultec.es
Qu es Big Data? - Definiciones
Definiciones encontradas en internet
Informacin que tiene un orden de magnitud ms grande de lo que estamos acostumbrados.
Informacin que es muy grande y no se ajusta a las estructuras de las bases de datos actuales.
Es un conjunto de datos cuyo tamao est ms all de la capacidad de la mayora de los software utilizados para capturar, gestionar y procesar la
informacin dentro de un lapso tolerable de tiempo.
www.consultec.es
Qu es Big Data? - Las 3 Vs
Volume: grandes volmenes de informacin Se est pasando de hablar en Gigabytes o Terabytes a tamaos de datos de
Petabytes, Exabytes o Zettabytes. Volmenes que se nos escapan.
www.consultec.es
Qu es Big Data? - Las 3 Vs
Variety: informacin de tipos muy diversos Ya no solo tenemos informacin estructurada en Bases de Datos o Archivos.
Ahora empezamos a tener informacin con tipos diferentes y totalmente desestructurada.
www.consultec.es
Qu es Big Data? - Las 3 Vs
Velocity: velocidad con la que se genera la informacin La velocidad a la que se genera esta informacin hace imposible gestionarla
con sistemas de base de datos convencionales. Las empresas y las personas ya no quieren estar al da, quieren estar al segundo.
www.consultec.es
Qu es Big Data? Retos actuales
Dar sentido al gran volumen de datos
Necesitamos las herramientas adecuadas para dar sentido de la abrumadora cantidad de datos generados por la disminucin de los costos de hardware y de las fuentes de datos complejas.
La comprensin de una variedad cada vez mayor de datos
Debemos poder analizar datos tanto relacionales como no relacionales. Ms del 85% de los datos capturados son desestructurados.
Habilitacin de anlisis en tiempo real de los datos
Los nuevos grandes generadores de datos (Twitter, Facebook, ) estn produciendo volmenes de datos sin precedentes y en tiempo real, lo que no se puede analizar eficazmente mediante procesos por lotes normales.
www.consultec.es
Experiencia Contexto
Qu es Big Data? - Entendimiento: de los datos a la sabidura
Sabidura
Conocimiento
Informacin
Datos
Relaciones
Patrones
Principios
www.consultec.es
Utilidades
Toma de decisiones El valor del Big Data no es la informacin, sino la nueva forma de toma de decisiones basada en evidencias y datos empricos.
Tomar decisiones en base a datos empricos y tendencias Tomar decisiones en base a corazonadas, instinto o experiencias pasadas
www.consultec.es
Utilidades
Transparencia Compartir y hacer accesible grandes volmenes de datos a las partes interesadas y de manera oportuna puede crear un enorme valor y aumentar la eficiencia.
www.consultec.es
Utilidades
Experimentacin Una vez recopilados los datos que nos interesan, la experimentacin y la exploracin de los mismos puede mostrarnos informacin que a primera vista nunca hubisemos encontrado o que nunca se nos hubiese ocurrido buscar.
www.consultec.es
Utilidades
Innovacin Permite crear nuevos productos y servicios, mejorar los existentes e, incluso, crear nuevos modelos de negocio.
www.consultec.es
Ejemplo real: Walmart
Walmart es una multinacional de grandes almacenes
Es la segunda mayor empresa del mundo por ingresos
www.consultec.es
Ejemplo real: Walmart
Algunos datos:
200 millones de clientes a la semana
10700 tiendas
27 pases
2 millones de trabajadores
1,5 millones de transacciones por hora
Varios Terabytes de informacin generada en tiempo real
Base de datos de 3 Petabytes
www.consultec.es
Ejemplo real: Walmart
Guardando todas las compras de todos los clientes se dieron cuenta que en poca de huracanes los Walmart de las zonas afectadas vendan ms cajas de Pop-Tarts que en otras pocas. Se indic a los gerentes de las tiendas que en esas pocas pusiesen los Pop-Tarts en la entrada de las tiendas. Resultado: Aumento extraordinario de las ventas A quin se le hubiese ocurrido cruzar los datos de ventas con los datos meteorolgicos o con los calendarios de huracanes?
www.consultec.es
Ejemplo real: Walmart
Hanna twitea:
I love Salt!. En unos segundos el Tweet llega a los sistemas de Walmart, se analiza y unos minutos ms tarde le llega a una amiga suya el siguiente email:
Buenos das! Nos pediste que te avissemos cuando fuese el cumpleaos de Hanna. Pues ya est aqu y acaba de tweetear algo bueno sobre la pelcula Salt de Angelina Jolie. Quieres regalarle algo relacionado con ello? Tenemos algunas sugerencias que hacerte
www.consultec.es
Ejemplo real: Walmart
Social Genome Base de conocimiento que captura entidades y relaciones del mundo social. Obtiene entidades de su base de datos, de otros datos tanto pblicos como privados y de redes sociales.
www.consultec.es
Ejemplo real: Walmart
Social Genome Se identifican las entidades interesantes y las relacionan entre s, consiguiendo toda la informacin de la que son capaces. Es un sistema vivo, en constante evolucin.
Una persona interesada en un tema Una persona que asiste a un evento
Un evento sobre un tema Una asociacin entre empresa y producto
www.consultec.es
Ejemplo real: Walmart
Resumiendo
www.consultec.es
Caractersticas Tcnicas
Arquitectura
Alta escalabilidad
Procesamiento paralelo
Baja latencia
Datos no estructurados y estructurados
NoSQL
By-pass de datos
www.consultec.es
Caractersticas Tcnicas
Key-Value Pair
La forma ms sencilla de almacenamiento de datos en un entorno de Big Data y NoSQL
Los datos no estn controlados por el sistema, por lo tanto los desarrolladores debern pensar muy bien donde y como almacenan los datos
www.consultec.es
Markets de Datos
Adems de las fuentes de datos que tengamos en nuestra organizacin: bases de datos, emails, logs, documentos, etc Podemos acceder a grandes volmenes de datos (Data Sets) en los markets. Hay gratuitos y de pago.
www.consultec.es
Hadoop
Es una plataforma diseada para almacenar y analizar grandes volmenes de datos de diferentes tipos. Basada en Google Map/Reduce y Google Filesystem.
Map/Reduce:
Map: trabajos desarrollados por nosotros. Se distribuyen las tareas en diferentes nodos y se ejecutan en paralelo. Esto genera una informacin intermedia.
Reduce: fusiona la informacin intermedia y se la ofrece al usuario.
HDFS (Hadoop Distributed File System):
Sistema de archivos distribuidos, con replicacin automtica y optimizado para lectura. Cada fichero se particin y se distribuye en todos los servidores.
www.consultec.es
Hadoop
Otros proyectos alrededor de Hadoop
Hive: Data Warehouse sobre Hadoop con lenguaje HiveQL (SQL).
Pig: Lenguaje de script para consulta y anlisis de la informacin. Desarrollado por Yahoo!.
Sqoop: Framework para la integracin de bases de datos relacionales.
Flume: Servicio para recolectar, agregar y mover grandes volmenes de datos de eventos/logs.
www.consultec.es
Microsoft HDInsight
Servicio basado en Hadoop.
Dos versiones: Windows Azure HDInsight (on-demand) HDInsight Server (on-premise)
www.consultec.es
Microsoft HDInsight
Acceso a todo tipo de usuarios, incluidos desarrolladores y profesionales IT. Fcil instalacin, administracin y configuracin.
Integracin con herramientas conocidas como Excel, PowerPivot, PowerView, SQL Server Analysis Services o Reporting Services.
.NET SDK para Hadoop (a travs e NuGet): Map/Reduce LINQ to Hive WebHDFS Client
www.consultec.es
DEMO
www.consultec.es
Gracias!
www.consultec.es
Dudas?
Gorka Armen+a Developer
[email protected] @joruus
Iaki Elcoro Developer
[email protected] @iceoverow