Introduccion Big Data

Embed Size (px)

DESCRIPTION

Bigdata para el mundo

Citation preview

  • www.consultec.es

    Introduccin a Big Data

  • www.consultec.es

    Quines somos?

    Gorka Armen+a Developer

    [email protected] @joruus

    Iaki Elcoro Developer

    [email protected] @iceoverow

  • ndice

    1. Introduccin 2. Qu no es Big Data? 3. Qu es Big Data? 4. Utilidades 5. Ejemplo real: Walmart 6. Caractersticas Tcnicas 7. Markets de Datos 8. Hadoop 9. Microsoft HDInsight 10.Demo

  • www.consultec.es

    Introduccin

    Big Data es desde hacer un par de aos una de las grandes tendencias dentro del mundo de la tecnologa y del marketing, uno de esos buzzwords que en un momento dado empiezan a propagarse y aparecer por todo internet, las grandes empresas se interesan por ello, se crea una industria alrededor y, de repente, todo el mundo sabe lo que es Big Data. O no

    BIG DATA

  • www.consultec.es

    Qu no es Big Data?

    Antes de empezar, lo primero es desengaarnos.

    Big Data no es una base de datos enorme

    Big Data no es un data warehouse enorme

    Big Data no es una nueva forma de Business Intelligence

    Big Data no es llevar las base de datos a la nube

  • www.consultec.es

    Qu es Big Data? - Situacin actual

    Bases de Datos

    Relacionales

    Bases de Datos

    Anal+cas (Data

    Warehouse)

    Archivos (XML, Logs, )

    ERP/CRM

    Redes Sociales

    Base de Datos NoSQL

    APIs

    Sensores

    RFID

    Informacin generada por apps mviles

    Y mucho ms.

    Y lo que est por venir

    Big Data

    GPS

    Internet de las Cosas

    Informacin generada por mquinas

    eMails

  • www.consultec.es

    Qu es Big Data? - Definiciones

    Definiciones encontradas en internet

    Informacin que tiene un orden de magnitud ms grande de lo que estamos acostumbrados.

    Informacin que es muy grande y no se ajusta a las estructuras de las bases de datos actuales.

    Es un conjunto de datos cuyo tamao est ms all de la capacidad de la mayora de los software utilizados para capturar, gestionar y procesar la

    informacin dentro de un lapso tolerable de tiempo.

  • www.consultec.es

    Qu es Big Data? - Las 3 Vs

    Volume: grandes volmenes de informacin Se est pasando de hablar en Gigabytes o Terabytes a tamaos de datos de

    Petabytes, Exabytes o Zettabytes. Volmenes que se nos escapan.

  • www.consultec.es

    Qu es Big Data? - Las 3 Vs

    Variety: informacin de tipos muy diversos Ya no solo tenemos informacin estructurada en Bases de Datos o Archivos.

    Ahora empezamos a tener informacin con tipos diferentes y totalmente desestructurada.

  • www.consultec.es

    Qu es Big Data? - Las 3 Vs

    Velocity: velocidad con la que se genera la informacin La velocidad a la que se genera esta informacin hace imposible gestionarla

    con sistemas de base de datos convencionales. Las empresas y las personas ya no quieren estar al da, quieren estar al segundo.

  • www.consultec.es

    Qu es Big Data? Retos actuales

    Dar sentido al gran volumen de datos

    Necesitamos las herramientas adecuadas para dar sentido de la abrumadora cantidad de datos generados por la disminucin de los costos de hardware y de las fuentes de datos complejas.

    La comprensin de una variedad cada vez mayor de datos

    Debemos poder analizar datos tanto relacionales como no relacionales. Ms del 85% de los datos capturados son desestructurados.

    Habilitacin de anlisis en tiempo real de los datos

    Los nuevos grandes generadores de datos (Twitter, Facebook, ) estn produciendo volmenes de datos sin precedentes y en tiempo real, lo que no se puede analizar eficazmente mediante procesos por lotes normales.

  • www.consultec.es

    Experiencia Contexto

    Qu es Big Data? - Entendimiento: de los datos a la sabidura

    Sabidura

    Conocimiento

    Informacin

    Datos

    Relaciones

    Patrones

    Principios

  • www.consultec.es

    Utilidades

    Toma de decisiones El valor del Big Data no es la informacin, sino la nueva forma de toma de decisiones basada en evidencias y datos empricos.

    Tomar decisiones en base a datos empricos y tendencias Tomar decisiones en base a corazonadas, instinto o experiencias pasadas

  • www.consultec.es

    Utilidades

    Transparencia Compartir y hacer accesible grandes volmenes de datos a las partes interesadas y de manera oportuna puede crear un enorme valor y aumentar la eficiencia.

  • www.consultec.es

    Utilidades

    Experimentacin Una vez recopilados los datos que nos interesan, la experimentacin y la exploracin de los mismos puede mostrarnos informacin que a primera vista nunca hubisemos encontrado o que nunca se nos hubiese ocurrido buscar.

  • www.consultec.es

    Utilidades

    Innovacin Permite crear nuevos productos y servicios, mejorar los existentes e, incluso, crear nuevos modelos de negocio.

  • www.consultec.es

    Ejemplo real: Walmart

    Walmart es una multinacional de grandes almacenes

    Es la segunda mayor empresa del mundo por ingresos

  • www.consultec.es

    Ejemplo real: Walmart

    Algunos datos:

    200 millones de clientes a la semana

    10700 tiendas

    27 pases

    2 millones de trabajadores

    1,5 millones de transacciones por hora

    Varios Terabytes de informacin generada en tiempo real

    Base de datos de 3 Petabytes

  • www.consultec.es

    Ejemplo real: Walmart

    Guardando todas las compras de todos los clientes se dieron cuenta que en poca de huracanes los Walmart de las zonas afectadas vendan ms cajas de Pop-Tarts que en otras pocas. Se indic a los gerentes de las tiendas que en esas pocas pusiesen los Pop-Tarts en la entrada de las tiendas. Resultado: Aumento extraordinario de las ventas A quin se le hubiese ocurrido cruzar los datos de ventas con los datos meteorolgicos o con los calendarios de huracanes?

  • www.consultec.es

    Ejemplo real: Walmart

    Hanna twitea:

    I love Salt!. En unos segundos el Tweet llega a los sistemas de Walmart, se analiza y unos minutos ms tarde le llega a una amiga suya el siguiente email:

    Buenos das! Nos pediste que te avissemos cuando fuese el cumpleaos de Hanna. Pues ya est aqu y acaba de tweetear algo bueno sobre la pelcula Salt de Angelina Jolie. Quieres regalarle algo relacionado con ello? Tenemos algunas sugerencias que hacerte

  • www.consultec.es

    Ejemplo real: Walmart

    Social Genome Base de conocimiento que captura entidades y relaciones del mundo social. Obtiene entidades de su base de datos, de otros datos tanto pblicos como privados y de redes sociales.

  • www.consultec.es

    Ejemplo real: Walmart

    Social Genome Se identifican las entidades interesantes y las relacionan entre s, consiguiendo toda la informacin de la que son capaces. Es un sistema vivo, en constante evolucin.

    Una persona interesada en un tema Una persona que asiste a un evento

    Un evento sobre un tema Una asociacin entre empresa y producto

  • www.consultec.es

    Ejemplo real: Walmart

    Resumiendo

  • www.consultec.es

    Caractersticas Tcnicas

    Arquitectura

    Alta escalabilidad

    Procesamiento paralelo

    Baja latencia

    Datos no estructurados y estructurados

    NoSQL

    By-pass de datos

  • www.consultec.es

    Caractersticas Tcnicas

    Key-Value Pair

    La forma ms sencilla de almacenamiento de datos en un entorno de Big Data y NoSQL

    Los datos no estn controlados por el sistema, por lo tanto los desarrolladores debern pensar muy bien donde y como almacenan los datos

  • www.consultec.es

    Markets de Datos

    Adems de las fuentes de datos que tengamos en nuestra organizacin: bases de datos, emails, logs, documentos, etc Podemos acceder a grandes volmenes de datos (Data Sets) en los markets. Hay gratuitos y de pago.

  • www.consultec.es

    Hadoop

    Es una plataforma diseada para almacenar y analizar grandes volmenes de datos de diferentes tipos. Basada en Google Map/Reduce y Google Filesystem.

    Map/Reduce:

    Map: trabajos desarrollados por nosotros. Se distribuyen las tareas en diferentes nodos y se ejecutan en paralelo. Esto genera una informacin intermedia.

    Reduce: fusiona la informacin intermedia y se la ofrece al usuario.

    HDFS (Hadoop Distributed File System):

    Sistema de archivos distribuidos, con replicacin automtica y optimizado para lectura. Cada fichero se particin y se distribuye en todos los servidores.

  • www.consultec.es

    Hadoop

    Otros proyectos alrededor de Hadoop

    Hive: Data Warehouse sobre Hadoop con lenguaje HiveQL (SQL).

    Pig: Lenguaje de script para consulta y anlisis de la informacin. Desarrollado por Yahoo!.

    Sqoop: Framework para la integracin de bases de datos relacionales.

    Flume: Servicio para recolectar, agregar y mover grandes volmenes de datos de eventos/logs.

  • www.consultec.es

    Microsoft HDInsight

    Servicio basado en Hadoop.

    Dos versiones: Windows Azure HDInsight (on-demand) HDInsight Server (on-premise)

  • www.consultec.es

    Microsoft HDInsight

    Acceso a todo tipo de usuarios, incluidos desarrolladores y profesionales IT. Fcil instalacin, administracin y configuracin.

    Integracin con herramientas conocidas como Excel, PowerPivot, PowerView, SQL Server Analysis Services o Reporting Services.

    .NET SDK para Hadoop (a travs e NuGet): Map/Reduce LINQ to Hive WebHDFS Client

  • www.consultec.es

    DEMO

  • www.consultec.es

    Gracias!

  • www.consultec.es

    Dudas?

    Gorka Armen+a Developer

    [email protected] @joruus

    Iaki Elcoro Developer

    [email protected] @iceoverow