Transcript
Page 1: Big Data y Minería de datos

11

Prof. Luis Joyanes Aguilar

BIG DATA & MINERÍA DE DATOS :La revolución de los datos

TECNOLÓGICO DE MONTERREYQuerétaro, 1 de noviembre, 2013

Page 2: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Página –2–

Page 3: Big Data y Minería de datos

33

ESTADO DEL ARTE DECLOUD COMPUTING

Prof. Luis Joyanes Aguilar

COMPUTACIÓN EN LA NUBELa nueva era de la computación

Page 4: Big Data y Minería de datos

4

Page 5: Big Data y Minería de datos

5

Page 6: Big Data y Minería de datos

66

TEC DE MONTERREY

Prof. Luis Joyanes Aguilar

BIG DATAEl universo digital de datos

Page 7: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

LA ERA DEL PETABYTE (1.000 TB), Wired , julio 2008 (www.wired.com)Sensores en todas partes, almacenamiento

infinito y Nubes (clouds) de procesadores Nuestra capacidad para capturar, almacenar y

comprender cantidades masivas de datos está cambiando la ciencia, medicina, negocios y tecnología. A medida que aumenta nuestra colección de hechos y figuras, crece la oportunidad de encontrar respuestas a preguntas fundamentales.

Because in the era of big data, more isn´t just more. More is different

Página –7–

Page 8: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com) 1TB (250.000 canciones)

20 TB (fotos “uploaded” a Facebook cada mes)

120 TB (todos los datos e imágenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climático en EEUÜ compilados por el National Climatic Data Center); 530 TB (Todos los vídeos de YouTube); 600 TB (base de datos de genealogía, incluye todos los censos de EEUU 1790-2000)

1 PB (datos procesados por los servidores de Google cada 75 minutos) Página –8–

Page 9: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Tabla de unidades de almacenamiento (The Economist, febrero 2010): “data, data everywhere” www.economist.com/specialreports/displaystory.cfm?story_id=15557421

Página –9–

Page 10: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

El Universo Digital – EMC / IDC

Página –10–

Page 11: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

El Universo Digital – EMC / IDC

Página –11–

Page 12: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

EL UNIVERSO DIGITAL DE DATOS, 2013

EMC Corporation PUBLICÓ en diciembre de 2013, su estudio anual sobre el Universo Digital de IDC, patrocinado por EMC: “Big Data, Bigger Digital Shadows, and Biggest Growth in the Far

East”. El estudio arrojó que, a pesar de la expansión sin precedentes del Universo Digital debido a el Big Data que se generan a diario por personas y máquinas, IDC estima que solo 0,5% de los datos mundiales se analizan.

Página –12–

Page 13: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

EL UNIVERSO DIGITAL DE DATOS, 2013

La proliferación a nivel mundial de dispositivos, como PC y teléfonos inteligentes, aumentó el acceso a Internet dentro de los mercados emergentes, y el incremento de datos generados por máquinas, como cámaras de vigilancia o contadores inteligentes, ha contribuido a la duplicación del Universo Digital en los últimos dos años solamente, hasta alcanzar un tamaño descomunal de 2,8 ZB. IDC proyecta que, para el 2020, el Universo Digital alcanzará 40 ZB, cifra que supera las proyecciones anteriores por 14%.

Página –13–

Page 14: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

EL UNIVERSO DIGITAL DE DATOS, 2013

En términos de volumen, 40 ZB de datos son equivalentes a lo siguiente:

Existen 700.500.000.000.000.000.000 granos de arena en todas las playas del mundo (o setecientos trillones quinientos mil billones). Esto significa que 40 ZB equivalen a 57 veces la cantidad de granos de arena de todas las playas del mundo. Si pudiéramos guardar los 40 ZB en los discos Blue-ray de la actualidad, el peso de dichos discos (sin fundas ni estuches) sería equivalente a 424 portaaviones Nimitz. En 2020, 40 ZB serán 5.247 GB por persona a nivel mundial.

Referencia: America Economia: http://tecno.americaeconomia.com/noticias/el-gran-universo-digital-la-data-crece-mas-rapido-de-lo-que-podemos-protegerla

Página –14–

Page 15: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

El universo digital de datos, IDC 2013

Pina –15–

Page 16: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

El universo digital de datos, 2013

Página –16–

Page 17: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

LA ERA DEL EXABYTE/ZETTABYTE CISCOLA ERA DEL EXABYTE, CISCO .

Estudio “Cisco Visual Networking Index (VNI) 2007-2012. Tráfico mundial de datos.

LA ERA DEL ZETTABYTE:Cisco VNI: Forecast and Methodology 2012: 22017. Tráfico mundial de datos (publicado en 2013)

Página –17–

Page 18: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Informe VNI CISCO 2012-2107Durante 2012, empresas, gobiernos,

industria y usuarios finales generan cada mes del año, una tasa de tráfico mensual de 44 EB (aprox. 44 millones de discos duros de 1TB apilados u 11.000 millones de DVDs).

México produjo en 2012 un tráfico de 0,6 ExaBytes/mes. Se estima que en 2017 producirá unos 1,3 EB.

Para ese momento el 56% de la población contará con acceso a Internet de acuerdo con el INEGI de México

Página –18–

Page 19: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Informe VNI CISCO 2012-2107Los dispositivos que más ayudan a

generar los 44 EB por mes, según CISCO:

0,6 EB, smartphones2,7 tabletas5,8 televisores7,6 consolas de videojuegos18,6 computadoras personales…En 2017 se espera una tasa global de

tráfico mensual de 121 EB aprox. 1 ZBPágina –19–

Page 20: Big Data y Minería de datos

2020

TEC DE MONTERREYCampus Querétaro

Prof. Luis Joyanes Aguilar

BIG DATA Y MINERÍA / ANALÍTICADE DATOS.Nuevas bases de datosNoSQL, “In-Memory”…

Page 21: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Harvard Business Review, octubre 2012

Página –21–

Page 22: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Foreign Affairs, mayo 2013

Página –22–

Page 23: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Revista BBVA, innovation edge, junio 2013

Página –23–

Page 24: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

ORIGEN DEL TÉRMINO Grandes volúmenes de datosDatos masivosMacrodatos (Fundación Fundeú BBVA)“La era de los datos masivos se refiere a

cosas que se pueden hacer a gran escala, y pone en cuestión la forma en que vivimos e interactuamos con el mundo” (Mayer-Schömberg, Cukier, The Economist)

Correlación: ya no importa el porqué sino sólo el qué

Página –24–

Page 25: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

LA AVALANCHA / DILUVIO DE DATOS Según Eric Schmidt, presidente ejecutivo de Google,

entre el origen de la tierra y el 2003 se crearon cinco exabytes de información. Hoy en día creamos la misma cifra cada dos días2. Las previsiones aseguran que en esta década crearemos alrededor de 40 zettabytes (informe de IDC de diciembre de 2012)

Según la consultora IDC, cifran en 1,8 Zettabytes la información generada en 2011. Si tratáramos de almacenar esa información en iPads (del modelo de 32GB) necesitaríamos 57.500 millones; puestos unos al lado de otro formaríamos una línea que daría 3 veces la vuelta al mundo y, si tratáramos de apilarlos, la “montaña” resultante sería 25 veces más alta que el monte Fuji.

Página –25–

Page 26: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

LA AVALANCHA / DILUVIO DE DATOSTwitter: (redes sociales) 90 millones de tuits (tweets) por día que representan

12 Terabytes (datos de 2011)

Boeing: (industria) Vuelo transoceánico de un jumbo puede generar 640

Terabytes.

Wal-Mart: (comercio) 1 millón de transacciones por hora que se estima que

alimenta una base de datos de 2.5 petabytes. Google procesa al día 20 PB de

informaciónPágina –26–

Page 27: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

LA AVALANCHA / DILUVIO DE DATOSEl 90% de los datos acumulados en

todo el mundo se han creado en los dos últimos años. Cada día se escriben 400 millones de tuits, cada minuto se crean 600 nuevos blogs y cada segundo se registran 10.000 transacciones de pagos con tarjetas. Objetos cotidianos como los carros, los relojes o las gafas están comenzando a conectarse a Internet para alimentar nuevos servicios que requieren un constante intercambio de información.

Página –27–

Page 28: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Página –28–

Page 29: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Página –29–

Page 30: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

BIG DATA, bbva edge, junio 2013

Fuentes:SAS | Big Data: www.sas.com/big-data.IBM | Big Data at the Speed of BusinessMcKinsey Global Institute | Big Data: The

next frontier for innovation, competition, and productivity, junio 2011.

Fuente: Intel | What Happens in an Internet Minute? www.intel.com/content/www/us/en/communications/internet-minute-infographic.html

Página –30–

Page 31: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

LA AVALANCHA / DILUVIO DE DATOSLos Ayuntamientos siembran las calles con

sensores de recogida de datos para facilitar la vida de los ciudadanos. Cada día se recogen 2,5 trillones de bytes de datos, y los directivos de las empresas apenas pueden manejar la mitad de los generados en su entorno porque el 80% de ellos están “desestructurados·.

El número de dispositivos en red duplicará a la población mundial en 2015 y los datos que generen se convertirán en información utilizada por las empresas para anticipar las necesidades de los consumidores.

Página –31–

Page 32: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

LA AVALANCHA / DILUVIO DE DATOSLa respuesta para ordenar este caos

es big data, la nueva herramienta para sistematizar los datos procedentes de cualquier soporte —incluyendo imagen sonido, fotos, textos…— y convertirlos de forma automática en información.

Big data ayudó a ganar las elecciones a Barak Obama y ha reducido de días a minutos la detección de uso de información privilegiada en Wall Street

Página –32–

Page 33: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

LA AVALANCHA / DILUVIO DE DATOSEn torno a ella se está creando un

mercado evaluado por la firma de análisis Gartner en 132.000 millones de dólares para 2015. Ese año se crearán 4,4 millones de puestos de trabajo para abastecerlo. Los expertos comparan la herramienta con una revolución industrial en el mundo de los datos y afirman que con ella cambiará nuestra forma de vida.

Página –33–

Page 34: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

APLICACIONES DE BIG DATA Los Gigantes de Internet como Google, Amazon o

Facebook basan su éxito en el valor de los “big data” sin ellos tendrían serias dudas de supervivencia.

Big data es el nuevo petróleo, oro o maná de la década. IBM, SAP ,Oracle, Cisco… los han sistematizado para adaptarlas a todo tipo de empresas.

Google comenzó a gestionar Big Data desde su nacimiento en 1998, para indexar sus búsquedas”

Big data ha saltado de Internet al mundo real, y las empresas investigan sus aplicaciones para mejorar la gestión, ahorrar consumos o lanzar nuevos servicios.

Página –34–

Page 35: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

APLICACIONES DE BIG DATA Big data empieza a dar los primeros pasos en

Europa. La británica Tesco, cuarta cadena minorista mundial, lo acaba de implantar para controlar la energía en 120 tiendas irlandesas y quiere extenderlo a las 3.000 tiendas que tiene entre Irlanda y Reino Unido para lograr un ahorro de 20 millones de euros en consumos energéticos.

ING Direct ha lanzado en Holanda un servicio para vigilar la interacción de los clientes con la web que genera llamadas telefónicas automáticas para ayudar a quienes no logran terminar su operación “una forma de fidelizar clientes”

Página –35–

Page 36: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

APLICACIONES DE BIG DATALa central de reservas Amadeus (líneas

aéreas) insta a las empresas a que incorporen la herramienta junto con el uso ya creciente de MINERÍA DE DATOS.

Investigación realizada por el profesor Thomas Davenport, de la escuela de negocios de Harvard, sobre la experiencia de Air France-KLM, Lufthansa, British Airways, Cathay, Eurostar, Hoteles Marriott, aeropuerto de Múnich.

El informe indica que “las aerolíneas, los aeropuertos, los hoteles, las empresas ferroviarias y los distribuidores de productos turísticos deben plantearse una estrategia big data para situarse a la vanguardia”. Página –36–

Page 37: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

APLICACIONES DE BIG DATALa industria aérea comercial podría

ahorrar 30 millones de dólares en 15 años con la recogida de datos realizada por los sensores que GE coloca en los motores de los aviones.

Trece de las 25 mayores cadenas hoteleras de todo el mundo efectúan ya sus inversiones y sus ofertas comerciales, incluso el color de las paredes de los restaurantes o las habitaciones, cada vez más en función de sofisticados

sistemas de análisis de datos de clientes (MINERÍA DE DATOS) Página –37–

Page 38: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

APLICACIONES DE BIG DATA En España, un sistema privado de seguridad,

Sanitas ha puesto en marcha un sistema para prevenir enfermedades entre sus 2,3 millones de clientes.

“En un año hemos realizado 800.000 contactos a 100.000 clientes para darles consejos o indicarles la conveniencia de hacer pruebas de detección precoz cuando detectamos que por su perfil puede ser conveniente y ofrecer mejores servicios” [Portavoz de Sanitas al periódico El País]

Página –38–

Page 39: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

APLICACIONES DE BIG DATALas farmacéuticas y las aseguradoras

de todo el mundo han sumado la fuerza de sus datos para acelerar la investigación contra el cáncer, el alzhéimer y otras lacras de la sociedad.

“hacer predicciones de comportamientos futuros de pacientes” son grandes ventajas de big data, que puede “mejorarnos la vida hasta límites insospechados”.

Página –39–

Page 40: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

APLICACIONES DE BIG DATAUna línea de negocio importante

de big data estará en las empresas de servicios.

Mezclarán la información procedente de distintas fuentes y harán campañas de marketing (mercadotecnia) personalizado asociado a la geolocalización con datos de su perfil de riesgo, sus gustos y sus hábitos …

Página –40–

Page 41: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 01.04.2013 S. Rosenbush / M. Totty. WSJ. Las

empresas están buscando la mejor forma de aprovechar el exceso de información.

La información abunda y las empresas están buscando la mejor forma de aprovecharla. Los expertos ya bautizaron este fenómeno como big data. La definición es amorfa, pero normalmente significa lo siguiente: las empresas tienen acceso a mucha más información que antes, que proviene de muchas más fuentes y la obtienen casi al momento en que se genera.

Página –41–

Page 42: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 El concepto de big data a menudo se relaciona con las

empresas que ya operan en el mundo de la información, como Google, Facebook y Amazon. Pero compañías en múltiples industrias están colocando los datos en el corazón de sus operaciones. Están recolectando cantidades enormes de información, a menudo combinando indicadores tradicionales como las ventas, con comentarios de redes sociales e información de ubicación que viene de los dispositivos móviles. Las empresas escudriñan esta información para mejorar sus productos, recortar gastos y mantener la fidelidad de sus clientes.

Las firmas de logística, por ejemplo, instalan sensores en sus camiones para detectar formas de acelerar las entregas. Los fabricantes revisan miles de publicaciones en foros de Internet para determinar si a los clientes les gusta una nueva característica. Los gerentes de personal estudian cómo los candidatos a un empleo responden preguntas para ver si encajan bien con la compañía.

Página –42–

Page 43: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

EXPANSIÓN, de Wall Street Journal, 1 de abril 2013Aún quedan numerosos obstáculos en el

camino. Algunos son técnicos, pero en la mayoría de las empresas las decisiones se siguen basando en la opinión de la persona con el salario más alto y podría ser difícil convencer a un ejecutivo de que los datos superan su intuición.

Los recursos humanos, las operaciones, el desarrollo de productos o el márketing son las diferentes formas a través de las cuales las empresas usan el poder de la información para transformar sus negocios.

Página –43–

Page 44: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio) UPS

UPS comenzó a instalar sensores en sus vehículos de reparto para conocer su velocidad y ubicación, si el cinturón de seguridad del conductor está abrochado... Al combinar su información de GPS y los datos de sensores sobre rendimiento en más de 46.000 vehículos, UPS recortó 136 millones de kilómetros de sus rutas.

Página –44–

Page 45: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio) InterContinental

La cadena hotelera InterContinental ha recabado información sobre los 71 millones de miembros de su programa Priority Club, como niveles de ingresos y preferencias sobre las instalaciones. El grupo consolidó la información en un solo almacén de datos que reúne información de redes sociales y procesa búsquedas más rápido

Página –45–

Page 46: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

DEFINICIÓN DE BIG DATA: IBM

What is big data?*Every day, we create 2.5 quintillion bytes of

data — so much that 90% of the data in the world today has been created in the last two years alone. This data comes from everywhere: sensors used to gather climate information, posts to social media sites, digital pictures and videos, purchase transaction records, and cell phone GPS signals to name a few. This data is big data.

* www-01.ibm.com/software/data/bigdata/

Página –46–

Page 47: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

DEFINICIÓN DE BIG DATA: GartnerGartner* define “Biga data” como

un conjunto de datos de gran volumen, de gran velocidad y procedente de gran variedad de fuentes de información que demandan formas innovadoras y efectivas de procesar la información

www.gartner.com/id=2100215Página –47–

Page 48: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

DEFINICIÓN DE BIG DATA: IBM

Página –48–

Page 49: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Modelo 3V de Big Data VOLUMEN • Terabytes • Records • Transactions • Tables, files VELOCIDAD VARIEDAD • Batch (por lotes) Estructurado • Near time (casi a tiempo) No estructurado • Real time (tiempo real) Semi-estructurado • Streams (flujos) Todos los demás

Página –49–

Page 50: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Página –50–

Page 51: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

DEFINICIÓN DE BIG DATA: IBM

VOLUMEN de datos procesados por las empresas ha crecido significativamente.

Google procesa 20 petabytes al día

En 2020 se esperan 42.000 millones de pagos electrónicos.

La Bolsa de Nueva York genera UN terabyte de datos al día

Twitter genera 8 TB

Página –51–

Page 52: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

DEFINICIÓN DE BIG DATA: IBM

VELOCIDAD. Rapidez con la que se accede a los datos. La velocidad del movimiento, proceso y captura de datos, dentro y fuera de la empresa ha aumentado considerablemente.

Flujo de datos a alta velocidad.

eBay se enfrenta al fraude a través de PayPal analizando cinco millones de transacciones en tiempo real al día.

Página –52–

Page 53: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

DEFINICIÓN DE BIG DATA: IBM

VARIEDAD: Big data es cualquier tipo de dato – estructurado y no estrutcturado - tales como texto, datos de sensores, datos entre máquinas (M2M), archivos “logs”, audio, vídeo, flujos de clicks, XML, datos en streaming, cotizaciones bursátiles, medios sociales,

Una creciente variedad de datos necesitan ser procesados y convertidos a información

Página –53–

Page 54: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

DEFINICIÓN DE BIG DATA: IBM

Según otras definiciones de Big Data de fabricantes, consultoras, NIST, etc. existen otras propiedades de los big data:

Veracidad de los datosValor de los datosViabilidad de la infraestructuras y

las herramientas de almacenamiento

Página –54–

Page 55: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Fuentes de Big Data Herramientas para análisis de datos en grandes

volúmenes de datos. Infraestructuras de Big Data Fuentes de Big Data (Soares 2012):

Web y Social mediaMachine-to-Machine (M2M, Internet

de las cosas)BiometriaDatos de transacciones de grandes

datos (salud, telecomunicaciones…)Datos generados por las personas

(humanos)

Página –55–

Page 56: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Fuente: Soares (2013). www.MC-Store.com

Sunil Soares (2003). Big Data Governance Emerging Imperative. Boise. MC Press Online. El autor de este libro mantiene un blog excelente sobre Big Data y

Gobierno de Big Data

Página –56–

Page 57: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Big Data. Joyanes, MéxicoDF: Alfaomega (2013)1. Web y Social Media: Incluye contenido web e información

que es obtenida de las medios sociales como Facebook, Twitter, LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs de periódicos y televisiones, wikis como MediaWiki, Wikipedia, marcadores sociales como Del.icio.us, Stumbleupon… agregadores de contenidos como Dig, Meneame… En esta categoría los datos se capturan, almacenan o distribuyen teniendo presente las características siguientes: Datos de los flujos de clics, tuits, retuits o entradas en general (feeds) de Twitter, Tumblr…, Entradas (posting) de Facebook y contenidos web diversos.

Página –57–

Page 58: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Big Data. Joyanes, MéxicoDF: Alfaomega (2013) 2. Machine-to-Machine (M2M)/ Internet de las

cosas: M2M se refiere a las tecnologías que permiten conectarse a otros diferentes dispositivos entre sí. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (humedad, velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a través de cableadas, inalámbricas y móviles a otras aplicaciones que traducen estos eventos en información significativa. La comunicación M2M ha originado el conocido Internet de las cosas o de los objetos. Entre los dispositivos que se emplean para capturar datos de esta categoría podemos considerar chips o etiquetas RFID, chips NFC, medidores (de temperaturas, de electricidad, presión…). sensores, dispositivos GPS… y ocasionan la generación de datos mediante la lectura de los medidores, lecturas de los RFID y NFC, lectura de los sensores, señales GPS, señales de GIS, etc.

Página –58–

Page 59: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Big Data. Joyanes, MéxicoDF: Alfaomega (2013)3.Big Data transaccionales: Grandes datos transaccionales

procedentes de operaciones normales de transacciones de todo tipo. Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados. Los datos generados procederán de registros de llamada de centros de llamada, departamentos de facturación, reclamaciones de las personas, presentación de documentos…

Página –59–

Page 60: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Big Data. Joyanes, MéxicoDF: Alfaomega (2013) 4. Biometría: La biometría o reconocimiento

biométrico. La información biométrica se refiere a la identificación automática de una persona basada en sus características anatómicas o trazos personales. Los datos anatómicos se crean a partir de las características físicas de una persona incluyendo huellas digitales, iris, escaneo de la retina, reconocimiento facial, genética, DNA, reconocimiento de voz, incluso olor corporal etc. Los datos de comportamiento incluyen análisis de pulsaciones y escritura a mano. Los avances tecnológicos han incrementado considerablemente los datos biométricos disponibles

Página –60–

Page 61: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Big Data. Joyanes, MéxicoDF: Alfaomega (2013) . En el área de seguridad e inteligencia, los datos

biométricos han sido información importante para las agencias de investigación. En el área de negocios y de comercio electrónico los datos biométricos se pueden combinar con datos procedentes de medios sociales lo que hace aumentar el volumen de datos contenidos en los datos biométricos. Los datos generados por la biometría se pueden agrupar en dos grandes categorías: Genética y Reconocimiento facial.

“An Overview of Biometric Recpgnition”. http://biometrics.cse.nsu.edu/info.html

Página –61–

Page 62: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Big Data. Joyanes, MéxicoDF: Alfaomega (2013) 5. Datos generados por las personas: Las

personas generan enormes y diversas cantidades de datos como la información que guarda un centro de llamadas telefónicas (call center) al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios y registros médicos electrónicos, recetas médicas, documentos papel, faxes, etc. El problema que acompaña a los documentos generados por las personas es que pueden contener información sensible de las personas que necesita, normalmente ser oculta, enmascarada o cifrada de alguna forma para conservar la privacidad de dichas personas. Estos datos al ser sensibles necesitan ser protegidos por las leyes nacionales o supranacionales (como es el caso de la Unión Europea o Mercosur) relativas a protección de datos y privacidad.

Página –62–

Page 63: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Estructura de Big Data: tipos de datosEstructuradosNo estructurados

No estructurados (texto, datos de vídeo, datos de audio,,,) Semiestructurados ( a veces se conocen como

“multiestructurados”. Tienen un formato y flujo lógico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML…, datos de web logs)

Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data

Objetivo principal de los sistemas de gestión de datos: Integración de datos estructurados y no estructurados

Página –63–

Page 64: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

ESTADO ACTUAL DE BIG DATA

1. Almacenamiento: hacen falta nuevas tecnologías de almacenamiento 2. Bases de datos: las BD relacionales no pueden con todo 3. Procesamiento: se requieren nuevos modelos de

programación 4. Obtención de valor: los datos no se pueden comer crudos (en bruto) La información no es conocimiento “accionable”

Página –64–

Page 65: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

1. Almacenamiento

Hacen falta nuevas tecnologías de almacenamiento

RAM vs HHD Memorias hardware. HHD 100 más barato

que RAM pero 1000 veces más lento Solución actual: Solid- state drive (SSD) además no volátil Tecnologías “in-memory” (SAP HANA…) Investigación: Storage Class Memory (SCM)

Página –65–

Page 66: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

2. Base de datos Las BD relacionales no pueden

con todo volumen de la información

GBs PBs Exabytes …. Cada día más populares Limitadas para almacenamiento de “big

data” (ACID, SQL, …) ACID: Atomicity, Consistency, Isolation & Durability

Página –66–

Page 67: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

3. Procesamiento … HADOOP Se requieren nuevos modelos de

programación para manejarse con estos datos

Solución: Para conseguir procesar grandes

conjuntos de datos: MapReduce de Google

Pero fue el desarrollo de Hadoop (Yahoo - Apache) por parte de Yahoo, el que ha propiciado un ecosistema de herramientas open source. Página –67–

Page 68: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

4. Obtención de valor Los datos no se pueden comer ·crudos” (en

bruto) la información no es conocimiento accionable

Para ello tenemos técnicas de Data Mining • Asociación • Clasificación • Clustering • Predicción • ... La mayoría de algoritmos se ejecutan

bien en miles de registros, pero son hoy por hoy impracticables en miles de millones. Página –68–

Page 69: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Bases de datos

In-Memory (en-memoria) SAP Hana Oracle Times Ten In-Memory Database IBM solidDB

Relacionales Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft… Transferencia de datos entre Hadoop y bases de datos

relacionales

Legacy (jerárquicas, en red… primeras relacionales…)

NoSQL (Cassandra, Hive, mongoDB, CouchDB, Hbase…)

Página –69–

Page 70: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

BASES DE DATOS RELACIONALES (REPASO)

La mayoría de las bases de datos cumplen con las propiedades ACID (atomicity, consistency, isolation, durability). Estas propiedades garantizan un comportamiento de las base de datos relacionales y el mejor de los argumentos para su utilización.

Página –70–

Page 71: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

BASES DE DATOS ANALÍTICAS Analíticas: para permitir a múltiples usuarios

contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información.

Bases de datos de procesamiento paralelo masivo (MPP)

Bases de datos “en memoria”Almacenamiento en columnas Históricamente estas bases de datos tan

especializadas tenían un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de cada organización.

Página –71–

Page 72: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Bases de datos analíticas Bases de datos diseñadas específicamente para

ser utilizadas como motores de Data Warehouse. Estas bases de datos logran procesar grandes volúmenes

de información a velocidades asombrosas, gracias a la aplicación de diferentes conceptos y tecnologías:

Almacenamiento en columnas en lugar de filas (registros)

Massively parallel processing (MPP) In-Memory Analytics

Página –72–

Page 73: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Almacenamiento en columnas, no filas: FUENTE: datalytics.com

Página –73–

Page 74: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Computación en memoria “In-Memory”La computación en memoria es una

tecnología que permite el procesamiento de cantidades masivas de datos en memoria principal para proporcionar resultados inmediatos del análisis y de las transacciones.

Los datos a procesar, idealmente son datos en tiempo real (es decir, datos que están disponibles para su procesamiento o análisis inmediatamente después que se han creado).

Existen un amplio conjunto de tecnologías que

emplean bases de datos en memoria. SAP HANA es una de las más acreditadas y populares… (Oracle, IBM,…)

Página –74–

Page 75: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Página –75–

Page 76: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

BASES DE DATOS NoSQL

Las bases de datos no-relacionales son comúnmente llamadas bases de datos NoSQL ya que la gran mayoría de ellas comparte el hecho de no utilizar el lenguaje SQL para realizar las consultas

Es una definición controvertida, aunque la definición más aceptada es “Not only SQL”.

Una de las características de las bases de datos no relacionales es que la mayoría de ellas no utilizan esquemas de datos rígidos como las bases de datos relacionales. Esto hace que estas bases de datos también se les llame “Schema-less” o “Schema-free (“almacenamiento des-estructurado”).

Página –76–

Page 77: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Taxonomía de Bases de datos NoSQL Los principales tipos de BBDD de acuerdo con su

implementación son los siguientes: – Almacenes de Clave-Valor – Almacenes de Familia de Columnas

(columnares) – Almacenes de documentos (orientadas a

documentos) – Almacenes de Grafos (orientadas a grafos) - Cachés de memoria

Página –77–

Page 78: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

SOLUCIONES DE BASES DE DATOS NoSQL

Página –78–

Page 79: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

MongoDBMongoDB es un sistema de base

de datos NoSQL orientado a documentos, desarrollado bajo el concepto de código abierto.

MongoDB forma parte de los sistemas de base de datos NoSQL, almacena los datos no en tablas, sino en documentos tipo JSON con un esquema dinámico (formato BSON), haciendo que la integración de los datos sea más fácil y rápida.

Página –79–

Page 80: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Neo4jNeo4j es una base de datos

de gráficos, de código abierto soportada por Neo Technology. Neo4j almacena los datos en nodos conectados por relaciones dirigidas y tipificadas, con las propiedades de ambos, también conocidas como Gráfico de Propiedad (Property Graph).

Página –80–

Page 81: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Apache CouchDBBase de datos de código abierto,

NoSQL que emplea JSON para documentos, JavaScript como lenguaje de consulta para MapReduce y HTTP como API.

Se distribuye bajo una licencia Apache 2.0 y es utilizada por múltiples organizaciones, como la BBC que usa CouchDB para su plataforma dinámica de contenidos, mientras que Credit Suisse's lo utiliza para almacenar los detalles de configuración de su framework Python de mercado de datos49.

Página –81–

Page 82: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

HyPertableSistema Gestor de Bases de Datos de

código abierto desarrollado en C++ por la compañía Zvents, basado en el modelo Big Table de Google.

Es un sistema de almacenamiento de datos distribuido, escalable, no relacional, no soporta transacciones y de alto desempeño, ideal para aplicaciones que necesitan manejar datos que evolucionan rápidamente y diseñado para soportar una gran demanda de datos en tiempo real. Entre sus clientes51 se encuentran empresas como

Ebay, Tiscali o Reddiff.com

Página –82–

Page 83: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

HiveSistema data warehouse para Hadoop

que facilita resúmenes de datos, consultas ad-hoc, y el análisis de grandes conjuntos de datos almacenados en los sistemas de archivos compatibles con Hadoop.

Hive proporciona un mecanismo para proyectar la estructura sobre estos datos y consultar los datos utilizando un lenguaje SQL, llamado HiveQL.

Página –83–

Page 84: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Lenguaje RR es el lenguaje de programación

líder en el mundo para el análisis estadístico y la realización de gráficos.

R, es un lenguaje para la minería de datos y un entorno de programación. Se trata de un proyecto GNU, que es similar al lenguaje y al entorno de programación S desarrollado en Bell Laboratories (antes AT&T, ahora Lucent Technologies). Página –84–

Page 85: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Lenguaje RR ofrece una gran variedad de

técnicas estadísticas (modelos lineales y no lineales, tests estadísticos, análisis de series temporales, clasificación, clustering, ...) y técnicas gráficas, y es altamente extensible.

R está disponible como software libre bajo licencia de GNU Free Software Foundation. Se compila y ejecuta en una variedad de plataformas UNIX y sistemas similares (incluyendo FreeBSD y Linux), Windows y MacOS. Página –85–

Page 86: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

RedisRedis es un motor de base de

datos en memoria, basado en el almacenamiento en tablas de hashes clave, valor) pero que opcionalmente puede ser usada como una base de datos durable o persistente.

Está escrito en ANSI C patrocinado por VMware.1 2 y esta liberado bajo licencia BSD.

Página –86–

Page 87: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

¿Quién usa Apache Cassandra?Algunos usuarios importantes de

Cassandra son:DiggFacebookTwitterRackspaceSimpleGEO…

Página –87–

Page 88: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Integración con Big Data. FUENTE: datalytics.com

Página –88–

Page 89: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Integración con Big Data. FUENTE: datalytics.com

Página –89–

Page 90: Big Data y Minería de datos

9090

Prof. Luis Joyanes Aguilar

Tecnologías BIG DATA

HADOOP

Page 91: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Logo de HADOOP

Página –91–

Page 92: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Logo de HADOOP

Página –92–

Page 93: Big Data y Minería de datos

93

Page 94: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

TECNOLOGÍAS BIG DATA (HADOOP) Datos de la consultora IDC de agosto de 2012 prevén

que el mercado del software relacionado con los framework open source Apache Hadoop y el MapReduce de Google crecerá a un ritmo anual de más del 60% hasta el año 2016.

La popularidad de Hadoop se ha ido incrementando durante los últimos meses, a medida que las empresas necesitan manejar grandes cantidades de datos estructurados y no estructurados para después analizarlos y ser capaces de tomar decisiones lo más favorables posible para sus negocios.

IDC también espera que el mercado de Hadoop-MapReduce evolucione y que poco a poco comienza a introducirse en los sistemas empresariales.

Página –94–

Page 95: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Hadoop

“The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple Programming model”

De la página de Hadoop

Página –95–

Page 96: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

HadoopApache Hadoop es un framework que

permite el tratamiento distribuido de grandes cantidades de datos (del orden de peta bytes) y trabajar con miles de máquinas de forma distribuida. Se inspiró en los documentos sobre MapReduce y Google File System publicados por Google.

Está desarrollado en Java y se ejecuta dentro de la JVM.

Actualmente está soportado por Google, Yahoo e IBM entre otros. También existen empresas como Cloudera (http://www.cloudera.com/) que ofrecen soluciones empresariales Open Source basadas en Hadoop.

Página –96–

Page 97: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Hadoop: características principalesEconómico: Está diseñado para ejecutarse en

equipos de bajo coste formando clústeres. Estos clústeres pueden llevarnos a pensar en miles de nodos de procesamiento disponibles para el procesado de información.

• Escalable: Si se necesita más poder de procesamiento o capacidad de almacenamiento solo hay que añadir más nodos al clúster de forma sencilla.

• Eficiente: Hadoop distribuye los datos y los procesa en paralelo en los nodos donde los datos se encuentran localizados.

• Confiable (fiable)Página –97–

Page 98: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

TECNOLOGÍAS BIG DATA (HADOOP)Hadoop es un proyecto de software open

source que provee un framework para habilitar el procesamiento distribuido de grandes conjuntos de datos sobre clusteres construidos con hardware genérico. En esencia, Hadoop consiste de dos elementos base: un sistema de archivos distribuido (Hadoop Distributed File System, HDFS) y un motor de procesamiento de datos que implementa el modelo Map/Reduce (Hadoop MapReduce)..

Página –98–

Page 99: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Hadoop El diseño de Hadoop se divide en dos partes

principales:Por un lado está el sistema de ficheros

distribuido Hadoop Distributed File System (HDFS) que se encarga de almacenar todos los datos repartiéndolos entre cada nodo de la red Hadoop.

Por otro lado la implementación de MapReduce que se encarga del procesamiento de la información de forma distribuida.

Página –99–

Page 100: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Historia de HADOOP ● 2004-2006 – Google publica los papers de GFS y MapReduce – Doug Cutting implementa una version Open

Source en Nutch ● 2006-2008 – Hadoop se separa de Nutch – Se alcanza la escala web en 2008 ● 2008-Hasta ahora – Hadoop se populariza y se comienza a explotar comercialmente. Fuente: Hadoop: a brief history. Doug Cutting

Página –100–

Page 101: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Historia de Hadoop: Doug Cutting

Página –101–

Page 102: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Fundación Apache: proyectos open source The Apache Software Foundation provides

support for the Apache community of open-source software projects, which provide software products for the public good

The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good

Página –102–

Page 103: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Componentes HADOOP (Apache)

The project includes these modules: Hadoop Common: The common utilities that

support the other Hadoop modules. Hadoop Distributed File System (HDFS™): A

distributed file system that provides high-throughput access to application data.

Hadoop YARN: A framework for job scheduling and cluster resource management.

Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.

Página –103–

Page 104: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Hadoop

Página –104–

Page 105: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Página –105–

Page 106: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Hadoop en la actualidad Hadoop se puede utilizar en teoría para casi

cualquier tipo de trabajo batch, mejor que ha trabajos en tiempo real, ya que son más fáciles de dividir y ejecutar en paralelo. Entre lo campos actuales a aplicación se encuentran:

Análisis de logs; • Análisis de mercado Machine learning y data mining Procesamiento de imágenes Procesamiento de mensajes XML Web crawling e • Indexación…

Página –106–

Page 107: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Hadoop en la actualidad Actualmente Hadoop es un framework muy

extendido en el ámbito empresarial, sobre todo en compañías que manejan grandes volúmenes de datos.

Yahoo: La aplicación Yahoo! Search Webmap está implementado con Hadoop sobre un clúster de mas de 10.000 nodos Linux y la información que produce es la utilizada por el buscador de Yahoo.

Facebook: Tiene ha día de hoy el mayor clúster Hadoop del mundo que almacena hasta 30 peta bytes de información

Amazon A9: Se utiliza para generar índices de búsqueda de los productos ofertados en el portal. Disponen de varios clústeres de entre 1 y 100 nodos cada uno.

Página –107–

Page 108: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Hadoop en la actualidad

The New York Times: Utiliza Hadoop y EC2 (Amazon Elastic Compute Cloud) para convertir 4 Tera bytes de imágenes TIFF en imágenes PNG de 800 K para ser mostradas en la Web en 36 horas.

Además existen compañías cuyo negocio es

principal es Hadoop, como Cloudera, que comercializa CDH (Cloudera's Distribution including Apache Hadoop), que da soporte en la configuración y despliegue de clústeres

Hadoop. Además proporciona servicios de consultoría y formación en estas tecnología. Todo el software que distribuyen es Open Source.

Página –108–

Page 109: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Distribuciones de Hadoop

Página –109–

Page 110: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Proveedores de Big Data Algunos han desarrollado sus propias

distribuciones de Hadoop (con diferentes niveles de personalización: disponibilidad, rendimiento, replicas …). Una distribución muy popular

Otros distribuidores: MapR, Greenplum, Hortonworks, …

Página –110–

Page 111: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

ANALÍTICA DE BIG DATA

Cloudera EMC Greenplum IBM Impetus Technologies Kognitio ParAccel SAP SAND Technology SAS Tableau Software Teradata

Página –111–

Page 112: Big Data y Minería de datos

112112

OPORTUNIDADES Y NUEVAS PROFESIONES TECNOLÓGICAS Y DE COMUNICACIÓN DEMANDADAS POR LAS EMPRESAS

Prof. Luis Joyanes Aguilar

Page 113: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

NECESIDAD DE FORMACIÓN PROFESIONAL AVANZADA EN CLOUD COMPUTING-BIG DATA

El mercado tiene carencia de especialistas en Cloud Computing y sobre todo en Big Data. Hay miles de puestos que se deberán cubrir en los próximos cinco años según estadísticas fiables de IDC, Gartner, Forrester, McKinsey…

UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de datos) y además ANALISTAS DE DATOS (formados en Analytics y tecnologías Big Data ·Hadoop”, “InMemory”…)

Se necesitan certificaciones profesionales en CLOUD COMPUTING Y BIG DATA… “TECNOLÓGICAS Y DE NEGOCIOS”

Página –113–

Page 114: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

NUEVAS CARRERAS UNIVERSITARIAS: maestrias,ingeniería, diplomados…

Community Manager, Social Media Manager y Analista Web y SEO

Ingeniero de Cloud Computing (En España hay una universidad privada que lo lanza el próximo curso)

Ingeniero de negocios digitales (Digital Business Intelligence)

Ingeniero de datos (Infraestructuras, Bases de datos NoSQL, Hadoop, Tecnologías “in-memory”…)

Analítica de datos (Analytics) y Analítica de Big Data

Página –114–

Page 115: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

NUEVAS CARRERAS Y PROFESIONESCommunity Manager , Social Media

Manager, SEO, Analistas Web … cada día son más demandadas y. Sin embargo la profesión del futuro será:

EL CIENTÍFICO DE DATOS (Data Scientist). Un profesional con formación de Sistemas, Estadística, Analítica, Ciencias Físicas y Biológicas… que analizará los Big Data para la toma de decisiones eficientes y obtener rentabilidad en los negocios.

HBR (Harvard Business Review lo declaró la profesión “MÁS SEXY del siglo XXI”…) Página –115–

Page 116: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

LAS TITULACIONES-PROFESIONES MÁS DEMANDADAS en TIC EN PRÓXIMOS AÑOS(HBR, Harvard Business Review)

número de octubre de 2012 (Los datos el nuevo petróleo/oro del siglo XXI):

Ciencia de los datos: Data Science (Maestría/Doctorado) … En Estados Unidos, México y Europa… ya existen iniciativas. (EN MÉXICO, el ITAM)LA PROFESIÓN MÁS SEXY DEL SIGLO XXI : EL CIENTÍFICO DE DATOS (Data Scientist) Página –116–

Page 117: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Página –117–

MUCHAS GRACIAS … ¿Preguntas?

Portal GISSIC “El Ágora de Latinoamérica”: gissic.wordpress.com

Twitter:@luisjoyanes

www.facebook.com/joyanesluis

www.slideshare.net/joyanes

PORTAL NTICS : luisjoyanes.wordpress.com

CORREO-e: [email protected]

Page 118: Big Data y Minería de datos

118

Prof. Luis Joyanes Aguilar

BIBLIOGRAFÍA

Page 119: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

BIBLIOGRAFÍA BÁSICAJOYANES, Luis (2012). Computación

en la nube. Estrategias de cloud computing para las empresas. México DF: Alfaomega; Barcelona: Marcombo

JOYANES, Luis (2013). BIG DATA. El análisis de los grandes volúmenes de datos. México DF: Alfaomega; Barcelona: Marcombo

Colección de libros NTiCS (Negocios, Tecnología, Innovación, Conocimiento y Sociedad) dirigida por el profesor Luis Joyanes y publicada en la editorial Alfaomega de México DF. Página –119–

Page 120: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

BIBLIOGRAFÍA BÁSICA JOYANES, Luis. “Computación en "Nube"

(Cloud Computing) y Centros de Datos la nueva revolución industrial ¿cómo cambiará el trabajo en organizaciones y empresas?”. Sociedad y Utopía.

UPSA: Madrid. , ISSN 1133-6706, Nº 36, 2010, págs. 111-127. JOYANES, Luis (2009a) “La Computación en

Nube(Cloud Computing) :El nuevo paradigma tecnológico para empresas y organizaciones en la Sociedad del Conocimiento” , ICADE, nº 76, enero-marzo 2009, Madrid: Universidad Pontificia Comillas.

Página –120–

Page 121: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

ÚLTIMOS LIBROS DEL prof. LUIS JOYANESCiberseguridad. Retos y desafíos

para la defensa nacional en el ciberespacio. Madrid: IEEE (Instituto Español de Estudios Estratégicos). 2011. Editor y Coordinador.

www.ieee.org Cuadernos de estrategia, nº 149

Página –121–

Page 122: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Blogs tecnológicos TechCrunch (www.techcrunch.com) Gizmodo (www.gizmodo.com, www.gizmodo.es) Boing Boing (www.boingboing.com) Engadget (www.engadget.com) The Official Google Blog

(googleblog.blospot.com) O´Reilly (www.oreillynet.com) Slahdot (www.slahdot.com) Microsiervos (www.microsiervos.com) Xataca (www.xataca.com) All Things Digital (allthingsd.com) Mashable (www.mashable.com)

Página –122–

Page 123: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

LECTURAS RECOMENDADASNISTCloud Security AllianceISACABBVA, BANKINTER, Accenture…ENISACio.com, Computing.es, ComputerworldONTSI. Cloud computing. Retos y

oportunidades. www.ontsi.red.es/ontsi/sites/default/files/1-_estudio_cloud_computing_retos_y_oportunidades_vdef.pdf

Página –123–

Page 124: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

BIBLIOGRAFÍA Innovation Edge , revista BBVA, junio 2013

https://www.centrodeinnovacionbbva.com/innovation-edge/21-big-data

SOARES, Sunil (2013). Big Data Governance. An emerging Imperative. Boise, USA: MC Press.

DAVENPORT, Thomas H. y DYCHÉ, Jill. Big Data in Big Companies. SAS. International Institute for Analytics.

Datalytics. 18D – Pentaho Big Data Architecture, www.datalytics.com (Pentaho)

Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . In-memory Computing with SAP HANA on IBM eX5 Systems. ibm.com/redbooks. Draft Document for Review December 7, 2012 1:59 pm SG24-8086-00 Página –124–

Page 125: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

BIBLIOGRAFÍA ZIKOPOULOS, Paul C. et al (2012).

Understanding Big Data. Analytics for Enterprise Class Hadoop and Streaming Data. New York: McGraw-Hill.

www-01.ibm.com/software/data/bigdata/ ZIKOPOULOS, Paul C. et al (2013). Harness the

Power of Big Data. The IBM Big Data Platform. New York: McGraw-Hill. Descargable libre en IBM.

Página –125–

Page 126: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Página –126–

Page 127: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

REFERENCIAS

McKinsey Global Institute . Big data: The next frontier for innovation, competition, and productivity. June 2011

James G. Kobielus. The Forrester Wave™: Enterprise Hadoop Solutions, Q1 2012, February 2, 2012.

www-01.ibm.com/software/data/bigdata/ Diego Lz. de Ipiña Glz. de Artaza. Bases de

Datos No Relacionales (NoSQL). Facultad de Ingeniería, Universidad de Deusto. www.morelab.deusto.es http://paginaspersonales.deusto.es/dipina

Página –127–

Page 128: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

REFERENCIAS

Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER 2011. TDWI.org

IBM. http://www-01.ibm.com/software/data/bigdata/

Página –128–

Page 129: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

LECTURAS RECOMENDADAS (historia del cloud)

KING, Rachael (2008): “How Cloud Computing is Changing the World?” en BusinessWeek, New York, 4 august, 2008

LEINWAND, Allan (2008): “It´s 2018: Who Owns the Cloud?” en BusinessWeek, New York, 4 august, 2008

THE ECONOMIST (2008): “Let it rise. A Special report on IT Corporate” en The Economist, London, October 25th 2008.

Página –129–

Page 130: Big Data y Minería de datos

130

ANEXOS

Prof. Luis Joyanes Aguilar

• Informe McKinsey de Big Data• OPEN DATA

Page 131: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Big Data – McKinsey. Junio 2011Big data: The next frontier for

innovation, competition, and productivity.

http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation

Página –131–

Page 132: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Big Data – McKinsey. Junio 2011

Big data: The next frontier for innovation, competition, and productivity.

The amount of data in our world has been exploding. Companies capture trillions of bytes of information about their customers, suppliers, and operations, and millions of networked sensors are being embedded in the physical world in devices such as mobile phones and automobiles, sensing, creating, and communicating data. Página –132–

Page 133: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Big Data – McKinsey. Junio 2011Multimedia and individuals with

smartphones and on social network sites will continue to fuel exponential growth. Big data—large pools of data that can be captured, communicated, aggregated, stored, and analyzed—is now part of every sector and function of the global economy. Like other essential factors of production such as hard assets and human capital, it is increasingly the case that much of modern economic activity, innovation, and growth simply couldn’t take place without data. Página –133–

Page 134: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

Big Data – McKinsey. Junio 2011 The question is what this phenomenon means. Is

the proliferation of data simply evidence of an increasingly intrusive world? Or can big data play a useful economic role? While most research into big data thus far has focused on the question of its volume, our study makes the case that the business and economic possibilities of big data and its wider implications are important issues that business leaders and policy makers must tackle. To inform the debate, this study examines the potential value that big data can create for organizations and sectors of the economy and seeks to illustrate and quantify that value. We also explore what leaders of organizations and policy makers need to do to capture it. Página –134–

Page 135: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

What do we mean by "big data"?“: McKinsey 2011“Big data” refers to datasets whose size

is beyond the ability of typical database software tools to capture, store, manage, and analyze. This definition is intentionally subjective and incorporates a moving definition of how big a dataset needs to be in order to be considered big data—i.e., we don’t define big data in terms of being larger than a certain number of terabytes (thousands of gigabytes). We assume that, as technology advances over time, the size of datasets that qualify as big data will also increase. Also note that the definition can vary by sector, depending on what kinds of software tools are commonly available and what sizes of datasets are common in a particular industry. With those caveats, big data in many sectors today will range from a few dozen terabytes to multiple petabytes (thousands of terabytes). Página –135–

Page 136: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

OPEN DATA (Datos abiertos)

Página –136–

Page 137: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

OPEN DATA (Datos abiertos)Las administraciones públicas [de

cualquier organismo nacional e internacional] generan gran cantidad de información en formatos propios de difícil acceso para la mayoría de los ciudadanos.

Bases de datos, listas, estudios, informes, estadísticas, etc. son datos abiertos (open data) en formatos propios que son de difícil acceso para la mayoría de los ciudadanos. Página –137–

Page 138: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

OPEN DATA (Datos abiertos)

Evidentemente estos datos se almacenan normalmente en centros de datos propios de las administraciones que a su vez se almacenan y gestionan en nubes públicas o privadas

¿Qué necesitan los profesionales o las empresas para sacar rentabilidad a esos datos públicos? Evidentemente la colaboración de las entidades públicas para liberar cada día más información y crear más oportunidades de negocio

Página –138–

Page 139: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

¿Qué son datos abiertos?Los Datos Abiertos constituyen una

iniciativa de transparencia y Gobierno Abierto que consiste en la liberación de conjuntos de datos que son de interés público. Los Datos Abiertos son puestos a disposición de la sociedad, se promueve su libre acceso y reutilización, exceptuando aquellos datos que por razones de seguridad y privacidad previstas en la normativas vigentes no puedan ser publicados; La mayor parte de los datos generados o mantenidos por el estado son públicos. Sin embargo, no sólo el estado puede abrir sus datos: empresas, organizaciones y comunidades de información que producen o mantienen datos pueden ponerlos a disposición, siempre en formatos abiertos y bajo licencias libres.

Página –139–

Page 140: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

OPEN DATA (Datos abiertos)

La administración de Estados Unidos inició la iniciativa Open Data y en paralelo la Unión Europea ha ido adoptando también la iniciativa.

En España los primeros gobiernos han sido los Gobiernos Autonómicos de El Principado de Asturias y el País Vasco.

Página –140–

Page 141: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

OPEN DATA (Datos abiertos)La iniciativa del Gobierno Vasco se ha

plasmado en la puesta en funcionamiento de Open Data Euskadi que pretende crear un sitio web donde la información reutilizable (contenidos abiertos) estén al alcance de cualquier ciudadano.

Un estudio de la UE(2010) estima que el mercado de información pública podría generar riqueza por valor de 27.000 millones de euros. Página –141–

Page 142: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

OPEN DATA EN LATAM… MÉXICO

Portal de Datos Abiertos del DISTRITO FEDERAL

http://df.gob.mx

Ayuntamiento de Puebla (octubre 2013) Iniciativa de Open Data (periódico

“MILENIO”ARGENTINA. Portal de datos

abiertos de Buenos AiresPágina –142–

Page 143: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

OPEN DATA EN LATAM…Colombia

Portal de Datos Abiertos del gobiernohttp://datosabiertoscolombia.cloudapp.net/frm/buscador/frmBuscador.aspx

Perú Portal de Datos Abiertos de la

Municipalidad de LimaPortal de Datos Abiertos:

http://www.datosperu.org/

Página –143–

Page 144: Big Data y Minería de datos

© Luis Joyanes AguilarCongreso QBitQuerétaro, 1 de noviembre de 2013

INICIATIVAS PIONERASINTERNACIONALES EN OPEN DATAEn España… además de los gobiernos

autonómicos de Asturias, País Vasco y Cataluña, la fundación CTIC ligada al consorcio W3C (www.fundacionctic.org).

http://datos.gob.es/datos/?q=node/232

En Estados Unidos data.gov, en Gran Bretaña data.gov.uk

En Google (abril 2011, del número 1) la revista de negocios. //thinkquarterly.co.uk. El número 1 dedicado a OPEN DATA.

En la Unión Europea (Iniciativa OPEN DATA): http://open-data.europa.eu/es

Página –144–


Recommended