Big Data y Minería de datos

  • View
    14

  • Download
    1

Embed Size (px)

DESCRIPTION

Estado del arte en Big Data versus Minería de datos. Tecnologías y herramientas. Conferencia en TEC de Monterrey, campus Querétaro

Text of Big Data y Minería de datos

  • 1. BIG DATA & MINERA DE DATOS : La revolucin de los datosTECNOLGICO DE MONTERREY Quertaro, 1 de noviembre, 2013Prof. Luis Joyanes Aguilar1

2. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 2 3. ESTADO DEL ARTE DECLOUD COMPUTINGCOMPUTACIN EN LA NUBE La nueva era de la computacin Prof. Luis Joyanes Aguilar3 4. 4 5. 5 6. TEC DE MONTERREYBIG DATAEl universo digital de datosProf. Luis Joyanes Aguilar 6 7. LA ERA DEL PETABYTE (1.000 TB), Wired , julio 2008 (www.wired.com) Sensores en todas partes, almacenamiento infinito y Nubes (clouds) de procesadores Nuestra capacidad para capturar, almacenar y comprender cantidades masivas de datos est cambiando la ciencia, medicina, negocios y tecnologa. A medida que aumenta nuestra coleccin de hechos y figuras, crece la oportunidad de encontrar respuestas a preguntas fundamentales.Because in the era of big data,more isnt just more. More is different Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 7 8. LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com) 1TB (250.000 canciones)20 TB (fotos uploaded a Facebook cada mes) 120 TB (todos los datos e imgenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climtico en EEU compilados por el National Climatic Data Center); 530 TB (Todos los vdeos de YouTube); 600 TB (base de datos de genealoga, incluye todos los censos de EEUU 1790-2000)1 PB (datos procesados por los servidores de Google cada 75 minutos) Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 8 9. Tabla de unidades de almacenamiento(The Economist, febrero 2010): data, data everywhere www.economist.com/specialreports/displaystory.cfm?story_id=15557421 Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 9 10. El Universo Digital EMC / IDC Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 10 11. El Universo Digital EMC / IDC Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 11 12. EL UNIVERSO DIGITAL DE DATOS, 2013 EMC Corporation PUBLIC en diciembre de 2013, su estudio anual sobre el Universo Digital de IDC, patrocinado por EMC: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East. Ela pesar de la expansin sin precedentes del Universo Digital debido a el Big Data que se generan a diario por personas y mquinas, IDC estima que solo 0,5% de los datos mundiales se analizan. estudio arroj que, Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 12 13. EL UNIVERSO DIGITAL DE DATOS, 2013 La proliferacin a nivel mundial de dispositivos, como PC y telfonos inteligentes, aument el acceso a Internet dentro de los mercados emergentes, y el incremento de datos generados por mquinas, como cmaras de vigilancia o contadores inteligentes, ha contribuido a laduplicacin del Universo Digital en los ltimos dos aos solamente, hasta alcanzar un tamao descomunal de 2,8 ZB. IDC proyecta que, para el 2020, el Universo Digital alcanzar 40 ZB, cifra que supera las proyecciones anteriores por 14%. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 13 14. EL UNIVERSO DIGITAL DE DATOS, 2013 En trminos de volumen, 40 ZB de datos son equivalentes a lo siguiente: Existen 700.500.000.000.000.000.000 granos de arena en todas las playas del mundo (o setecientos trillones quinientos mil billones). Esto significa que 40 ZB equivalen a 57 veces la cantidad de granos de arena de todas las playas del mundo. Si pudiramos guardar los 40 ZB en los discos Blue-ray de la actualidad, el peso de dichos discos (sin fundas ni estuches) sera equivalente a 424 portaaviones Nimitz. En 2020, 40 ZB sern 5.247 GB por persona a nivel mundial. Referencia: America Economia: http://tecno.americaeconomia.com/noticias/el-granuniverso-digital-la-data-crece-mas-rapido-de-lo-quepodemos-protegerla Luis Joyanes Aguilar Congreso QBit Quertaro, 1 de noviembre de 2013Pgina 14 15. El universo digital de datos, IDC 2013 Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pina 15 16. El universo digital de datos, 2013 Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 16 17. LA ERA DEL EXABYTE/ZETTABYTE CISCO LA ERA DEL EXABYTE, CISCO . Estudio Cisco Visual Networking Index (VNI) 2007-2012. Trfico mundial de datos. LA ERA DEL ZETTABYTE:Cisco VNI: Forecast and Methodology 2012: 22017. Trfico mundial de datos (publicado en 2013) Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 17 18. Informe VNI CISCO 2012-2107 Durante 2012, empresas, gobiernos, industria y usuarios finales generan cada mes del ao, una tasa de trfico mensual de 44 EB (aprox. 44 millones de discos duros de 1TB apilados u 11.000 millones de DVDs).Mxico produjo en 2012 un trfico de 0,6ExaBytes/mes. Se estima que en 2017 producir unos 1,3 EB. Para ese momento el 56% de la poblacin contar con acceso a Internet de acuerdo con el INEGI de Mxico Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 18 19. Informe VNI CISCO 2012-2107 Los dispositivos que ms ayudan a generar los 44 EB por mes, segn CISCO: 0,6 EB, smartphones 2,7 tabletas 5,8 televisores 7,6 consolas de videojuegos 18,6 computadoras personales En 2017 se espera una tasa global de trfico mensual de 121 EB aprox. 1 ZB Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 19 20. TEC DE MONTERREY Campus QuertaroBIG DATA Y MINERA / ANALTICA DE DATOS. Nuevas bases de datos NoSQL, In-Memory Prof. Luis Joyanes Aguilar 20 21. Harvard Business Review, octubre 2012 Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 21 22. Foreign Affairs, mayo 2013 Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 22 23. Revista BBVA, innovation edge, junio 2013 Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 23 24. ORIGEN DEL TRMINO Grandes volmenes de datos Datos masivosMacrodatos (Fundacin Funde BBVA) La era de los datos masivos se refiere a cosas que se pueden hacer a gran escala, y pone en cuestin la forma en que vivimos e interactuamos con el mundo (Mayer-Schmberg, Cukier, The Economist)Correlacin: ya no importa elel qu Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013porqu sino sloPgina 24 25. LA AVALANCHA / DILUVIO DE DATOS Segn Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de informacin. Hoy en da creamos la misma cifra cada dos das2. Las previsiones aseguran que en esta dcada crearemos alrededor de 40 zettabytes (informe de IDC de diciembre de 2012) Segn la consultora IDC, cifran en 1,8 Zettabytes la informacin generada en 2011. Si tratramos de almacenar esa informacin en iPads (del modelo de 32GB) necesitaramos 57.500 millones; puestos unos al lado de otro formaramos una lnea que dara 3 veces la vuelta al mundo y, si tratramos de apilarlos, la montaa resultante sera 25 veces ms alta que el monte Fuji. Luis Joyanes Aguilar Congreso QBit Quertaro, 1 de noviembre de 2013Pgina 25 26. LA AVALANCHA / DILUVIO DE DATOS Twitter: (redes sociales) 90 millones de tuits (tweets) por da que representan 12 Terabytes (datos de 2011)Boeing: (industria) Vuelo transocenico de un jumbo puede generar 640 Terabytes.Wal-Mart: (comercio) 1 milln de transacciones por hora que se estima que alimenta una base de datos de 2.5 petabytes.Google procesa al da 20 PB de informacin Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 26 27. LA AVALANCHA / DILUVIO DE DATOS El 90% de los datos acumulados en todo el mundo se han creado en los dos ltimos aos. Cada da se escriben 400 millones de tuits, cada minuto se crean 600 nuevos blogs y cada segundo se registran 10.000 transacciones de pagos con tarjetas. Objetos cotidianos como los carros, los relojes o las gafas estn comenzando a conectarse a Internet para alimentar nuevos servicios que requieren un constante intercambio de informacin. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 27 28. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 28 29. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 29 30. BIG DATA, bbva edge, junio 2013 Fuentes: SAS | Big Data: www.sas.com/big-data. IBM | Big Data at the Speed of Business McKinsey Global Institute | Big Data: The next frontier for innovation, competition, and productivity, junio 2011.Fuente: Intel | What Happens in an Internet Minute? www.intel.com/content/www/us/en/communic ations/internet-minute-infographic.html Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 30 31. LA AVALANCHA / DILUVIO DE DATOS Los Ayuntamientos siembran las calles con sensores de recogida de datos para facilitar la vida de los ciudadanos. Cada da se recogen 2,5 trillones de bytes de datos, y los directivos de las empresas apenas pueden manejar la mitad de los generados en su entorno porque el 80% de ellos estn desestructurados. El nmero de dispositivos en red duplicar a la poblacin mundial en 2015 y los datos que generen se convertirn en informacin utilizada por las empresas para anticipar las necesidades de los consumidores. Luis Joyanes Aguilar Congreso QBit Quertaro, 1 de noviembre de 2013Pgina 31 32. LA AVALANCHA / DILUVIO DE DATOS La respuesta para ordenar este caos es bigdata, la nueva herramienta parasistematizar los datos procedentes de cualquier soporte incluyendo imagen sonido, fotos, textos y convertirlos de forma automtica en informacin. Big data ayud a ganar las elecciones a Barak Obama y ha reducido de das a minutos la deteccin de uso de informacin privilegiada en Wall Street Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 32 33. LA AVALANCHA / DILUVIO DE DATOS En torno a ella se est creando un mercado evaluado por la firma de anlisis Gartner en 132.000 millones de dlares para 2015. Ese ao se crearn 4,4