Upload
sebastian-ramirez-montano
View
617
Download
0
Embed Size (px)
DESCRIPTION
Presentación de una de las conferencias sobre Big Data dadas en SENASoft - Colombia, el evento sobre TIC más importante de Colombia organizado por el SENA sobre tecnologías de la información y la comunicación. Por: Sebastián Ramírez Twitter: @tiangolo
Citation preview
Introducción básica a Big Datae inventario de herramientas
efectivas para Big Data
@tiangolo
¿Quién les habla?
Sebastián RamírezSENSETA
Inteligencia Artificial sobre Big Data
@tiangolo
¿Por qué “Big Data”?
@tiangolo
Crecimiento exponencial de datos
90% en últimos 2 años
@tiangolo
Múltiples fuentes de datos
@tiangolo
Bases de Datos Tradicionales
• Procesador
• Memoria
• Disco…
@tiangolo
¿Qué es Big Data?
@tiangolo
3 V de Big Data• Volumen • Velocidad • Variedad
@tiangolo
VolumenTamaño en disco, Bytes
@tiangolo
VelocidadNuevos datos rápidamente
@tiangolo
VariedadMúltiples formatos
@tiangolo
Volumen, Velocidad, Variedad
@tiangolo
¿Cómo comenzó?
@tiangolo
Google Map Reduce
@tiangolo
Hadoop
2005Open SourceMap Reduce
HDFS
@tiangolo
Cluster Hadoop
@tiangolo
Hadoop HDFSHadoop Distributed File System
@tiangolo
Hadoop Jobs
@tiangolo
Nodos Hadoop
@tiangolo
Hadoop Map Reduce
@tiangolo
Map function
Reducefunction
Input Splits
Fase “Map” Fase “Reduce”
Map Reduce
@tiangolo
¿Qué existe ahora?
@tiangolo
“Ecosistema” Hadoop
@tiangolo
Distribuciones Hadoop
@tiangolo
¿Quién usa Big Data y para qué?
@tiangolo
•1.100 nodos•8.800 CPUs•12 PetaBytes
•300 nodos•2.400 CPUs•3 PetaBytes
@tiangolo
Obama
@tiangolo
NSA
@tiangolo
Reciclaje
•De semanas a horas•Optimización de rutas
@tiangolo
¿Cómo estudiar más?
@tiangolo
Udacity: Intro to Hadoop
@tiangolo
Hortonworks Sandbox
@tiangolo
¡Gracias!
Sebastián Ramírez
Twitter: @tiangolo
Linkedin: http://lnkdin.me/p/tiangolo