Upload
software-guru
View
382
Download
5
Embed Size (px)
DESCRIPTION
El surgimiento de tendencias como el Big Data y Data Science nos proveen de la capacidad de dar sentido a cantidades masivas de datos, sin embargo en muchos casos es mal entendido el uso y aplicación de estos paradigmas. En esta charla exploraremos las características, limitaciones y posibilidades de las aplicaciones basadas en datos, así como una introducción a los métodos analíticos necesarios para transformar datos en conocimiento. Se exploraran datos de diferentes naturalezas como Series de Tiempo, Grafos Sociales, Multimedia y Auto-cuantificados (Quantified Self) presentando técnicas para su modelado, procesamiento y visualización. Se presentarán las herramientas computacionales que nos permiten adquirir, limpiar, transformar, modelar y procesar los datos de las organizaciones. Hablaremos de herramientas como Python, R, MongoDB y Hadoop. La charla está enfocada en ver a la Ciencia de Datos desde un punto de vista objetivo, puntualizando su potencial y sus limitaciones para el desarrollo de aplicaciones basadas en datos. Semblanza del conferencista: Hector Cuesta-Arvizu (@hmcuesta) es autor del libro “Practical Data Analysis” de la Editorial Packt Publishing. Provee servicios de consultoría en Ingeniería de Software y Análisis de Datos, adicionalmente se desempeña como instructor para NYCE en certificaciones de Desarrollo e Ingeniería de Software. Cuenta con maestría en ciencias de la computación y ha sido Revisor Técnico en los libros “Raspberry Pi Networking Cookbook”, “Raspberry Pi Robotic Projects” y “Hadoop Operations and Cluster Management” para Packt Publishing.
Citation preview
Data Science al Descubierto
Hector Cuesta@hmcuesta
•Definir el Problema•Obtener los datos•Limpiar y Formatear los datos•Explorar (Distribuciones, Patrones y Tendencias)
•Modelar (Escoger algoritmos)•Escalar la solución (Infraestructura)•Visualizar e Interpretar resultados
Ciencia de Datos
El rol del Científico de Datos
Datos Crudos
Datos Limpios
Consultas y Reportes
OLAP –Reportes Ad-Hoc
Análisis Estadístico
Modelado Predictivo
Optimización
Ven
taja
Co
mp
eti
tiva
Madurez Analítica
¿Qué paso?
¿Por que paso?
¿Qué va a pasar?
¿Que es lo mejor que puede pasar?
Sistemas basados en Datos
HerramientasLenguajes de Programación
Visualización
Procesamiento de Datos
D3js
Machine Learning
Procesamiento de Datos
Procesando datos con MapReduce
Sistemas de Recomendación
http://nyti.ms/1lZEpyQ
Sistemas basados en Grafos
Customer Profile
The 343 Industries development team hosts and manages Halo 4, an award-winning game for the Microsoft Xbox 360 video game and entertainment console. Business Situation
The team needed to provide business intelligence (BI) insight about the game to internal and external customers. Solution
The team implemented a solution that uses Windows Azure HDInsight Service, based on the Apache Hadoop data-processing framework, and Microsoft BI technologies. Benefits Enhances user experience through
increased agility and faster response times. Connects Halo 4 team directly to customers through weekly updates. Keeps playing field level by providing in-game analysis to detect cheaters. Facilitates customized campaigns aimed at retaining players.
“With Hadoop on Windows Azure, we can mine data and understand our audience in a way we never could before. It’s really the BI solution for the future.”Mark Vayman, Lead Program Manager, Halo Services Team
La vida en Tiempo Real
Quantified Self
¿Y el Big Data apa?
“Cuando más es diferente”
Volumen, Variedad y Velocidad
Preguntas
Hector Cuesta@hmcuesta