Upload
datalab-community
View
67
Download
3
Embed Size (px)
Citation preview
El Arte de la Ciencia de Datos
Campus Party 2016#DatosALoGrande
Presentación
- Machine LearningStanford
- Mining Massive DatasetsStanford
- Process MiningEindhoven
- Data AnalysisJohn Hopkins
- Data Lakes for Big DataEMC
- Big Data with SparkBerkeley
Héctor Neri Cano
Data Science Enthusiast
Datos a lo Grande
Beneficios
• Resultados más precisos.
• Mejores recomendaciones.
• Los periodistas pueden analizar y entender mejor.
• Soluciones para el problema de tráfico en las ciudades.
• Predecir las enfermedades que cada persona pueda padecer.
• Encontrar la mejor cura y tratamiento personalizados.
Acciones impulsadas por Datos
• Aprender de los datos
• Convertir los datos en algo valioso
• Tomar decisiones basadas en los datos
• Crear productos y servicios impulsados por los datos
El Trabajo en Equipo es fundamental.
El tratamiento de los datos para extraer conocimiento,
es un arte y una ciencia.
Data Vincis
El rol de científico de datos se ha descrito como “parte analista, parte artista”. De acuerdo a Anjul Bhambhri, vicepresidente de productos de Big Data en IBM, “un científico de datos es alguien inquisitivo, que puede mirar a los datos y encontrar patrones. Es casi como un individuo del Renacimiento que realmente quiere aprender y traer cambio a una organización”.
Las 7 Artes Liberales de la Ciencia de Datos
Trivium 1 (Dialéctica)
Análisis Estadístico
Trivium 2 (Gramática)
Estructura de Datos
Trivium 3 (Retórica)
Data Visualization+ Open Data
Quadrivium 1 (Aritmética)
Big Data
Quadrivium 2 (Geometría)
Distributed FileSystem
Quadrivium 3 (Música)
MapReduce
Quadrivium 4 (Astronomía)
Data Mining
El Arte de Analizar Datos
El Científico de Datos
Un científico de datos debe reunir y aplicar herramientas adecuadas a los datos para responder una pregunta relevante.
Actividades Centrales
1. Definir (y refinar) la pregunta
2. Explorar los datos
3. Construir modelos estadísticos formales
4. Interpretar los resultados
5. Comunicar los resultados
El Epiciclo de Análisis Ajustar las
expectativas
Se necesitará repasar este epiciclo continuamente para refinar las actividades centrales.
Recolectar información (datos)
Comparar tu información o datos con tus expectativas
Corregir tus expectativas o arreglar los datos
Definir la Pregunta
Muchas de las trampas mortales de un análisis de datos pueden ser evitados al gastar energía mental para hacer que la pregunta quede bien formulada.
Tipos de Preguntas
1. Descriptiva
2. Exploratoria
3. Inferencial
4. Predictiva
5. Causal
6. Mecánica
Pregunta Descriptiva
Pregunta Exploratoria
Pregunta Inferencial
Pregunta Predictiva
Pregunta Causal
Pregunta Mecánica
Características de una Buena Pregunta
Ejemplo de una Buena Pregunta
¿Comer 5 porciones de
fruta y vegetales frescos
se relaciona con menos
infecciones de las vías
respiratorias?
Debe ser de interés para tu audiencia
No debe haber sido ya respondida
Debe provenir de un cuadro de trabajo plausible
Debe poder ser respondida con los datos adquiribles
Debe ser lo suficientemente específica
Traducir una pregunta en un problema de datos
Piensa cómo lucirían los resultados del análisis de datos y cómo pueden ser interpretados.
Evita preguntas que usan datos inapropiados y con una infinidad de interpretaciones.
Asegurate que los datos disponibles pueden proveer los factores necesarios para obtener la respuesta.
Evita las Variables de Confusión
Se presenta cuando un factor que no se consideró está relacionado.
Se refiere a aquellas variables que aparentemente son significativas, pero que en realidad no lo son porque son dependientes de otras que no han sido consideradas.
Conviene identificar si el dataset incluye información acerca de estas potenciales
variables de confusión.
Evita la Parcialidad (Bias)
Una selección parcializada ocurre cuando los datos inflan la proporción de la gente que tiene más ciertas características que la población general.
Si la forma en que los datos son recolectados lleva a un resultado parcializado, el
resultado no puede ser bien interpretado.
La parcialidad puede ser un problema si estás más (o menos) propenso de observar individuos con ciertos factores debido a cómo la población fue seleccionada.
Revisa tus datos primero
Los datos usualmente vendrán en un formato muy desordenado y
necesitarás hacer algo de limpieza.
Con algunas cuantas maniobras, puedes identificar problemas potenciales con el conjunto de datos antes de que te enfrasques en un complicado análisis de datos.
Frecuentemente es útil mirar al “inicio” y al “final” de un conjunto de datos. Esto te permite conocer si los datos fueron leídos propiamente, si las cosas están propiamente formateadas y si todo está en su sitio.
Valida con al menos una fuente externa
En Machine Learning, el dataset es mejor separarlo en 3 subconjuntos
Testing
Asegurarse de que los datos concuerdan con algo fuera de tu conjunto de datos es muy importante. Permite que te asegures de que las medidas están firmemente en línea con lo que debe ser y sirve como una revisión sobre qué otras cosas podrían estar mal en tu conjunto de datos.
Aprendizaje
Validación
Intenta lo más fácil, pero siempre desafialo
La intención de intentar primero la solución más fácil es ver cómo podría proveerse evidencia ‘a primera vista’.
Si no encuentras evidencia en los datos usando solo un simple plot o análisis, entonces frecuentemente es poco probable que encuentres algo en un análisis más sofisticado.
Se debe siempre pensar en formas de desafiar
los resultados, especialmente si esos
resultados se comportan según tus expectativas
previas.
Utiliza un modelo razonable y útil.
Tener todos los datos es importante, pero no siempre es muy útil. Esto es debido a que el modelo trivial (no tener ni un solo modelo) no provee ninguna reducción de los datos. El primer elemento clave de un modelo estadístico es la reducción de los datos.
La pregunta es si el modelo provee una
aproximación razonable que pueda ser útil.
Un modelo estadístico permite una aleatoriedad al generar los datos.
El modelo es
esencialmente
una expectativa
de la relación
entre varios
factores del
mundo real en
tu conjunto de
datos.
¿Ciencia de Datos?
Analítica de Datos vs Ciencia de Datos
Descubrir aquellas cosas que no sabemos
que desconocemos
Más que un interés en conocer aquellas
cosas que no conocemos
Ciencia de
Datos: Más
que muchas
disciplinas
y diversas
herramientas
Fuente: DataScientistInsight.com
.Aspecto Análitica de Datos Ciencia de Datos
Filosofía Saber Entender
Modelos Generados Descriptivos, Diagnósticos Predictivos, Prescriptivos
Nivel de Comprensión Aprendizaje Sencillo Aprendizaje Profundo
Resultados Operacionales y Tácticos Estratégicos y Generan Valor
Carga de Trabajo Repetitiva y Sistemática Experimental y Particular
Ámbito de Estudio Limitado y Específico Amplio y General
Variedad de Datos Datasets limitados y coherentes Ilimitados y formados flexibles
Veracidad de los Datos Calidad y Certeza Controlada Calidad y Certeza Desconocida
¿Dudas o Comentarios?Héctor Neri [email protected]
www.datalab.mx
Muchas Gracias por estar aquí