El arte de la Ciencia de Datos

El Arte de la Ciencia de Datos

Campus Party 2016#DatosALoGrande

Presentación

- Machine LearningStanford

- Mining Massive DatasetsStanford

- Process MiningEindhoven

- Data AnalysisJohn Hopkins

- Data Lakes for Big DataEMC

- Big Data with SparkBerkeley

Héctor Neri Cano

[email protected]

Data Science Enthusiast

mailto:[email protected]


Datos a lo Grande

Beneficios

• Resultados más precisos.

• Mejores recomendaciones.

• Los periodistas pueden analizar y entender mejor.

• Soluciones para el problema de tráfico en las ciudades.

• Predecir las enfermedades que cada persona pueda padecer.

• Encontrar la mejor cura y tratamiento personalizados.

Acciones impulsadas por Datos

• Aprender de los datos

• Convertir los datos en algo valioso

• Tomar decisiones basadas en los datos

• Crear productos y servicios impulsados por los datos

El Trabajo en Equipo es fundamental.

El tratamiento de los datos para extraer conocimiento,

es un arte y una ciencia.

Data Vincis

El rol de científico de datos se ha descrito como “parte analista, parte artista”. De acuerdo a Anjul Bhambhri, vicepresidente de productos de Big Data en IBM, “un científico de datos es alguien inquisitivo, que puede mirar a los datos y encontrar patrones. Es casi como un individuo del Renacimiento que realmente quiere aprender y traer cambio a una organización”.

Las 7 Artes Liberales de la Ciencia de Datos

Trivium 1 (Dialéctica)

Análisis Estadístico

Trivium 2 (Gramática)

Estructura de Datos

Trivium 3 (Retórica)

Data Visualization+ Open Data

Quadrivium 1 (Aritmética)

Big Data

Quadrivium 2 (Geometría)

Distributed FileSystem

Quadrivium 3 (Música)

MapReduce

Quadrivium 4 (Astronomía)

Data Mining

El Arte de Analizar Datos

El Científico de Datos

Un científico de datos debe reunir y aplicar herramientas adecuadas a los datos para responder una pregunta relevante.

Actividades Centrales

1. Definir (y refinar) la pregunta

2. Explorar los datos

3. Construir modelos estadísticos formales

4. Interpretar los resultados

5. Comunicar los resultados

El Epiciclo de Análisis Ajustar las

expectativas

Se necesitará repasar este epiciclo continuamente para refinar las actividades centrales.

Recolectar información (datos)

Comparar tu información o datos con tus expectativas

Corregir tus expectativas o arreglar los datos

Definir la Pregunta

Muchas de las trampas mortales de un análisis de datos pueden ser evitados al gastar energía mental para hacer que la pregunta quede bien formulada.

Tipos de Preguntas

1. Descriptiva

2. Exploratoria

3. Inferencial

4. Predictiva

5. Causal

6. Mecánica

Pregunta Descriptiva

Pregunta Exploratoria

Pregunta Inferencial

Pregunta Predictiva

Pregunta Causal

Pregunta Mecánica

Características de una Buena Pregunta

Ejemplo de una Buena Pregunta

¿Comer 5 porciones de

fruta y vegetales frescos

se relaciona con menos

infecciones de las vías

respiratorias?

Debe ser de interés para tu audiencia

No debe haber sido ya respondida

Debe provenir de un cuadro de trabajo plausible

Debe poder ser respondida con los datos adquiribles

Debe ser lo suficientemente específica

Traducir una pregunta en un problema de datos

Piensa cómo lucirían los resultados del análisis de datos y cómo pueden ser interpretados.

Evita preguntas que usan datos inapropiados y con una infinidad de interpretaciones.

Asegurate que los datos disponibles pueden proveer los factores necesarios para obtener la respuesta.

Evita las Variables de Confusión

Se presenta cuando un factor que no se consideró está relacionado.

Se refiere a aquellas variables que aparentemente son significativas, pero que en realidad no lo son porque son dependientes de otras que no han sido consideradas.

Conviene identificar si el dataset incluye información acerca de estas potenciales

variables de confusión.

Evita la Parcialidad (Bias)

Una selección parcializada ocurre cuando los datos inflan la proporción de la gente que tiene más ciertas características que la población general.

Si la forma en que los datos son recolectados lleva a un resultado parcializado, el

resultado no puede ser bien interpretado.

La parcialidad puede ser un problema si estás más (o menos) propenso de observar individuos con ciertos factores debido a cómo la población fue seleccionada.

Revisa tus datos primero

Los datos usualmente vendrán en un formato muy desordenado y

necesitarás hacer algo de limpieza.

Con algunas cuantas maniobras, puedes identificar problemas potenciales con el conjunto de datos antes de que te enfrasques en un complicado análisis de datos.

Frecuentemente es útil mirar al “inicio” y al “final” de un conjunto de datos. Esto te permite conocer si los datos fueron leídos propiamente, si las cosas están propiamente formateadas y si todo está en su sitio.

Valida con al menos una fuente externa

En Machine Learning, el dataset es mejor separarlo en 3 subconjuntos

Testing

Asegurarse de que los datos concuerdan con algo fuera de tu conjunto de datos es muy importante. Permite que te asegures de que las medidas están firmemente en línea con lo que debe ser y sirve como una revisión sobre qué otras cosas podrían estar mal en tu conjunto de datos.

Aprendizaje

Validación

Intenta lo más fácil, pero siempre desafialo

La intención de intentar primero la solución más fácil es ver cómo podría proveerse evidencia ‘a primera vista’.

Si no encuentras evidencia en los datos usando solo un simple plot o análisis, entonces frecuentemente es poco probable que encuentres algo en un análisis más sofisticado.

Se debe siempre pensar en formas de desafiar

los resultados, especialmente si esos

resultados se comportan según tus expectativas

previas.

Utiliza un modelo razonable y útil.

Tener todos los datos es importante, pero no siempre es muy útil. Esto es debido a que el modelo trivial (no tener ni un solo modelo) no provee ninguna reducción de los datos. El primer elemento clave de un modelo estadístico es la reducción de los datos.

La pregunta es si el modelo provee una

aproximación razonable que pueda ser útil.

Un modelo estadístico permite una aleatoriedad al generar los datos.

El modelo es

esencialmente

una expectativa

de la relación

entre varios

factores del

mundo real en

tu conjunto de

datos.

¿Ciencia de Datos?

Analítica de Datos vs Ciencia de Datos

Descubrir aquellas cosas que no sabemos

que desconocemos

Más que un interés en conocer aquellas

cosas que no conocemos

Ciencia de

Datos: Más

que muchas

disciplinas

y diversas

herramientas

Fuente: DataScientistInsight.com

.Aspecto Análitica de Datos Ciencia de Datos

Filosofía Saber Entender

Modelos Generados Descriptivos, Diagnósticos Predictivos, Prescriptivos

Nivel de Comprensión Aprendizaje Sencillo Aprendizaje Profundo

Resultados Operacionales y Tácticos Estratégicos y Generan Valor

Carga de Trabajo Repetitiva y Sistemática Experimental y Particular

Ámbito de Estudio Limitado y Específico Amplio y General

Variedad de Datos Datasets limitados y coherentes Ilimitados y formados flexibles

Veracidad de los Datos Calidad y Certeza Controlada Calidad y Certeza Desconocida

¿Dudas o Comentarios?Héctor Neri [email protected]

www.datalab.mx



http://www.datalab.mx

http://www.datalab.mx

Muchas Gracias por estar aquí