Presentación de PowerPointtecnogem.edomex.gob.mx/sites/tecnogem.edomex.gob.mx/... · 2017. 7....

Preview:

Citation preview

Buenas prácticas para la implementación de herramientas de Ciencia de Datos

Leonardo Alfonso Ramos CoronaFacultad de Geografía, UAEM.

Ciencia de datos

Indicador.

Número de Trámites y Servicios integrados a SEITS

¿Qué es la ciencia de datos?

Es muy difícil encontrar una definición de consenso, las definiciones difieren mucho en cada fuente.

Podemos decir que se trata del estudio de la extracción, generalizada de conocimiento a partir de información y/o de datos.

Ciencia de datos

Indicador.

Número de Trámites y Servicios integrados a SEITS

¿Es algo novedoso?, ¿está de moda?

Se parece a algunas ciencias con las cuáles ya estamos familiarizados.

Estadística: Estudio que reúne, clasifica y recuenta todos los hechos que tienen una determinada característica en común, para poder llegar a conclusiones a partir de los datos numéricos extraídos.

Ciencia de datos

Indicador.

Número de Trámites y Servicios integrados a SEITS

¿Hablamos de lo mismo?

Opinión de Jeff Wu de la Universidad de Michigan.http://www2.isye.gatech.edu/~jeffwu/presentations/datascience.pdf

Ciencia de datos

Indicador.

Número de Trámites y Servicios integrados a SEITS

¿Hablamos de lo mismo?Tras consultar varios puntos de vista concluimos que:• El enfoque de Data Science es más holístico

(multidisciplinario), más global, para partiendo de grandes volúmenes de datos poder extraer conocimiento que aporte valor a una determinada organización, la que sea que tenga datos.

• El foco principal se sitúa en la extracción de conocimiento, empleando para ello las herramientas que estén al alcance.

Ciencia de datos

Indicador.

Número de Trámites y Servicios integrados a SEITS

Ciencia de datos

• Teorías y técnicas relacionadas con muchos campos del conocimiento como las latemáticas, la estadística y las Tecnologías de la Información, estas últimas incluyen: procesamiento de señales, modelos probabilísticos, machine learning, aprendizaje estadístico, minería de datos, programación, ingeniería de datos, reconocimiento de patrones, visualización, modelización de la incertidumbre, data warehousing y computación de alta demanda de procesamiento.

Ciencia de datos

Indicador.

Número de Trámites y Servicios integrados a SEITS

Implementación de la técnicas

Machine Learning Minería de datos BI Sand Box

Inteligencia artificial Big Data

Ciencia de datos

Implementación de la técnicas

Librerías con algoritmos Python

Scikit-learn(Google Summer

Code)

Machine Learning

• Clasificación• Regresión• Clustering• Reducción de dimensionalidad• Selección de modelos• Pre procesamiento

Minería de datos

WEKALenguaje: Java

University of Waikato, Nueva Zelanda

• Modelos lineales• Árboles de decisión• Clustering• Redes bayesianas• Etc.

Ciencia de datos

Implementación de la técnicas

Ciencia de datos

Redes socialesSensores

Ciencia de Datos

Ciencia de datos

Ciencia de datos

Ciencia de datos

Ciencia de datos

Ciencia de datos

Ciencia de datos

El futuro

Actualmente se demanda un perfil muy especializado llamado Científico de Datos, capaz de estudiar las diversas fuentes de información disponibles en una organización, extraer datos a partir de diversos formatos tanto de bases de datos relacionales y no relacionales como de muchos otros tipos, depurarlos, analizarlos, idear y desarrollar algoritmos, en algunos casos paralelos, realizar inferencias, preparar y comunicar los resultados de dichos análisis y ser capaz de transmitir conclusiones acerca de los estudios para finalmente repercutir en un mayor conocimiento que ayude a la Gerencia del organismo o compañía a tomar mejores decisiones.

Ciencia de datos

El futuro

• Bases de datos relacionales• Bases de datos No Relacionales (NoSQL)• Lenguajes de programación (R, Python, Java)• Machine Learning• Data Mining• Business Intelligence (ETL, Reporteo, Tableros de

control)• Big Data• Programación de alta demanda, paralela, distribuida:

Hadoop, MapReduce, Hbase.

Ciencia de datos

Algunos recursos en línea

https://aspgems.com/blog/fernando-calle/cursos-gratuitos-de-especializacion-en-data-science

https://www.coursera.org/

https://www.udemy.com/

Ciencia de datos

MUCHAS GRACIAS POR SU ATENCIÓN

M. en C.A. Alfonso Ramos CoronaProfesor investigador de Tiempo Completo

Facultad de Geografíaramosalfonso@yahoo.com.mx

laramosc@uaemex.mx

Recommended