27
Trabajando con Datos DATA PIPELINE Julio Lopez @jalp_ec @EscuelaDeDatos

Data pipeline

Embed Size (px)

Citation preview

Page 1: Data pipeline

Trabajando con Datos

DATA PIPELINEJulio Lopez@jalp_ec@EscuelaDeDatos

Page 2: Data pipeline
Page 3: Data pipeline

¿OPEN DATA?

Page 4: Data pipeline

Hola

Mi nombre es Julio (@jalp_ec), soy de Ecuador tengo 27 años, peso 75 kg (no es cierto) y me encanta andar en bicicleta

Page 5: Data pipeline

Hola

Nombre, País, Edad, Peso, Pasatiempo, Twitter

Julio, Ecuador, 27, 75, bicicleta, @mexflow

Alvaro, Chile, 200, 90, rock, @redmatriz

Daniel, Uruguay, 20, 120, mate, @danielcarranza

Page 6: Data pipeline

Hola

Nombre, País, Edad, Peso, Pasatiempo, Twitter

Julio, Ecuador, 27, 75, bicicleta, @mexflow

Alvaro, Chile, 18, 90, rock, @redmatriz

Daniel, Uruguay, 20, 120, mate, @danielcarranza

Page 7: Data pipeline

Hola.csv

Nombre, País, Edad, Peso, Pasatiempo, Twitter

Julio, Ecuador, 27, 75, bicicleta, @mexflow

Alvaro, Chile, 18, 90, rock, @redmatriz

Daniel, Uruguay, 20, 120, mate, @danielcarranza

Page 8: Data pipeline
Page 9: Data pipeline

Datos• Dataset: Una colección de Datos, usualmente el

mismo tipo de datos. Ejemplo: Alumnos de este taller; un Álbum de Canciones

• Metadata: Datos sobre los Datos. De dónde vienen, cuándo se recolectaron, cómo, sus parámetros. Ejemplo: Sus nombres, medio en el cual trabajan, sección, rol, desdecuándo. Nombre del álbum, autor, canciones, duración, sello, estilo, etc.

• Datos Abiertos: Datos liberados y que cualquiera tiene permitido usar,reusar, construir cosas con ellos y compartir los resultados

Page 10: Data pipeline

¿Cómo empezamos a trabajar?

El “Data Pipeline” inicia planteándose una pregunta

para luego encontrar la información, extraerla,

limpiarla, verificarla, analizarla y presentarla.

http://es.schoolofdata.org/tag/pipeline/#sthash.1hteD09x.dpuf

Page 11: Data pipeline

Data Pipeline

Page 12: Data pipeline

Comenzamos con una o más preguntas

¿Qué sucede en mi país?

¿En qué se gasta el presupuesto público?

¿Cuántos partidos ganó mi selección?

Y así…..

1

Page 13: Data pipeline

2 Obtener la información

Algunas fuentes y portales oficiales de datos

O haciendo uso de pedidos de acceso a la información

HACKEANDO

Page 14: Data pipeline

Nerd MomentExtracción (Hackeand0). Acá los datos se

convierten desde cualquier formato de entrada que se ha adquirido (por ejemplo,

archivos XLS, PDF o incluso documentos de texto plano) en una forma que se puede

utilizar para su posterior procesamiento y análisis.

La mayoría de veces implica cargar los datos en un sistema de base de datos, como MySQL

o PostgreSQL.

O si eres más c00l MongoDB, Redis, SQLite, etc.

Page 15: Data pipeline

SCRAPPING • Scraping es un término que, traducido al

español, literalmente quiere decir “rascado”. Sin embargo, en este contexto, se refiere a la limpieza y filtro de los datos.

• http://es.schoolofdata.org/introduccion-a-la-extraccion-de-datos-de-sitios-web-scraping/#sthash.0qgjKaad.dpuf

• ImportHTML en Google Spreadsheets

3 Extraer

Page 16: Data pipeline

• The Google spreadsheet formula: =importHTML("","table",N)

=importHTML("http://en.wikipedia.org/wiki/List_of_largest_United_Kingdom_settlements_by_population","table",2) - See more at: http://schoolofdata.org/handbook/recipes/liberating-html-tables/#sthash.tDFCZOhd.dpuf

IMPORTDATA o IMPORTXML

Page 17: Data pipeline

Extraer los datos• Tabula Permite extraer tablas de PDFs.

• SmallPDF y Nitro  Permiten convertir archivos de PDF a csv. La versión gratuita de Nitro permite un máximo de 50 páginas.

• Import.io Permite scrappear de manera fácil algunos sitios web

Page 18: Data pipeline

Limpiar los datos• Buscar+Reemplazar: Permite fácilmente

buscar términos en la hoja de cálculo y reemplazarlos por otros (google docs)

• Open Refine: Permite limpiar, modificar y exportar bases de datos. Además es gratuita.

4

Page 19: Data pipeline

Análisis de datos• Pivot Tables Una herramienta simple pero

poderosa que permite hacer y responder preguntas con los datos.

• R para los usuarios más avanzados, R es un lenguaje y entorno de programación para el análisis estadístico. Es gratuito y de software libre.

5

Page 20: Data pipeline

Visualización6• Con infogram se pueden crear gráficos e

infografías con un par de clicks. La herramienta es gratuita aunque para usar todas sus opciones se requiere pagar una cuota.

• CartoDB es ideal para visualizar información geolocalizada.

• Tableau Public El programa se descarga y offline permite hacer diferentes tipos de visualizaciones.

• Datawrapper Útil para hacer diferentes tipos de gráficos, todo de forma gratuita.

• Google Fusion Tables Permite organizar, visualizar y compartir información organizada en tablas de datos.

Page 21: Data pipeline

Data Pipeline

Page 22: Data pipeline

¿Cómo se implementa?

• Skillshares (online)

• Blog y web

• Data workshops (offline)

• Expedición de datos (online y offline)

• Other events and Data Projects – Collaborations

Page 23: Data pipeline

Expedición de Datos

Page 24: Data pipeline

¡Muchas gracias!@jalp_ec

@EscuelaDeDatos @SchoolOfData

Page 25: Data pipeline

10 minTarea: Encuentra una página web con una tabla y obtén información de ella.

http://schoolofdata.org/handbook/recipes/liberating-html-tables/

http://schoolofdata.org/handbook/recipes/scraper-extension-for-chrome/

• Una vez que tengas la tabla en tu hoja de cálculo, lo más seguro es que quieras jugar con los datos o cambiarlos de hoja. Haz clic en el botón superior izquierdo y selecciona paste special (pegado especial) y luego paste values only (pegar sólo valores).

Page 26: Data pipeline

Desafío: Ayuda a liberar el presupuesto

Tarea: ¡Encuentra un PDF encarcelado que puedas liberar!

• Por ejemplo, existen muchos PDFs que necesitan tu ayuda en este link: Budget Library of the International Budget Partnership.

Page 27: Data pipeline

Liberar el presupuesto

Una vez que liberes tus datos, compártelos con alguien y ahórrales el penoso trabajo. Incluso los pues subir al OpenSpending group en Datahub o al OpenSpending Mailing List , complementado con una explicación de lo que hiciste.