Quem sou eu?
• BI Developer @ Easy Taxi
• Estudante de Matemática Aplicada e Computacional - USP
Por que Python?
• Fácil aprendizado
• Organização
• OOP
• Utilizado em todas as camadas (ETL, análise, visualização, etc)
• Comunidade
Por que Python?
Ecosistema Hadoop
Ferramentas
• Python Pandas
• Numpy
• Scipy
• Scikit-learn
• Statsmodel
• iPython
• ….
O que eu utilizo?
Python Pandas
• Análise de dados em alta-performance
• CSV, Excel, Banco de dados SQL, arquivos de texto e etc…
• Funções para tratamento dos dados
Scikit-learn
• Machine Learning
• Algoritmos já implementados(classificação, regressão, clusterização ….)
iPython
• Shell interativo
• Notebook web application, com suporte a visualização dos gráficos, markdown, HTML
• Suporte as bibliotecas de data visualization(bokeh,vincent,plot.ly)
• Pode ser executado com computação paralela
iPython
• Evolução do projeto iPython notebook
• Suporte a R, Julia e Python
• Renderização direto no GitHub
Ambiente de desenvolvimento
• Sem dor de cabeça
• Um pouco de trabalho
pip install …
Hands on