Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics 100% Open Source com apoio do Pentaho

Embed Size (px)

Text of Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics 100% Open Source com...

  • Open Source Data Science

    Elaborando uma plataforma de Big Data & Analytics 100% Open Source com apoio do Pentaho.

    Palestrante: Marcio Junior VieiraCEO e Data Scientist na Ambiente Livremarcio@ambientelivre.com.br

  • Marcio Junior Vieira 17 anos de experincia em informtica, vivncia em desenvolvimento e

    anlise de sistemas de Gesto empresarial e Analise de Dados. Trabalhando com Free Software e Open Source desde 2000 com servios

    de consultoria e treinamento. Graduado em Tecnologia em Informtica(2004) e ps-graduado em

    Software Livre(2005) ambos pela UFPR. Palestrante FLOSS em: CONISLI, SOLISC, FISL, LATINOWARE, SFD,

    JDBR, Campus Party, Pentaho Day, TDC. Organizador Geral do Pentaho Day 2017,2015 e apoio nas edies 2013

    e 2014. CEO da Ambiente Livre. Data Scientist, Instrutor e Consultor de Big Data com tecnologias abertas.

  • Nosso Ecossistema

  • Quarto paradigma da cincia

    Emprica, uma maneira de adquirir conhecimento por meio de observao ou experincia direta e indireta.

    Investigao, Melhorar as teorias cientficas para uma melhor compreenso ou previso de fenmenos naturais. Muitas vezes impulsionado pela curiosidade.

    Computao: Estuda as tcnicas, metodologias e instrumentos computacionais, que automatiza processos e desenvolve solues baseadas no uso do processamento digital.

    Baseada em dados ( data-driven )Cincia Sobre os Dados ou Cincia dos Dados

  • Data Science Campo interdisciplinar de pesquisa sobre mtodos cientficos,

    processos e sistemas para extrair conhecimentos ou insights a partir de dados em vrias formas, estruturadas ou no estruturadas, semelhantes ao KDD.

    Unificar estatsticas, anlise de dados e seus mtodos relacionados, a fim de compreender e analisar fenmenos reais com dados.

    Emprega tcnicas e teorias extradas das reas amplas de matemtica, estatstica, cincia da informao e cincia da computao, aprendizagem de mquinas, classificao, anlise de cluster, minerao de dados, bancos de dados e visualizao.

  • Software Livre

  • Software Livre "Software Livre" se refere liberdade dos usurios

    executarem, copiarem, distriburem, estudarem, modificarem e aperfeioarem o software. So 4 tipos de liberdade, para os usurios do software:

    1. A liberdade de executar o programa, para qualquer propsito. 2. A liberdade de estudar como o programa funciona, e adapt-lo para as suas

    necessidades. Acesso ao cdigo-fonte um pr-requisito para esta liberdade.

    3. A liberdade de redistribuir cpias de modo que voc possa ajudar ao seu prximo.

    4. A liberdade de aperfeioar o programa, e liberar os seus aperfeioamentos, de modo que toda a comunidade se beneficie.

    Em Curitiba 02 de Junho!http://rms.curitibalivre.org.br/

  • Open Source Criado pela OSI (Open Source Initiative) No refere-se a software tambm conhecido por

    software livre. Qualquer licena de software

    livre tambm uma licena de cdigo aberto (Open Source)

    Mas o contrrio nem sempre verdade

    Criado por Eric Raymond e outros fundadores da OSI.

  • Free Software X OSI 4 Lei da GPL OBRIGATORIEDADE:

    A liberdade de aperfeioar o programa, e liberar os seus aperfeioamentos, de modo que toda a comunidade se beneficie.

    X

  • Evoluo das Coisas - IOT

  • Sensores de Automveis

  • Sensores de Voo

  • Data Lake Fonte nica Grande Volume No Refinado Pode estar tratado.

  • Como era antes!

    Data Mart(s)

    Data Source

  • Arquitetura de Big Data

    Data Mart(s)

    Data Source

    Data Lake(s)

    ad-hoc Datawarehouse

  • Arquitetura

    Fonte Armazenamento Analise

  • Arquitetura - IoT U$ 4 a 11 trilhes a partir de 2025

  • Captura de Dados Web crawler IoT Equipamentos de Redes Open Source (Data System) Erps, CRMs, etc Logs Etc, etc, etc

  • Armazenar

  • Armazenamento

  • Processar

  • Processamento e Integrao

  • Visualizao e Analise

  • Machine Learning

  • Fundao Apache Data Science = Apache = Open Source Apache lider em Big Data e Data Science! ~31 projetos da linha Big Data incluindo

    Apache Hadoop e Spark

  • 3 Pilares do Pentaho Plataforma abrangente para integrao de

    dados e Business Analytics.

  • Pentaho Data Integration Processa em Paralelo ( em breve em Cluster Spark) Acessar dados diretamente (se necessrio sem DW ) Permite publicar dados diretamente em Reports, Ad-Hoc Reports e

    Dasboards. Programao e Fluxo Visual com aproximadamente 350 steps diferentes

  • Integrao ampla e adaptvel de Big Data

    Conexes nativas e camada adaptvel de Big Data e acesso funcionalidades dos populares big data stores.

    Capacidade de acessar dados, process-los combin-los e consumi-los em qualquer lugar.

    Flexibilidade, isolamento das mudanas no ecossistema de dados

    Suporte a distros Hadoop Acessar dados para preparao via SQL no Spark e

    orquestrar aplicativos Spark (Scala, Java e Python) Integrao com NoSQL stores

  • Pentaho Report Designer Visualizao Web ou Embed. Assistente de gerao de relatrios Amplo suporte de fonte de dados, incluindo

    relacionais, OLAP, XML e Pentaho Analysis, arquivos flat, objetos Java e ...

    Big Data Reports ( integra-se com PDI )

  • ETL como Data Source O data source do

    report um ETL. Isso muda tudo!

  • Exemplo de dados do Twitter Report

    Libere na API acesso Crie seu ETL no PDI ( Pentaho Data

    Integration ) Defina onde quer os dados ( database,

    hadoop, Report ou dashboard )

  • Dashboards ETL

    Dashboards permiter integrao com ETL

  • ETL para datasets D3.js

    http://romsson.github.io/dragit/example/nations.html

    https://bl.ocks.org/mbostock/1136236

    http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6

    http://romsson.github.io/dragit/example/nations.htmlhttps://bl.ocks.org/mbostock/1136236http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6

  • Pentaho Sparkl Framework que usa o PDI como fonte App Builder que permite desenvolver plugins de

    Big Data Analytics e outros em alguns passos. Menus = Dados Campos = metaDados Boto = Dispara Servio Filtros = Lista Dados Todos mais faa JS/Jquery :)

  • Pentaho Data Mining Soluo completa para Machine Learning Aprox. 79

    Algortimos- Classificao- Associao- Cluster

  • Comunidade Brasileira

  • Comunidade Brasileira Maior comunidade do Mundo! Lista de Discusso com + de 1900 membros Organiza a 7 anos o Pentaho Day Brasil Composta por desenvolvedores, usurios , empresas e

    acadmia. Utilizado em mais de 185 pases. +10.000 Produtos desenvolvidos sobre a plataforma Pentaho. + 4 milhes de Downloads Em 2015 +- 60.000 downloads dia

  • Open Source gera valor Facebook vende software? No mas entrega

    muita tecnologia open source assim como milhares de outras startup. Exemplo Hive.

  • Dificuldades ou Desculpas criadas por vendos

    Como vai gerenciar Schedulers ? Como vai gerenciar Segurana ? Como vai gerenciar o Cluster ?

    Como ? Como ? Como?

    cron chmod 600 Shell script Open Source

    Data Scientist Nutela Data Scientist Raiz

  • Diferenciais Reais mas no impeditivos

    Interface Acelerao do Trabalho BI Self Service Ser mesmo ? Suporte do Desenvolvedor

  • Dificuldades Reais Alto investimento em capital intelectual das

    pessoas Encontrar pessoas com perfil hacker e

    pesquisador Tempo Persistncia

  • Acontecendo no mercado Compram Player de Mercado... Montamos Cluster na Amazon, Azure, Azure Uso o Framework da Nuvem O custo sobe.. a empresa cresce.. e crise

    vem... o dlar sobe...! Comeo a mesclar usando Open Source Startups! Comeam ao Contrrio! Open Sorce

    sempre primeiro.

  • Minhas Perguntas aos Grandes

    Sei que voc usa arquitetura mesclada, mas possvel fazer 100% Open Source?

    Sim recebidos!

  • Data Science 100%Open Source

    SIM by

  • Contatos marcio @ ambientelivre.com.br http://twitter.com/ambientelivre @ambientelivre @marciojvieira Blog: blogs.ambientelivre.com.br/marcio Facebook/ambientelivre

    Slide1Slide 2Slide 3Slide 4Slide 5Slide 6Slide 7Slide 8Slide 9Slide 10Slide 11Slide 12Slide 13Slide 14Slide 15Slide 16Slide 17Slide 18Slide 19Slide 20Slide 21Slide 22Slide 23Slide 24Slide 25Slide 26Slide 27Slide 28Slide 29Slide 30Slide 31Slide 32Slide 33Slide 34Slide 35Slide 36Slide 37Slide 38Slide 39Slide 40Slide 41Slide 42Slide 43Slide 44Slide 45Slide 46