Upload
alessandro-binhara
View
135
Download
0
Embed Size (px)
Citation preview
BigData e IOTAlessandro de Oliveira Binhara
Data Scientist – Horton Works System Integrator
Alessandro Binhara
Data Scientist & Mobile ExpertMestre em Tecnologia (UTFPR)
Bacharel em TIC, Técnico Eletrônica (CEFET-PR)
Mono Hacker desde 2003
Fundador Projeto MonoBrasil
Linguagens Fluente: C#, Java, PIG, PHP, Ruby., ...
BigData: Hadoop, MapReduce Mahout, Hbase, Cassandra,
Hive, Sqoop,
Consultor Autorizado Xamarin
Consultor BigData pela Hortonhorks
O que é ?
Coisas” que se comunicam, armazenam e
processam dados com o mínimo de interferência
humana, integradas a rede mundial de
computadores.
IOT e Bigdata ???
Dispositivos vestíveis pelas pessoas. Máquinas que
coletam dados e atuam sobre às pessoas
IOT e Bidata
Cadeia de Valor do BigData
Coleção - Dados estruturados, não estruturados e semi-estruturados de múltiplas fontes
Ingestão - carregamento de grandes quantidades de dados em um único armazenamento de dados
Discovery & Cleansing - compreensão do formato e conteúdo; Limpeza e formatação
Integração - vinculação, extração de entidade, resolução de entidade, indexação e fusão de dados
Análise - Inteligência, estatística, análise preditiva e de texto, aprendizado de máquina
Entrega - consulta, visualização, entrega em tempo real com disponibilidade de classe empresarial
Collection Ingestion
Discovery
&
Cleansing
Integratio
nAnalysis Delivery
Porque e Quando ?
Considerações para a grande
padronização de dados
Variedade de Casos de Uso
Mobilidade
Segurança e privacidade
Gerenciamento do ciclo de vida e
qualidade dos dados
Gerenciamento do sistema e outros
problemas
Características dos dados
Distribuído / Centralizado
Os 4 V's: Volume, Velocidade,
Variedade, Veracidade
Coleção de dados
Visualização de dados
Qualidade dos dados
Análise de dados e ação
DataSource
Source Sensores
Aplicações
Agentes de software
Indivíduos
Organizações
Recursos de hardware
Fontes de dados publicas
Sites internet
Redes Sociais
Any*
A qualquer momento
Qualquer coisa
Qualquer Dispositivo
Qualquer Contexto
Qualquer lugar
Qualquer lugar
Alguém
IOT Aplicado a SmartCitys ???
Como pode funcionar ?
Como Coletar os dados ?
Como Armazenar ???
Como processar ???
Como Tornar uma cidade inteligente ??
Cluster no Hadoop no Yahoo
Atualmente o Yahoo tem 3 cluster com mais de 42mil máquinas para testes
Facebook Data Center
Uso Comum do Hadoop – Case ...
1. SocialEntenda como seus clientes se sentem sobre a sua marca
e produtos – agora
2. ClickstreamCapturar e analisar as pistas de dados visitantes do site e
otimizar seu site
3. Sensor/MachineDescobrir padrões nos dados que fluem automaticamente
a partir de sensores e máquinas remotas
4. GeolocationAnalisar dados baseados em localização para gerenciar as
operações onde ocorrem
5. Server LogsLog de pesquisa para diagnosticar falhas no processo e
prevenir violações de segurança
6. Unstructured (text, video, pictures, etc..)Compreender padrões de texto através de milhões de
produtos de trabalho não estruturados: páginas web, e-
mails, vídeos, fotos e documentos
Valor
O que é Hadoop ?
O Apache Hadoop é um projeto desenvolvimento como open-source software para escalável , confiável e com processamento distribuído.
Um sistema escalável e confiável para armazenamento compartilhado e análises.
Ele automaticamente trata da replicação de dados e das falhas em cada nó.
Ele faz o trabalho duro, o desenvolvedor pode se concentrar em processamento da lógica de dados
Permite que os aplicativos usem petabytes de dados em paralelo.
O que é BigData ?
Curiosidades sobre ZetaBytes
Camadas
Compartivo
SQL
Banco Relacional
Escalabilidade vertical
Terabytes
RAID, HDs rápidos
Mais dados, troque o servidor
BigTable
Escalabilidade horizontal
Petabytes
CPU Rápida/ Baixo custo
Padrão, HDs duráveis
Mais dados, adicione mais
servidores
Bigatable is a sparse, distributed persistence
multidimensional sorted map.
PETABYTES
O que map reduce ? Estratégia de dividir para conquistar
MapReduce é um modelo de programação e implementação associados
para o processamento e geração de grandes conjuntos de dados (Jeffrey
Dean e Sanjay Ghemawat, 2004)
Baseado em um modelo de programação funcional (como Lisp, Ml, etc)
Processamento de dados base em batch
A abstração limpa para programadores
Paralelização automática e distribuição
Tolerância a falhas
MapReduce
Bigdata é o mundo do cobertor curto...
Processamento
MapReduce 2 (yarn)
Apache Spark
Apache TEZ
Apache Storm
SQL/DB
Spark SQL
Impala
Hive
Presto
Data Flow
Flume (logs, files)
Sqoop (sync,sql)
Kafka (msg)
Nifi (proc/dist)
Suporte e administração
Oozie (workflow,sched)
Zookeeper(coord,config)
Ambari (monitor, managing)
Outros
PIG, jaql, hive
Mahout, Mlib, H2O
Solar
Zepelin
Casos em SmartCitys
Casos TomTom
Empresa de GPS
Vendendo os hábitos dos motoristas para a policia
local para chegar em casa mais rápido
A policia passou a colocar radares e fiscalizar
essas rodas
Aplicando multas aos motoristas
Sistema
BigData China
Captura e Processamento dos Vídeos
As imagens são capturadas e processadas em
tempo real.
Podemos notar as marcações realizadas pelo
software de análise.
Ele consegue identificar os carros em movimentos
e verificar várias infrações, como :
Velocidade acima de 10% do limite
Velocidade acima de 20% do limite
Avanço de Sinal
Caminhão fora de horário
Sobre a faixa de pedestre
Case AGENT - Central inteligente de
Trânsito Semáforo inteligente
Exemplo de Relatório
asd
PrótotipoPasseio Virtual
Sala de OperaçõesProduto Brasileiro
Startup Paranaense
Lançamento na CES em Las Vegas
http://beenoculus.com.br/‘
Monitoramento de TransitoSala de OperaçõesEste é nosso quarto operacional. Projeção
de realidade estendido usando o Novell.
Este quarto tem favoritos em toda a sua
volta. No chão, temos um mapa da cidade
de Curitiba, onde com a utilização de um
óculos de realidade aumentada. A
informação recolhida é projetada para
câmeras. Imagens são processadas em um
cluster de Hadoop
Imagine....
Como deixo minha meu Sistema
Inteligente ???
Processamento em Realtime
Bases de conhecimento
Maquinas de Aprendizado
Sistema de Recomendação .
TreinamentosPresencias, On-line e Semipresenciais
Curso: Apache Hadoop Essencial (8horas )
Curso: Introdução ao Futuro Cientista de Dados (8h)
Curso: DataScientist e BigData for Bussines (16h)
Curso: Apache Hadoop Fundamental (24h)
Treinamento e Workshop Ferramentas de BigData com EcoSistema Hadoop (40h)
Treinamento Apache Sqoop (8h)
Treinamento Apache Cassandra (16h)
Treinamento HBase (16h)
Treinamento Hive (16h)
Treimento Mahout (16h)
Curso + Treinamento em BI aplicado a máquinas de aprendizado Mahout(30h)
Curso de Splunk (16h)
Curso Pig e Pig Latin (16h)
Curos de Programaçao em MapReducecom Java e C# (16h)
Curso de Flume (16h)
Perguntas ???
@binhara
www.azuris.com.br