BIG DATA & IoT: Tecnologias e Aplicações

BigData e IOTAlessandro de Oliveira Binhara

Data Scientist – Horton Works System Integrator

[email protected]

Alessandro Binhara

Data Scientist & Mobile ExpertMestre em Tecnologia (UTFPR)

Bacharel em TIC, Técnico Eletrônica (CEFET-PR)

Mono Hacker desde 2003

Fundador Projeto MonoBrasil

Linguagens Fluente: C#, Java, PIG, PHP, Ruby., ...

BigData: Hadoop, MapReduce Mahout, Hbase, Cassandra,

Hive, Sqoop,

Consultor Autorizado Xamarin

Consultor BigData pela Hortonhorks

O que é ?

Coisas” que se comunicam, armazenam e

processam dados com o mínimo de interferência

humana, integradas a rede mundial de

computadores.

IOT e Bigdata ???

Dispositivos vestíveis pelas pessoas. Máquinas que

coletam dados e atuam sobre às pessoas

IOT e Bidata

Cadeia de Valor do BigData

Coleção - Dados estruturados, não estruturados e semi-estruturados de múltiplas fontes

Ingestão - carregamento de grandes quantidades de dados em um único armazenamento de dados

Discovery & Cleansing - compreensão do formato e conteúdo; Limpeza e formatação

Integração - vinculação, extração de entidade, resolução de entidade, indexação e fusão de dados

Análise - Inteligência, estatística, análise preditiva e de texto, aprendizado de máquina

Entrega - consulta, visualização, entrega em tempo real com disponibilidade de classe empresarial

Collection Ingestion

Discovery

&

Cleansing

Integratio

nAnalysis Delivery

Porque e Quando ?

Considerações para a grande

padronização de dados

Variedade de Casos de Uso

Mobilidade

Segurança e privacidade

Gerenciamento do ciclo de vida e

qualidade dos dados

Gerenciamento do sistema e outros

problemas

Características dos dados

Distribuído / Centralizado

Os 4 V's: Volume, Velocidade,

Variedade, Veracidade

Coleção de dados

Visualização de dados

Qualidade dos dados

Análise de dados e ação

DataSource

Source Sensores

Aplicações

Agentes de software

Indivíduos

Organizações

Recursos de hardware

Fontes de dados publicas

Sites internet

Redes Sociais

Any*

A qualquer momento

Qualquer coisa

Qualquer Dispositivo

Qualquer Contexto

Qualquer lugar

Qualquer lugar

Alguém

IOT Aplicado a SmartCitys ???

Como pode funcionar ?

Como Coletar os dados ?

Como Armazenar ???

Como processar ???

Como Tornar uma cidade inteligente ??

Cluster no Hadoop no Yahoo

Atualmente o Yahoo tem 3 cluster com mais de 42mil máquinas para testes

Facebook Data Center

Uso Comum do Hadoop – Case ...

1. SocialEntenda como seus clientes se sentem sobre a sua marca

e produtos – agora

2. ClickstreamCapturar e analisar as pistas de dados visitantes do site e

otimizar seu site

3. Sensor/MachineDescobrir padrões nos dados que fluem automaticamente

a partir de sensores e máquinas remotas

4. GeolocationAnalisar dados baseados em localização para gerenciar as

operações onde ocorrem

5. Server LogsLog de pesquisa para diagnosticar falhas no processo e

prevenir violações de segurança

6. Unstructured (text, video, pictures, etc..)Compreender padrões de texto através de milhões de

produtos de trabalho não estruturados: páginas web, e-

mails, vídeos, fotos e documentos

Valor

O que é Hadoop ?

O Apache Hadoop é um projeto desenvolvimento como open-source software para escalável , confiável e com processamento distribuído.

Um sistema escalável e confiável para armazenamento compartilhado e análises.

Ele automaticamente trata da replicação de dados e das falhas em cada nó.

Ele faz o trabalho duro, o desenvolvedor pode se concentrar em processamento da lógica de dados

Permite que os aplicativos usem petabytes de dados em paralelo.

O que é BigData ?

Curiosidades sobre ZetaBytes

Camadas

Compartivo

SQL

Banco Relacional

Escalabilidade vertical

Terabytes

RAID, HDs rápidos

Mais dados, troque o servidor

BigTable

Escalabilidade horizontal

Petabytes

CPU Rápida/ Baixo custo

Padrão, HDs duráveis

Mais dados, adicione mais

servidores

Bigatable is a sparse, distributed persistence

multidimensional sorted map.

PETABYTES

O que map reduce ? Estratégia de dividir para conquistar

MapReduce é um modelo de programação e implementação associados

para o processamento e geração de grandes conjuntos de dados (Jeffrey

Dean e Sanjay Ghemawat, 2004)

Baseado em um modelo de programação funcional (como Lisp, Ml, etc)

Processamento de dados base em batch

A abstração limpa para programadores

Paralelização automática e distribuição

Tolerância a falhas

MapReduce

Bigdata é o mundo do cobertor curto...

Processamento

MapReduce 2 (yarn)

Apache Spark

Apache TEZ

Apache Storm

SQL/DB

Spark SQL

Impala

Hive

Presto

Data Flow

Flume (logs, files)

Sqoop (sync,sql)

Kafka (msg)

Nifi (proc/dist)

Suporte e administração

Oozie (workflow,sched)

Zookeeper(coord,config)

Ambari (monitor, managing)

Outros

PIG, jaql, hive

Mahout, Mlib, H2O

Solar

Zepelin

Casos em SmartCitys

Casos TomTom

Empresa de GPS

Vendendo os hábitos dos motoristas para a policia

local para chegar em casa mais rápido

A policia passou a colocar radares e fiscalizar

essas rodas

Aplicando multas aos motoristas

Sistema

BigData China

Captura e Processamento dos Vídeos

As imagens são capturadas e processadas em

tempo real.

Podemos notar as marcações realizadas pelo

software de análise.

Ele consegue identificar os carros em movimentos

e verificar várias infrações, como :

Velocidade acima de 10% do limite

Velocidade acima de 20% do limite

Avanço de Sinal

Caminhão fora de horário

Sobre a faixa de pedestre

Case AGENT - Central inteligente de

Trânsito Semáforo inteligente

Exemplo de Relatório

asd

PrótotipoPasseio Virtual

Sala de OperaçõesProduto Brasileiro

Startup Paranaense

Lançamento na CES em Las Vegas

http://beenoculus.com.br/‘

Monitoramento de TransitoSala de OperaçõesEste é nosso quarto operacional. Projeção

de realidade estendido usando o Novell.

Este quarto tem favoritos em toda a sua

volta. No chão, temos um mapa da cidade

de Curitiba, onde com a utilização de um

óculos de realidade aumentada. A

informação recolhida é projetada para

câmeras. Imagens são processadas em um

cluster de Hadoop

Imagine....

Como deixo minha meu Sistema

Inteligente ???

Processamento em Realtime

Bases de conhecimento

Maquinas de Aprendizado

Sistema de Recomendação .

TreinamentosPresencias, On-line e Semipresenciais

Curso: Apache Hadoop Essencial (8horas )

Curso: Introdução ao Futuro Cientista de Dados (8h)

Curso: DataScientist e BigData for Bussines (16h)

Curso: Apache Hadoop Fundamental (24h)

Treinamento e Workshop Ferramentas de BigData com EcoSistema Hadoop (40h)

Treinamento Apache Sqoop (8h)

Treinamento Apache Cassandra (16h)

Treinamento HBase (16h)

Treinamento Hive (16h)

Treimento Mahout (16h)

Curso + Treinamento em BI aplicado a máquinas de aprendizado Mahout(30h)

Curso de Splunk (16h)

Curso Pig e Pig Latin (16h)

Curos de Programaçao em MapReducecom Java e C# (16h)

Curso de Flume (16h)

Perguntas ???

[email protected]

@binhara

www.azuris.com.br

mailto:[email protected]

http://www.azuris.com.br/

Engineering

BIG DATA & IoT: Tecnologias e Aplicações