Escola Politécnica da Universidade de São Paulo
Departamento de Engenharia Mecatrônica e de Sistemas Mecânicos
Av. Prof. Mello Moraes, 2231
05508-030 - São Paulo - SP - Brasil
LSA – Laboratório de Sistemas de Automação www.pmrlsa.poli.usp.br
PMR3507
Fábrica digital
Big Data Analytics
Cená
rio
• “Desde o alvorecer da civilização até 2003, a
humanidade gerou cinco exabytes de dados. Agora
produzimos cinco exabytes A CADA DOIS DIAS...
e o ritmo está acelerando.” [Eric Schmidt, presidente
executivo do Google, 2010]
• 1 Terabyte pode cobrir todos os filmes de raios-X
em um grande hospital
• 1 Petabyte (1000 x 1 Terabyte) é um dado de 5
anos de dados da observação da Terra (NASA)
• 5 Exabyte (5000 x 1 Petabyte) inclui todas as
palavras já ditas por humanos
• 1.3 Zettabyte (1000 x 1 Exabyte) é igual a todo o
tráfego da Internet em 2016
Cená
rio
Definiç
ão
• Big data é usado para descrever um volume
massivo de dados estruturados e não estruturados
que é tão grande que é difícil processar usando
técnicas tradicionais de banco de dados e software
• Big Data and Analytics
– O big data em si é algo bastante inútil se não houver
mecanismos (“analytics”) disponíveis para extrair
informações úteis dele
– O mesmo vale para a análise, que por si só
descreveria mecanismos para acumular dados, mas
sem análise de dados também faz pouco sentido
Definiç
ão
• Extensão de arquiteturas de TI estabelecidas
– Big data analytics é composto por várias tecnologias
de gerenciamento e análise de informações
– Descrevem apenas um subconjunto dos requisitos
completos de business intelligence
– Necessidade de coexistência entre as tecnologias
de big data analytics relacionais e não relacionais
– Exige a combinação de tecnologias de banco de
dados com análises modernas para permitir que as
organizações analisem conjuntos de dados grandes
e diversos
Desafios • O volume é apenas um aspecto do big data, que
pode ser facilmente abordado com
armazenamento barato e soluções avançadas de
computação
• O verdadeiro desafio vem da velocidade e da
variedade de dados que, combinados com o
grande volume, excedem o armazenamento de
uma organização e a capacidade de computação
necessária para a tomada de decisões em tempo
hábil
• Big data pode consistir em bilhões ou até mesmo
trilhões de registros, todos de diferentes fontes,
como a Web, clientes, mídias sociais, vendas,
dados móveis etc., e esses dados são vagamente
estruturados, muitas vezes incompletos e nem
sempre facilmente acessíveis
Desafios
Os 5
Vs d
o B
ig D
ata
Os 5
Vs d
o B
ig D
ata
• Volume: há mais do que tamanho
– Não importa a quantidade de dados, o uso bem-
sucedido de big data requer processamento e
análise complexos e intensos
– Pode haver milhões ou bilhões de registros
manipulados por certos aplicativos de big data, em
que cada registro pode ter apenas alguns bytes de
tamanho
– Os arquivos de contato, incluindo e-mails, podem
conter vários petabytes de dados, incluindo
sugestões de clientes, reclamações, registros de
projetos, contratos e propostas
– Na manufatura ou no projeto de produtos, um
grande número de protótipos pode ser avaliado
– Em experimentos científicos como o Large Hadron
Collider (LHC), pode-se gerar petabytes de dados
Os 5
Vs d
o B
ig D
ata
• Variedade: importante combinação de fontes de
dados e formatos
– A maioria dos dados de uma organização é
desestruturada
– A variedade de fontes de dados e dos formatos
usados, como texto, vídeo, áudio e outros dados
não estruturados requerem diferentes arquiteturas e
tecnologias para análise
– Os dados podem ser internos e externos a uma
organização
• A importância relativa de um registro de cliente versus
um tweet
• Correlação entre grande número de registros de
pacientes com pesquisa médica publicada e dados
genômicos para encontrar o tratamento ideal
Os 5
Vs d
o B
ig D
ata
• Velocidade: análise e entrega apropriadas de
informações
– É preciso considerar a variabilidade de dados, que
podem ser diários, sazonais ou originados por
eventos, em termos de seus picos de carga
– Distinguir entre processamento de dados em tempo
real e quase em tempo real
• O processamento em tempo real precisa de entrada
contínua, com processamento, e saída de dados
constantes
• Sistemas de radar, atendimento ao cliente
• No processamento em tempo quase real, a velocidade
é importante, mas não há problema em ter tempo de
processamento em minutos ou alguns segundos
• Uso de tags RFID
Os 5
Vs d
o B
ig D
ata
• Velocidade: análise e entrega apropriadas de
informações
– As infraestruturas tecnológicas para os diferentes
casos de uso podem diferir significativamente,
exigindo hardware especializado para atender as
demandas de alto desempenho
Os 5
Vs d
o B
ig D
ata
• Valor: benefícios de capital, operacionais e de
negócios
– O valor derivado dos dados depende do
entendimento da organização sobre os
relacionamentos, hierarquias complexas e vínculos
entre todos os dados, a fim de vincular, combinar e
transformar dados ao longo dos negócios
– O valor também se refere ao custo da tecnologia, já
que o custo é um fator-chave que vem mudando
drasticamente nos últimos anos
– Projetos de big data são benéficos de diversas
formas: como redução de custos de infraestrutura,
de hardware e software, maior eficiência operacional
por meio de métodos mais eficientes de
gerenciamento, análise e entrega de dados, e
aprimoramentos de processos de negócios que
aumentam a receita ou o lucro resultantes
Os 5
Vs d
o B
ig D
ata
• Veracidade: incerteza de dados
– Descreve o grau de integridade ou correção dos
dados disponíveis, os vieses, os ruídos e as
anormalidades dos dados e se faz sentido usar os
dados armazenados para analisar de forma
significativa um problema
– É o maior desafio para a análise de big data
• Se dados incorretos forem usados, isso pode
facilmente causar mais problemas às organizações e
consumidores do que se nenhum dado fosse usado
– Não apenas os dados precisam estar corretos, mas
também as análises realizadas nos dados precisam
estar corretas
– Isso se torna especialmente importante em
processos automatizados de tomada de decisão, já
que não há mais seres humanos envolvidos
corrigindo as coisas
Equív
oco
s m
ais
co
mun
s s
obre
Big
Da
ta A
na
lytics
• Big Data Analytics não é nada novo
– O que mudou foi o custo para a implementação de
conceitos de big data
– Grande variedade de mecanismo (auxiliados por
computador) para descoberta de relacionamentos
entre conjuntos de dados extremamente grandes e
que contêm uma ampla variedade de diferentes
fontes de dados
– Consciência de criar uma vantagem competitiva por
meio da análise das informações certas e gerar
resultados no tempo certo para a tomada de decisão
Equív
oco
s m
ais
co
mun
s s
obre
Big
Da
ta A
na
lytics
• Big Data é tudo sobre o Hadoop
– Hadoop é apenas uma tecnologia muito popular
– Existem muitas (e diferentes) tecnologias de big
data e é importante escolher a mais adequada para
cada problema >> não existe uma tecnologia que
resolva todos os problemas de big data
– Outro equívoco é acreditar que bancos de dados
relacionais não são escaláveis para volumes muito
grandes e, portanto, não podem ser considerados
tecnologias de big data
Equív
oco
s m
ais
co
mun
s s
obre
Big
Da
ta A
na
lytics
• Big Data é somente sobre grandes volumes de
dados
– Embora grandes conjuntos de dados sejam uma
parte essencial de big data, há outras
características, como dados em tempo real,
representados em diferentes tipos ou formatos
• Big Data como nova Buzzword para Data Mining
– Big data abrange muito mais do que mineração de
dados
– Abrange coleta de dados, gerenciamento de dados,
organização de dados, análise de dados, acesso a
informações e cargas de trabalho operacionais
Equív
oco
s m
ais
co
mun
s s
obre
Big
Da
ta A
na
lytics
• Big Data, grandes desafios
– Enquanto a análise mais brilhante for ignorada ou
não corretamente adotada pelos tomadores de
decisão, ou a análise errar seu objetivo porque não
leva em conta as variáveis comportamentais da
interação humana, todas as análises de big data
serão inúteis
– Mesmo tendo as ferramentas e técnicas mais
sofisticadas disponíveis para a determinação de
novos negócios, ainda são necessárias estratégias
de mercado coordenadas de forma sensata para
alcançar sucesso
O q
ue im
pu
lsio
na
o B
ig D
ata
An
aly
tics • Big data analytics e business intelligence cobrem
um amplo domínio de processos de negócios,
tecnologias e tipos de especialidades, que
possuem oportunidades ilimitadas e, ao mesmo
tempo, geram ambiguidade e confusão apenas por
causa desse amplo escopo
• O objetivo real das soluções de big data analytics é
melhorar a tomada de decisões, permitindo
insights avançados e rápidos para os tomadores
de decisão nas organizações
O q
ue im
pu
lsio
na
o B
ig D
ata
An
aly
tics
Cla
ssific
ação
do
Big
Da
ta A
naly
tics
• Big data in motion
– Dados em tempo real, em alto volume, transmitindo
constantemente e exigindo ação imediata tão logo
são recebidos
– Os dados são geralmente recebidos, filtrados e
regularizados, o que significa que eles são
colocados em um formato consistente ou legível
Cla
ssific
ação
do
Big
Da
ta A
naly
tics
• Big data at rest
– Requer tecnologias específicas para coletar dados o
mais rápido possível mediante a entrega
– Transforma esses dados e os analisa antes de
colocá-los em um estado para busca, descoberta,
mineração, consulta e relatórios significativos
Cla
ssific
ação
do
Big
Da
ta A
naly
tics
• Bases de dados NoSQL x SQL
– Tanto os bancos de dados NoSQL (não relacional)
como os bancos de dados SQL desempenham
papéis importantes
– Bancos de dados NoSQL aceitam dados de várias
fontes em muitos formatos diferentes, permitindo
que programas de análise filtrem e organizem esses
dados
– Bancos de dados SQL são usados de maneira ideal
para lidar com grandes volumes de dados com
estruturas conhecidas e consistentes e permitem
tarefas periódicas de relatório, mineração e análise
repetida nesses dados
Fra
me
work
• Fonte de dados: captura, integração e movimento
– A camada mais baixa
– Ferramentas de captura, integração e
movimentação de dados
– Extração de dados em lote, transformação,
carregamento ou ativação de dados a serem
transmitidos em repositórios de dados de destino
– Escalabilidade é uma grande preocupação pois esta
camada abrange ações como o movimento de
vários terabytes ou o processamento de milhões de
eventos de streaming
Fra
me
work
• Hadoop, bancos de dados relacionais (SQL) e não
relacionais (NoSQL)
– Hadoop não pode ser visto como um banco de
dados real, já que ele armazena dados e permite
que os dados sejam extraídos, mas a extração de
dados não usa nenhuma consulta, portanto, também
não há SQL
– O Hadoop pode ser visto como um sistema de data
warehouse que usa o MapReduce para processar
dados
– Um projeto do Hadoop, chamado “Hive”, permite
que dados brutos sejam reestruturados em tabelas
relacionais que podem ser acessadas via SQL
Fra
me
work
• Hadoop, bancos de dados relacionais (SQL) e não
relacionais (NoSQL)
– Hadoop permite o armazenamento distribuído de
enormes conjuntos de dados em clusters
distribuídos de servidores e, em seguida, executa
aplicativos de análise distribuídos em todos esses
clusters, processando assim grandes conjuntos de
dados
– Hadoop possui duas partes: MapReduce e HDFS
– Hadoop foi projetado para ser altamente escalável,
de um único servidor a milhares de máquinas, e
oferece um alto grau de tolerância a falhas
• A resiliência dos clusters Hadoop resulta da
capacidade de detectar e lidar com falhas na camada
de aplicativo
Fra
me
work
• Hadoop, bancos de dados relacionais (SQL) e não
relacionais (NoSQL)
– MapReduce
• Baseado em Java
• Usado para processamento paralelo de grandes
conjuntos de dados
• Distribui os dados pelos discos, mas também aplica
ao mesmo tempo instruções computacionais
complexas
• O processamento de instruções é feito em paralelo em
vários nós na plataforma
Fra
me
work
• Hadoop, bancos de dados relacionais (SQL) e não
relacionais (NoSQL)
– HDFS (Hadoop Distributed File System)
• Um sistema de arquivos distribuído para
armazenamento de dados
• Componente que contém os dados reais, mas vale a
pena notar que outros sistemas de arquivos também
podem ser usados
• Hadoop pode ser visto como um grande armazém de
dados, em que os dados são mantidos em segurança
até que alguém queira fazer algo com eles, como
executar análises ou até mesmo exportar conjuntos de
dados para outras ferramentas
Fra
me
work
• Dados não estruturados
– Os dados não estruturados constituem, de longe, a
maior percentagem de big data, uma vez que
engloba cerca de 90% dos dados em comparação
com dados estruturados (cerca de 10%)
– Tipicamente são: textos, imagens, vídeos ou áudios
Fra
me
work
• Armazenamentos de dados: gerenciamento e
processamento de big data
– Muitas organizações usam um data warehouse
relacional como uma fonte segura e confiável de
informações para gerenciamento de desempenho e
análise estruturada, enquanto confiam nos bancos
de dados Hadoop ou NoSQL quando precisam
realizar buscas em formato livre
– Por exemplo, as empresas de mídia on-line podem
usar clusters do Hadoop para armazenar e
processar dados de fluxo de cliques da web, antes
de mover subconjuntos desses dados para um
banco de dados relacional, a fim de torná-los
acessíveis aos analistas de negócios
Fra
me
work
• Aplicativos de funções e serviços
– Ferramentas de análise e business intelligence
– Devem ser capazes de acessar bancos de dados
relacionais e não relacionais
– Precisa derivar inteligência de texto não estruturado,
como comentários de clientes, interações de mídia
social, bem como e-mails e documentos
Fra
me
work
• Visualização, apresentação e consumo
– As ferramentas de visualização de dados permitem
que os seres humanos comuns vejam e entendam
as informações derivadas de maneira gráfica e
intuitiva
– A saída principal da análise de big data pode ser
usada para tomar decisões automatizadas sem a
necessidade de qualquer visualização
Exem
plo
s d
e u
so
• Prevenção de Fraude
– Sempre que as empresas querem detectar fraudes
em tempo real, elas usam a análise de big data para
procurar padrões de comportamento fraudulento em
enormes quantidades de dados estruturados ou não
estruturados
• Garantir receita
– Atividade frequentemente realizada por provedores
de serviços de telecomunicações e descreve o
processo de confrontar as faturas com os serviços
prestados a fim de garantir que não ocorra um mau
desempenho
Exem
plo
s d
e u
so
• Análise de rotatividade
– A rotatividade de clientes acontece quando os
assinantes não fazem mais negócios com uma
empresa
– A rotatividade de clientes é uma métrica crítica, já
que tentar manter os clientes existentes geralmente
é muito menos dispendioso em comparação à
aquisição de novos clientes, especialmente porque a
confiança e a lealdade dos clientes existentes já
foram conquistadas
Exem
plo
s d
e u
so
• Monitoramento inteligente de medidores de
energia
– Ferramenta que oferece aos lares e empresas
formas de entender e reduzir o uso de energia
– Ajudam as empresas de serviços públicos a
melhorar a precisão no faturamento
– Ajuda-os a prever e reagir melhor ao uso imediato
de energia e a acompanhar a oferta e a demanda de
forma mais rigorosa
– Reduz significativamente as visitas a propriedades
para leitura de medidores
Exem
plo
s d
e u
so
• Monitoramento de Equipamentos
– Prever e evitar o tempo de inatividade do
equipamento usando análise de big data
– Identifica irregularidades em máquinas, coletando e
analisando os dados necessários para ajudar os
operadores a otimizar a vida útil das máquinas
Exem
plo
s d
e u
so
• Otimização de Preços
– Entender completamente os dados que estão à
disposição da empresa para otimizar os prêmios
(lucro) de determinados produtos
– Não é apenas que as vendas determinam o preço e
o volume, mas também podem utilizar dados
extremamente granulares, de cada fatura, por
produto, por cliente ou por embalagem
Exem
plo
s d
e u
so
• Otimização do tráfego
– Identificar e prever o tráfego rapidamente e
precisamente em tempo real
– Requer armazenar o volume massivo de dados de
imagem e vídeo por um longo período (12 a 24
meses) para pesquisa e identificação precisas de
números de placa ou marcas de derrapagem a fim
de identificar violações de tráfego
• Pesquisa em ciências da vida
– Potencial significativo para melhorar os serviços de
saúde, reduzir custos e salvar vidas
– Ajuda as organizações a tomar melhores decisões e
aproveitar novas oportunidades, analisando dados
para provedores de assistência médica, fabricantes
de medicamentos, etc.
Exem
plo
s d
e u
so
• Gerenciamento de garantia
– Ajudar a entender por que as coisas acontecem e
como elas acontecem
– Crucial prever padrões e circunstâncias em torno
das falhas do produto, evitando que eles ocorram
• Análise de resultados de cuidados de saúde
– Detecção de doenças em estágios iniciais
– Gerenciar população específica e saúde individual
– Detectar mais eficazmente a fraude nos serviços de
saúde
Exem
plo
s d
e u
so
• Análise do Comportamento do Cliente
– Detectar padrões de comportamento do cliente e
formular estratégias de marketing, vendas e suporte
ao consumidor
• Previsão do tempo
– Os métodos usam muitos dados de sensores reais
– Combinam com imagens de satélite e dados que
levam em conta temperatura, pressão, umidade, etc.
– Quanto mais dados forem usados para previsão,
mais exatas serão as previsões
Merc
ado