View
212
Download
4
Category
Preview:
DESCRIPTION
Palestra sobre Big Data ministrada para funcionários da DATANORTE - Governo do Estado do Rio Grande do Norte em 09 de outubro de 2014.
Citation preview
1
Big DataBig Dataem 8 perguntasem 8 perguntasem 8 perguntasem 8 perguntas
2
Marcos Luiz Lins Filho
Quem eu sou e o que faço?
o Técnico em Processamento de Dados IFPBo Graduado em Ciência da Computação
UFCGo MBA Gestão de TI - UFRNo Mestrado em Computação – UFPEo Há 10 anos trabalho na Petrobras
Distribuidora S/Ao Trabalhei como Analista de Sistemas e
hoje atuo na área de Negócioso Não deixo nunca de estudar e buscar
novos conhecimentos, o famoso CURIOSO
3
Agenda
3
1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) O que Big Data tem de diferente ?4) O que vai mudar com o Big Data ?5) Por que o termo Big Data está em
evidência ?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data ?
4
Agenda
4
1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) O que Big Data tem de diferente ?4) O que vai mudar com o Big Data ?5) Por que o termo Big Data está em
evidência ?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data ?
5
5
Fonte: Bruno Domingues, Big Data com AWS e Intel, 2014
6
Agenda
6
1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) O que Big Data tem de diferente ?4) O que vai mudar com o Big Data ?5) Por que o termo Big Data está em
evidência ?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data ?
História do Big Data
Se divide em dois momentos Expansão no campo científico e de negócios basicamente através do
uso do termo Big Data de forma técnica e acadêmica (1984 – 2007)
(Tilly, 1984) usa pela primeira vez o termo Big Data em textos acadêmicos;
Uma primeira pesquisa publicada em 1987 relativa a uma técnica de programação chamada small code, big data;
Em 1989 e 1993 pesquisas começam a tratar de aplicações de Big Data;
(Laney , 2001) publica trabalho com o título os 3 V´s do Big Data (Volume, Variedade e Velocidade)
Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the Discipline, August 2012
Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the Discipline, August 2012
Se divide em dois momentos Difusão do termo já com viés tecnológico e econômico, estudo de
tecnologias, desenvolvimento de ferramentas para análise de dados etc (meados de 2008)
(Lohr, 2008) Jornalista do New York Times publicou artigo em que citava que cientistas de computação e executivos da indústria já enxergavam que o termo Big Data saia da esfera acadêmica e já começava a trazer resultados econômicos.
A Wired publica em junho de 2008 um artigo “The Petabyte Age: because more isn’t just more, more is different”, que apresenta as oportunidades e implicações do Big Data
(Lohr, 2012) – Início do uso do termo Big data pela IBM em 2008 na sua estratégia de Marketing. Em 2011, no Twitter. Em 2012, com a publicação do 1ᵒ ebook sobre tecnologias de Big Data.
História do Big Data
O que é Big Data?
Fonte: IDC. "Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO," September 2011
“A verdadeira questão não é que você está coletando grandes quantidades de dados, mas sim o que você faz com eles. As organizações terão que ser capazes de aproveitar os dados relevantes e usá-los para tomar as melhores decisões.” (IDC, 2011)
O que é Big Data?
FONTE: EMC
O 3Vs do Big Data “Big Data são os grandes conjuntos de dados que possuem
três características principais: volume, velocidade e variedade.”
Fonte: IBM
12
Agenda
12
1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) O que Big Data tem de diferente ?4) O que vai mudar com o Big Data ?5) Por que o termo Big Data está em
evidência ?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data ?
Por que Big Data é diferente ?
Aumento na quantidade de Dados
Fonte: EMC
Maior demanda por Computação Distribuída
Fonte: http://www.inf.ufsc.br/~frank/INE5418/1.Fundamentos-Slides.pdf
Por que Big Data é diferente ?
Maior demanda por Computação Distribuída
Fonte: https://under-linux.org/entry.php?b=2603
Computação distribuída significa pegar uma tarefa, dividi-la em pedaços menores e dar cada pedaço a uma “máquina” diferente, depois pegar cada resultado, uni-los (de maneira coerente) e apresentá-lo. Dificuldade
Processamento X Distribuição (Divisão)Integridade e Disponibilidade em Cloud
Computing
Por que Big Data é diferente ?
Limitações dos Bancos de Dados Relacionais
Fonte: IMD
Por que Big Data é diferente ?
O 3Vs do Big Data “Big Data são os grandes conjuntos de dados que possuem
três características principais: volume, velocidade e variedade.”
Fonte: IBM
Aumento na quantidade de Dados
Maior demanda por Computação Distribuída
Limitações dos Bancos de Dados Relacionais
+ 3 V’s do Big Data
Fonte: http://cio.uol.com.br/opiniao/2012/05/11/o-caos-conceitual-e-os-5-vs-do-big-data/
VeracidadeVeracidade
ValorValor
ViabilidadeViabilidade
Os dados são de 3 tipos
Estruturados Semi-estruturados Não estruturados
Fonte: Joyanes, 2013
Por que Big Data é diferente ?
EstruturadosDados que possuem esquema de campos fixosFormato bem definidoNormalmente armazenado em BD RelacionaisConhecimento prévio da estrutura dos dadosSão gerados em uma ordem especificada
Fonte: Joyanes, 2013
Por que Big Data é diferente ?
Semi-estruturadosPossuem um fluxo lógicoO formato pode ser bem definido, mas não necessariamente é fixoNão possui fácil compreensão por parte do usuário leigoTem como característica marcante o uso de etiquetas e marcadores para separar elementos dos dadosRegras complexas para manipulação dos dados
Fonte: Joyanes, 2013
Por que Big Data é diferente ?
Não estruturadosSem tipo predefinido;Não possuem estrutura uniforme (ex. Documentos, objetos);Pouco ou nenhum controle sobre eles;Dificuldade de “manipulação” para extração de informação
Fonte: Joyanes, 2013
Por que Big Data é diferente ?
De onde vem os dados do Big Data?
Web e Redes Sociais (clicks, cookies, twitter, facebook)MobilidadeInternet das Coisas (RFID/NFC, Sensores, GPS e Telemetria)Biometria (Reconhecimento fácil, impressão digital, dados genéticos)Dados gerados por pessoas (Voz, email, SMS, etc)Dados gerados por governos, institutos de pesquisas e empresas
Fonte: Soares, 2012
Por que Big Data é diferente ?
24
Agenda
24
1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) Por que o Big Data é diferente ?4) O que vai mudar com o Big Data ?5) Por que o termo Big Data está em
evidência ?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data e em quê ?
IntegraçãoIntegração
O que vai mudar com o Big Data? (Tecnologia)
EstratégiaEstratégia
O que vai mudar com o Big Data? (Negócios)
O que muda?O que muda?
TOMADA DE TOMADA DE DECISÃODECISÃO
O que vai mudar com o Big Data? (Gestão)
BIBI
x x
BIG DATABIG DATA
O que vai mudar com o Big Data? (Gestão)
BI BI (Tradicional)(Tradicional)
Cubo OLAP (On-line Analytical Processing)
• Bases de dados e Datawarehouse
• Ferramentas OLAP• Mineração de Dados
• Sistemas de apoio a decisão• Relatórios
• Visualização
O que vai mudar com o Big Data? (Gestão)
BI x BIG DATABI x BIG DATA Dados transacionais + outros dados
Decisão baseada em dados de tempo real
Análise voltada a predição
Universo de dados ilimitado
Busca aprendizado a partir dos dados
A diferença está nos 3V’sA diferença está nos 3V’s
O que vai mudar com o Big Data? (Gestão)
Dados transacionais
Decisão baseada em dados passados
Análise Intuitiva
Universo de dados limitado
Busca Analisar dados
31
Agenda
31
1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) Por que o Big Data é diferente ?4) O que vai mudar com o Big Data ?5) Por que o termo Big Data está em
evidência ?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data e em quê ?
O que Cloud Computing tem a ver com Big Data? Nova infraestrutura para computação sob demanda
Tornou o Big Data mais próximo da realidade
Big Data evolui em paralelo com a consolidação da computação em Nuvem
SoLoMo e IoT convergem com Cloud Computing e Big Data criando novas perspectivas para as empresas
Por que o Big Data está em evidência?
Fonte: NIST, 2011
Por que o Big Data está em evidência?
Fonte: CONTROL4.COM
Por que o Big Data está em evidência?
35
Agenda
35
1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) Por que o Big Data é diferente ?4) O que vai mudar com o Big Data ?5) Por que o termo Big Data está em
evidência ?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data e em quê ?
36
36
1) Coletar2) Armazenar 3) Processar4) ETL (Extract, Transform, Load)5) Buscar informações6) Machine Learning7) Visualização8) Relatórios
Desafios do Big data?
37
Agenda
37
1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) Por que o Big Data é diferente ?4) O que vai mudar com o Big Data?5) Por que o termo Big Data está em
evidência?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data e em quê ?
38
38
1) Coletar2) Armazenar 3) Processar4) ETL (Extract, Transform, Load)5) Buscar informações6) Machine Learning7) Visualização8) Relatórios
Desafios do Big data?
39
39
Como funciona o Big Data na prática?
BDs - Relacionais, NoSQL e in-memory
Fonte: Soares, 2013
BD Relacionais Largamente utilizados atualmente pelas empresas
Utiliza relações (tabelas) como elementos básicos
Tabelas compostas por linhas e colunas
Faz uso de restrições para manutenção de integridade (chaves)
Utiliza NORMALIZAÇÃO
SQL é a linguagem de consulta
Os SGBDs relacionais implementam outras funções (controle de concorrência, segurança, controle de transações, recuperação de falhas etc)
Fonte: Soares, 2013
BDs No SQL De volta ao passado… (Sistemas de Arquivos)
Estrutura mais flexível
Melhor adaptado para questões de escalabilidade
Não veio para acabar com o Modelo Relacional
Abandonou a NORMALIZAÇÃO
São livres de esquemas de tabelas e sem JOINs
Iniciou em 2004 Big Table (Google), 2007 Dynamo (Amazon), 2008 Cassandra (Facebook)
Escalabilidade Linear, Acesso rápido, Manipulação de dados não estruturados
BDs - Relacionais, NoSQL e in-memory
Fonte: Soares, 2013
BDs - Relacionais, NoSQL e in-memory
Fonte: Joyanes, 2013
BDs - Relacionais, NoSQL e in-memory
Fonte: Joyanes, 2013
BDs - Relacionais, NoSQL e in-memory
Fonte: SAP, 2012
BDs - Relacionais, NoSQL e in-memory
O framework Hadoop
“The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple
Programming model
(Divide to Conquer)
Fonte: https://under-linux.org/entry.php?b=2603
Fonte: Joyanes, 2013
O framework Hadoop
Fonte: Joyanes, 2013
O framework Hadoop
Fonte: Joyanes, 2013
O framework Hadoop
• Baseado no conceito de Dividir para Conquistar
• GRID COMPUTING • Várias implementações existentes: Hadoop,
Disco, Skynet, FileMap e Greenplum;
Fonte: https://under-linux.org/entry.php?b=2603
O algoritmo MapReduce
1. Seleciona os dados de entrada
2. Aplica as duas operações em sequência (MAP/REDUCE)
3. Recupera os dados de saída e obtém a resposta
Dividido em 3 passos
O algoritmo MapReduce
Fonte: Fabiane Nardon, 2013 - QconSP
O algoritmo MapReduce
Fonte: https://under-linux.org/entry.php?b=2603
O algoritmo MapReduce
Fonte: APACHE HADOOP
O que é ???
O framework Hadoop
Fonte: Apache Hadoop
Composto pelos módulos:
• Hadoop Common• Hadoop MapReduce• Hadoop Distributed File System (HDFS)• Hadoop YARN
O framework Hadoop
Fonte: Apache Hadoop
Composto pelos módulos:
•Hadoop Common: The common utilities that support the other Hadoop modules.
• Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
• Hadoop YARN: A framework for job scheduling and cluster resource management.
• Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
O framework Hadoop
57
Agenda
57
1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) Por que o Big Data é diferente ?4) O que vai mudar com o Big Data?5) Por que o termo Big Data está em
evidência?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data e em quê ?
Fonte: INFO, 2014
Cases
Ferramenta Match AnalyticsColeta e Análise de informações de treino e jogos
Analisa desde esquema tático até informação de precisão de chutes
Avalia situações de jogo e predizem o melhor treinamento para cada jogador
Possui interface que facilita o uso inclusive pelos jogadores
Roda sob a plataforma HANA da SAP
De quebra, faz análise de redes sociais analisando sentimento de torcedores com relação ao desempenho da equipe e dos atletas
Fonte: INFO, 2014
Cases
ROLLS ROYCEInclusão de sensores nos motoresInformação em tempo real de peçasVantagem competitiva: Substituição de produto por SERVIÇO
SMART METERS - IBMMedições de consumo de energiaSensores enviam dados em tempo realHábitos de consumo e mudança de estratégias com premiaçãoCriação das chamadas Smart Grids
Fonte: JOYANES, 2013
Cases
GOOGLE - FluTrends
Fonte: GOOGLE
Cases
GOOGLE - FluTrends
Fonte: GOOGLE
Cases
Cases
Cases
Cases
66
Agenda
66
1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) Por que o Big Data é diferente ?4) O que vai mudar com o Big Data?5) Por que o termo Big Data está em
evidência?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data e em quê ?
67
Obrigado !!!
Marcos Luiz Lins Filhowww.facebook.com/marcosluiz.linsfilho
marcoslins@gmail.com
@marcoslinsfilho
Recommended