90
Big Data e Data Science Admirável Mundo Novo Prof. Ms. Petrônio Cândido L. Silva

Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Embed Size (px)

Citation preview

Page 1: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Big Data e Data Science

Admirável Mundo NovoProf. Ms. Petrônio Cândido L. Silva

Page 2: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

1. O que são dados?

2. O que é Big Data?

3. E o poder de processamento?

4. O que é Data Science?

5. E o cientista de Dados?

6. Conclusão!

Agenda

Page 3: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

O que são dados?

Page 4: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

O que são dados?

DADOS ● Simples / Escalar

INFORMAÇÃO ● Combinação de dados

CONHECIMENTO ● Combinação de informações

Page 5: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Categorias de Dados

Estruturado Semi-Estruturado Não Estruturado

Estrutura Rígida

Atributos Fixos

Tamanhos Fixos

Integriadade e Consistencia

Estrutura Flexível Sem

Estrutura Atributos Variáveis

Tamanhos Variáveis

Page 6: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Tipos de Dados Estruturados

Quantitativo Qualitativo

Contínuo

Discreto

Ordinal

Cardinal

Nominal

Ordinal

Page 7: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Categorias de Dados

Estruturado Semi-Estruturado Não Estruturado

Bancos de Dados

Tabelas

Planilhas de Cálculo

E-mail

Texto

Som

Imagem

Page 8: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Semântica dos Dados

Fonte: http://okfn.de/blog/2015/04/gespraechskreis-digitalisierung-open-data/

Page 9: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Composição da Informação

Quem ?

Onde ?

Quando ?

Como ?

Quanto ?

Por quê ?

O quê ?

Page 10: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

O macro processo da informaçãoSistemas de

ProduçãoBD

Operacional

Data Warehouse

RelatóriosCubos

DashboardsData Mining

Clientes Funcionários

DADOS

DECISÃO

INFORMAÇÃO

DADOS

INFORMAÇÃO

CONHECIMENTO

PlanejamentoMetasPromoções

OfertasPromoçõesetc

Gerentes

Page 11: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Dado

Dado

Dado

Informação Informação

Dado

Dado

Dado

Conhecimento

Page 12: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Fonte: http://jp4.r0tt.com/l_5013ce00-5c4a-11e1-ba5f-a9c495600004.jpg

Page 13: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Tamanho dos DadosUnidade Conversão O que representa

Bit 0 ou 1

Byte (B) 8 bits Uma letra

Kilobyte (KB) 1024 bytes Um parágrafo de texto

Megabyte (MB) 1024 Kb Um livro, uma música de 2 min

Gigabyte (GB) 1024 Mb 40 minutos de filme em qualidade de DVD

Terabyte (TB) 1024 Gb Três semanas e meia de vídeo de alta qualidade,

Petabyte (PB) 1024 Tb ???

Exabyte (EB) 1024 Pb ???

Zetabyte (ZB) 1024 Eb ???

Page 14: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Page 15: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Custo por Tamanho dos Dados

Fonte: http://www.techtudo.com.br/artigos/noticia/2013/04/do-disquete-ao-pendrive-veja-evolucao-do-armazenamento-movel.html

Page 16: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Page 17: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Page 18: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Custo do Armazenamento Hoje

Mídia Custo Médio por GB (R$)

Pendrive 2,50

SSD 2,60

Disco Rígido 0,37

Cloud 0,03 (mês)

Page 19: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Velocidade de comunicação

Velocidade 1 Segundo 1 Minuto 1 Hora

bits por segundo (bps) 1 7.5 B 450 B

Kilobits por segundo (Kbps) 125 B 7.3 KB 439 KB

Megabits por segundo (Mbps) 122 KB 7.3 MB 439 MB

Gigabits por segundo (Gbps) 119 MB 6,9 GB 414 GB

Fonte: http://www.wu.ece.ufl.edu/links/dataRate/DataMeasurementChart.html

Page 20: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Velocidade dos DadosDispositivo Velocidade Segundo Ano

Modem 56 K 56 Kbps 6,8 KB 1998

ADSL Até 8 Mbps 976 KB 1999

Cable Modem Até 52 Mbps 6,3 MB 2001

Ethernet 100Mbps 12,5 MB 1995

Gigabit Ethernet 1 Gbps 125 MB 1998

Wireless 108 Mbps 13,5 MB 2003

3G 384 Kbps 48 KB 2002

Page 21: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Custo por Velocidade dos DadosMeio Velocidade Custo Mensal por Mbps

Celular 3G 1 Mbps 30,00

ADSL 1 Mbps 44,00

Cabo 1 Mbps 40,00

Fibra 15 Mbps 75,00

Wireless

Page 22: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Novas Fontes de Dados

Page 23: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Novas Fontes de Dados

● Por quê?○ Monitoramento da marca;

○ Monitoramento de campanhas de marketing;

○ Relacionamento com o consumidor;

○ Análise de tendências (trending topics);

○ ...

Page 24: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

● 4 milhões de buscas no Google

● 2,5 milhões de posts no

Facebook

● 300 mil posts no Twitter

Data Explosion

● 220 mil fotos no Instagram

● 72 horas de vídeo no Youtube

● 50 mil downloads de aplicativos

na Apple Store

● 200 milhões de e-mails

O que acontece em 1 minuto na Internet?

Fonte: http://aci.info/2014/07/12/the-data-explosion-in-2014-minute-by-minute-infographic/

Page 25: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Page 26: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Page 27: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Internet das Coisas (IoT)

● Diversos sensores coletando dados

automaticamente;

● Dados são enviados para a internet e

armazenados;

● Usuário é alertado sobre os dados;

Page 28: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Page 29: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Page 30: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Page 31: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Internet das Coisas (IoT)

● Sensores ● GPS● Climáticos

○ Temperatura○ Umidade○ Precipitação○ Velocidade do Vento

● Luminosidade

● Timer● Biométricos

○ Pressão○ Temperatura

Corporal○ BPM

● Carros

Page 32: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Fonte: https://securityledger.com/2014/04/will-ot-big-data-create-darwinian-struggle-for-insurance-carriers/

Page 33: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Dados Abertos (Open Data)

Disponibilizar arquivos de dados:

● Completos● Primários● Atuais● Acessíveis

● Tratáveis por computador

● Sem discriminação● Sem propriedade● Sem licença

Page 34: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Dados Abertos (Open Data)

● Existência○ Os dados devem estar disponíveis e indexados na web!

● Aproveitamento○ Os dados devem estar em formato utilizável por computador!

● Utilidade○ Os dados devem estar livres de restrições jurídicas!

Page 35: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Dados Abertos Governamentais

● Lei de Acesso à Informação (LAI)○ http://dados.gov.br/○ http://www.portaltransparencia.gov.br/○ http://www.transparencia.mg.gov.br/○ http://www.ifnmg.edu.br/acessoainformacao/sobre-

o-acesso-a-informacao○

Page 36: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Dados Abertos Científicos

● http://br.okfn.org/● http://www.nature.com/sdata/● http://blog.visual.ly/data-sources/●

Page 37: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Novo cenário

Dados

GovernoSistemas Emp

Social Media

E-mail, arquivos, etc

Máquinas e sensores

Page 38: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Novo cenário

● Todos os dados○ Formatos diferentes entre si;○ Gerados em velocidades distintas;○ Validades diferentes;○ Relacionados ou não.

Page 39: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Page 40: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

http://www.priv.gc.ca/information/ar/images/cartoon3.jpg

Page 41: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Valor e Depreciação

● Alguns dados sofrem depreciação○ Têm dada de validade○ Custo de Oportunidade

Depois de coletados e armazenados os dados devem rapidamente serem transformados em

informação para ser consumida!

Page 42: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Impacto da Informação

Exclusividade

Novidade

Completude

Utilidade

Page 43: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Visualização da Informação

● Relatórios● Gráficos● Indicadores de Desempenho● Painéis de Controle (Dashboards)● Infográficos e Data Storytelling

Page 45: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

http://www.kdnuggets.com/images/big-data-cartoon-100000-warehouses.jpg

Page 46: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Big Data

Page 47: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Big Data

● Buzzword da moda...● Quando o tamanho do dados faz parte do

problema!● Alta Dimensionalidade

○ Entidades / Atributos / Instâncias

Page 48: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Big Data

Page 49: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Big Data● 4 V's (Stapleton, 2011)

○ Volume■ Terabytes para Petabytes de dados

○ Velocidade■ Fluxo contínuo e rápido de novos dados

○ Variedade■ Dados estruturados, semi e não estruturados

○ Veracidade■ Governança de dados e qualificação entre

Consistente, Inconsistente, Incompleto, Ambíguo, ...

Page 50: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Fonte: https://devcentral.f5.com/blogs/us/the-four-v-rsquos-of-big-data

Page 51: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Big Data

Fonte: http://sweetlysocial.net/big-data-better-marketing/

Page 52: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Big Data● Exemplos

○ Social Media○ Web Logs○ Sensor Networks○ Cadeias de DNA○ LHC

Page 53: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

E o poder de processamento?

Page 54: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

E o poder de processamento???

● Supercomputadores ???○ $$$ #Fail

● Multicomputadores !!!○ $$$ :-)

Page 55: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

E o poder de processamento???

● Multicomputadores○ Cluster

■ SIMD - Single Instruction Multiple Data■ Rede Local

○ Grid■ MIMD - Multiple Instruction Multiple Data■ Distribuição geográfica

Page 56: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

E o poder de processamento???

● Cluster = Dividir para Conquistar○ Sharding

■ Sistema de Arquivos Distribuídos■ Dividir os dados

○ Map/Reduce■ Processamento Distribuído & Paralelo■ Dividir o processamento

Page 57: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Cluster

● Vantagens○ Alto Desempenho

○ Alta Disponibilidade

○ Flexibilidade

○ Custo

Page 58: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Sharding

● Particionamento Horizontal Replicado

○ O total de dados é dividido em vários partes

pequenas (shards - cacos);

○ As partes são divididas entre vários computadores

○ Cada parte tem pelo menos 3 cópias em

computadores diferentes (segurança)

Page 59: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Sharding

Comp 1 Comp 2 Comp 3 Comp 4 Comp N

...

Master

Dados

Índice

AB

DadosCD

DadosAC

DadosBD

DadosAD

Page 60: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Map/Reduce: Processamento Distribuído

● Essas tarefas são executadas em duas

etapas:○ Mapeamento

○ Redução

Page 61: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Map/Reduce: Processamento Distribuído

● Etapa de Mapeamento○ O processamento total é dividido em pequenas

tarefas○ As tarefas são enviadas para os computadores

executarem nos dados locais○ Cada computador envia o resultado para o

computador central

Page 62: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Mapeamento

Comp 1

Proc.

Comp 2

Proc.

Comp 3

Proc.

Comp 4

Proc.

Comp N

Proc....

Master

Geren

Dados Dados Dados DadosDados

Índice

Page 63: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Map/Reduce: Processamento Distribuído

● Etapa de Redução

○ O computador central recebe o resultado do

processamento dos outro computadores

○ Os resultados individuais são combinados em um

resultado único

Page 64: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Redução

Comp 1

Proc.

Comp 2

Proc.

Comp 3

Proc.

Comp 4

Proc.

Comp N

Proc....

Master

Geren

Dados Dados Dados DadosDados

Índice

Page 65: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Cluster

Comp 1

Proc.

Comp 2

Proc.

Comp 3

Proc.

Comp 4

Proc.

Comp N

Proc....

Master

Geren

Dados Dados Dados DadosDados

Índice

Page 66: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Até aqui...

● Tenho muitos dados○ De muitos tipos○ Chegando muito rápido

● Tenho muito poder computacional○ Muitos discos○ Muitos processadores

E o que eu faço com tudo isso???

Page 67: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Data Science

Page 68: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Ciência de Dados● Objetivo

○ Encontrar PADRÕES e TENDÊNCIAS nos dados;

■ Novos

■ Potencialmente úteis

○ Desenvolver tecnologias a partir dos padrões

encontrados.

Page 69: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Análise

Descritiva Preditiva

Diagnóstica Prescritiva

Padrões Tendências

Causas Ações

Page 70: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Data Science

Bancos de DadosProgramação

Estatística

Inteligência Computacional

Cálculo

Metodologia de Pesquisa

Gestão de Projetos

Análise de Negócio

Grafos e Redes

Design

Otimização

Simulação

Álgebra Linear

Page 71: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Data Science

Page 72: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Processos

● KDD - Knowledge Discovery in Databases (Fayyad, Piatetsky-Shapiro, 1996)

● SEMMA (SAS, 2000)○ Sample, Explore, Modify, Model, Assess

● CRISP/DM (Chapman et al., 2000)○ CRoss-Industry Standard Process for Data Mining

Page 73: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Data Mining

(Azevedo, 2008)

Page 74: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Aquisição

Armazenamento

Análise Exploratória

Modelagem Descritiva

Visualização

Transformação

Modelagem Preditiva

Teste e Experimentação Validação Implantação

Seleção

Dados

Limpeza

Problema

Hipóteses

Pré

Proc

essa

men

toPr

oces

sam

ento

Pós

Proc

essa

m.

Page 75: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

PRODUTOS

Pré Processamento

CLUSTER

FONTES

Estrut.

SemiEstrut.

NãoEstrut.

Proc.

Dados

Proc.

Dados

Proc.

Dados

Processamento Pós Processamento

Page 76: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Pré Processamento

PreditivoDescritivo

RegressãoAgrupamento

Associação

Séries Temporais

RecomendaçãoAnálise de Redes

Redes Bayesianas

Árvores de Decisão

Redes Neurais

Ganho de Informação

Correlação

PCA

SVD

SVM

Page 77: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

https://community.jivesoftware.com/docs/DOC-30464

Page 78: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

E o cientista de dados?

Page 79: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

“Pessoa que é melhor em estatística do que um engenheiro de software e melhor em engenharia de software

do que um estatístico”

DJ Patil

Page 80: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Page 81: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Como se tornar um cientista de dados?

Page 82: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Conclusão

Page 83: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Conclusão

● Tudo está conectado!● Nunca antes tivemos tantos dados,

informações e conhecimento sobre tantas coisas;

● Há um vasto leque de possibilidades latentes...

Page 84: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Conclusão

● Data Science○ Mais do mesmo ou novidade?○ Uma nova renascença ou uma onda passageira?

Até onde podemos chegar?O que somos capazes de fazer?

Page 85: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Efeito Borboleta

"Um parafuso mal ajustado na planta de produção de uma fábrica pode causar uma

crise econômica mundial?"

Page 86: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

"Em Deus eu confio.Todos os outros precisam

trazer dados"

William E. Deming

Page 87: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

"Dados são o novo petróleo!"

William E. Deming

Page 88: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Conclusão

Data Warehouse

Big Data

NoSQL

ERP's

WebSocial Media

LogsArquivosE-mail

Intelligence

Analytics

DADOINFORMAÇÃO

CONHECIMENTO

Page 89: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Referências● Azevedo, A.; Santos, M.F. KDD, SEMMA, and CRISP-DM: A Parallel Overview.

Proceedings of the IADIS European Conference on Data Mining, Amsterdam, 2008, pp. 182-185. Disponível em http://recipp.ipp.pt/handle/10400.22/136. Acesso em 28/01/2013.

● Brewer, Eric A.: Towards Robust Distributed Systems. Portland, Oregon, July 2000. – Keynote at the ACM Symposium on Principles of Distributed Computing (PODC). Disponível em http://www.cs.berkeley.edu/~brewer/cs262b-2004/PODC-keynote.pdf Acesso em 27/01/2013.

● Chapman, P. et al. CRISP-DM 1.0 - Step-by-step data mining guide. 2000. Disponível em http://www.crisp-dm.org/CRISPWP-0800.pdf. Acesso em 27/01/2013.

● Chee, Timothy; Chan, Lee-Kwun et al. Business Intelligence Systems: State-of-the-art review and contemporary applications. In Symposium on Progress in Information & Communication Technology 2009. p. 96-101.

● Codd, Edgar F.: A Relational Model of Data for Large Shared Data Banks. In: Communications of the ACM 13 (1970), June, No. 6, p. 377–387

● Dean, J. and Ghemawat, S. MapReduce: simplified data processing on large clusters. Communications of the ACM. p. 107-113. 2008.

Page 90: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG

Referências● Fayyad, U. M. et al. From data mining to knowledge discovery: an overview.

In Fayyad, U. M.et al (Eds.), Advances in knowledge discovery and data mining. AAAI Press / The MIT Press.

● Fayyad, U. and Piatetsky-Shapiro, G. and Smyth, P. The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM v. 39, n. 11, p. 27-34. 1996.

● Inmon, W.H. Building the data warehouse. J. Wiley. 2002.● MacVittie, Lori. The Four V’s of Big Data. Disponível em https://devcentral.f5.

com/blogs/us/the-four-v-rsquos-of-big-data. Acesso em 27/01/2013.● Pritchett, Dan. BASE: An ACID alternative. ACM Queue. 2008. Disponível em

http://queue.acm.org/detail.cfm?id=1394128. Acesso em 27/01/2013.● Kimball, R.; Ross, M. et al. The data warehouse toolkit: the complete guide to

dimensional modelling. New York: 2002.● SAS Institute. SAS Enterprise Miner – SEMMA. Disponível em http://www.sas.

com/technologies/analytics/datamining/miner/semma.html. Acessado em 27/01/2013.

● Stapleton, Lisa K. Taming big data. Disponível em http://www.ibm.com/developerworks/data/library/dmmag/DMMag_2011_Issue2/BigData/index.html?cmp=dw&cpb=dwinf&ct=dwnew&cr=dwnen&ccy=zz&csr=051211. Acesso em 27/01/2013.