59
BigData → MapReduce

BigData MapReduce

Embed Size (px)

DESCRIPTION

Apresentação sobre MapReduce e BigData feita pelo LINC (Laboratório de Inteligência Computacional) para a turma de DataMining do PPGE

Citation preview

Page 1: BigData MapReduce

BigData → MapReduce

Page 2: BigData MapReduce

Agenda

Qual a motivação ?Qual a motivação ?

Page 3: BigData MapReduce

Agenda

Page 4: BigData MapReduce

BigData

“Termo de mercado para o conjunto de soluções que analisa informações em

variedadevariedade, volume volume e velocidadevelocidade inéditos até hoje - os três Vs, como chamam os

tecnólogos...”

Page 5: BigData MapReduce

BigData

“No dia a dia, a sociedade gera, em média, mais de 15 petabytes 15 petabytes de

informações sobre as suas operações comerciais e financeiras, bem como sobre

clientes e fornecedores por dia...”

Page 6: BigData MapReduce

BigData

1 Petabyte (PB) = 1 024 TB 1 048 576 GB

1 073 741 824 MB 1 099 511 627 776 kB

1 125 899 906 842 624 (250) Bytes

Page 7: BigData MapReduce

BigData

Não estamos falando de quantidadequantidade de dados e sim de VOLUME DE DADOSVOLUME DE DADOS

Page 8: BigData MapReduce

BigData

Um exemplo prático:

Estamos trabalhando em uma base com volume de dados de aproximadamente

600 Gb

Temos um pouco mais de

85.000.000.000.000.000.000 quintilhões85.000.000.000.000.000.000 quintilhões de registros

Page 9: BigData MapReduce

BigData

Seguindo novos rumos...Seguindo novos rumos...

Page 10: BigData MapReduce

BigData

Page 11: BigData MapReduce

BigData

...conta a história da mais famosa aplicação do conceito: o gerente de um time de

beisebol que usa o Big Data para reunir um elenco de primeira linha sem gastar muito

Page 12: BigData MapReduce

BigData

Page 13: BigData MapReduce

BigData

“A Renner usa o Big Data para monitorar, em tempo realtempo real, o fluxo de mercadorias da loja ao cruzar dados de localização GPS dos

caminhões dos fornecedores com os níveis dos estoques” (Leandro Balbinot - Diretor de TI)

Page 14: BigData MapReduce

BigData

Segundo especialistas o Big Data foi de grande importância para o descobrimento do pré-sal...

Page 15: BigData MapReduce

BigData

…devido a sua velocidadevelocidade, que agilizava os processamentos de dados processamentos de dados sísmicos

captados pela sondas que procuram petróleo no fundo do mar.

Como são milhões as variáveismilhões as variáveis, o trabalho exige intermináveis simulaçõesintermináveis simulações de

imagens, e só o Big DataBig Data é capaz de dar conta do trabalho em um tempo melhortempo melhor.

Page 16: BigData MapReduce

BigData

No último “Fórum Econômico Mundial”

Page 17: BigData MapReduce

BigData

No último “Fórum Econômico Mundial”

Page 18: BigData MapReduce

BigData

No último Fórum Econômico Mundial...

"Big Data, grande impacto: novas Big Data, grande impacto: novas possibilidades para o desenvolvimento possibilidades para o desenvolvimento

internacionalinternacional"

…mostra como o Big Data pode ser uma arma contra problemas sócio-econômicos

Page 19: BigData MapReduce

BigDataConhecimento Estratégico...Conhecimento Estratégico...

Page 20: BigData MapReduce

BigData

Caso de negócio:

O McKinsey Global Institute McKinsey Global Institute publicou recentemente um relatório sobre as

oportunidades de negóciosnegócios e do governogoverno ao usar BigDataBigData.

“Big Data: The Next Frontier for Innovation, Competition and Productivity”

Page 21: BigData MapReduce

BigData

De acordo com a McKinsey, o uso de BigGataBigGata está se tornando uma forma

essencial para as principais empresas a superarem seus concorrentesconcorrentes.

Page 22: BigData MapReduce

BigData

"Nós estimamos que um revendedor com o apoio de BigData tem o potencial de

aumentar a sua margem operacional em mais de 60%”

Page 23: BigData MapReduce

BigData

“Big DataBig Data cria valor para as empresas descobrindo padrões descobrindo padrões e relacionamentos relacionamentos entre dadosentre dados que antes estavam perdidos não apenas em data warehouses internos,

mas na própria Web, em tuítes, comentários no Facebook e mesmo videos no YouTube.”

Page 24: BigData MapReduce

BigData

Page 25: BigData MapReduce

BigData

Um mercado de US$ 17 bi em 2015Um mercado de US$ 17 bi em 2015

Page 26: BigData MapReduce

BigData

Segundo a consultoria IDC, o mercado global de Big Data crescerá quase 40% ao ano 40% ao ano entre 2010 e 2015entre 2010 e 2015, saltando de US$ 3,2 US$ 3,2

bilhões para US$ 16,9 bilhõesbilhões para US$ 16,9 bilhões.

Page 27: BigData MapReduce

BigData

A tecnologia envolve tanto dinheiro porque soluciona um problema inadiável para a soluciona um problema inadiável para a

economia globaleconomia global.

Se você se sente atordoado atordoado com a enxurrada de posts no seu Twitter, imagine a perda de produtividadeperda de produtividade em uma empresa incapaz de compreender os dados compreender os dados que a

inundam.

Page 28: BigData MapReduce

Ministério das Comunicações

Page 29: BigData MapReduce

Como a internet Estimulou o BigData?Como a internet Estimulou o BigData?

Page 30: BigData MapReduce

Alguns Serviços na Web...

Page 31: BigData MapReduce

Problemáticas

Page 32: BigData MapReduce

Soluções?

MapReduceMapReduce

Page 33: BigData MapReduce

MapReduce

Nos últimos anos, os pesquisadores e desenvolvedores do Google tem implementado centenas de propostas de técnicas e cálculos que processam grandes quantidades de dados brutos e para computar vários tipos de dados derivados, tais como:

● Índices invertidos● Representações diversas da estrutura de gráfico de

documentos● Resumos do número de páginas rastreadas por host● Estatística das consultas mais frequentes em um

determinado dia.

Page 34: BigData MapReduce

MapReduce

– Os cálculos são conceitualmente simples...

– O problema é que os dadosdados de entrada são muito grandesmuito grandes...

● Solução: Distribuir esses cálculos através de centenas ou milhares de máquinas

– Garantir o término em um tempo razoável

Page 35: BigData MapReduce

MapReduce

“Como reação a essa complexidade, foi elaborado uma nova uma nova abstraçãoabstração que nos permite expressar os cálculos simples que estávamos tentando realizar, mas esconde os detalhesdetalhes confusos de paralelizaçãoparalelização, tolerância a falhas de distribuição de dados e tolerância a falhas de distribuição de dados e balanceamento de cargabalanceamento de carga”

Page 36: BigData MapReduce

MapReduce

● A nova abstração é inspirado no 'Map' e 'Reduce' primitivos presentes em Lisp e muitas outras linguagens funcionais.

“Percebemos que a maioria dos nossos cálculos envolvia a aplicação de uma operação de Map para cada "registro" lógico em nossa entrada, a fim de calcular um conjunto de pares intermediários de chave/valor e, em seguida , a aplicação de uma operação de Reduce a todos os valores que partilhavam a mesma chave, a fim de combinar os dados derivados apropriadamente.”

Page 37: BigData MapReduce

MapReduce

As maior contribuição dessa nova abordagem é a implantação de uma simples e poderosa interface que permite a paralelização automática e distribuição da computação em grande escala, combinado com uma implementação desta interface que atinge alta performance em grandes aglomerados de máquinas

Page 38: BigData MapReduce

MapReduce

O cálculo toma um conjunto de pares de entradas de chave/valor, e produz um conjunto de pares de saídas chave/valor.

O usuário que implementa o MapReduce expressa o cálculo como duas funções: Map e Raduce.

Page 39: BigData MapReduce

Reduce

A função Reduce, também escrito pelo usuário, aceita

● uma chave intermediária e um conjunto de valores para essa chave.

● Ela faz uma fusão desses valores em conjunto, para formar um menor conjunto de valores possível.

● Tipicamente apenas zero ou um valor de saída é produzido por um método Reduce.

● Os valores intermédios são fornecidos para a função através de uma iteração. Isto permite-nos lidar com listas de valores que são demasiadamente grandes para caber na memória.

Page 40: BigData MapReduce

MapReduce

O modelo de programação MapReduce tem sido utilizado com sucesso no Google para diversas finalidades. Atribui-se o sucesso a várias razões:

● o modelo é fácil de usar, mesmo para programadores sem experiência com os sistemas paralelos e distribuídos, já que esconde a detalhes da paralelização, tolerância a falhas, otimização de localidade, e balanceamento de carga.

● Uma grande variedade de problemas são facilmente transcritos para o uso do MapReduce.

● É usado para a geração de dados para o serviço de busca do Google, para classificação, para mineração de dados, para aprendizado de máquina e muitos outros sistemas.

Page 41: BigData MapReduce

MapReduce

Exemplo...Exemplo...

Page 42: BigData MapReduce

MapReduce: Exemplos...

Page 43: BigData MapReduce

MapReduce: Exemplos...

Page 44: BigData MapReduce

MapReduce: Exemplos...

Page 45: BigData MapReduce

MapReduce: Exemplos...

Page 46: BigData MapReduce

MapReduce: Exemplos...

Page 47: BigData MapReduce

MapReduce: Exemplos...

Page 48: BigData MapReduce

'

Apache Hadoop

Bancos NoSQL

Cloudera

Page 49: BigData MapReduce

Ferramentas'

Bancos NoSQL (Not Only SQL)

Page 50: BigData MapReduce

Ferramentas'

Hadoop é uma plataforma de software em Java de computação distribuídacomputação distribuída voltada para clusters e processamento de grandes massas de dadosprocessamento de grandes massas de dados.

Foi inspirado pelo MapReduce e GoogleFS (GFS)

É, na pratica, uma combinação de dois projetos separados, que são o Hadoop MapReduce (HMR), que é um framework para processamento paralelo e o Hadoop Distributed File System (HDFS)

Base de muitos serviços em Cloud

Page 51: BigData MapReduce

Ferramentas'

Page 52: BigData MapReduce

Ferramentas

Data Mining?Data Mining?

Page 53: BigData MapReduce

Ferramentas

Aprendizado de máquina escalável Open-Source!!

Outrora domínio exclusivo de acadêmicos e corporações com grandes orçamentos de pesquisa, as aplicações inteligentes que aprendem a partir de dados e contribuição de usuário estão se tornando mais comuns.

Page 54: BigData MapReduce

Ferramentas

Page 55: BigData MapReduce

Ferramentas

Page 56: BigData MapReduce

Ferramentas

São distribuições Linux prontas ao uso para constituir um cluster Hadoop.

Cloudera é hoje uma referência no mundo Hadoop

Page 57: BigData MapReduce

Considerações Finais

●BigData é uma bolha?

●2012 é o ano do BigData

●Indo mais além...

Page 58: BigData MapReduce

Dúvidas?Dúvidas?

Page 59: BigData MapReduce

BigData → MapReduce