Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba

Embed Size (px)

Text of Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba

Treinamento Alfresco ECM - Apresentao Inicial

Big Data Open Source com Hadoop

Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br

Realizao:

Marcio Junior Vieira

14 anos de experincia em informtica, vivncia em desenvolvimento e anlise de sistemas de Gesto empresarial.

Trabalhando com Software Livre desde 2000 com servios de consultoria e treinamento.

Graduado em Tecnologia em Informtica(2004) e ps-graduado em Software Livre(2005) ambos pela UFPR.

Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day.

Fundador da Ambiente Livre.

Ecosistema Ambiente Livre

Colaboraes

Big Data - Muito se fala...

Big Data

um novo conceito se consolidando.

Grande armazenamento de dados e maior velocidade

Os 4 V's

Velocidade , Volume , Variedade e Valor

Volume

Modelos de Persistncia da ordem
de Petabytes, zetabytes
ou yottabyte(YB).

Geralmente dados no
estruturados.

Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10) ou 1180591620717411303424 (2 elevado a 70) Bytes.

Velocidade

Processamento de Dados

Armazenamento

Analise de Dados

Variedade

Dados semi-estruturados

Dados no estruturados

Diferentes fontes

Diferentes formatos

Valor

Tomada de Deciso

Benefcios

Objetivo
do Negcio.

O momento agora

Onde podemos utilizar Big Data ?


?

Sistema de Recomendao

WWW em geral

Redes Sociais

Analise de Risco

Crdito

Seguros

Mercado Financeiro

Dados Espaciais

Clima

Imagens

Trafego

Monitoramento

Big Data X BI

Big Data e uma evoluo do BI, devem caminhar juntos

Data Warehouses so necessrios para armazenar dados estruturadosPreviso:

BI Casos especficos

Big Data Analise geral

Profissionais











Novo profissional: Cientista de Dados

Competncias do Cientista de dados

Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes

De onde ?

Ferramentas de Big Data

Hadoop

O Apache Hadoop um projeto de software open-source escrito em Java. Escalvel, confivel e com processamento distribudo.

Filesystem Distribuido.

Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programao MapReduce)

Utiliza-se de Hardware Comum ( Commodity cluster computing )

Framework para computao distribuda

infraestrutura confivel capaz de lidar com falhas ( hardware, software, rede )

Motivaes Atuais

Grande quantidade ( massiva ) de dados

Dados no cabem em uma mquina

Demoram muito para processar de forma serial

Mquinas individuais falham

Computao nas nuvens

Escalabilidade de aplicaes

Computao sob demanda

A origem do Nome

Segundo Doug Cutting, criador do Hadoop O nome que meu filho deu a um elefante amarelo de pelcia. Curto, relativamente fcil de soletrar e pronunciar, sem sentido, e no usado em outro lugar: esses so os meus critrios de nomeao

Ecosistema

O que HDFS

Hadoop Filesystem

Um sistema de arquivos distribudo
que funciona em grandes aglomerados de
mquinas de commodities.

Caractersticas do HDFS

InspiradoemGFS

Projetado para trabalharcom arquivos muito grandes e grandes volumes

Executado emhardwarecomum

Streaming deacesso a dados

Replicaoe localidade

HDFS

Projetado para escalarapetabytesde armazenamento,e correrem cimados sistemas de arquivosdo sistema operacionalsubjacente.

Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html

HDFS - Replicao

Dados de entrada copiado paraHDFS dividido emblocos e cadablocos de dados replicado paravrias mquinas

MapReduce

um modelo de programao desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes

Programao Distribuda

MapReduce

Voc especifica o map (...) e reduce (...)funesmap = (lista (k, v) -> lista (k, v))

reduce = (k, lista (v) -> k, v)O Framework faz o resto

Dividir os dados

Execute vrios mappers sobre as divises

Embaralhar os dados para os redutores

Execute vrios redutores

Guarde os resultados finais

MapReduce

Map

Reduce

Modos de Operao

Standalone ( Local )

Pseudo-distributed

Fully-distributed

Outros componentes

PIG - linguagem de fluxo de dados
e ambiente de execuo para explorar
grandes conjuntos de dados.Executado no HDFS e grupos MapReduce.

Hive - Armazm de dados (datawarehouse) distribudos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consulta
baseada em SQL para consultar os dados.

Hbase Banco de dados orientada
por colunas distribuda. HBase usa o HDFS
por sua subjacente de armazenamento e suporta
os clculos de estilo lote usando MapReduce e ponto consultas (leituras aleatrias).

Outros componentes

ZooKeeper Servio de coordenao altamente disponvel e distribudo. Fornece funes de bloqueios distribudos que podem ser usados para a construo de aplicaes distribudas.

Sqoop Ferramenta para a movimentao eficiente de dados entre bancos de dados relacionais e HDFS.

Mahout - Aprendizagem de mquina
escalvel, de fcil uso comercial para
a construo de aplicativos inteligentes

Distribuies Hadoop

Open Source
Apache

Comercial
Open Source
- Cloudera
- HortoWorks
- MapR
- AWS MapReduce
- Microsoft HDInsight (beta)

Possibilidades de Uso

DataWareHouse

Business Intelligence

Aplicaes analticas

Mdias Sociais

Sugesto de Compras

Analise preditiva

Compras Coletivas

Recomendaes

Modelo tradicional de Uso

Empresa Usando Hadoop

Amazon

Facebook

Google

IBM

Yahoo

Linkedin

Joost

Last.fm

New York Times

PowerSet

Veoh

Twitter

Ebay

Hadoop no Brasil

Contatos

e-mail:

marcio @ ambientelivre.com.br

http://twitter.com/ambientelivre

@ambientelivre

@marciojvieira

Blogblogs.ambientelivre.com.br/marcio

Facebook/ambientelivre

Convite

Pentaho Day
17 de Maio SP

FTSL - 18 e 19 de Setembro

Software Freedom Day
20 de Setembro.

LimeSurvey

Muokkaa jsennyksen tekstimuotoa napsauttamalla

Toinen jsennystaso

Kolmas jsennystasoNeljs jsennystasoViides jsennystasoKuudes jsennystasoSeitsems jsennystasoKahdeksas jsennystasoYhdekss jsennystaso

Clique para editar o estilo do ttulo mestre

Clique para editar o estilo do subttulo mestre

Clique para editar o estilo do ttulo mestre

Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel

Clique para editar o estilo do ttulo mestre

Clique para editar os estilos do texto mestre

Clique para editar o estilo do ttulo mestre

Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel

Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel

Clique para editar o estilo do ttulo mestre

Clique para editar os estilos do texto mestre

Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel

Clique para editar os estilos do texto mestre

Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel

Clique para editar o estilo do ttulo mestre

Clique para editar o estilo do ttulo mestre

Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel

Clique para editar os estilos do texto mestre

Clique para editar o estilo do ttulo mestre

Clique para editar os estilos do texto mestre

Clique para editar o estilo do ttulo mestre

Clique para editar os estilos do texto mestre

Segundo nvel

Terceiro nvelQuarto nvelQuinto nvel

Clique para editar o estilo do ttulo mestre

Clique para editar os estilos do texto mestre

Segundo nvel

Terceiro nvelQuarto nvelQuinto nvel

Clique para editar o estilo do ttulo mestre

Clique para editar os estilos do texto mestre

Segundo nvel

Terceiro nvel

Quarto nvel

Quinto nvel

03/05/14

Clique para editar o estilo do ttulo mestre

Clique para editar o estilo do subttulo mestre

03/05/14

Clique para editar o estilo do ttulo mestre

Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Quarto nvel
Quinto nvel

03/05/14

Clique para editar o estilo do ttulo mestre

Clique para editar os estilos do texto mestre

03/05/14

Clique para editar o estilo do ttulo mestre

Clique para editar os estilos do texto mestre
Segundo nvel
Terceiro nvel
Q