64
12ª Conferencia Latino-americana de Software Livre Garimpando com Pentaho Data Mining Palestrante: Marcos Vinicius Fidelis

Palestra garimpando com pentaho data mining latinoware

Embed Size (px)

Citation preview

Page 1: Palestra garimpando com pentaho data mining latinoware

12ª Conferencia Latino-americana de Software Livre

Garimpando com Pentaho Data MiningPalestrante:

Marcos Vinicius Fidelis

Page 2: Palestra garimpando com pentaho data mining latinoware

12ª Conferencia Latino-americana de Software Livre

Palestrante

● Marcos Fidelis é Professor na Universidade Tecnológica Federal do Paraná (UTFPR) e Coordenador da Divisão de Sistemas de Informação na Área Acadêmica da Universidade Estadual de Ponta Grossa (UEPG).

● É graduado em Processamento de Dados e Especialista em Análise e Desenvolvimento de Sistemas Orientado à Objetos pela UEPG, e Especialista em Desenvolvimento de Sistemas Computacionais pela PUC-PR.

● Na UEPG é Analista de Sistemas desde 1991. Na área de software livre, entre outros projetos, liderou a implantação dos Frameworks Grails e JasperReports.

● Na UTFPR é Professor desde 1996, onde atua e orienta nas disciplinas de Banco de Dados, Métodos do Processo Decisório, Sistemas de Apoio à Decisão, Mineração de Dados e Gerenciamento de Sistemas de Informação.

● É membro da comunidade Pentaho Brasil e da Associação Software Livre.org.● Palestrante em eventos de Software Livre como FISL, Flisol, Latinoware, FTSL e

PentahoDay.

Page 3: Palestra garimpando com pentaho data mining latinoware

Introdução● Em um PDV ou em um sítio de vendas, uma grande quantidade de

dados está sendo coletada e armazenada a cada minuto:– Web data, e-commerce– Dados de faturamento– Transações de cartões de crédito ou bancários– Reservas de produtos– Computadores tem se tornado baratos e mais poderosos

● Estas pequenas entradas de dados podem ser muito importantes– (investigação de crimes, retorno de produtos, etc)

● A pressão competitiva no mundo dos negócios é muito grande– Fornecer serviços melhores e customizados para uma clientela (ex: CRM)

Page 4: Palestra garimpando com pentaho data mining latinoware

Source : www.go-gulf.comDate post : May 26, 2015

Page 5: Palestra garimpando com pentaho data mining latinoware

Questões atuais

“Somente persistir os dados já não é mais suficiente para encontrar oportunidades de negócio. Atualmente, é cada vez mais necessário que se tire um proveito maior dos dados.”

“Estamos nos afogando em dados, mas sedentos por informação!”

“Torture os dados até confessarem!”

Page 6: Palestra garimpando com pentaho data mining latinoware

● Tendências que nos levam a um cenário de alta disponibilidade dados– Instituições financeiras, telecomunicações, transações em empresas.

– Dados científicos: astronomia, biologia, etc.

– Dados na Web, Dados em textos, comércio eletrônico, …

– IoT

● Capacidades de coletar/armazenar superaram nossas habilidades de analisar/extrair conhecimento dos dados:– É necessária a aplicação de técnicas/ferramentas que transformem, de maneira

inteligente e automática, os dados disponíveis em informações úteis, que representem conhecimento.

Questões atuais

Page 7: Palestra garimpando com pentaho data mining latinoware

Padrões são a parte chave da Inteligência

● Evolução: os animais mais capazes de encontrar e usar padrões são aqueles com maiores chances de sobreviver.

● Pessoas tem uma habilidade e o desejo de encontrar padrões

● As empresas não oferecem mais espaço para pessoas intuitivas.

● A ciência ajuda a separar padrões válidos de inválidos.

Page 8: Palestra garimpando com pentaho data mining latinoware

Estudo de Caso: e-commerce mau sucedido (KDD Cup 2000)

● Claro que a aplicação de mineração de dados não é garantia de sucesso e durante a bolha da internet de 1999-2000, temos visto muitos exemplos.

● Considere a varejista on-line Gazelle.com, cujo fluxo de cliques e dados de compra foi objeto da Copa KDD 2000 (http://www.ecn.purdue.edu/KDDCUP/ )

● Uma das perguntas era: Caracterizar os visitantes que gastam mais de US $ 12 em uma compra média no sítio

● Os dados incluíram um conjunto de dados de 3.465 compras, 1.831 clientes● Uma análise muito interessante e esclarecedora foi feito por dezenas de

participantes da Copa. O gasto de tempo total foi de milhares de horas, o que teria sido equivalente a milhões de dólares em honorários de consultoria.

● No entanto, as vendas totais de Gazelle.com foram apenas alguns milhares de dólares e nenhuma quantidade de mineração de dados poderia ajudá-los. Nada surpreendentemente, Gazelle.com saiu do negócio em agosto de 2000.

Page 9: Palestra garimpando com pentaho data mining latinoware

Estudo de Caso: e-commerce bem sucedido

● Amazon.com é o maior varejista on -line. Começaram com livros e expandiram para música, eletrônicos e outros produtos.

● Amazon.com tem um grupo de mineração de dados ativo, que se foca na personalização. Por que personalização? Considere uma pessoa que compra um livro (produto) na Amazon.com.

● Tarefa : Recomendar outros livros (e talvez produtos) a esta pessoa, os quais ela é susceptível de comprar.

● Os esforços iniciais da Amazon foram bem sucedidos agrupando clientes baseado em livros comprados.

● Por exemplo, os clientes que compraram "Avanços em Descoberta de Conhecimento e Mineração de Dados " , por Fayyad , Piatetsky - Shapiro, Smyth, e Uthurusamy , também compraram "Data Mining : Ferramentas de Aprendizado de Máquina e técnicas práticas com implementações de Java" , por Witten e Eibe .

● Programas de Recomendação são muito bem sucedido e programas mais avançados estão sendo desenvolvidos.

Page 10: Palestra garimpando com pentaho data mining latinoware

História

● 1900 - Estatística● 1960s - Data Mining = bad activity, data “dredging” ● 1990 - “Data Mining” é bom (Fayyad, 1996)● 2003 - “Data Mining” peaks● 2006 - Google Analytics● 2007 - Business/Data/Predictive Analytics● 2012 - Big Data ● 2013 - Data Science ● 2015 - ??

Page 11: Palestra garimpando com pentaho data mining latinoware

O que é Data Mining● Extração de informações interessantes (não

triviais, implícitas, previamente desconhecidas e potencialmente úteis) ou padrões de dados em grandes bancos de dados.

● Nomes alternativos– Knowledge Discorery in Databases (KDD),

knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business inteligence, etc.

Page 12: Palestra garimpando com pentaho data mining latinoware

Entendendo melhor...● O que não é DM

– Pesquisar um número de telefone em uma lista

– Consultar um serviço de busca web por informações sobre “amazon”

● O que é DM– Certos nomes são mais

frequentes em certas áreas

– Agrupar documentos similares retornados através de um serviço de busca de acordo com seu contexto (amazon florest, amazon.com)

Page 13: Palestra garimpando com pentaho data mining latinoware

Como funciona o Data Mining (DM)?

Como funciona o Knowledge Database Discovery(KDD)?

Descoberta de Conhecimento em Banco de Dados

Page 14: Palestra garimpando com pentaho data mining latinoware

Processo de KDD

Page 15: Palestra garimpando com pentaho data mining latinoware

Knowledge Database Discovery● KDD inclui atividades multidisciplinares (IA, BD, Estatística e

Visualização de Dados)

● Os padrões identificados nos dados devem ser válidos em dados novos e possuir o mesmo grau de confiança. Estes padrões são considerados conhecimento novo

● Um padrão para ser classificado como conhecimento deve ser novo, útil e compreensível, permitindo melhorar o entendimento de um problema ou um procedimento de tomada de decisão

Page 16: Palestra garimpando com pentaho data mining latinoware

Necessidade é a a mãe das invenções

● Problema de Explosão de Dados– Ferramentas de coleta de dados automatizadas e

avançadas tecnologias de banco de dados levaram a quantidades imensas de dados armazenados em bancos de dados, DW e outros repositórios de informações.

● Solução = Data Mining– Extração de conhecimento interessante de grandes

banco de dados

– Regras, regularidades, padrões, restrições.

Page 17: Palestra garimpando com pentaho data mining latinoware

Outras definições para DMÉ um processo de análise de dados a partir de várias perspectivas com o objetivos de sumarizá-los através de informações úteis.

É um processo para descobrir inteligência em armazéns de dados, que está escondida em relatórios e consultas.A inteligência é obtida a partir de padrões e relacionamentos encontrados nos dados:● Fatores internos: preços, localização do

negócio, competências pessoais● Fatores externos: indicadores

econômicos, concorrência, dados demográficos

Mineração de dados é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.

Page 18: Palestra garimpando com pentaho data mining latinoware

O que é Pentaho

● Pentaho é uma suíte de aplicativos de código aberto para inteligência empresarial (BI – Businnes Intelligence ou BA – Businnes Analytics como estão chamando atualmente), desenvolvido em Java.

● A solução cobre as àreas de ETL (Extraction, Transformation and Load), reporting, OLAP e mineração de dados (data-mining).

● Desenvolvido desde 2004 pela Pentaho Corporation o software foi considerado uma das melhores aplicações para inteligência empresarial em 2008 pela InfoWorld.

Page 19: Palestra garimpando com pentaho data mining latinoware

Módulos Pentaho

Page 20: Palestra garimpando com pentaho data mining latinoware

Componentes do Pentaho● Pentaho Data Integration: também conhecido como Kettle, é uma ferramenta de código aberto para

extração, transformação e carga (ETL) de dados. Empresas tem recorrido a esta ferramenta para integrar diferentes sistemas devido a sua versatilidade, mas isso veremos mais a frente.

● BA Server – Pentaho Analysis Services: também conhecido como Mondrian OLAP server, é uma ferramenta de código aberto para gerenciamento dos cubos OLAP. Com abordagem moderna, simplificada e interativa o BA Server permite aos usuários de negócios acessar, descobrir e cruzar quaisquer tipos de dados, independentemente do seu tamanho.

● Pentaho Reporting Designer: derivado do projeto JFreeReport é um aplicativo para geração de relatórios ad-hoc. Você pode gerar relatórios nos mais diversos formatos incluindo PDF, Excel, HTML, XML e CSV.

● Pentaho Data Mining: derivado do projeto Weka, um conjunto de ferramentas relacionadas com a mineração de dados.

● Pentaho DashBoard / C*Tools: Ferramenta desenvolvida pela WebDetails para criação de painéis de indicadores de performance.

● Pentaho Aggregation Designer: Interface simples que permite criar e disponibilizar tabelas agregadas para aprimorar a performance de suas consultas OLAP (Mondrian)

● Schema Workbench: O Schema Workbench permite a você criar e testar visualmente os cubos OLAP do Mondrian.

● Metadata Editor: Ferramenta para simplificar a experiência de criar relatórios.● Pentaho Marketplace: Permite administradores do Pentaho a explorarem e testarem plugins que são mais

relevantes para eles. Com ele é possível baixar e instalar plugins desenvolvidos pela comunidade Pentaho e assim estender as capacidades da ferramenta.

Page 21: Palestra garimpando com pentaho data mining latinoware
Page 22: Palestra garimpando com pentaho data mining latinoware

Onde utilizar DM?● Quanto mais direcionados os anúncios, mais eficaz você

pode ser● Buscando padrões úteis em dados de vendas, políticas

públicas, medicina, seguros, esportes e etc.● Analisar os dados de sensores, IoT.

Page 23: Palestra garimpando com pentaho data mining latinoware

Problemas adequados para DM

● Requerem decisões baseadas em conhecimento;● Ambiente dinâmico (dados novos);● Existem métodos sub-ótimos;● Há dados acessíveis, relevantes e em quantidade

suficiente;● Proporcionam recompensas elevadas pelas decisões

corretas;● Privacidade é um assunto importante.

Page 24: Palestra garimpando com pentaho data mining latinoware

Principais técnicas de Mineração de Dados● Métodos Preditivos

– Classificação

– Regressão

– Detecção de desvios

● Métodos Descritivos– Agrupamento

– Associação

– Descoberta de Padrões Sequenciais

Page 25: Palestra garimpando com pentaho data mining latinoware

Pentaho Data Mining (PDM)

● Explorer: testar classificadores/filtros

● Experimenter: Comparação de desempenho

● KnowledgeFlow: Interface gráfica

● SimpleCli: Interface de linha de comando

Page 26: Palestra garimpando com pentaho data mining latinoware

História

● 1992 – submissão do projeto ao governo de NZ (Ian Witten)

● 1993 – aprovado pelo governo● 1994 – Primeira versão (principalmente em C)● 1996 – Primeira versão pública – WEKA 2.1● 1997 – Convertido para Java● 1998 – WEKA 3 (completamente Java)● 2006 – O projeto foi incorporado ao Pentaho

Page 27: Palestra garimpando com pentaho data mining latinoware

O que tenho disponível?

● 100+ algoritmos de classificação● 75 para pré-processamento de dados● 25 para apoiar o processo de Seleção de Atributos● 20 para agrupamento, regras de associação, etc

● E muitas outras contribuições como Artificial Immune Systems, Ant Colony e Genetic Algorithms

Page 28: Palestra garimpando com pentaho data mining latinoware

Onde buscar dados para mineração de dados?

Page 29: Palestra garimpando com pentaho data mining latinoware

Machine Learning Repository

Page 30: Palestra garimpando com pentaho data mining latinoware

dados.gov.br

Page 31: Palestra garimpando com pentaho data mining latinoware

data.rio

Page 32: Palestra garimpando com pentaho data mining latinoware

Exemplo de Arquivo ARFF% 1. Title: Iris Plants Database

%

% 2. Sources:

% (a) Creator: R.A. Fisher

% (b) Donor: Michael Marshall (MARSHALL%[email protected])

% (c) Date: July, 1988

%

@RELATION iris

@ATTRIBUTE sepallength NUMERIC

@ATTRIBUTE sepalwidth NUMERIC

@ATTRIBUTE petallength NUMERIC

@ATTRIBUTE petalwidth NUMERIC

@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}

@DATA

5.1,3.5,1.4,0.2,Iris-setosa

4.9,3.0,1.4,0.2,Iris-setosa

4.7,3.2,1.3,0.2,Iris-setosa

4.6,3.1,1.5,0.2,Iris-setosa

5.0,3.6,1.4,0.2,Iris-setosa

5.4,3.9,1.7,0.4,Iris-setosa

● @relation <relation-name>● @attribute <attribute-name> <datatype>

– numeric– <nominal-specification>

– string

– date [<date-format>]

– Ex: @ATTRIBUTE timestamp DATE "yyyy-MM-dd HH:mm:ss"

● Sparse ARFF files– @data– 0, X, 0, Y, "class A"

0, 0, W, 0, "class B"

– @data

– {1 X, 3 Y, 4 "class A"} {2 W, 4 "class B"}

Page 33: Palestra garimpando com pentaho data mining latinoware

Como trabalhar com a alta dimensionalidade dos dados?

● Seleção de Atributos– Realizada no pré-processamento dos dados

– Usada para investigar quais atributos (subconjuntos deles) são mais preditivos

– 2 etapas:● Um método de busca● Um método de avaliação

– Flexibilidade: (quase) qualquer combinação de busca/avaliação

Page 34: Palestra garimpando com pentaho data mining latinoware

Limitações

● Algoritmos tradicionais precisam ter todos os dados na memória

● Solução– Incremental schemes

– Stream algorithms

– MOA (Massive Online Analysis) ● http://moa.cs.waikato.ac.nz/

Page 35: Palestra garimpando com pentaho data mining latinoware

ETL utilizando PDI – dados para o PDM

Page 36: Palestra garimpando com pentaho data mining latinoware

Agrupamento (Clustering)

Encontrar grupos naturais de exemplos

(dados não rotulados)

Page 37: Palestra garimpando com pentaho data mining latinoware

Classificação

Ponto de classe desconhecida que se deseja prever

Dado um conjunto de pontos das classes conhecidas: (V)erde e (A)zul. Qual é a classe para o novo ponto (D)esconhecido?

Objetivo: Dado um conjunto de exemplos pré-classificados, construir um modelo (Classificador) para classificar novos casos.Um classificador pode ser um conjunto de regras, uma árvore de decisão, uma rede neural, etc.

Page 38: Palestra garimpando com pentaho data mining latinoware

Construindo um modelo (classificador)

Dataset de exemplos classificados para construir um modelo que classifica novos exemplos

Page 39: Palestra garimpando com pentaho data mining latinoware

Weka – Explorer

Page 40: Palestra garimpando com pentaho data mining latinoware

Visualização Gráfica

Page 41: Palestra garimpando com pentaho data mining latinoware

Avaliando cada atributo

Page 42: Palestra garimpando com pentaho data mining latinoware

Classificador ZeroRO classificador ZeroR prevê a classe mais frequente para atributos categóricos e a média para Atributos numéricos. Útil para servir de “baseline” para avaliação de outros classificadores.

Page 43: Palestra garimpando com pentaho data mining latinoware

Classificador OneR

● É uma árvore de decisão de um nível, ou seja, regras que utilizam um atributo particular (1993)

Page 44: Palestra garimpando com pentaho data mining latinoware

Classificador Bayes

● Oposto do OneR: utiliza todos os atributos e regras Bayes para estimar a probabilidade de uma classe para uma instância

● Naive Bayes tem um desempenho muito bom● Pode ser prejudicado por muitos atributos

redundantes

Page 45: Palestra garimpando com pentaho data mining latinoware

Classificador J48 (C4.5) Árvore de Decisão

Page 46: Palestra garimpando com pentaho data mining latinoware

Classificadores: Árvores de decisão

if X > 5 then blueelse if Y > 3 then blueelse if X > 2 then greenelse blue

Page 47: Palestra garimpando com pentaho data mining latinoware

Classificadores: Redes Neurais

Podem selecionar regiões mais complexasPodem ser mais precisasPodem se ajustar aos dados - encontrar padrões em dados com ruído

Page 48: Palestra garimpando com pentaho data mining latinoware

Outras abordagens para classificadores

● Rules● Genetic Algorithms● Ensemble● E muitos outros

Page 49: Palestra garimpando com pentaho data mining latinoware

Output source code

Page 50: Palestra garimpando com pentaho data mining latinoware

Como avaliar classificadores?

● Acurácia● Custo/benefício total – quando diferentes erros

envolvem diferentes custos● Curvas de Lift e ROC● Erro em predições numéricas

A questão é estimar quanto confiável são os resultados previstos?

Page 51: Palestra garimpando com pentaho data mining latinoware

Experimenter● permite a comparação de diferentes estratégias de

aprendizagem.● Para problemas de classificação e regressão● Resultados escritos em um arquivo ou base de dados● Opções de avaliação: cross-validation, curva de

aprendizagem, hold-out● Pode ser executado com diferentes configurações de

parâmetros● Teste de significância acoplado

Page 52: Palestra garimpando com pentaho data mining latinoware

Experimenter

Page 53: Palestra garimpando com pentaho data mining latinoware

Experimenter

Page 54: Palestra garimpando com pentaho data mining latinoware

Mudando o jeito de gerenciar o negócio● Uma fase do negócio é o BI

utilizando ETL e ferramentas analíticas para suporte a decisão.

● Outra fase é utilizar o BI antes de acontecer os problemas, prever problemas, e/ou utilizar os sistemas de apoio a decisão baseados em aprendizagem de máquina junto aos sistemas transacionais.

Linha 1 Linha 2 Linha 3 Linha 4

0

2

4

6

8

10

12

Coluna 1

Coluna 2

Coluna 3

Page 55: Palestra garimpando com pentaho data mining latinoware

Big Data● 2a Revolução Industrial● Executar velhas atividades melhor● Criar novos negócios e atividades

Page 56: Palestra garimpando com pentaho data mining latinoware

Executar melhor velhas atividades

● Áreas de aplicação– marketing direto / modelagem Cliente

– previsão– recomendações– Detecção de fraude– Segurança / Inteligência

● Melhorias são reais, mas são limitadas pela aleatoriedade humana

● Concorrência irá nivelar empresas

Page 57: Palestra garimpando com pentaho data mining latinoware

Aspectos negativos

● Como toda a tecnologia, cabe ao usuário, utilizá-la de uma forma positiva ou negativa

● DM pode ser usado negativamente nas áreas:– Social

– Ética

– Legal

● Problema principal: privacidade– Informações estão sendo armazenadas sem o

consentimento do consumidor

Page 58: Palestra garimpando com pentaho data mining latinoware

● Analytics on-demand, analytics in the cloud.● BI (Business Intelligence), Database and

OLAP software● Bioinformatics and Pharmaceutical solutions● CRM (Customer Relationship Management)● Data Providers, Data Cleansing (Cleaning)

Tools● eCommerce solutions● Education, using predictive analytics and

data mining to improve learning.● Email analysis, response, and marketing● Fraud Detection solutions● Healthcare Analytics solutions● Human Resources and Staff Analytics

solutions● Knowledge Management and News● Marketing solutions, including real-time,

email, web, and affiliate marketing

Em que área trabalhar?● Music Discovery and Music Data Mining.● Personalization solutions● Privacy software and solutions● Real-Time Analytics and Decisioning solutions● Retail solutions● Risk Analysis and Credit Scoring● Security and Intelligence solutions.● Sports and Entertainment● Stock and Investment Analysis and Prediction● Survey creation and analysis● Telecom● Travel sites and solutions● Twitter Analytics sites and solutions.● Web Advertising● Web Mining, Web Content Mining

Page 59: Palestra garimpando com pentaho data mining latinoware

Como aprender Data Mining

● Linguagens: Aprenda R, Python e SQL● Ferramentas: aprenda como usar ferramentas de visualização e de

mineração de dados● Literatura: leia textos introdutórios para compreender os

fundamentos● Educação: assista webminars, faça cursos, e considere uma

certificação ou graduação em ciência de dados● Dados: verifique recursos de dados disponíveis e encontre algo lá● Competições: participe de competições de mineração de dados● Interaja com outros cientistas de dados, através de redes sociais,

grupos e conferências

Page 60: Palestra garimpando com pentaho data mining latinoware

Onde conseguir mais informações?

● http://weka.pentaho.com/ ● http://www.cs.waikato.ac.nz/ml/weka/ ● Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka

– http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf ● Data Mining: Practical Machine Learning Tools and Techniques, Third

Edition (The Morgan Kaufmann Series in Data Management Systems)● KDnuggets

– news, software, jobs, courses,…– www.KDnuggets.com

● ACM SIGKDD – data mining association– www.acm.org/sigkdd

Page 61: Palestra garimpando com pentaho data mining latinoware

Cursos

Page 62: Palestra garimpando com pentaho data mining latinoware

12ª Conferencia Latino-americana de Software Livre

Você não está sozinho! Esta é a comunidade Pentaho no Brasil.

http://www.pentahobrasil.com.br

https://www.facebook.com/pentahobrasil

Page 63: Palestra garimpando com pentaho data mining latinoware

Dúvidas?

Obrigado a todos!

Prof. Marcos Vinicius [email protected]

Page 64: Palestra garimpando com pentaho data mining latinoware

Tópico

12ª Conferencia Latino-americana de Software Livre

Texto do tópico ou assunto