Palestra garimpando com pentaho data mining latinoware

Preview:

Citation preview

12ª Conferencia Latino-americana de Software Livre

Garimpando com Pentaho Data MiningPalestrante:

Marcos Vinicius Fidelis

12ª Conferencia Latino-americana de Software Livre

Palestrante

● Marcos Fidelis é Professor na Universidade Tecnológica Federal do Paraná (UTFPR) e Coordenador da Divisão de Sistemas de Informação na Área Acadêmica da Universidade Estadual de Ponta Grossa (UEPG).

● É graduado em Processamento de Dados e Especialista em Análise e Desenvolvimento de Sistemas Orientado à Objetos pela UEPG, e Especialista em Desenvolvimento de Sistemas Computacionais pela PUC-PR.

● Na UEPG é Analista de Sistemas desde 1991. Na área de software livre, entre outros projetos, liderou a implantação dos Frameworks Grails e JasperReports.

● Na UTFPR é Professor desde 1996, onde atua e orienta nas disciplinas de Banco de Dados, Métodos do Processo Decisório, Sistemas de Apoio à Decisão, Mineração de Dados e Gerenciamento de Sistemas de Informação.

● É membro da comunidade Pentaho Brasil e da Associação Software Livre.org.● Palestrante em eventos de Software Livre como FISL, Flisol, Latinoware, FTSL e

PentahoDay.

Introdução● Em um PDV ou em um sítio de vendas, uma grande quantidade de

dados está sendo coletada e armazenada a cada minuto:– Web data, e-commerce– Dados de faturamento– Transações de cartões de crédito ou bancários– Reservas de produtos– Computadores tem se tornado baratos e mais poderosos

● Estas pequenas entradas de dados podem ser muito importantes– (investigação de crimes, retorno de produtos, etc)

● A pressão competitiva no mundo dos negócios é muito grande– Fornecer serviços melhores e customizados para uma clientela (ex: CRM)

Source : www.go-gulf.comDate post : May 26, 2015

Questões atuais

“Somente persistir os dados já não é mais suficiente para encontrar oportunidades de negócio. Atualmente, é cada vez mais necessário que se tire um proveito maior dos dados.”

“Estamos nos afogando em dados, mas sedentos por informação!”

“Torture os dados até confessarem!”

● Tendências que nos levam a um cenário de alta disponibilidade dados– Instituições financeiras, telecomunicações, transações em empresas.

– Dados científicos: astronomia, biologia, etc.

– Dados na Web, Dados em textos, comércio eletrônico, …

– IoT

● Capacidades de coletar/armazenar superaram nossas habilidades de analisar/extrair conhecimento dos dados:– É necessária a aplicação de técnicas/ferramentas que transformem, de maneira

inteligente e automática, os dados disponíveis em informações úteis, que representem conhecimento.

Questões atuais

Padrões são a parte chave da Inteligência

● Evolução: os animais mais capazes de encontrar e usar padrões são aqueles com maiores chances de sobreviver.

● Pessoas tem uma habilidade e o desejo de encontrar padrões

● As empresas não oferecem mais espaço para pessoas intuitivas.

● A ciência ajuda a separar padrões válidos de inválidos.

Estudo de Caso: e-commerce mau sucedido (KDD Cup 2000)

● Claro que a aplicação de mineração de dados não é garantia de sucesso e durante a bolha da internet de 1999-2000, temos visto muitos exemplos.

● Considere a varejista on-line Gazelle.com, cujo fluxo de cliques e dados de compra foi objeto da Copa KDD 2000 (http://www.ecn.purdue.edu/KDDCUP/ )

● Uma das perguntas era: Caracterizar os visitantes que gastam mais de US $ 12 em uma compra média no sítio

● Os dados incluíram um conjunto de dados de 3.465 compras, 1.831 clientes● Uma análise muito interessante e esclarecedora foi feito por dezenas de

participantes da Copa. O gasto de tempo total foi de milhares de horas, o que teria sido equivalente a milhões de dólares em honorários de consultoria.

● No entanto, as vendas totais de Gazelle.com foram apenas alguns milhares de dólares e nenhuma quantidade de mineração de dados poderia ajudá-los. Nada surpreendentemente, Gazelle.com saiu do negócio em agosto de 2000.

Estudo de Caso: e-commerce bem sucedido

● Amazon.com é o maior varejista on -line. Começaram com livros e expandiram para música, eletrônicos e outros produtos.

● Amazon.com tem um grupo de mineração de dados ativo, que se foca na personalização. Por que personalização? Considere uma pessoa que compra um livro (produto) na Amazon.com.

● Tarefa : Recomendar outros livros (e talvez produtos) a esta pessoa, os quais ela é susceptível de comprar.

● Os esforços iniciais da Amazon foram bem sucedidos agrupando clientes baseado em livros comprados.

● Por exemplo, os clientes que compraram "Avanços em Descoberta de Conhecimento e Mineração de Dados " , por Fayyad , Piatetsky - Shapiro, Smyth, e Uthurusamy , também compraram "Data Mining : Ferramentas de Aprendizado de Máquina e técnicas práticas com implementações de Java" , por Witten e Eibe .

● Programas de Recomendação são muito bem sucedido e programas mais avançados estão sendo desenvolvidos.

História

● 1900 - Estatística● 1960s - Data Mining = bad activity, data “dredging” ● 1990 - “Data Mining” é bom (Fayyad, 1996)● 2003 - “Data Mining” peaks● 2006 - Google Analytics● 2007 - Business/Data/Predictive Analytics● 2012 - Big Data ● 2013 - Data Science ● 2015 - ??

O que é Data Mining● Extração de informações interessantes (não

triviais, implícitas, previamente desconhecidas e potencialmente úteis) ou padrões de dados em grandes bancos de dados.

● Nomes alternativos– Knowledge Discorery in Databases (KDD),

knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business inteligence, etc.

Entendendo melhor...● O que não é DM

– Pesquisar um número de telefone em uma lista

– Consultar um serviço de busca web por informações sobre “amazon”

● O que é DM– Certos nomes são mais

frequentes em certas áreas

– Agrupar documentos similares retornados através de um serviço de busca de acordo com seu contexto (amazon florest, amazon.com)

Como funciona o Data Mining (DM)?

Como funciona o Knowledge Database Discovery(KDD)?

Descoberta de Conhecimento em Banco de Dados

Processo de KDD

Knowledge Database Discovery● KDD inclui atividades multidisciplinares (IA, BD, Estatística e

Visualização de Dados)

● Os padrões identificados nos dados devem ser válidos em dados novos e possuir o mesmo grau de confiança. Estes padrões são considerados conhecimento novo

● Um padrão para ser classificado como conhecimento deve ser novo, útil e compreensível, permitindo melhorar o entendimento de um problema ou um procedimento de tomada de decisão

Necessidade é a a mãe das invenções

● Problema de Explosão de Dados– Ferramentas de coleta de dados automatizadas e

avançadas tecnologias de banco de dados levaram a quantidades imensas de dados armazenados em bancos de dados, DW e outros repositórios de informações.

● Solução = Data Mining– Extração de conhecimento interessante de grandes

banco de dados

– Regras, regularidades, padrões, restrições.

Outras definições para DMÉ um processo de análise de dados a partir de várias perspectivas com o objetivos de sumarizá-los através de informações úteis.

É um processo para descobrir inteligência em armazéns de dados, que está escondida em relatórios e consultas.A inteligência é obtida a partir de padrões e relacionamentos encontrados nos dados:● Fatores internos: preços, localização do

negócio, competências pessoais● Fatores externos: indicadores

econômicos, concorrência, dados demográficos

Mineração de dados é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.

O que é Pentaho

● Pentaho é uma suíte de aplicativos de código aberto para inteligência empresarial (BI – Businnes Intelligence ou BA – Businnes Analytics como estão chamando atualmente), desenvolvido em Java.

● A solução cobre as àreas de ETL (Extraction, Transformation and Load), reporting, OLAP e mineração de dados (data-mining).

● Desenvolvido desde 2004 pela Pentaho Corporation o software foi considerado uma das melhores aplicações para inteligência empresarial em 2008 pela InfoWorld.

Módulos Pentaho

Componentes do Pentaho● Pentaho Data Integration: também conhecido como Kettle, é uma ferramenta de código aberto para

extração, transformação e carga (ETL) de dados. Empresas tem recorrido a esta ferramenta para integrar diferentes sistemas devido a sua versatilidade, mas isso veremos mais a frente.

● BA Server – Pentaho Analysis Services: também conhecido como Mondrian OLAP server, é uma ferramenta de código aberto para gerenciamento dos cubos OLAP. Com abordagem moderna, simplificada e interativa o BA Server permite aos usuários de negócios acessar, descobrir e cruzar quaisquer tipos de dados, independentemente do seu tamanho.

● Pentaho Reporting Designer: derivado do projeto JFreeReport é um aplicativo para geração de relatórios ad-hoc. Você pode gerar relatórios nos mais diversos formatos incluindo PDF, Excel, HTML, XML e CSV.

● Pentaho Data Mining: derivado do projeto Weka, um conjunto de ferramentas relacionadas com a mineração de dados.

● Pentaho DashBoard / C*Tools: Ferramenta desenvolvida pela WebDetails para criação de painéis de indicadores de performance.

● Pentaho Aggregation Designer: Interface simples que permite criar e disponibilizar tabelas agregadas para aprimorar a performance de suas consultas OLAP (Mondrian)

● Schema Workbench: O Schema Workbench permite a você criar e testar visualmente os cubos OLAP do Mondrian.

● Metadata Editor: Ferramenta para simplificar a experiência de criar relatórios.● Pentaho Marketplace: Permite administradores do Pentaho a explorarem e testarem plugins que são mais

relevantes para eles. Com ele é possível baixar e instalar plugins desenvolvidos pela comunidade Pentaho e assim estender as capacidades da ferramenta.

Onde utilizar DM?● Quanto mais direcionados os anúncios, mais eficaz você

pode ser● Buscando padrões úteis em dados de vendas, políticas

públicas, medicina, seguros, esportes e etc.● Analisar os dados de sensores, IoT.

Problemas adequados para DM

● Requerem decisões baseadas em conhecimento;● Ambiente dinâmico (dados novos);● Existem métodos sub-ótimos;● Há dados acessíveis, relevantes e em quantidade

suficiente;● Proporcionam recompensas elevadas pelas decisões

corretas;● Privacidade é um assunto importante.

Principais técnicas de Mineração de Dados● Métodos Preditivos

– Classificação

– Regressão

– Detecção de desvios

● Métodos Descritivos– Agrupamento

– Associação

– Descoberta de Padrões Sequenciais

Pentaho Data Mining (PDM)

● Explorer: testar classificadores/filtros

● Experimenter: Comparação de desempenho

● KnowledgeFlow: Interface gráfica

● SimpleCli: Interface de linha de comando

História

● 1992 – submissão do projeto ao governo de NZ (Ian Witten)

● 1993 – aprovado pelo governo● 1994 – Primeira versão (principalmente em C)● 1996 – Primeira versão pública – WEKA 2.1● 1997 – Convertido para Java● 1998 – WEKA 3 (completamente Java)● 2006 – O projeto foi incorporado ao Pentaho

O que tenho disponível?

● 100+ algoritmos de classificação● 75 para pré-processamento de dados● 25 para apoiar o processo de Seleção de Atributos● 20 para agrupamento, regras de associação, etc

● E muitas outras contribuições como Artificial Immune Systems, Ant Colony e Genetic Algorithms

Onde buscar dados para mineração de dados?

Machine Learning Repository

dados.gov.br

data.rio

Exemplo de Arquivo ARFF% 1. Title: Iris Plants Database

%

% 2. Sources:

% (a) Creator: R.A. Fisher

% (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)

% (c) Date: July, 1988

%

@RELATION iris

@ATTRIBUTE sepallength NUMERIC

@ATTRIBUTE sepalwidth NUMERIC

@ATTRIBUTE petallength NUMERIC

@ATTRIBUTE petalwidth NUMERIC

@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}

@DATA

5.1,3.5,1.4,0.2,Iris-setosa

4.9,3.0,1.4,0.2,Iris-setosa

4.7,3.2,1.3,0.2,Iris-setosa

4.6,3.1,1.5,0.2,Iris-setosa

5.0,3.6,1.4,0.2,Iris-setosa

5.4,3.9,1.7,0.4,Iris-setosa

● @relation <relation-name>● @attribute <attribute-name> <datatype>

– numeric– <nominal-specification>

– string

– date [<date-format>]

– Ex: @ATTRIBUTE timestamp DATE "yyyy-MM-dd HH:mm:ss"

● Sparse ARFF files– @data– 0, X, 0, Y, "class A"

0, 0, W, 0, "class B"

– @data

– {1 X, 3 Y, 4 "class A"} {2 W, 4 "class B"}

Como trabalhar com a alta dimensionalidade dos dados?

● Seleção de Atributos– Realizada no pré-processamento dos dados

– Usada para investigar quais atributos (subconjuntos deles) são mais preditivos

– 2 etapas:● Um método de busca● Um método de avaliação

– Flexibilidade: (quase) qualquer combinação de busca/avaliação

Limitações

● Algoritmos tradicionais precisam ter todos os dados na memória

● Solução– Incremental schemes

– Stream algorithms

– MOA (Massive Online Analysis) ● http://moa.cs.waikato.ac.nz/

ETL utilizando PDI – dados para o PDM

Agrupamento (Clustering)

Encontrar grupos naturais de exemplos

(dados não rotulados)

Classificação

Ponto de classe desconhecida que se deseja prever

Dado um conjunto de pontos das classes conhecidas: (V)erde e (A)zul. Qual é a classe para o novo ponto (D)esconhecido?

Objetivo: Dado um conjunto de exemplos pré-classificados, construir um modelo (Classificador) para classificar novos casos.Um classificador pode ser um conjunto de regras, uma árvore de decisão, uma rede neural, etc.

Construindo um modelo (classificador)

Dataset de exemplos classificados para construir um modelo que classifica novos exemplos

Weka – Explorer

Visualização Gráfica

Avaliando cada atributo

Classificador ZeroRO classificador ZeroR prevê a classe mais frequente para atributos categóricos e a média para Atributos numéricos. Útil para servir de “baseline” para avaliação de outros classificadores.

Classificador OneR

● É uma árvore de decisão de um nível, ou seja, regras que utilizam um atributo particular (1993)

Classificador Bayes

● Oposto do OneR: utiliza todos os atributos e regras Bayes para estimar a probabilidade de uma classe para uma instância

● Naive Bayes tem um desempenho muito bom● Pode ser prejudicado por muitos atributos

redundantes

Classificador J48 (C4.5) Árvore de Decisão

Classificadores: Árvores de decisão

if X > 5 then blueelse if Y > 3 then blueelse if X > 2 then greenelse blue

Classificadores: Redes Neurais

Podem selecionar regiões mais complexasPodem ser mais precisasPodem se ajustar aos dados - encontrar padrões em dados com ruído

Outras abordagens para classificadores

● Rules● Genetic Algorithms● Ensemble● E muitos outros

Output source code

Como avaliar classificadores?

● Acurácia● Custo/benefício total – quando diferentes erros

envolvem diferentes custos● Curvas de Lift e ROC● Erro em predições numéricas

A questão é estimar quanto confiável são os resultados previstos?

Experimenter● permite a comparação de diferentes estratégias de

aprendizagem.● Para problemas de classificação e regressão● Resultados escritos em um arquivo ou base de dados● Opções de avaliação: cross-validation, curva de

aprendizagem, hold-out● Pode ser executado com diferentes configurações de

parâmetros● Teste de significância acoplado

Experimenter

Experimenter

Mudando o jeito de gerenciar o negócio● Uma fase do negócio é o BI

utilizando ETL e ferramentas analíticas para suporte a decisão.

● Outra fase é utilizar o BI antes de acontecer os problemas, prever problemas, e/ou utilizar os sistemas de apoio a decisão baseados em aprendizagem de máquina junto aos sistemas transacionais.

Linha 1 Linha 2 Linha 3 Linha 4

0

2

4

6

8

10

12

Coluna 1

Coluna 2

Coluna 3

Big Data● 2a Revolução Industrial● Executar velhas atividades melhor● Criar novos negócios e atividades

Executar melhor velhas atividades

● Áreas de aplicação– marketing direto / modelagem Cliente

– previsão– recomendações– Detecção de fraude– Segurança / Inteligência

● Melhorias são reais, mas são limitadas pela aleatoriedade humana

● Concorrência irá nivelar empresas

Aspectos negativos

● Como toda a tecnologia, cabe ao usuário, utilizá-la de uma forma positiva ou negativa

● DM pode ser usado negativamente nas áreas:– Social

– Ética

– Legal

● Problema principal: privacidade– Informações estão sendo armazenadas sem o

consentimento do consumidor

● Analytics on-demand, analytics in the cloud.● BI (Business Intelligence), Database and

OLAP software● Bioinformatics and Pharmaceutical solutions● CRM (Customer Relationship Management)● Data Providers, Data Cleansing (Cleaning)

Tools● eCommerce solutions● Education, using predictive analytics and

data mining to improve learning.● Email analysis, response, and marketing● Fraud Detection solutions● Healthcare Analytics solutions● Human Resources and Staff Analytics

solutions● Knowledge Management and News● Marketing solutions, including real-time,

email, web, and affiliate marketing

Em que área trabalhar?● Music Discovery and Music Data Mining.● Personalization solutions● Privacy software and solutions● Real-Time Analytics and Decisioning solutions● Retail solutions● Risk Analysis and Credit Scoring● Security and Intelligence solutions.● Sports and Entertainment● Stock and Investment Analysis and Prediction● Survey creation and analysis● Telecom● Travel sites and solutions● Twitter Analytics sites and solutions.● Web Advertising● Web Mining, Web Content Mining

Como aprender Data Mining

● Linguagens: Aprenda R, Python e SQL● Ferramentas: aprenda como usar ferramentas de visualização e de

mineração de dados● Literatura: leia textos introdutórios para compreender os

fundamentos● Educação: assista webminars, faça cursos, e considere uma

certificação ou graduação em ciência de dados● Dados: verifique recursos de dados disponíveis e encontre algo lá● Competições: participe de competições de mineração de dados● Interaja com outros cientistas de dados, através de redes sociais,

grupos e conferências

Onde conseguir mais informações?

● http://weka.pentaho.com/ ● http://www.cs.waikato.ac.nz/ml/weka/ ● Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka

– http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf ● Data Mining: Practical Machine Learning Tools and Techniques, Third

Edition (The Morgan Kaufmann Series in Data Management Systems)● KDnuggets

– news, software, jobs, courses,…– www.KDnuggets.com

● ACM SIGKDD – data mining association– www.acm.org/sigkdd

Cursos

12ª Conferencia Latino-americana de Software Livre

Você não está sozinho! Esta é a comunidade Pentaho no Brasil.

http://www.pentahobrasil.com.br

https://www.facebook.com/pentahobrasil

Dúvidas?

Obrigado a todos!

Prof. Marcos Vinicius Fidelismvfidelis@gmail.com

Tópico

12ª Conferencia Latino-americana de Software Livre

Texto do tópico ou assunto