Upload
internet
View
139
Download
0
Embed Size (px)
Citation preview
1
Mineração de DadosMineração de Dados
Introdução
2
Introdução 1/Introdução 1/
Motivação Explosão de Dados
Ferramentas automáticas de coleta de dados +maturidade das tecnologias de bancos de dados
enorme quantidade de dados armazenados em bases de dados e outros meios de armazenamento
Abundancia de dados ao lado de escassez de conhecimentos
3
Introdução 2/Introdução 2/
Motivação Explosão de Dados
Solução: data warehousing e mineração de dadosdescoberta de conhecimentos (regras,
regularidades, padrões) a partir de enormes bases de dados
4
KDD: Descoberta de Conhecimentos a partir de bancos de dados
Limpeza de Dados
Integração de Dados
Bases de dados
Data Warehouse
Dados relevantes
Seleção
Mineração de Dados
Avaliação dos Padrões
5
Introdução 4/Introdução 4/
Passos do Processo KDD Estudo do domínio de aplicação
conhecimento a priori relevante, objetivo da aplicação Seleção dos dados Limpeza e pre-processamento dos dados (60% do
esforço) Redução e transformação de dados
seleção de atributos, redução de dimensão
6
Introdução 5/Introdução 5/
Passos do Processo KDD Escolha dos modelos de mineração
sumário, classificação, regressão, associação, clustering
Escolhas dos algoritmos de mineração Mineração de dados: busca de padrões de interesse
7
Introdução 6/Introdução 6/
Passos do Processo KDD Avaliação dos padrões e apresentação do conhecimento
visualização, transformação, remoção de padrões redundantes
Uso do conhecimento descoberto
8
Mineração de Dados e Inteligencia nos Negócios
Potencial crescentede apoio a decisõesnos negócios Usuário Final
Analista deNegócios
Analista deDados
Tomadorde Decisões
Apresentação dos Dados
Tecnicas de Visualização
Mineração de DadosDescoberta de Informação
Exploração de Dados
OLAP
Análise estatística, consultas, relatórios
Data Warehouses / Data Marts
Fontes de DadosPapeis, Arquivos, Provedores de Informação, Bases de Dados, OLTP
9
Arquitetura de um sistema usual de mineração de dados
Data Warehouse
Limpeza e integração de dados Filtragem
Bases de dados
Servidor de base de dados ou data warehouse
Mineração de Dados
Avaliação dos Padrões
Interface Gráfica
Knowledge-base
10
Introdução 9/Introdução 9/
Fontes de dados para a mineração Bases de dados relacionais Data warehouses Bases de dados transacionais
11
Introdução 10/Introdução 10/
Fontes de dados para a mineração Bases de dados avançadas e repositórios de dados
bases de dados orientada objeto e bases de dados objeto-relacional
bases de dados espaciaisdados temporais e seqüenciaisbases de dados textuais e bases de dados multimídiabases de dados heterogêneas WWW
12
Introdução 11/Introdução 11/
Funcionalidades da mineração de dados Descrição de conceitos: caracterização e discriminação
Generaliza, resume e contrasta as características dos dados
Associação: correlação e causualidadeassociação multi-dimensional versus associação uni-
dimensional idade(X, “20..29”) ^ renda(X, “20..29K”) compra(X,
“PC”) [suporte = 2%, confiancia = 60%]
13
Introdução 12/Introdução 12/
Funcionalidades da mineração de dados Classificação e previsão
Construir modelos (funções) que descrevem e distinguem classes ou conceitos para previsões futuras
modelos: redes neurais, arvores de decisão, regras de classificação
Previsão: prever valores numéricos ausentes ou desconhecidos
14
Introdução 13/Introdução 13/
Funcionalidades da mineração de dados Análise de cluster
os rótulos das classes são desconhecidosagrupar dados para formar novas classes
O agrupamento é baseado em: maximizar a similaridade intra-classe e minimizar a similaridade inter-classe
15
Introdução 14/Introdução 14/
Funcionalidades da mineração de dados Análise de valores aberrantes (outliers)
Outilier : um dado que diverge do comportamento geral dos dados
Pode ser considerado ruido ou exceçãocomum em detecção de fraudes e análise de
eventos raros
16
Introdução 15/Introdução 15/
Funcionalidades da mineração de dados Análise de tendência e evolução
tendência e desvio: análise de regressãoMineração de padrões seqüenciais: análise de
periodicidadeanálise baseada em similaridade
17
Introdução 16/Introdução 16/
Interesse dos padrões descobertos Um sistema de mineração de dados pode gerar centenas
de padrõesnem todos são de interesse
Um padrão é interessante, se ele é facilmente entendido pelos humanos, validado em dados independentes, potencialmente útil, novo, ou valida alguma hipótese que o usuário
procurava confirmar
18
Introdução 17/Introdução 17/
Interesse dos padrões descobertos Medidas de interesse de um padrão
objetivas: baseadas em estatísticas e estruturas dos padrões (suporte, confiança)
subjetivas: baseadas nas crenças do usuário nos dados (novidade inesperada)
19
Mineração de Dados: Confluencia de Multiplas Disciplinas
Mineração deDados
Tecnologia deBases de Dados
Estatística
OutrasDisciplinas
Ciências daInformação
Aprendizagemde Máquina Visualização
20
Introdução 19/Introdução 19/
Mineração de Dados: Classificação Funcionalidade geral
Mineração de dados descritivaMineração de dados preditiva
Outros critériostipo de base de dados a ser mineradatipo de conhecimento a ser descobertotipo de técnica a ser utilizadatipo de aplicações
21
Introdução 20/Introdução 20/
Mineração de Dados: Classificação Base de dados a ser minerada
relacional, transacional, orientada objeto, objeto-relacional, espacial, temporal, textual, multimídia, heterogênea, WWW
Conhecimento a ser mineradoCaracterização, descriminação, associação,
classificação, clustering, tendência e análise de desvioFunções múltiplas e integradas e mineração a níveis
múltiplos
22
Introdução 21/Introdução 21/
Mineração de Dados: Aplicações potenciais Análise de bases de dados e suporte a decisão
análise de mercadoalvo de campanhas, análise de compras,
segmentação do mercado, gerencia de relações com clientes, vendas cruzadas
análise de riscofidelização de clientes, controle de qualidade,
análise de competitividadedetecção de fraude
23
Introdução 22/Introdução 22/
Mineração de Dados: Aplicações potenciais Análise de bases de dados e suporte a decisão
detecção de fraude Outras aplicações
Mineração de texto (email, documentos) e web analise
24
Introdução 23/Introdução 23/
Análise de Mercado Fontes de dados para análise
transações de cartão, cartões de fidelidade, cupons de desconto, queixas de clientes, estudos de estilos de vida
Alvo de campanhasencontrar grupos de clientes que partilham as mesmas
características: interesse, nível de renda, hábitos de consumo
25
Introdução 24/Introdução 24/
Análise de Mercado padrões de compras de clientes no tempo
conversão para uma conta conjunta: casamento Análise cruzada de mercado
associações/correlações entre vendas de produtosprevisão baseada nas informações de associação
26
Introdução 25/Introdução 25/
Análise de Mercado perfil de consumidores
que tipo de consumidores compra que tipo de produto Identificação das exigências dos consumidores
identificação dos melhores produtos para diferentes tipos de clientes
encontrar que fatores atrairão novos clientes
27
Introdução 26/Introdução 26/
Análise de Mercado sumários
relatários muti-dimensionaissumários estatísticos (medidas de tendência central e
de dispersão)
28
Introdução 27/Introdução 27/
Análise de Risco Plano financeiro e avaliação de recursos
análise de fluxo de caixa Planificação de receitas
sumário e comparação de receitas e despesas Competição
agrupar clientes em classes e oferecer preços baseados em classes
29
Introdução 28/Introdução 28/
Detecção de fraudes aplicações
planos de saúde, varejo, cartões de crédito, fraude em cartões telefônicos
Abordagemuso de dados históricos para construir modelos de
comportamento fraudulento e uso de mineração de dados para ajudar a identificar instancias similares
30
Introdução 29/Introdução 29/
Detecção de fraudes Exemplos
seguro de carrostransações monetárias fraudulentasseguro de saúdedetecção de tratamento médico inapropriadodetecção de fraude telefônicavarejo
31
Introdução 30/Introdução 30/
Tendências em Mineração metodologia de mineração e iteração com o usuário desempenho e escalabilidade diversidade de tipos de dados aplicações e impactos sociais