Upload
luis-paulo-vieira-braga
View
434
Download
0
Embed Size (px)
DESCRIPTION
II Semana da ABE - ENCE-IBGE
Citation preview
Introdução à Mineração de Dados
Luis Paulo Vieira Braga
II Semana da ABE no Rio de Janeiro
ENCE
14, 15, 16 de setembro de 2009
Page 2
ROTEIRO
INTRODUÇÃO
DESCOBERTA DE CONHECIMENTO EM BANCOS DE DADOS (KDD) E MINERAÇÃO DE DADOS (DM)
BANCOS DE DADOS PARA DM
TRATAMENTO DE DADOS PARA DM
TÉCNICAS PARA DM
VALIDAÇÃO DO MODELO
ESTUDOS DE CASO
Page 3
INTRODUÇÃO
A mineração de dados provê um método automático para descobrir padrões em dados, sem a tendenciosidade e a limitação de uma análise baseada meramente na intuição humana. Além disso massas de dados são demasiadamente grandes e intrincadas para tratamento manual.
A mineração de dados compreende um conjunto de técnicas para descrição e predição a partir de grandes massas de dados. Por este motivo ela está geralmente associada bancos de dados especiais denominados datawharehouse. Estes bancos de dados viabilizam a integração rápida de dados oriundos de diferentes fontes.
Page 4
INTRODUÇÃO
MODELOS PREDITIVOS PRETENDEM ESTIMAR VALORES FUTUROS OU DESCONHECIDOS DE UMA VARIÁVEL DE INTERESSE(target)
MODELOS DESCRITIVOS PROCURAM IDENTIFICAR PADRÕES NO CONJUNTO DE DADOS
Page 5
INTRODUÇÃO
A classificação (supervisionada) ou predição categórica busca a criação de modelos para predizer as classes a que pertencem objetos desconhecidos. Determina uma regra que possa ser usada para classificar de forma otimizada uma nova observação a uma classe já rotulada.
Page 6
INTRODUÇÃO
A predição de uma variável quantitativa é alcançada através demodelos preditivos.
Page 7
INTRODUÇÃO
Segmentação ( ou classificação não supervisionada) tem por objetivo a separação dos dados em sub-grupos ou classes. Em geral a segmentação é uma etapa do processo. Segmentação é a criação de classes.
Page 8
INTRODUÇÃO
A Análise de Associação busca modelos que descrevam uma associação significativa entre dados ou eventos. Uma das aplicações mais cohecidas é a análise de cesta de compras.
Page 9
DESCOBERTA DE CONHECIMENTO EM BANCOS DE DADOS (KDD) E MINERAÇÃO DE DADOS (DM)
O termo KDD – Knowledge Discovery in Databases foicriado em 1995 para designar o conjunto deprocessos, técnicas e abordagens que propiciam ocontexto no qual a mineração de dados terá lugar.
Page 10
DESCOBERTA DE CONHECIMENTO EM BANCOS DE DADOS (KDD) E MINERAÇÃO DE DADOS (DM)
Rigorosamente o DM se restringe à obtenção demodelos, ficando as etapas anteriores e o próprio DM comoinstâncias do KDD.
Dados Dados Dados
Pré- Transformados
Processados
Previsão
Classificação
Page 11
DESCOBERTA DE CONHECIMENTO EM BANCOS DE DADOS (KDD) E MINERAÇÃO DE DADOS (DM)
Procurando estabelecer uma seqüência genérica de etapas para um projeto de Mineração de Dados teríamos:
Definição do problema
Avaliação dos dados
Extração de características e realce
Prototipagem
Avaliação do modelo
Implementação
Avaliação pós-projeto
Page 12
DESCOBERTA DE CONHECIMENTO EM BANCOS DE DADOS (KDD) E MINERAÇÃO DE DADOS (DM)
1. Problema: identificar clientes que se interessariam em comprar CDB s.
2.Dados: amostra de 150.000 clientes dos quais se mediram diversos atributos
3. Extração de características : considerar apenas os atributos relacionados à recência, freqüência e fator monetário.
4. Modelo : Árvore de decisão
5. Avaliação: A árvore explicou 80% do comportamento dos clientes
6. Implementação: Baseado na árvore foram enviados convites para parte da totalidade dos clientes do Banco
propondo a aplicação em CDB s
7. Retorno do Investimento: Gastou-se 30% a menos em divulgação porque ao contrário de outras promoções o
contato só foi feito com parte dos clientes. A resposta foi 50% melhor do que em promoções anteriores.
Exemplo das
sete etapas em
uma aplicação
destinada a
uma campanha
de vendas de
CDB s de um
Banco que tem
1.400.000
clientes
pessoas
físicas.
Page 13
BANCOS DE DADOS PARA DM, DATA WARE HOUSE(
DW é um repositório centralizado de dadose informações corporativas, orientado àgestão operacional, tática e estratégica daempresa.
O DW é obtido a partir da contínuaintegração de dados de fontes internas(operacionais e institucionais) e externas(mercado, com uma perspectiva temporal).
Entrega, devoluções e seus motivos deixamde ser aspectos meramente operacionais epassam a integrar o repositório deinformações sobre os clientes
Page 14
BANCOS DE DADOS PARA DM, DATA WARE HOUSE
www.jeunesse.com.br
Page 15
BANCOS DE DADOS PARA DM, DATA WARE HOUSE
Os dados são modelados em uma estruturadimensional conhecida como cubóides, os quaisconsistem de dimensões e valores quantitativos.
Page 16
BANCOS DE DADOS PARA DM, DATA WARE HOUSE
Page 17
BANCOS DE DADOS PARA DM, DATA WARE HOUSE
Page 18
BANCOS DE DADOS PARA DM, DATA WARE HOUSE
Page 19
TRATAMENTO DE DADOS PARA DM
Amostragem
Procedimento utilizado em substituição àtotalidade dos dados motivado pelaimpossibilidade ou conveniência.
Page 20
TRATAMENTO DE DADOS PARA DM
AMOSTRA DE TREINAMENTO
AMOSTRA DE VALIDAÇÃO
AMOSTRA (OCULTA)
Page 21
TRATAMENTO DE DADOS PARA DM
TRIAGEM
Uma vez selecionada a amostra há três tarefas a realizar: tratar erros, valores aberrantes
(outliers) e valores faltantes (missing values).
Page 22
TRATAMENTO DE DADOS PARA DM
EXTRAÇÃO DE CARACTERÍSTICAS E
REALCE
Nesta etapa o conjunto de dados é preparado para a modelagem. Procedimentos típicos desta fase incluem: seleção e transformações de variáveis.
Page 23
TRATAMENTO DE DADOS PARA DM
REDUÇÃO DE VARIÁVEIS
Problemas em Mineração de Usualmenteenvolvem um grande número de variáveis –centenas é algo comum. Portanto sãonecessárias técnicas expressas para umaprimeira redução.
Uma maneira de diminuir o número de variáveis seriaproceder uma regressão logística e eliminar as variáveispara as quais o valor p da estatística qui-quadrada fôssemaior que 0,5 . Caso ainda assim tivéssemos muitasvariáveis , manteríamos aquelas com os maiores valoresde estatísticas qui-quadrada.
Page 24
TÉCNICAS PARA DM
MÉTODOS PARA MODELOS DE PREDIÇÃO COM VARIÁVEIS DE ENTRADA E SAÍDA CONTÍNUAS
Toda a família de métodos de regressão pode ser útil para estes modelos : regressão linear, não linear, univariada e multivariada
Page 25
TÉCNICAS PARA DM
MÉTODOS PARA MODELOS DE PREDIÇÃO COM VARIÁVEIS DE ENTRADA CONTÍNUAS, INTEIRAS OU CATEGÓRICAS E SAÍDA CATEGÓRICA
Regressão Logística, Árvores de Classificação, Análise
Discriminante, Redes Neurais
X 2
A B
xx
xxxxxx +++
x xxxx++++
xxxx ++++
A´
X 1
B´
Função discrim inante Y
Page 26
TÉCNICAS PARA DM
MÉTODOS PARA MODELOS DECLASSIFICAÇÃO COM VARIÁVEIS DEENTRADA CONTÍNUAS, INTEIRAS OUCATEGÓRICAS E SAÍDA CATEGÓRICA
Análise de Cluster, Análise de
Associação
Page 27
VALIDAÇÃO DO MODELO
A modelagem em DM necessariamente passa por três etapas:
a) Formulação do modelo (especificação)
b) Ajuste do modelo (estimação)
c) Checagem do modelo (validação)
Page 28
VALIDAÇÃO DO MODELO
A escolha do modelo se faz com base natradição da área de aplicação ou em funçãode alguma inovação baseada em motivaçãoheurística. Entretanto, a amostra que serviupara a estimação do modelo, não deve ser amesma a ser utilizada para a validação.
Page 29
VALIDAÇÃO DO MODELO
Basicamente considera-se que ummodelo de mineração de dadosfalhou quando um dos dois eventosocorre:
Não identifica padrões relevantes que realmente estão presentes nos dados e poderiam ser generalizados.
Identifica padrões que não generalizam, não são relevantes ou não estão presentes nos dados.
Page 30
VALIDAÇÃO DO MODELO
Se um modelo não é validado, a razão poderá ser encontrada nos dados; num ajuste inadequado ou ainda em algum problema com a seleção das técnicas.
Page 31
VALIDAÇÃO DO MODELO
Problemas típicos com os dados:
Arredondamento inadequado; codificação simbólica ou numérica imprópria; dados faltantes; dados replicados (por exemplo, o mesmo cliente contado mais de uma vez).
Problemas típicos com o ajuste:
Extração de características e/ou realce insuficiente (por exemplo – desenvolver um modelo de classificação baseado em atributos com pequena variação para o conjunto de dados disponível.); populações com classes muito desiguais (por exemplo – clientes fraudadores são a minoria no conjunto de clientes).
Page 32
VALIDAÇÃO DO MODELO
Problemas típicos com a seleção da técnica: muitas vezes o problema com o ajuste é devido à seleção da técnica. Os critérios de ajuste de um modelo geralmente incidem sobre seus parâmetros, mas os objetivos de previsão ou classificação vão ser validados sobre as variáveis de saída (target).
Page 33
VALIDAÇÃO DO MODELO
GRÁFICO DE ALAVANCAGEM
Há um método prático para uma avaliação inicial que é um gráfico comparativo entre a predição do modelo e os dados. Suponhamos que tenha sido feita um modelo ajustado de regressão logística para prever se um cliente irá responder positivamente a uma promoção. A partir dos dados de validação calculamos o valor da função de regressão para cada observação, ordenamos decrescentemente a amostra em função deste valor. Dividimos em seguida esta amostra em decis .
Page 34
VALIDAÇÃO DO MODELO
Para cada decil temos a probabilidade de resposta em função da regressão logística e também conhecemos se a observação corresponde a um cliente que aceitou a promoção (1) ou rejeitou (0) , a média sobre os valores 0-1 observados naquele decil permite fazer a comparação com o predito pelo modelo. Considera-se que havendo uma diferença de até 10% entre os valores preditos e os valores observados para mais seja indicador de um bom ajuste.
Page 35
VALIDAÇÃO DO MODELO
Lift Chart - Response %
Cumulative
Selected category of ID_DG_NOT: 1
Model
TreeModel0 10 20 30 40 50 60 70 80 90 100 110
Percentile
60
65
70
75
80
85
Response %
Page 36
VALIDAÇÃO DO MODELO
Vamos considerar agora um método de validação baseado em reamostragem. Há duas técnicas principais para reamostragem: jacknifinge bootstraping.
Jacknifing – para um total de N observações, exclui-se aleatoriamente uma observação. A predição é feita com base nas N-1 observações restantes e compara-se com o valor conhecido da observação excluída. O processo é repetido e a distribuição dos erros valida ou não o modelo. No caso de grandes amostras, ao invés de se retirar uma observação, retiram-se aleatoriamente 50% das observações.
Bootstrapping – a partir das N observações extraem-se N amostras com reposição. Da mesma forma a predição é feita com base nestas amostras e
comparada com o valor conhecido.
Page 37
VALIDAÇÃO DO MODELO
Os resultados da validação obtidos a partir da comparação dos valores conhecidos com os estimados podem ser apresentados em uma tabela denominada matriz de confusão.
Predição Frequência
Verdade
Porcentual
Classificação
Correta
Verdade 1 2
1 22 3 25 88%
2 5 20 25 80%
Frequência
Predição
27 23 50 84%*
*Número de classificação de corretas/ Número total de observações
Caso seja necessário, pode-se estabelecer pesos diferentes para as
freqüências obtidas em cada uma das células.
Page 38
VALIDAÇÃO
O processo de validação não termina com a seleção do(s) modelo(s) , mas continua durante a fase de sua implementação e uso do mesmo no contexto de sua aplicação.
Page 39
LANÇAMENTO FUTURO