Abe Curso

Introdução à Mineração de Dados

Luis Paulo Vieira Braga

[email protected]

[email protected]

II Semana da ABE no Rio de Janeiro

ENCE

14, 15, 16 de setembro de 2009

mailto:[email protected]

mailto:[email protected]

Page 2

ROTEIRO

INTRODUÇÃO

DESCOBERTA DE CONHECIMENTO EM BANCOS DE DADOS (KDD) E MINERAÇÃO DE DADOS (DM)

BANCOS DE DADOS PARA DM

TRATAMENTO DE DADOS PARA DM

TÉCNICAS PARA DM

VALIDAÇÃO DO MODELO

ESTUDOS DE CASO

Page 3

INTRODUÇÃO

A mineração de dados provê um método automático para descobrir padrões em dados, sem a tendenciosidade e a limitação de uma análise baseada meramente na intuição humana. Além disso massas de dados são demasiadamente grandes e intrincadas para tratamento manual.

A mineração de dados compreende um conjunto de técnicas para descrição e predição a partir de grandes massas de dados. Por este motivo ela está geralmente associada bancos de dados especiais denominados datawharehouse. Estes bancos de dados viabilizam a integração rápida de dados oriundos de diferentes fontes.

Page 4

INTRODUÇÃO

MODELOS PREDITIVOS PRETENDEM ESTIMAR VALORES FUTUROS OU DESCONHECIDOS DE UMA VARIÁVEL DE INTERESSE(target)

MODELOS DESCRITIVOS PROCURAM IDENTIFICAR PADRÕES NO CONJUNTO DE DADOS

Page 5

INTRODUÇÃO

A classificação (supervisionada) ou predição categórica busca a criação de modelos para predizer as classes a que pertencem objetos desconhecidos. Determina uma regra que possa ser usada para classificar de forma otimizada uma nova observação a uma classe já rotulada.

Page 6

INTRODUÇÃO

A predição de uma variável quantitativa é alcançada através demodelos preditivos.

Page 7

INTRODUÇÃO

Segmentação ( ou classificação não supervisionada) tem por objetivo a separação dos dados em sub-grupos ou classes. Em geral a segmentação é uma etapa do processo. Segmentação é a criação de classes.

Page 8

INTRODUÇÃO

A Análise de Associação busca modelos que descrevam uma associação significativa entre dados ou eventos. Uma das aplicações mais cohecidas é a análise de cesta de compras.

Page 9


O termo KDD – Knowledge Discovery in Databases foicriado em 1995 para designar o conjunto deprocessos, técnicas e abordagens que propiciam ocontexto no qual a mineração de dados terá lugar.

Page 10


Rigorosamente o DM se restringe à obtenção demodelos, ficando as etapas anteriores e o próprio DM comoinstâncias do KDD.

Dados Dados Dados

Pré- Transformados

Processados

Previsão

Classificação

Page 11


Procurando estabelecer uma seqüência genérica de etapas para um projeto de Mineração de Dados teríamos:

Definição do problema

Avaliação dos dados

Extração de características e realce

Prototipagem

Avaliação do modelo

Implementação

Avaliação pós-projeto

Page 12


1. Problema: identificar clientes que se interessariam em comprar CDB s.

2.Dados: amostra de 150.000 clientes dos quais se mediram diversos atributos

3. Extração de características : considerar apenas os atributos relacionados à recência, freqüência e fator monetário.

4. Modelo : Árvore de decisão

5. Avaliação: A árvore explicou 80% do comportamento dos clientes

6. Implementação: Baseado na árvore foram enviados convites para parte da totalidade dos clientes do Banco

propondo a aplicação em CDB s

7. Retorno do Investimento: Gastou-se 30% a menos em divulgação porque ao contrário de outras promoções o

contato só foi feito com parte dos clientes. A resposta foi 50% melhor do que em promoções anteriores.

Exemplo das

sete etapas em

uma aplicação

destinada a

uma campanha

de vendas de

CDB s de um

Banco que tem

1.400.000

clientes

pessoas

físicas.

Page 13

BANCOS DE DADOS PARA DM, DATA WARE HOUSE(

DW é um repositório centralizado de dadose informações corporativas, orientado àgestão operacional, tática e estratégica daempresa.

O DW é obtido a partir da contínuaintegração de dados de fontes internas(operacionais e institucionais) e externas(mercado, com uma perspectiva temporal).

Entrega, devoluções e seus motivos deixamde ser aspectos meramente operacionais epassam a integrar o repositório deinformações sobre os clientes

Page 14

BANCOS DE DADOS PARA DM, DATA WARE HOUSE

www.jeunesse.com.br

Page 15


Os dados são modelados em uma estruturadimensional conhecida como cubóides, os quaisconsistem de dimensões e valores quantitativos.

Page 16


Page 17


Page 18


Page 19


Amostragem

Procedimento utilizado em substituição àtotalidade dos dados motivado pelaimpossibilidade ou conveniência.

Page 20


AMOSTRA DE TREINAMENTO

AMOSTRA DE VALIDAÇÃO

AMOSTRA (OCULTA)

Page 21


TRIAGEM

Uma vez selecionada a amostra há três tarefas a realizar: tratar erros, valores aberrantes

(outliers) e valores faltantes (missing values).

Page 22


EXTRAÇÃO DE CARACTERÍSTICAS E

REALCE

Nesta etapa o conjunto de dados é preparado para a modelagem. Procedimentos típicos desta fase incluem: seleção e transformações de variáveis.

Page 23


REDUÇÃO DE VARIÁVEIS

Problemas em Mineração de Usualmenteenvolvem um grande número de variáveis –centenas é algo comum. Portanto sãonecessárias técnicas expressas para umaprimeira redução.

Uma maneira de diminuir o número de variáveis seriaproceder uma regressão logística e eliminar as variáveispara as quais o valor p da estatística qui-quadrada fôssemaior que 0,5 . Caso ainda assim tivéssemos muitasvariáveis , manteríamos aquelas com os maiores valoresde estatísticas qui-quadrada.

Page 24

TÉCNICAS PARA DM

MÉTODOS PARA MODELOS DE PREDIÇÃO COM VARIÁVEIS DE ENTRADA E SAÍDA CONTÍNUAS

Toda a família de métodos de regressão pode ser útil para estes modelos : regressão linear, não linear, univariada e multivariada

Page 25

TÉCNICAS PARA DM

MÉTODOS PARA MODELOS DE PREDIÇÃO COM VARIÁVEIS DE ENTRADA CONTÍNUAS, INTEIRAS OU CATEGÓRICAS E SAÍDA CATEGÓRICA

Regressão Logística, Árvores de Classificação, Análise

Discriminante, Redes Neurais

X 2

A B

xx

xxxxxx +++

x xxxx++++

xxxx ++++

A´

X 1

B´

Função discrim inante Y

Page 26

TÉCNICAS PARA DM

MÉTODOS PARA MODELOS DECLASSIFICAÇÃO COM VARIÁVEIS DEENTRADA CONTÍNUAS, INTEIRAS OUCATEGÓRICAS E SAÍDA CATEGÓRICA

Análise de Cluster, Análise de

Associação

Page 27


A modelagem em DM necessariamente passa por três etapas:

a) Formulação do modelo (especificação)

b) Ajuste do modelo (estimação)

c) Checagem do modelo (validação)

Page 28


A escolha do modelo se faz com base natradição da área de aplicação ou em funçãode alguma inovação baseada em motivaçãoheurística. Entretanto, a amostra que serviupara a estimação do modelo, não deve ser amesma a ser utilizada para a validação.

Page 29


Basicamente considera-se que ummodelo de mineração de dadosfalhou quando um dos dois eventosocorre:

Não identifica padrões relevantes que realmente estão presentes nos dados e poderiam ser generalizados.

Identifica padrões que não generalizam, não são relevantes ou não estão presentes nos dados.

Page 30


Se um modelo não é validado, a razão poderá ser encontrada nos dados; num ajuste inadequado ou ainda em algum problema com a seleção das técnicas.

Page 31


Problemas típicos com os dados:

Arredondamento inadequado; codificação simbólica ou numérica imprópria; dados faltantes; dados replicados (por exemplo, o mesmo cliente contado mais de uma vez).

Problemas típicos com o ajuste:

Extração de características e/ou realce insuficiente (por exemplo – desenvolver um modelo de classificação baseado em atributos com pequena variação para o conjunto de dados disponível.); populações com classes muito desiguais (por exemplo – clientes fraudadores são a minoria no conjunto de clientes).

Page 32


Problemas típicos com a seleção da técnica: muitas vezes o problema com o ajuste é devido à seleção da técnica. Os critérios de ajuste de um modelo geralmente incidem sobre seus parâmetros, mas os objetivos de previsão ou classificação vão ser validados sobre as variáveis de saída (target).

Page 33


GRÁFICO DE ALAVANCAGEM

Há um método prático para uma avaliação inicial que é um gráfico comparativo entre a predição do modelo e os dados. Suponhamos que tenha sido feita um modelo ajustado de regressão logística para prever se um cliente irá responder positivamente a uma promoção. A partir dos dados de validação calculamos o valor da função de regressão para cada observação, ordenamos decrescentemente a amostra em função deste valor. Dividimos em seguida esta amostra em decis .

Page 34


Para cada decil temos a probabilidade de resposta em função da regressão logística e também conhecemos se a observação corresponde a um cliente que aceitou a promoção (1) ou rejeitou (0) , a média sobre os valores 0-1 observados naquele decil permite fazer a comparação com o predito pelo modelo. Considera-se que havendo uma diferença de até 10% entre os valores preditos e os valores observados para mais seja indicador de um bom ajuste.

Page 35


Lift Chart - Response %

Cumulative

Selected category of ID_DG_NOT: 1

Model

TreeModel0 10 20 30 40 50 60 70 80 90 100 110

Percentile

60

65

70

75

80

85

Response %

Page 36


Vamos considerar agora um método de validação baseado em reamostragem. Há duas técnicas principais para reamostragem: jacknifinge bootstraping.

Jacknifing – para um total de N observações, exclui-se aleatoriamente uma observação. A predição é feita com base nas N-1 observações restantes e compara-se com o valor conhecido da observação excluída. O processo é repetido e a distribuição dos erros valida ou não o modelo. No caso de grandes amostras, ao invés de se retirar uma observação, retiram-se aleatoriamente 50% das observações.

Bootstrapping – a partir das N observações extraem-se N amostras com reposição. Da mesma forma a predição é feita com base nestas amostras e

comparada com o valor conhecido.

Page 37


Os resultados da validação obtidos a partir da comparação dos valores conhecidos com os estimados podem ser apresentados em uma tabela denominada matriz de confusão.

Predição Frequência

Verdade

Porcentual

Classificação

Correta

Verdade 1 2

1 22 3 25 88%

2 5 20 25 80%

Frequência

Predição

27 23 50 84%*

*Número de classificação de corretas/ Número total de observações

Caso seja necessário, pode-se estabelecer pesos diferentes para as

freqüências obtidas em cada uma das células.

Page 38

VALIDAÇÃO

O processo de validação não termina com a seleção do(s) modelo(s) , mas continua durante a fase de sua implementação e uso do mesmo no contexto de sua aplicação.

Page 39

LANÇAMENTO FUTURO

Education

Abe Curso