Upload
daniel-mota
View
475
Download
1
Embed Size (px)
Citation preview
www.danielmota.com.br
Uma árvore de decisão utiliza uma estratégia de dividir para- conquistar:
•Um problema complexo é decomposto em subproblemas mais simples.
•Recursivamente a mesma estratégia é aplicada a cada subproblema.
A capacidade de discriminação de uma arvore vem da: •Divisão do espaço definido pelos atributos em subespaços.
• A cada subespaço é associada uma classe.
www.danielmota.com.br
•Cada nó de decisão contém um teste num atributo.
•Cada ramo descendente corresponde a um possível valor deste atributo.
•Cada folha está associada a uma classe.
• Cada percurso na árvore (da raiz à folha) corresponde a uma
regra de classificação.
www.danielmota.com.br
No espaço definido pelos atributos:
•Cada folha corresponde a uma
região: Hiper-retângulo
•A intersecção dos hiper - retângulos é vazia
•A união dos hiper-retângulos é o espaço completo
www.danielmota.com.br
Dado um conjunto de exemplos, que atributo escolher para teste?
O ganho de informação mede a redução da entropia causada pela partição dos exemplos de acordo com os valores do atributo.
A construção de uma árvore de decisão é guiada pelo objetivo de
diminuir a entropia ou seja a aleatoriedade - dificuldade de previsão- da variável que define as classes.
A escolha do atributo é feita com base no ganho de informação, isto é, na qualidade de classificação do atributo.
www.danielmota.com.br
ID3, C4.5 e C5 [Quinlan 86,93]
• Iterative Dichotomizer 3
CART
• Classification and regression trees [Breiman 84]
CHAID [Hartigan 75]
• Usado pelo SPSS e SAS…• Muitas (mesmo muitas) outras variantes...• Em SAS: possibilidade de selecionar os diferentes parâmetros para a construção da árvore.
www.danielmota.com.br
Cenário:
Um sistema de contas a receber de um clube esportivo envia para um banco no inicio de cada mês um boleto contendo da mensalidade do clube a ser paga pelos associados. O banco então envia pelo correio a fatura para os clientes e espera os recebimentos. No final do mês, o banco retorna para o sistema do clube quais clientes pagaram o boleto, quais não pagaram e quais clientes pagaram com atraso, dentre outras informações. Com objetivo de diminuir a quantidade de clientes que pagaram o boleto com atraso, foi feita uma mineração de dados na base de associados para identificar o perfil de quem paga com atraso o boleto.
www.danielmota.com.br
Tabela1. Dados dos associados de um clube esportivo
Idade: Identifica idade do associado Valores: <= 30, 31...40, > 40Salário: Identifica salário do associado Valores: Alto, Médio, Baixo.Superior Completo: Indica a escolaridade do associado. Valores: Sim, NãoDependentes: Indica se o associado possui dependentes. Valores: Sim, NãoAtrasou: Indica se o cliente atrasou o pagamento Valores: Sim, Não
Atributos
www.danielmota.com.br
Como o algoritmo Funciona?
Passo 1: Geração do nó raiz
Passo 2: Encontrar nós a serem divididos
Passo 3: Divisão do nó
Passo 4: Criação do nó
www.danielmota.com.br
1 º Passo: Gerar o nó raiz da árvores
Calcular a probabilidade para cada um dos valores do atributo de classificação.ATRASOU Atrasou = Não: 5/14 = 0,36 Atrasou = Sim: 9/14 = 0,64IDADE Valor <= 30 Atrasou = Não: 3/14 = 0,214 Atrasou = Sim: 2/14 = 0,143 Valor 31...40 Atrasou = Não: 0/14 = 0 Atrasou = Sim: 4/14 = 0,286 Valor > 40 Atrasou = Não: 2/14 = 0,143 Atrasou = Sim: 3/14 = 0,214DEPENDENTE Valor Não Atrasou = Não: 2/14 = 0,143 Atrasou = Sim: 5/14 = 0,357 Valor Sim Atrasou = Não: 3/14 = 0,214 Atrasou = Sim: 4/14 = 0,286
SALÁRIO: Valor Alto: Atrasou = Não: 2/14 = 0,143 Atrasou = Sim: 2/14 = 0,143 Valor Médio: Atrasou = Não: 2/14 = 0,143 Atrasou = Sim: 4/14 = 0,286 Valor Baixo: Atrasou = Não: 1/14 = 0,143 Atrasou = Sim: 3/14 = 0,214
SUPERIOR-COMPLETO Valor Não: Atrasou = Não: 4/14 = 0,286 Atrasou = Sim: 3/14 = 0,214 Valor Sim: Atrasou = Não: 6/14 = 0,428 Atrasou = Sim: 1/14 = 0,071
Somente o atributo IDADE
gerou o nó folha
www.danielmota.com.br
Exemplo do nó raiz da árvore
Primeiro Nível da Árvore de Decisão
Ferramenta: Decision Tree Learning Applet
www.danielmota.com.br
Árvores de Decisão Completa
OBS: O atributo SALÁRIO não foi utilizado, pois o algoritmo não considerou este atributo como relevante para a classificação.
A árvore possui quatro nós folha (em verde) que classificam os valores das classes de acordo com seus atributos.
www.danielmota.com.br
Representação Textual
IDADE = <= 30 SUPERIOR COMPLETO = NÃO: NÃO (3.0) SUPERIOR COMPLETO = SIM: SIM (2.0)
IDADE = 31...40: SIM (4.0)
IDADE = >40 DEPENDENTES = NÃO: SIM (3.0) DEPENDENTES = SIM: NÃO (2.0)
www.danielmota.com.br
Extração das regras de classificação do tipo SE...ENTÃO da Árvore
SE IDADE <=30 e SUPERIOR_COMPLETO = NÃO ENTÃO A amostra é classificada como ATRASA = NÃO
SE IDADE <=30 e SUPERIOR_COMPLETO = SIM ENTÃO A amostra é classificada como ATRASA = SIM
SE IDADE = 30..40 ENTÃO A amostra é classificada como ATRASA = SIM
SE IDADE >=40 e DEPENDENTES = NÃO ENTÃO A amostra é classificada como ATRASA = SIM
SE IDADE >=40 e DEPENDENTES = SIM ENTÃO A amostra é classificada como ATRASA = NÃO
www.danielmota.com.br
NOME ESCOLARIDADE
IDADE RICO (atributo classe)
Alva Mestrado >30 SimAmanda Doutorado <=30 SimAna Mestrado <=30 NãoEduardo Doutorado >30 SimInês Graduação <=30 NãoJoaquim Graduação >30 NãoMaria Mestrado >30 SimRaphael Mestrado <=30 Não
Árvore de decisão construída a partir do conjunto de dados da
Tabela 2
Tabela 2. Base de dados Censitários
www.danielmota.com.br
1.(Escolaridade = “Graduação”) → (Rico = “Não”)2.(Escolaridade = “Doutorado”) → (Rico = “Sim”)3.(Escolaridade = “Mestrado”) & (Idade = “>30”) → (Rico = “Sim”)4.(Escolaridade = “Mestrado”) & (Idade = “<=30”) → (Rico = “Não”)
Regra de Classificação
Uma regra do tipo A → B indica que a classe B pode ser determinada pelos atributos preditivos indicados no antecedente.
www.danielmota.com.br
BERRY, M. L. A. e LINOFF, G. (2004), Data Mining Techniques: for Marketing, Sales and
Customer Relationship Management, John Wiley Consumer, 2nd edition.
HAN, J. e KAMBER, M. (2006), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2ndedition. WITTEN, I. H. e FRANK, E. (2005), Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann Publishers, 2nd edition.
Mitchell, TM: 1997, Machine Learning,
McGraw-Hill Langley, P: 1996, Elements of Machine Learning, Morgan and Kaufmann Publishers.
Breiman, L., J. H. Friedman, R. A. Olsen and C. J. Stone (1984). Classification and Regression Trees, Chapman & Hall, pp 358.
www.danielmota.com.br