Daniel Mota - Arvore de decisão

www.danielmota.com.br

http://www.danielmota.com.br/

Uma árvore de decisão utiliza uma estratégia de dividir para- conquistar:

•Um problema complexo é decomposto em subproblemas mais simples.

•Recursivamente a mesma estratégia é aplicada a cada subproblema.

A capacidade de discriminação de uma arvore vem da: •Divisão do espaço definido pelos atributos em subespaços.

• A cada subespaço é associada uma classe.



•Cada nó de decisão contém um teste num atributo.

•Cada ramo descendente corresponde a um possível valor deste atributo.

•Cada folha está associada a uma classe.

• Cada percurso na árvore (da raiz à folha) corresponde a uma

regra de classificação.



No espaço definido pelos atributos:

•Cada folha corresponde a uma

região: Hiper-retângulo

•A intersecção dos hiper - retângulos é vazia

•A união dos hiper-retângulos é o espaço completo



Dado um conjunto de exemplos, que atributo escolher para teste?

O ganho de informação mede a redução da entropia causada pela partição dos exemplos de acordo com os valores do atributo.

A construção de uma árvore de decisão é guiada pelo objetivo de

diminuir a entropia ou seja a aleatoriedade - dificuldade de previsão- da variável que define as classes.

A escolha do atributo é feita com base no ganho de informação, isto é, na qualidade de classificação do atributo.



ID3, C4.5 e C5 [Quinlan 86,93]

• Iterative Dichotomizer 3

CART

• Classification and regression trees [Breiman 84]

CHAID [Hartigan 75]

• Usado pelo SPSS e SAS…• Muitas (mesmo muitas) outras variantes...• Em SAS: possibilidade de selecionar os diferentes parâmetros para a construção da árvore.



Cenário:

Um sistema de contas a receber de um clube esportivo envia para um banco no inicio de cada mês um boleto contendo da mensalidade do clube a ser paga pelos associados. O banco então envia pelo correio a fatura para os clientes e espera os recebimentos. No final do mês, o banco retorna para o sistema do clube quais clientes pagaram o boleto, quais não pagaram e quais clientes pagaram com atraso, dentre outras informações. Com objetivo de diminuir a quantidade de clientes que pagaram o boleto com atraso, foi feita uma mineração de dados na base de associados para identificar o perfil de quem paga com atraso o boleto.



Tabela1. Dados dos associados de um clube esportivo

Idade: Identifica idade do associado Valores: <= 30, 31...40, > 40Salário: Identifica salário do associado Valores: Alto, Médio, Baixo.Superior Completo: Indica a escolaridade do associado. Valores: Sim, NãoDependentes: Indica se o associado possui dependentes. Valores: Sim, NãoAtrasou: Indica se o cliente atrasou o pagamento Valores: Sim, Não

Atributos



Como o algoritmo Funciona?

Passo 1: Geração do nó raiz

Passo 2: Encontrar nós a serem divididos

Passo 3: Divisão do nó

Passo 4: Criação do nó



1 º Passo: Gerar o nó raiz da árvores

Calcular a probabilidade para cada um dos valores do atributo de classificação.ATRASOU Atrasou = Não: 5/14 = 0,36 Atrasou = Sim: 9/14 = 0,64IDADE Valor <= 30 Atrasou = Não: 3/14 = 0,214 Atrasou = Sim: 2/14 = 0,143 Valor 31...40 Atrasou = Não: 0/14 = 0 Atrasou = Sim: 4/14 = 0,286 Valor > 40 Atrasou = Não: 2/14 = 0,143 Atrasou = Sim: 3/14 = 0,214DEPENDENTE Valor Não Atrasou = Não: 2/14 = 0,143 Atrasou = Sim: 5/14 = 0,357 Valor Sim Atrasou = Não: 3/14 = 0,214 Atrasou = Sim: 4/14 = 0,286

SALÁRIO: Valor Alto: Atrasou = Não: 2/14 = 0,143 Atrasou = Sim: 2/14 = 0,143 Valor Médio: Atrasou = Não: 2/14 = 0,143 Atrasou = Sim: 4/14 = 0,286 Valor Baixo: Atrasou = Não: 1/14 = 0,143 Atrasou = Sim: 3/14 = 0,214

SUPERIOR-COMPLETO Valor Não: Atrasou = Não: 4/14 = 0,286 Atrasou = Sim: 3/14 = 0,214 Valor Sim: Atrasou = Não: 6/14 = 0,428 Atrasou = Sim: 1/14 = 0,071

Somente o atributo IDADE

gerou o nó folha



Exemplo do nó raiz da árvore

Primeiro Nível da Árvore de Decisão

Ferramenta: Decision Tree Learning Applet



Árvores de Decisão Completa

OBS: O atributo SALÁRIO não foi utilizado, pois o algoritmo não considerou este atributo como relevante para a classificação.

A árvore possui quatro nós folha (em verde) que classificam os valores das classes de acordo com seus atributos.



Representação Textual

IDADE = <= 30 SUPERIOR COMPLETO = NÃO: NÃO (3.0) SUPERIOR COMPLETO = SIM: SIM (2.0)

IDADE = 31...40: SIM (4.0)

IDADE = >40 DEPENDENTES = NÃO: SIM (3.0) DEPENDENTES = SIM: NÃO (2.0)



Extração das regras de classificação do tipo SE...ENTÃO da Árvore

SE IDADE <=30 e SUPERIOR_COMPLETO = NÃO ENTÃO A amostra é classificada como ATRASA = NÃO

SE IDADE <=30 e SUPERIOR_COMPLETO = SIM ENTÃO A amostra é classificada como ATRASA = SIM

SE IDADE = 30..40 ENTÃO A amostra é classificada como ATRASA = SIM

SE IDADE >=40 e DEPENDENTES = NÃO ENTÃO A amostra é classificada como ATRASA = SIM

SE IDADE >=40 e DEPENDENTES = SIM ENTÃO A amostra é classificada como ATRASA = NÃO



NOME ESCOLARIDADE

IDADE RICO (atributo classe)

Alva Mestrado >30 SimAmanda Doutorado <=30 SimAna Mestrado <=30 NãoEduardo Doutorado >30 SimInês Graduação <=30 NãoJoaquim Graduação >30 NãoMaria Mestrado >30 SimRaphael Mestrado <=30 Não

Árvore de decisão construída a partir do conjunto de dados da

Tabela 2

Tabela 2. Base de dados Censitários



1.(Escolaridade = “Graduação”) → (Rico = “Não”)2.(Escolaridade = “Doutorado”) → (Rico = “Sim”)3.(Escolaridade = “Mestrado”) & (Idade = “>30”) → (Rico = “Sim”)4.(Escolaridade = “Mestrado”) & (Idade = “<=30”) → (Rico = “Não”)

Regra de Classificação

Uma regra do tipo A → B indica que a classe B pode ser determinada pelos atributos preditivos indicados no antecedente.



BERRY, M. L. A. e LINOFF, G. (2004), Data Mining Techniques: for Marketing, Sales and

Customer Relationship Management, John Wiley Consumer, 2nd edition.

HAN, J. e KAMBER, M. (2006), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2ndedition. WITTEN, I. H. e FRANK, E. (2005), Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann Publishers, 2nd edition.

Mitchell, TM: 1997, Machine Learning,

McGraw-Hill Langley, P: 1996, Elements of Machine Learning, Morgan and Kaufmann Publishers.

Breiman, L., J. H. Friedman, R. A. Olsen and C. J. Stone (1984). Classification and Regression Trees, Chapman & Hall, pp 358.



Documents

Daniel Mota - Arvore de decisão