View
104
Download
1
Category
Preview:
Citation preview
Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1
Construindo Árvores de DecisãoConstruindo Árvores de Decisão
NoTrueHighMildRainy
YesFalseNormalHotOvercast
YesTrueHighMildOvercast
YesTrueNormalMildSunny
YesFalseNormalMildRainy
YesFalseNormalCoolSunny
NoFalseHighMildSunny
YesTrueNormalCoolOvercast
NoTrueNormalCoolRainy
YesFalseNormalCoolRainy
YesFalseHighMildRainy
YesFalseHighHot Overcast
NoTrueHigh Hot Sunny
NoFalseHighHotSunny
PlayWindyHumidityTempOutlook
Do livro: “Data Mining: Practical Machine Learning Tools and Techniques”
Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 2
Construindo Árvores de DecisãoConstruindo Árvores de Decisão
5/14
5
No
9/14
9
Yes
Play
3/5
2/5
3
2
No
3/9
6/9
3
6
Yes
True
False
True
False
Windy
1/5
4/5
1
4
NoYesNoYesNoYes
6/9
3/9
6
3
Normal
High
Normal
High
Humidity
1/5
2/5
2/5
1
2
2
3/9
4/9
2/9
3
4
2
Cool2/53/9Rainy
Mild
Hot
Cool
Mild
Hot
Temperature
0/54/9Overcast
3/52/9Sunny
23Rainy
04Overcast
32Sunny
Outlook
NoTrueHighMildRainy
YesFalseNormalHotOvercast
YesTrueHighMildOvercast
YesTrueNormalMildSunny
YesFalseNormalMildRainy
YesFalseNormalCoolSunny
NoFalseHighMildSunny
YesTrueNormalCoolOvercast
NoTrueNormalCoolRainy
YesFalseNormalCoolRainy
YesFalseHighMildRainy
YesFalseHighHot Overcast
NoTrueHigh Hot Sunny
NoFalseHighHotSunny
PlayWindyHumidityTempOutlook
Do livro: “Data Mining: Practical Machine Learning Tools and Techniques”
Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 3
Construindo Árvores de DecisãoConstruindo Árvores de Decisão
• Estratégia: top-down• Aplica recursivamente a estratégia de divisão
e conquista:– Seleciona o atributo para o nó raiz e cria um ramo
para cada possível valor do atributo– Divide as instâncias em subconjuntos, sendo um
para cada ramo originado no nó– Repetir o processo recursivamente para cada
ramo, usando apenas as instâncias que atinjam aquele ramo
– Parar se todas as instâncias forem da mesma classe
Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 4
Construindo Árvores de DecisãoConstruindo Árvores de Decisão
• Selecionando o atributo
Do livro: “Data Mining: Practical Machine Learning Tools and Techniques”
Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 5
Construindo Árvores de DecisãoConstruindo Árvores de Decisão
• Selecionando o atributo– Qual o melhor atributo?
• Deseja-se obter a menor árvore possível• Heurística: escolher o atributo que gere os nós mais
“puros”
– Uma medida bastante utilizada para se medir a “impureza” de um nó é a information gain, ou ganho de informação
– Estratégia: escolher o atributo que apresente o maior ganho de informação
Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 6
Construindo Árvores de DecisãoConstruindo Árvores de Decisão
• Computando informação– Medida de informação: bits
• Dada uma probabilidade de distribuição, a informação requerida para predizer um evento é a chamada entropia da distribuição
• A entropia dá essa informação requerida em bits (podendo ter valores fracionados)
– Fórmula para a entropia:
– Obs:
)(log...)(log)(log),...,,( 222212121 nnn pppppppppentropia
)2(log/)(log)(log 10102 xx
Entropia
Na Teoria da Informação, a entropia da informação, ou entropia de Shannon, é uma medida da incerteza associada a uma variável aleatória. Quantifica a informação contida em uma mensagem, usualmente em bits ou bits/símbolo. É o tamanho mínimo da mensagem para comunicar informação, isto é, para conter todos os valores ou significados desta mensagem.
Ex: para uma variável que representa o sexo de uma pessoa, a entropia é 1, pois tal conceito pode ser expresso em 1 bit:
Na Física, entropia é um conceito da Termodinâmica que está associado à desordem molecular.
Entropia
Na Teoria da Informação, a entropia da informação, ou entropia de Shannon, é uma medida da incerteza associada a uma variável aleatória. Quantifica a informação contida em uma mensagem, usualmente em bits ou bits/símbolo. É o tamanho mínimo da mensagem para comunicar informação, isto é, para conter todos os valores ou significados desta mensagem.
Ex: para uma variável que representa o sexo de uma pessoa, a entropia é 1, pois tal conceito pode ser expresso em 1 bit:
Na Física, entropia é um conceito da Termodinâmica que está associado à desordem molecular.
bitentropiaFMInfo 1)2/1(log2/1)2/1(log2/1)2/1,2/1(]),([ 22
Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 7
Construindo Árvores de DecisãoConstruindo Árvores de Decisão
• Computando informação– Exemplo para o atributo outlook:
• Outlook = Sunny
• Outlook = Overcast
• Outlook = Rainy
• Informação esperada para o atributo
bitsentropiaInfo 971,0)5/3(log5/3)5/2(log5/2)5/3,5/2(])3,2([ 22
bitsentropiaInfo 971,0)5/2(log5/2)5/3(log5/3)5/2,5/3(])2,3([ 22
bitsentropiaInfo 0)0(log0)1(log)4/0,4/4(])0,4([ 22
bitsInfo 693,0971,0)14/5(0)14/4(971,0)14/5(])2,3[],0,4[],3,2([
Normalmente é indefinido
Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 8
Construindo Árvores de DecisãoConstruindo Árvores de Decisão
• Computando o ganho de informação– Ganho de informação = informação antes da
divisão – informação depois da divisão
– Ganho de informação para os atributos
bitsInfoInfoOutlookganho 247,0693,0940,0])2,3[],0,4[],3,2([])5,9([)(
bitsWindyganho
bitsHumidityganho
bitseTemperaturganho
bitsOutlookganho
048,0)(
152,0)(
029,0)(
247,0)(
Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 9
Construindo Árvores de DecisãoConstruindo Árvores de Decisão
• Continuando a construção...
bitsWindyganho
bitsHumidityganho
bitseTemperaturganho
020,0)(
971,0)(
571,0)(
Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 10
Construindo Árvores de DecisãoConstruindo Árvores de Decisão
• Árvore Final
• Obs: nem toda folha necessita ser “pura”, fazendo com que algumas vezes, instâncias idênticas possam ter classes diferentes
• As divisões param quando os dados não puderem mais ser divididos
Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 11
Construindo Árvores de DecisãoConstruindo Árvores de Decisão
• Características desejadas para uma medida de “pureza”:– Quando um nó é puro, a medida deve ser zero;– Quando a impureza é máxima (classes igualmente
prováveis), a medida deve ser máxima (um);– A medida deve obedecer à propriedade “multiestágio”, isto
é, as decisões podem ser feitas em diversos estágios diferentes:
• Entropia é a única medida que satisfaz as 3 propriedades
])4,3([)9/7(])7,2([])4,3,2([ medidamedidamedida
Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 12
Construindo Árvores de DecisãoConstruindo Árvores de Decisão
• Propriedades da Entropia– Propriedade “Multiestágio”:
– Simplificação de Computação:
– Obs: ao invés de maximizar o ganho de informação, poderíamos minimizar a informação
),()(),(),,(rq
r
rq
qentropiarqrqpentropiarqpentropia
9/)]9(log9)4(log4)3(log3)2(log2[
)9/4(log9/4)9/3(log9/3)9/2(log9/2])4,3,2([
2222
222
Info
Recommended