Tema 8: Arboles de decisión´ · 2006. 9. 12. · B Los sistemas basados en árboles de decisión forman una familia llama-da TDIDT (Top–Down Induction of Decision Tree) B Representantes

Introducción a la Ingenieŕıa del Conocimiento Curso 2004–2005

Tema 8: Árboles de decisión

Miguel A. Gutiérrez Naranjo

Dpto. de Ciencias de la Computación e Inteligencia Artificial

Universidad de Sevilla

IIC 2004–05 CcIa Árboles de decisión 8.1

¿Qué es el Aprendizaje mediante árboles de decisión?

B El aprendizaje mediante árboles de decisión es un método de aprox-imación de una función objetivo de valores discretos en el cual lafunción objetivo es representada mediante un árbol de decisión.

B Los árboles aprendidos también pueden representarse como un con-junto de reglas Si–entonces


Ejemplo

Cielo Temperatura Humedad Viento Agua Forecast Hacer DeporteSoleado Templada Alta Débil Fŕıa Sigue igual NoSoleado Templada Normal Débil Fŕıa Sigue igual ŚıNublado Templada Normal Débil Fŕıa Sigue igual ŚıLluvioso Templada Normal Fuerte Templada Cambio NoLluvioso Templada Normal Débil Fŕıa Cambio Śı

B ¿Cuándo hacemos deporte?


Un ejemplo de árbol de decisión

Cielo

Nublado

Humedad

NormalAlta

No Si

Viento

Fuerte Debil

No Si

Si

LluviosoSoleado


El problema de la representación

El árbol anterior corresponde a la hipótesis:

(Cielo = Soleado ∧Humedad = Normal)∨ (Cielo = Nublado)∨ (Cielo = Lluvioso ∧ V iento = Debil)

Representación:

Cada nodo que no sea una hoja representa un atributo.

Las aristas que partan del nodo etiquetado con el atributo A están etiquetadas concada uno de los posibles valores del atributo A.

Cada hoja corresponde a un valor de la clasificación


Cuestiones sobre árboles de decisión

B ¿Cuándo usar árboles de decisión?

u Podemos describir los ejemplos en términos de pares atributo–valor

u La función objetivo toma valores discretos

u Posibilidad de ruido en el conjunto de entrenamiento

u Pueden no conocerse los valores de algunos atributos en los ejemplos del con-

junto de entrenamiento

B Ejemplos:

u Diagnóstico médico

u Análisis de riesgo en la concesión de créditos

u Elaboración de horarios


Cuestiones sobre árboles de decisión

B ¿Cuál es el árbol de decisión correcto?

u Navaja de Occam

u El mundo es inherentemente simple

u El árbol de decisión más pequeño consistente con la muestra es el que tiene

más probabilidades de identificar objetos desconocidos de manera correcta

u Menor profundidad

u Menor número de nodos

B ¿Cómo se puede construir el árbol de decisión más pequeño?


Algoritmo básico (I)

Árbol inicial: Árbol con un único nodo, sin etiquetar, al que asig-namos como conjunto de ejemplos todo el conjunto de entrenamiento.

Bucle principal:

• Consideramos el primer nodo, N , sin etiquetar◦ Si los ejemplos asignados N tienen todos la misma clasificación,

etiquetamos N con esa clasificación.

◦ En otro caso ...


Algoritmo básico (II)

¦ Etiquetamos N con el mejor atributo A según el conjunto deejemplos asignado.

¦ Para cada valor de A creamos una nueva arista descendente enel nodo N , y al final de cada una de esas nuevas aristas creamosun nuevo nodo sin etiquetar, N1, . . . , Nk.

¦ Separamos los ejemplos asignados al nodo N según el valor quetomen para el atributo A y creamos nuevos conjuntos de ejemplospara N1, . . . , Nk.

Hasta que todos los nodos estés etiquetados

¿Qué atributo clasifica mejor?


Entroṕıa (Definición)

Definición: Sea P = {p1, p2, . . . , pn} una distribución de probabilidad. Llamamosentroṕıa b-aria de la distribución P a

Hb(p1, p2, . . . , pn) = −i=n∑i=1

pi logb pi

La función de entroṕıa

H2(p, 1− p) = p log2 1p

+ (1− p) log2 11− p

es muy común y nos referimos a ella como la función de entroṕıa y se denota porH(p).


Gráfica de H(p)

Ent

ropy

(S)

1.0

0.5

0.0 0.5 1.0p+


Entroṕıa

B D es un conjunto de entrenamiento

B P y N son, respectivamente, la cantidad de ejemplos positivos y neg-ativos en D

B T es el número total de ejemplos de D

B La entroṕıa de esta distribución es:

u Fórmula: I(P, N) = H2(P/T, N/T ) =

{0, si N ∗ P = 0;−P

Tlog2

PT

− NT

log2NT

, si N ∗ P 6= 0.u Ejemplo: I(9, 9) = − 9

18log2

918

− 918

log2918

= 1

u (El término entroṕıa fue usado por primera vez por Clausius en 1864 e introducido en la

teoŕıa de la información por Shannon en 1948)


Otro ejemplo

Dı́a Cielo Temperatura Humedad Viento Jugar tenis

D1 Soleado Alta Alta Débil NoD2 Soleado Alta Alta Fuerte NoD3 Lluvioso Alta Alta Débil ŚıD4 Lluvioso Media Alta Débil ŚıD5 Lluvioso Fŕıa Normal Débil ŚıD6 Lluvioso Fŕıa Normal Fuerte NoD7 Lluvioso Fŕıa Normal Fuerte ŚıD8 Soleado Media Alta Débil NoD9 Soleado Fŕıa Normal Débil ŚıD10 Lluvioso Media Normal Débil ŚıD11 Soleado Media Normal Fuerte ŚıD12 Lluvioso Media Alta Fuerte ŚıD13 Lluvioso Alta Normal Débil ŚıD14 Lluvioso Media Alta Fuerte No

Entropia([9+,5-])= -(9/14)log2(9/14)-(5/14)log2(5/14)=0’940


Ganancia de información

Ganancia(D,A)= Estimación de la reducción de la entroṕıa en el conjuntode entrenamiento D si tomamos el atributo A y clasificamos según susvalores

Ganancia(S, A) ≡ Entropia(S) −∑

v∈V alores(A)

|Sv||S| Entropia(Sv)

donde

Valores(A) es el conjunto de valores del atributo A

Sv es el subconjunto de S formado por aquellas instancias que en elatributo A toman el valor v


Otro ejemplo

Supongamos que S es un conjunto de entrenamiento con 14 ejemplos

9 ejemplos positivos y 5 negativos ([9+,5-])

Unos de los atributos, V iento, puede tomar los valores Débil y Fuerte

La distribución de ejemplos positivos y negativos según los valores deV iento son

Positivos NegativosDébil 6 2Fuerte 3 3


Otro ejemplo

La Ganancia de información que obtenemos si clasificamos los 14 ejemplos según elatributo V iento es:

Ganancia(S,A)

= Entropia(S) − ∑v∈V alores(A) |Sv||S|Entropia(Sv)

= Entropia(S) − 814Entropia(SDebil) − 614Entropia(SFuerte)

= 0′940 − 8140′811 − 6141′00

= 0,048


Selección del mejor atributo (I)

Which attribute is the best classifier?

High Normal

Humidity

[3+,4-] [6+,1-]

Wind

Weak Strong

[6+,2-] [3+,3-]

= .940 - (7/14).985 - (7/14).592 = .151

= .940 - (8/14).811 - (6/14)1.0 = .048

Gain (S, Humidity ) Gain (S, )Wind

=0.940E =0.940E

=0.811E=0.592E=0.985E =1.00E

[9+,5-]S:[9+,5-]S:

Humedad proporciona mayor ganacia de información que Viento


Selección del mejor atributo (II)

Consideremos el ejemplo anterior con 14 ejemplos

Ganancia(S,Cielo) = 0’246 Ganancia(S,Viento) = 0’048Ganancia(S,Humedad) = 0’151 Ganancia(S,Temperatura) = 0’029

El atributo con el que tenemos mayor Ganancia de información es Cielo

Luego, seleccionamos Cielo como atributo de decisión para el nodo ráız

Para cada uno de sus posibles valores (Soleado, Lluvioso, Lluvioso) creamos unarama

Clasificamos los ejemplos según los valores de Cielo

En las ramas en las que los ejemplos no estén perfectamente clasificados, iteramos elproceso


Espacio de hipótesis

El aprendizaje mediante árboles de decisión es un método de aproxi-mación de una función objetivo de valores discretos en el cual la funciónobjetivo es representada mediante un árbol de decisión.

Podemos pensar este proceso como un proceso de búsqueda de un árbolque clasifique correctamente nuestros ejemplos.

Espacio de hipótesis: Todos los posibles árboles de decisión.

Método: Escalada (hill-climbing), empezando por el árbol vaćıo.

Función de evaluación que gúıa la búsqueda: Ganancia de informa-ción


Gráficamente

...

+ + +

A1

+ – + –

A2

A3+

...

+ – + –

A2

A4–

+ – + –

A2

+ – +

... ...

–


Comentarios

B El espacio de hipótesis es completo: Cualquier función finita que tomevalores discretos puede ser representada como un árbol de decisión.

B En cada elección consideramos una única hipótesis, a diferencia delalgoritmo de Eliminación de Candidatos, que considerábamos si-multáneamente todas las hipótesis consistentes con los ejemplos.

B No permite retroceso, por lo que podemos obtener óptimos locales enlugar de óptimos globales

B Considera en cada paso gran cantidad de ejemplos, en contraste conotros métodos, por ejemplo Eliminación de candidatos que consid-eran los ejemplos uno a uno. Esto supone mayor robustez frente alruido.


Sesgo de restricción y sesgo preferencial (I)

Consideremos la búsqueda en el espacio de hipótesis en el algoritmo deárboles de decisión y el algoritmo de Eliminación de Candidatos

ID3 busca de manera incompleta en un espacio de búsqueda comple-to. El sesgo es consecuencia únicamente del método de búsqueda. Elespacio de hipótesis no introduce ningún sesgo. Llamamos a este tipode sesgo preferencial, ya que se debe a la preferencia de unas hipótesissobre otras.


Sesgo de restricción y sesgo preferencial (II)

El algoritmo de Eliminación de Candidatos busca en un espaciode búsqueda incompleto de manera completa (i.e. devuelve todas lashipótesis del espacio consistentes con el conjunto de entrenamiento).En este caso el sesgo depende únicamente de la potencia expresivaen la representación de las hipótesis. Llamamos a este sesgo sesgo derestricción o sesgo del lenguaje.


Sistemas TDIDP

B Los sistemas basados en árboles de decisión forman una familia llama-da TDIDT (Top–Down Induction of Decision Tree)

B Representantes de TDIDT:

u ID3 [Quinlan, 1986]

u C4.5 [Quinlan, 93]

B Quinlan, J. R. C4.5: Programs for Machine Learning (Morgan Kauf-mann, 1993)


Otros temas de estudio (I)

B Sobreajuste (overfitting)

u Dado un espacio de hipótesis H, una hipótesis h ∈ H se dice que sobreajusta unconjunto de entrenamiento C si existe alguna hipótesis alternativa h′ ∈ H talque h clasifica mejor que h′ los elementos del conjunto de entrenamiento, peroh′ clasifica mejor que h el conjunto completo de posibles instancias.

u Exceso de ruido

u Conjunto de entrenamiento demasiado pequeño

B Poda (prunning)

u Definición: Podar un nodo de un árbol de decisión consiste en eliminar un

subárbol anidado en ese nodo transformándolo en una hoja y asignándole la

clasificación más común de los ejemplos de entrenamiento considerados en ese

nodo.


Otros temas de estudio (II)

Atributos de valores continuos

Medidas alternativas en la selección de atributos

Atributos con valores perdidos

Atributos con pesos diferentes


Bibliograf́ıa

B Mitchell, T. M. Machine Learning McGraw–Hill, 1997. Caṕıtulos II yIII.

B Poole D., et. al Computational Intelligence. A Logical Approach OxfordUniversity Press, 1998.


Documents

Tema 8: Arboles de decisión´ · 2006. 9. 12. · B Los sistemas basados en árboles de decisión forman una familia llama-da TDIDT (Top–Down Induction of Decision Tree) B Representantes