27
Introducci ´ on a la Ingenier ´ ıa del Conocimiento Curso 2004–2005 Tema 8: ´ Arboles de decisi´on Miguel A. Guti´ errez Naranjo Dpto. de Ciencias de la Computaci´on e Inteligencia Artificial Universidad de Sevilla IIC 2004–05 C c I a ´ Arboles de decisi´on 8.1

Tema 8: Arboles de decisi´on´ · 2006. 9. 12. · B Los sistemas basados en ´arboles de decisi´on forman una familia llama-da TDIDT (Top–Down Induction of Decision Tree) B Representantes

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

  • Introducción a la Ingenieŕıa del Conocimiento Curso 2004–2005

    Tema 8: Árboles de decisión

    Miguel A. Gutiérrez Naranjo

    Dpto. de Ciencias de la Computación e Inteligencia Artificial

    Universidad de Sevilla

    IIC 2004–05 CcIa Árboles de decisión 8.1

  • ¿Qué es el Aprendizaje mediante árboles de decisión?

    B El aprendizaje mediante árboles de decisión es un método de aprox-imación de una función objetivo de valores discretos en el cual lafunción objetivo es representada mediante un árbol de decisión.

    B Los árboles aprendidos también pueden representarse como un con-junto de reglas Si–entonces

    IIC 2004–05 CcIa Árboles de decisión 8.2

  • Ejemplo

    Cielo Temperatura Humedad Viento Agua Forecast Hacer DeporteSoleado Templada Alta Débil Fŕıa Sigue igual NoSoleado Templada Normal Débil Fŕıa Sigue igual ŚıNublado Templada Normal Débil Fŕıa Sigue igual ŚıLluvioso Templada Normal Fuerte Templada Cambio NoLluvioso Templada Normal Débil Fŕıa Cambio Śı

    B ¿Cuándo hacemos deporte?

    IIC 2004–05 CcIa Árboles de decisión 8.3

  • Un ejemplo de árbol de decisión

    Cielo

    Nublado

    Humedad

    NormalAlta

    No Si

    Viento

    Fuerte Debil

    No Si

    Si

    LluviosoSoleado

    IIC 2004–05 CcIa Árboles de decisión 8.4

  • El problema de la representación

    El árbol anterior corresponde a la hipótesis:

    (Cielo = Soleado ∧Humedad = Normal)∨ (Cielo = Nublado)∨ (Cielo = Lluvioso ∧ V iento = Debil)

    Representación:

    Cada nodo que no sea una hoja representa un atributo.

    Las aristas que partan del nodo etiquetado con el atributo A están etiquetadas concada uno de los posibles valores del atributo A.

    Cada hoja corresponde a un valor de la clasificación

    IIC 2004–05 CcIa Árboles de decisión 8.5

  • Cuestiones sobre árboles de decisión

    B ¿Cuándo usar árboles de decisión?

    u Podemos describir los ejemplos en términos de pares atributo–valor

    u La función objetivo toma valores discretos

    u Posibilidad de ruido en el conjunto de entrenamiento

    u Pueden no conocerse los valores de algunos atributos en los ejemplos del con-

    junto de entrenamiento

    B Ejemplos:

    u Diagnóstico médico

    u Análisis de riesgo en la concesión de créditos

    u Elaboración de horarios

    IIC 2004–05 CcIa Árboles de decisión 8.6

  • Cuestiones sobre árboles de decisión

    B ¿Cuál es el árbol de decisión correcto?

    u Navaja de Occam

    u El mundo es inherentemente simple

    u El árbol de decisión más pequeño consistente con la muestra es el que tiene

    más probabilidades de identificar objetos desconocidos de manera correcta

    u Menor profundidad

    u Menor número de nodos

    B ¿Cómo se puede construir el árbol de decisión más pequeño?

    IIC 2004–05 CcIa Árboles de decisión 8.7

  • Algoritmo básico (I)

    Árbol inicial: Árbol con un único nodo, sin etiquetar, al que asig-namos como conjunto de ejemplos todo el conjunto de entrenamiento.

    Bucle principal:

    • Consideramos el primer nodo, N , sin etiquetar◦ Si los ejemplos asignados N tienen todos la misma clasificación,

    etiquetamos N con esa clasificación.

    ◦ En otro caso ...

    IIC 2004–05 CcIa Árboles de decisión 8.8

  • Algoritmo básico (II)

    ¦ Etiquetamos N con el mejor atributo A según el conjunto deejemplos asignado.

    ¦ Para cada valor de A creamos una nueva arista descendente enel nodo N , y al final de cada una de esas nuevas aristas creamosun nuevo nodo sin etiquetar, N1, . . . , Nk.

    ¦ Separamos los ejemplos asignados al nodo N según el valor quetomen para el atributo A y creamos nuevos conjuntos de ejemplospara N1, . . . , Nk.

    Hasta que todos los nodos estés etiquetados

    ¿Qué atributo clasifica mejor?

    IIC 2004–05 CcIa Árboles de decisión 8.9

  • Entroṕıa (Definición)

    Definición: Sea P = {p1, p2, . . . , pn} una distribución de probabilidad. Llamamosentroṕıa b-aria de la distribución P a

    Hb(p1, p2, . . . , pn) = −i=n∑i=1

    pi logb pi

    La función de entroṕıa

    H2(p, 1− p) = p log2 1p

    + (1− p) log2 11− p

    es muy común y nos referimos a ella como la función de entroṕıa y se denota porH(p).

    IIC 2004–05 CcIa Árboles de decisión 8.10

  • Gráfica de H(p)

    Ent

    ropy

    (S)

    1.0

    0.5

    0.0 0.5 1.0p+

    IIC 2004–05 CcIa Árboles de decisión 8.11

  • Entroṕıa

    B D es un conjunto de entrenamiento

    B P y N son, respectivamente, la cantidad de ejemplos positivos y neg-ativos en D

    B T es el número total de ejemplos de D

    B La entroṕıa de esta distribución es:

    u Fórmula: I(P, N) = H2(P/T, N/T ) =

    {0, si N ∗ P = 0;−P

    Tlog2

    PT

    − NT

    log2NT

    , si N ∗ P 6= 0.u Ejemplo: I(9, 9) = − 9

    18log2

    918

    − 918

    log2918

    = 1

    u (El término entroṕıa fue usado por primera vez por Clausius en 1864 e introducido en la

    teoŕıa de la información por Shannon en 1948)

    IIC 2004–05 CcIa Árboles de decisión 8.12

  • Otro ejemplo

    Dı́a Cielo Temperatura Humedad Viento Jugar tenis

    D1 Soleado Alta Alta Débil NoD2 Soleado Alta Alta Fuerte NoD3 Lluvioso Alta Alta Débil ŚıD4 Lluvioso Media Alta Débil ŚıD5 Lluvioso Fŕıa Normal Débil ŚıD6 Lluvioso Fŕıa Normal Fuerte NoD7 Lluvioso Fŕıa Normal Fuerte ŚıD8 Soleado Media Alta Débil NoD9 Soleado Fŕıa Normal Débil ŚıD10 Lluvioso Media Normal Débil ŚıD11 Soleado Media Normal Fuerte ŚıD12 Lluvioso Media Alta Fuerte ŚıD13 Lluvioso Alta Normal Débil ŚıD14 Lluvioso Media Alta Fuerte No

    Entropia([9+,5-])= -(9/14)log2(9/14)-(5/14)log2(5/14)=0’940

    IIC 2004–05 CcIa Árboles de decisión 8.13

  • Ganancia de información

    Ganancia(D,A)= Estimación de la reducción de la entroṕıa en el conjuntode entrenamiento D si tomamos el atributo A y clasificamos según susvalores

    Ganancia(S, A) ≡ Entropia(S) −∑

    v∈V alores(A)

    |Sv||S| Entropia(Sv)

    donde

    Valores(A) es el conjunto de valores del atributo A

    Sv es el subconjunto de S formado por aquellas instancias que en elatributo A toman el valor v

    IIC 2004–05 CcIa Árboles de decisión 8.14

  • Otro ejemplo

    Supongamos que S es un conjunto de entrenamiento con 14 ejemplos

    9 ejemplos positivos y 5 negativos ([9+,5-])

    Unos de los atributos, V iento, puede tomar los valores Débil y Fuerte

    La distribución de ejemplos positivos y negativos según los valores deV iento son

    Positivos NegativosDébil 6 2Fuerte 3 3

    IIC 2004–05 CcIa Árboles de decisión 8.15

  • Otro ejemplo

    La Ganancia de información que obtenemos si clasificamos los 14 ejemplos según elatributo V iento es:

    Ganancia(S,A)

    = Entropia(S) − ∑v∈V alores(A) |Sv||S|Entropia(Sv)

    = Entropia(S) − 814Entropia(SDebil) − 614Entropia(SFuerte)

    = 0′940 − 8140′811 − 6141′00

    = 0,048

    IIC 2004–05 CcIa Árboles de decisión 8.16

  • Selección del mejor atributo (I)

    Which attribute is the best classifier?

    High Normal

    Humidity

    [3+,4-] [6+,1-]

    Wind

    Weak Strong

    [6+,2-] [3+,3-]

    = .940 - (7/14).985 - (7/14).592 = .151

    = .940 - (8/14).811 - (6/14)1.0 = .048

    Gain (S, Humidity ) Gain (S, )Wind

    =0.940E =0.940E

    =0.811E=0.592E=0.985E =1.00E

    [9+,5-]S:[9+,5-]S:

    Humedad proporciona mayor ganacia de información que Viento

    IIC 2004–05 CcIa Árboles de decisión 8.17

  • Selección del mejor atributo (II)

    Consideremos el ejemplo anterior con 14 ejemplos

    Ganancia(S,Cielo) = 0’246 Ganancia(S,Viento) = 0’048Ganancia(S,Humedad) = 0’151 Ganancia(S,Temperatura) = 0’029

    El atributo con el que tenemos mayor Ganancia de información es Cielo

    Luego, seleccionamos Cielo como atributo de decisión para el nodo ráız

    Para cada uno de sus posibles valores (Soleado, Lluvioso, Lluvioso) creamos unarama

    Clasificamos los ejemplos según los valores de Cielo

    En las ramas en las que los ejemplos no estén perfectamente clasificados, iteramos elproceso

    IIC 2004–05 CcIa Árboles de decisión 8.18

  • Espacio de hipótesis

    El aprendizaje mediante árboles de decisión es un método de aproxi-mación de una función objetivo de valores discretos en el cual la funciónobjetivo es representada mediante un árbol de decisión.

    Podemos pensar este proceso como un proceso de búsqueda de un árbolque clasifique correctamente nuestros ejemplos.

    Espacio de hipótesis: Todos los posibles árboles de decisión.

    Método: Escalada (hill-climbing), empezando por el árbol vaćıo.

    Función de evaluación que gúıa la búsqueda: Ganancia de informa-ción

    IIC 2004–05 CcIa Árboles de decisión 8.19

  • Gráficamente

    ...

    + + +

    A1

    + – + –

    A2

    A3+

    ...

    + – + –

    A2

    A4–

    + – + –

    A2

    + – +

    ... ...

    IIC 2004–05 CcIa Árboles de decisión 8.20

  • Comentarios

    B El espacio de hipótesis es completo: Cualquier función finita que tomevalores discretos puede ser representada como un árbol de decisión.

    B En cada elección consideramos una única hipótesis, a diferencia delalgoritmo de Eliminación de Candidatos, que considerábamos si-multáneamente todas las hipótesis consistentes con los ejemplos.

    B No permite retroceso, por lo que podemos obtener óptimos locales enlugar de óptimos globales

    B Considera en cada paso gran cantidad de ejemplos, en contraste conotros métodos, por ejemplo Eliminación de candidatos que consid-eran los ejemplos uno a uno. Esto supone mayor robustez frente alruido.

    IIC 2004–05 CcIa Árboles de decisión 8.21

  • Sesgo de restricción y sesgo preferencial (I)

    Consideremos la búsqueda en el espacio de hipótesis en el algoritmo deárboles de decisión y el algoritmo de Eliminación de Candidatos

    ID3 busca de manera incompleta en un espacio de búsqueda comple-to. El sesgo es consecuencia únicamente del método de búsqueda. Elespacio de hipótesis no introduce ningún sesgo. Llamamos a este tipode sesgo preferencial, ya que se debe a la preferencia de unas hipótesissobre otras.

    IIC 2004–05 CcIa Árboles de decisión 8.22

  • Sesgo de restricción y sesgo preferencial (II)

    El algoritmo de Eliminación de Candidatos busca en un espaciode búsqueda incompleto de manera completa (i.e. devuelve todas lashipótesis del espacio consistentes con el conjunto de entrenamiento).En este caso el sesgo depende únicamente de la potencia expresivaen la representación de las hipótesis. Llamamos a este sesgo sesgo derestricción o sesgo del lenguaje.

    IIC 2004–05 CcIa Árboles de decisión 8.23

  • Sistemas TDIDP

    B Los sistemas basados en árboles de decisión forman una familia llama-da TDIDT (Top–Down Induction of Decision Tree)

    B Representantes de TDIDT:

    u ID3 [Quinlan, 1986]

    u C4.5 [Quinlan, 93]

    B Quinlan, J. R. C4.5: Programs for Machine Learning (Morgan Kauf-mann, 1993)

    IIC 2004–05 CcIa Árboles de decisión 8.24

  • Otros temas de estudio (I)

    B Sobreajuste (overfitting)

    u Dado un espacio de hipótesis H, una hipótesis h ∈ H se dice que sobreajusta unconjunto de entrenamiento C si existe alguna hipótesis alternativa h′ ∈ H talque h clasifica mejor que h′ los elementos del conjunto de entrenamiento, peroh′ clasifica mejor que h el conjunto completo de posibles instancias.

    u Exceso de ruido

    u Conjunto de entrenamiento demasiado pequeño

    B Poda (prunning)

    u Definición: Podar un nodo de un árbol de decisión consiste en eliminar un

    subárbol anidado en ese nodo transformándolo en una hoja y asignándole la

    clasificación más común de los ejemplos de entrenamiento considerados en ese

    nodo.

    IIC 2004–05 CcIa Árboles de decisión 8.25

  • Otros temas de estudio (II)

    Atributos de valores continuos

    Medidas alternativas en la selección de atributos

    Atributos con valores perdidos

    Atributos con pesos diferentes

    IIC 2004–05 CcIa Árboles de decisión 8.26

  • Bibliograf́ıa

    B Mitchell, T. M. Machine Learning McGraw–Hill, 1997. Caṕıtulos II yIII.

    B Poole D., et. al Computational Intelligence. A Logical Approach OxfordUniversity Press, 1998.

    IIC 2004–05 CcIa Árboles de decisión 8.27