85
Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Embed Size (px)

Citation preview

Page 1: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en

Data Mining

Profesor : Héctor Allende O.

Departamento de InformáticaÁrea Métodos y Modelos Cuantitativos

Page 2: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

Árboles de clasificación en Reconocimiento de

Formas

Alumno : Sergio Ahumada N.

Departamento de InformáticaÁrea Métodos y Modelos Cuantitativos

Departamento de InformáticaÁrea Métodos y Modelos Cuantitativos

Page 3: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

ContenidosContenidosContenidosContenidos

1. Introducción

2. Construcción del árbol de clasificación

3. Selección de particiones

4. Regla de asignación de clases

5. Criterio de parada

6. Ejemplos

Page 4: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

• Características principales

– Aproximación radicalmente distinta

– Uno de los métodos de aprendizaje inductivo supervisado no paramétrico más utilizado

– Una forma de representar el conocimiento obtenido en el proceso de aprendizaje inductivo:

*La estructura resultante de la partición recursiva de P a partir de un conjunto de prototipos S

*Organización jerárquica de P que se modela con una estructura de tipo árbol

Page 5: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

– Esquema general estructural

– Modelos: ID3, C4, C4.5, ..., CART

* Nodos interiores: una pregunta sobre un atributo concreto (con un hijo por cada posible respuesta)

* Nodos hoja: están etiquetados y representan una decisión o clasificación

Page 6: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

• Metodología.

1. Aprendizaje: Construcción del árbol a partir de S

2. Clasificación: Consiste en el etiquetado de un patrón, X, independiente del conjunto de aprendizaje.

Responder a las preguntas asociadas a los nodos interiores utilizando los valores de los atributos de X.

Repetir el proceso de evaluación desde el nodo raíz del árbol hasta alcanzar una hoja

Page 7: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

1. Aprendizaje:

Page 8: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

2. Clasificación:

Page 9: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

• Ejemplo 1:

Un A.C. para un problema con J = 3 y d = 25

Page 10: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

• Ejemplo 1:

• El problema es de dimensionalidad d = 25

• Observar las pocas variables utilizadas (6/25)

• Cada pregunta tiene asociadas dos únicas respuestas (si o no) particiones binarias (CART)

Page 11: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

• Ejemplo 2: Introducción al aprendizaje (1)

– Problema de clasificación no separable linealmente– J=2, d=2, N=46 (N1=26 y N2=20)

Page 12: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

Page 13: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

Primera partición

Page 14: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

Page 15: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

Segunda partición

Page 16: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

Page 17: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

Resumen del proceso de partición. Las regiones de decisión tiene forma de paralelepípedos

Page 18: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

• Ejemplo 3: Introducción al aprendizaje (2)

– Las particiones se hacen con hiperplanos arbitrarios

Primera partición (alternativa)

Page 19: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

Segunda partición (alternativa)

Page 20: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

Tercera partición (alternativa)

Page 21: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

Cada nodo tiene asociada una región en P

Page 22: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

• ¿Qué representa un árbol de clasificación?

Un árbol de clasificación T representa una partición recursiva del espacio de representación, P, realizada en base a un conjunto de prototipos, S.

Page 23: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

• Nodos de T, regiones en P y conjuntos en S.

1. Cada nodo de T tiene asociado un subconjunto de prototipos de S.

2. El nodo raíz tiene asignado el conjunto completo

3. Cada hoja, t, tiene asociada una región, Rt, en P.

Si es el conjunto de nodos hoja del árbol T :

Los conjuntos de prototipos asignados a los nodos hoja constituyen una partición de P

T~

Tt

t PR~

Page 24: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

4. Cada nodo no terminal tiene asociada una región en P, que es la unión de las regiones asociadas a los nodos hoja del subárbol cuya raíz es ese nodo.

5. La unión de los conjuntos de prototipos asignados a los nodos de un mismo nivel da como resultado el conjunto inicial

Page 25: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación2. Construcción de árbol de clasificación

• Constituye la fase de aprendizaje.

• Esquema recursivo:

1. El avance está basado en la partición de un nodo de acuerdo a alguna regla, normalmente evaluando una condición sobre el valor de alguna variable:

Si un nodo se particiona nodo intermedio.

Los prototipos que verifican la condición se asignan a uno de los dos nodos hijo (normalmente el izquierdo) y los restantes, al otro.

Page 26: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación2. Construcción de árbol de clasificación

2. El caso base o condición de parada tiene como objetivo detener el proceso de partición de nodos.

Si se verifica la condición de parada nodo hoja.

• En ocasiones, se poda el árbol resultante utilizando alguna regla de poda.

Los prototipos asociados a un nodo hoja constituyen un agrupamiento homogéneo, por lo que al nodo se le asigna una etiqueta.

Page 27: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación2. Construcción de árbol de clasificación

• Puntos clave en la construcción del árbol.

1. ¿De qué forma se hacen las particiones y se selecciona la mejor de entre las posibles en cada momento?

2. ¿Cual es el criterio para determinar que un nodo es homogéneo? ó ¿Cuando se debe declarar un nodo como terminal, o por el contrario, continuar su división?

3. ¿Cómo asignar una etiqueta a un nodo terminal?

1.1 ¿Cómo se formulan las preguntas? ó ¿De qué tipo son las condiciones a evaluar para formar una partición?

1.2 ¿Qué partición es la mejor?

Page 28: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación2. Construcción de árbol de clasificación

• Ejemplo. Construcción de un árbol.

Supongamos el siguiente problema:

– d = 25– J = 3– N = 300 (Ni = 100, i = {1,2,3})

1. Construcción del nodo raíz.

Nodo raíz del árbol

Page 29: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación2. Construcción de árbol de clasificación

2. Partir el nodo raíz.

Objetivo: Seleccionar la mejor partición del nodo raíz entre todas las posibles.

2.1 Examinar todas las particiones de la forma

donde:

?¿ 1 CX

)max()min( 11 XCX

Page 30: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación2. Construcción de árbol de clasificación

Por ejemplo, C = 1.1 Los prototipos para los que X1 < 1.1 van al nodo izquierdo, los otros, al derecho.

Guardar la mejor partición, P.e. ¿X1 < 10.7?

Partición asociada a ¿X1 < 1.1?

2.2 Repetir el proceso anterior para X2, X3, ..., X25

Page 31: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación2. Construcción de árbol de clasificación

2.3 Seleccionar la mejor partición entre las mejores de X1, X2, X3, ...,X25

P.e. ¿X8 < 3.2?

Partición asociada a ¿X8 < 3.2?

Page 32: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación2. Construcción de árbol de clasificación

3. Repetir el paso 2 para los nodos hijo.

Por ejemplo, sea ¿X3 < -0.8? la mejor partición para el nodo izquierdo y ¿X1 < 17.9? la mejor para el derecho.

Árbol resultante de partir el árbol anterior

Page 33: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación2. Construcción de árbol de clasificación

* Los nodos 4 y 5 diferencian claramente las clases 2 y 1, respectivamente, mientras que en los nodos 6 y 7 se diferencian las clases 2 y 3, respectivamente.

* Las particiones efectuadas han ido “definiendo” una clase mayoritaria en cada nodo resultante han ido aumentando la pureza de los nodos.

* Este proceso de división puede continuar para cada uno de los 4 nodos o, para cada caso, plantearse si debemos detenernos.

Page 34: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación2. Construcción de árbol de clasificación

4. ¿Parada?

* Establecer el criterio de parada para obtener un buen árbol de decisión no es sencillo.

* Uno muy simple: un nodo se declarará terminal si la clase dominante tiene más del 60% de los prototipos asociados a ese nodo.

• 4. N(4) = 78. 60% = 46.8. N2(4) = 53 Parar.

• 5. N(5) = 83. 60% = 49.8. N1(5) = 51 Parar.

• 6. N(6) = 45. 60% = 27.0. N2(6) = 25 Seguir.

• 7. N(7) = 94. 60% = 56.4. N3(7) = 65 Parar.

Page 35: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación2. Construcción de árbol de clasificación

Los nodos 4, 5 y 7 se declaran nodos hoja

Page 36: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación2. Construcción de árbol de clasificación

Page 37: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación2. Construcción de árbol de clasificación

A) Árbol resultado de partir el nodo 6. B) Final

Page 38: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Selección de las particiones3. Selección de las particiones

• Una partición divide un conjunto de prototipos en conjuntos disjuntos.

• Objetivo de una partición: Incrementar la homogeneidad (en términos de clase) de los subconjuntos resultantes que sean más puros que el conjunto originario.

¿De qué forma se hacen las particiones y se selecciona la mejor de entre las posibles en cada

momento?

En CART: particiones binarias.

Page 39: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Selección de las particiones3. Selección de las particiones

• Cada partición tiene asociada una medida de pureza:

- Para la selección de la mejor partición.

- Como criterio de parada (no es muy recomendable)

• Puntos a estudiar:

- ¿Cómo se formulan las preguntas?

- ¿Qué partición es la mejor?

Page 40: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.1 Formulación de la regla de partición3.1 Formulación de la regla de partición

• Introducción.

¿Cómo se formulan las preguntas?

Sea Q el conjunto de preguntas binarias de la forma:

El conjunto Q genera un conjunto de particiones s en cada nodo t. Un nodo t se particiona en tL y tR.

- Los casos de t que verifican la condición ¿X A? se asignan al nodo izquierdo, tL,

- Los casos de t que no verifican la condición se asignan a tR,

PAAX ,?¿

AttL

AttR

Page 41: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Conjunto estándar de preguntas.

1. Cada partición depende de un único atributo.

2. Si Xi es un atributo categórico, que toma valores en {c1,c2,...,cL}, Q incluye las preguntas:

donde C es un conjunto de entre los subconjutos de {c1,c2,...,cL}.

P.e. Si X2 toma valores en {Rojo, Verde, Azul}, ¿X2 {Rojo}?, ¿X2 {Verde}?, ¿X2 {Azul}?

?¿ CX i

3.1 Formulación de la regla de partición3.1 Formulación de la regla de partición

Page 42: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Si Xi es un atributo continuo, Q incluye las preguntas:

donde v es valor real, teóricamente cualquiera. En CART, v es el punto medio de dos valores consecutivos de Xi

P.e. Si X1 es real, con valores 0.1, 0.5, 1.0, ¿X1 (0.1 + 0.5)/2?, ¿X1 (0.5 + 1.0)/2?

?¿ vX i

3.1 Formulación de la regla de partición3.1 Formulación de la regla de partición

Page 43: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.2 Criterios de partición3.2 Criterios de partición

Cada partición tiene asociada una medida de pureza:

Se trata de incrementar la homogeneidad de los subconjuntos resultantes de la partición

que sean más puros que el conjunto originario.

¿Qué partición es la mejor?

Page 44: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.2 Criterios de partición3.2 Criterios de partición

Una función definida sobre J-uplas (c1,c2,...,cJ), tales que:

a) cj 0 para j = 1,2,...,J y b) , con las siguiente propiedades

i) tiene un único máximo en (1/J, 1/J, ..., 1/J).

ii) alcanza su mínimo en

(1,0,0,...,0), (0,1,0,...,0), ..., (0,0,0,...,1)

y el valor mínimo es 0.

iii) es una función simétrica de c1, c2, ..., cJ

j jc 1

• Función de impureza,

Page 45: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

Dada una función de impureza , definamos la medida de impureza de cualquier nodo t, i(t), como:

donde p(j|t) es la probabilidad de que un caso (prototipo) del nodo t sea de clase j. Empíricamente: la proporción de casos de clase j en el nodo t:

• Medida de impureza de un nodo, i(t)

)(

)()|(

tN

tNtjp j

)|(),...,|2(),|1()( tJptptpti

3.2 Criterios de partición3.2 Criterios de partición

Page 46: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

Observar que:

a) p(j|t) 0

b)

i) Máxima impureza (resp. mínima pureza): cuando todas las clases están igualmente representadas en t.

ii) Mínima impureza (resp. máxima pureza): cuando en t sólo hay casos de una sola clase.

iii) Cualquier permutación de los cj produce el mismo resultado. P.e., para dos nodos tj tk, i(tj) = (0.7, 0.2, 0.1) = (0.2, 0.1, 0.7) = i(tk)

j j jtNj tN

tNtNtjp j 1)()|( )(

1)(

)(

3.2 Criterios de partición3.2 Criterios de partición

Page 47: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

Para cualquier nodo t, supongamos la partición candidata s, que divide t en tL y tR, de forma que una proporción pL de los casos de t van a tL y una proporción pR van a tR:

• Bondad de la partición s en un nodo t, (s,t)

La partición s divide t en tL y tR

3.2 Criterios de partición3.2 Criterios de partición

Page 48: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

La bondad de la partición s en un nodo t, (s,t), se define como el decrecimiento en impureza conseguido con ella:

Si conocemos cómo calcular i(t), para cada s podemos calcular (s,t) y seleccionar la mejor partición s como la que proporciona la mayor bondad (s,t).

Para establecer el efecto que produce la selección de la mejor partición en cada nodo sobre el árbol final necesitamos una medida de la impureza global del árbol.

)( )( )(),(),( RRLL tiptiptitsits

• Impureza de un árbol, I(T)

3.2 Criterios de partición3.2 Criterios de partición

Page 49: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

Sea I(t) = i(t)p(t), donde p(t) es la probabilidad de que un caso cualquiera esté en el nodo t.

La impureza del árbol T, se define como:

donde es el conjunto de nodos terminales de T.T~

TtTt

tptitITI~~

)()()()(

La selección continuada de las particiones que maximizan i(s,t) es equivalente a seleccionar las particiones que minimizan la

impureza global I(T).Esto significa que la estrategia de selección de la mejor partición en cada nodo conduce a la solución óptima considerando el árbol

final

3.2 Criterios de partición3.2 Criterios de partición

Page 50: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

* Medida de entropía.

Se asume que 0 log0 = 0

* Índice de Gini.

Mide la diversidad de clases en un nodo.

• Criterios de medida de impureza

J

j

tjptjpti1

)|(log)|()(

J

j

J

jiji

tjptjptipti1

2

1,

)|(1)|()|()(

3.2 Criterios de partición3.2 Criterios de partición

Page 51: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

La elección del criterio de partición depende del problema, aunque el clasificador generado no

parece muy sensible a esta elección, como demuestra la experiencia.

¡Importante!

3.2 Criterios de partición3.2 Criterios de partición

Page 52: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Regla de asignación de clases4. Regla de asignación de clases

Asigna una clase j a cada nodo terminal t . La clase asignada al nodo t se notará por j(t)

La forma más simple:

Elección de la clase para la cual p(i|t) es máxima

Si el máximo se alcanza para dos o más clases, asignar arbitrariamente cualquiera de ellas.

¿Cómo asignar una etiqueta a un nodo terminal?

• Regla de asignación de clase

T~

T~

)|(max)|( si )(,...,2,1

tiptjpjtjJi

Page 53: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5. Criterio de parada5. Criterio de parada

1. Mayoría absoluta.

2. Umbral de decrecimiento en impureza.

Fijar un valor > 0. t será nodo terminal si:

¿Cual es el criterio para determinar que un nodo es homogéneo? o ¿Cuándo se debe declarar un nodo terminal, o por el contrario, continuar su división?

• Criterios simples (insatisfactorios)

),(max tsis

Page 54: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5. Criterio de parada5. Criterio de parada

- bajo, muy “exigente” árboles muy grandes.

- alto, muy “permisivo” menos altura.

En un momento dado pueden encontrarse nodos en los que maxs{i(s,t)}es pequeño, pero una posterior partición de sus descendientes podría proporcionar mayores decrecimientos de impureza.

Puede verse como una poda de ambas ramas

Page 55: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.1 Estimadores de error5.1 Estimadores de error

Estimar R*(T), el error real asociado a T.

donde r(t) = 1 - maxj{p(j|t)} y p(t) es la probabilidad de que un caso cualquiera esté en el nodo t.

• Objetivo:

• Estimador por resustitución del error global de clasificación de T, R(T):

TtTt

tptrtRTR~~

)()()()(

Page 56: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.1 Estimadores de error5.1 Estimadores de error

¡Muy importante! (Breiman)

Si T’ se construye a partir de T a través de una partición arbitraria de un nodo terminal de T, entonces,

Si R(T) decrece conforme el tamaño del árbol se hace mayor, podemos construir árboles en los que los nodos terminales tengan un solo prototipo. En éstos R(T)=0

)()()()()'( RL tRtRtRTRTR

Page 57: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

Error de clasificación según | |. R(T): estimador por resustitución. Rts(T): estimador por conjunto de prueba

T~

- Conclusión:

R(T), induce a sobreaprendizaje, esto es, el clasificador está muy ajustado al conjunto de entrenamiento, proporcionando índices de error muy bajos, pero que no son realistas ya que no son extrapolables a otros conjuntos.

5.1 Estimadores de error5.1 Estimadores de error

Page 58: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.1 Estimadores de error5.1 Estimadores de error

Se necesita establecer un estimador más certero del error real: un estimador honesto de R*(T).

a) Rts(T), Estimador por conjunto de prueba.

b) Rcv(T), Estimador por validación cruzada.

Page 59: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.1 Estimadores de error5.1 Estimadores de error

1. Podar en lugar de impedir el crecimiento.

Construir un árbol muy grande y podar hacia la raíz de manera adecuada.

• Procedimiento recomendado para establecer un criterio de parada.

- Se podan subárboles que producen pequeños beneficios de bondad.

- Resultado: secuencia decreciente (en tamaño) de árboles “anidados”

Page 60: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.1 Estimadores de error5.1 Estimadores de error

2. Utilizar estimadores honestos de R*(T).

Se usarán para seleccionar el árbol del tamaño adecuado de entre la secuencia de árboles podados. Dependerá del tamaño del conjunto de entrenamiento:

- Rts(T) Estimador por conjunto de prueba.Conjunto de aprendizaje suficientemente grande.

- Rcv(T) Estimador por validación cruzada.Conjunto de aprendizaje pequeño.

Page 61: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.2 La estrategia de poda5.2 La estrategia de poda

1. Particionar hasta que se cumpla:

a) sea totalmente puro, o

b) N(t) < Nmin (habitualmente Nmin = 5)

Se obtiene un árbol muy grande, Tmax.

Resulta más eficiente podar un árbol que detener su crecimiento (Breiman)

Page 62: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.2 La estrategia de poda5.2 La estrategia de poda

2. Podar este árbol, obteniendo una secuencia decreciente y anidada de árboles.

Si T’ se obtiene a partir de T por poda, T’ es un subárbol podado de T y se denota por T’ T

{t1} ... T1 T2 Tmax

Uno de estos árboles será el que se seleccione.

Para realizar esta selección se asocia una medida de error a cada árbol de la secuencia y se escoge aquel que tenga asociado el menor error

Page 63: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.3 Poda por mínimo coste-complejidad5.3 Poda por mínimo coste-complejidad

Para cualquier subárbol T Tmax se define su complejidad como el número de nodos terminales, | |.

Medida de coste-complejidad, R(T):

R(T) = R(T) + | |

donde es un valor real ( 0) (parámetro de complejidad) que se interpreta como el coste de complejidad por nodo terminal.

• Complejidad de un árbol.

• Medida de coste-complejidad

T~

T~

Page 64: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.3 Poda por mínimo coste-complejidad5.3 Poda por mínimo coste-complejidad

R(T) es una combinación lineal del coste del árbol y su complejidad, ponderada apropiadamente.

Para cada , se trata de encontrar el árbol T(), T() Tmax, que minimiza R(T),

R(T()) = )(min TR

maxTT

Page 65: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.3 Poda por mínimo coste-complejidad5.3 Poda por mínimo coste-complejidad

• Ejemplo

1. Sea = 0.10

1.1 Considerar el subárbol T1 (figura A)

Sea R(T1) = 0.25, y | | = 3

R(T1) = R(T1) + | | = 0.25 + (0.10 x 3) = 0.55

1

~T

1

~T

Page 66: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.3 Poda por mínimo coste-complejidad5.3 Poda por mínimo coste-complejidad

1.2 Supongamos que se reemplaza el subárbol derecho de T1 por una hoja, obteniendo T2 (figura B)

Sea R(T2) = 0.38, y | | = 2

R(T2) = R(T2) + | | = 0.38 + (0.10 x 2) = 0.58

2. Sea = 0.15 (R(T1) y R(T2) se mantienen).

R(T1) = R(T1) + | | = 0.25 + (0.15 x 3) = 0.70

R(T2) = R(T2) + | | = 0.38 + (0.15 x 2) = 0.68

2

~T

2

~T

1

~T

2

~T

Page 67: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.3 Poda por mínimo coste-complejidad5.3 Poda por mínimo coste-complejidad

• Discusión.

- Problema: escoger un valor apropiado para .

- Solución: incrementar gradualmente , empezando con = 0. Este procedimiento genera una secuencia finita y única de subárboles anidados

{t1} ... T2 T1 donde Tk = T(k), 1 = 0

- El procedimiento concreto en que se implementa este método de poda resulta demasiado complejo para el ámbito del curso (más detalles en [B.1])

Page 68: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.3 Poda por mínimo coste-complejidad5.3 Poda por mínimo coste-complejidad

A grandes rasgos: Empieza con T1 (1=0), encuentra la rama más débil de T1 y la poda, creando T2 cuando alcanza 2. A continuación encuentra la rama más débil de T2 y la poda, creando T3 cuando alcanza 3 , ...

Conforme crece , tiende a podar menos nodos ya que los árboles son más pequeños (menos complejos) y el resultado es una secuencia decreciente de subárboles.

{t1} = T9 ... T2 T1

Page 69: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.4 Selección del mejor árbol podado5.4 Selección del mejor árbol podado

Dada una secuencia decreciente de subárboles:

{t1} ... T2 T1

Se trata de seleccionar uno de éstos como el óptimo.

Se asocia una medida de error a cada árbol de la secuencia y se escoge aquel que tenga asociado el menor error.

Escoger Tk0 si (Tk0

) = mink (Tk)

¡Cuidado! ¿Cómo obtener honestamente R*(Tk)?

• Objetivo:

• ¿Cómo?

R̂ R̂

Page 70: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.4 Selección del mejor árbol podado5.4 Selección del mejor árbol podado

• Estimación por conjunto de prueba.

- Aplicable si el conjunto de entrenamiento es suficientemente grande.

- S Sl y St

Sl es el conjunto de aprendizaje

Se usa para construir Tmax, y a partir de él, {t1} ... T2 T1

St es el conjunto de prueba

Para cada Tk, se clasifican las muestras de St utilizando el clasificador Tk y se obtiene Rts(Tk).

Page 71: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

- El árbol más adecuado, Tk0, es el que verifica:

Rts(Tk0) = mink Rts(Tk)

- Recomendado cuando el conjunto de entrenamiento tiene pocos prototipos.

- El árbol más adecuado, Tk0, es el que verifica

Rcv(Tk0) = mink Rcv(Tk)

5.4 Selección del mejor árbol podado5.4 Selección del mejor árbol podado

• Estimación por validación cruzada.

Page 72: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• La regla 1 SE.

- Calibrar la incertidumbre de los estimadores Rts(T) y Rcv(T) calculando su error estándar (SE).

5.4 Selección del mejor árbol podado5.4 Selección del mejor árbol podado

||

)(1)())((

t

tststs

S

TRTRTRSE

Page 73: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.4 Selección del mejor árbol podado5.4 Selección del mejor árbol podado

- Mínimo de muy inestable regla 1-SE.

1. Reducir la inestabilidad asociada a la selección del mínimo exacto.

2. Seleccionar el árbol más simple cuya bondad es comparable a mink

)(ˆkTR

)(ˆkTR

Page 74: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.4 Selección del mejor árbol podado5.4 Selección del mejor árbol podado

- Regla 1 SE.

Si Tk0 es tal que = mink , entonces, el árbol

seleccionado será Tk1, donde k1 es el máximo k que

satisface:

+ SE( )

Se selecciona Tk1 al ser el árbol más simple (con mayor

subíndice de la secuencia {t1},...,Tk1,...,Tk0

,...,T1) que

verifica que + SE( )

)(ˆ0kTR )(ˆ

kTR

)(ˆ1kTR )(ˆ

0kTR )(ˆ0kTR

)(ˆ1kTR )(ˆ

0kTR )(ˆ0kTR

Page 75: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5.4 Selección del mejor árbol podado5.4 Selección del mejor árbol podado

La regla 1-SE sobre el ejemplo anterior

Page 76: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Ejemplo 16. Ejemplo 1

Page 77: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Ejemplo 16. Ejemplo 1

• Tmax se construyó con Nmin = 1

• SE(Rts(Tk)) < 0.07 (despreciables).

• Para Rcv(Tk) se indica SE(Rcv(Tk)). V = 10

* T2 : Rcv(T2) = mink Rcv(Tk)

** T6 es el árbol seleccionado por la regla 1 SE.

Rcv(T2) + SE(Rcv(Tk2)) = 0.27 + 0.03 = 0.30

T1(0.30), T2(0.27), T3(0.30), T4(0.30) y T6(0.30)

Page 78: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Ejemplo 26. Ejemplo 2

Page 79: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Ejemplo 26. Ejemplo 2

• Nmin = 1 y SE(Rts(Tk)) < 0.07 (despreciables).

* T7 : Rcv(T7) = mink Rcv(Tk) y Rts(T7) = mink Rts(Tk)

** T7 es el árbol seleccionado por la regla 1 SE.

Rcv(T7) + SE(Rcv(Tk7)) = 0.31 + 0.03 = 0.34

T6(0.32) y T7(0.31)

Page 80: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Ejemplo 36. Ejemplo 3

Page 81: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Ejemplo 36. Ejemplo 3

• Nmin = 1 y SE(Rts(Tk)) < 0.07 (despreciables).

* T4 : Rcv(T4) = mink Rcv(Tk)

** T6 es el árbol seleccionado por la regla 1 SE.

Rcv(T4) + SE(Rcv(Tk4)) = 0.28 + 0.03 = 0.31

T1(0.31), T2(0.31), T3(0.30), T4(0.28), T5(0.29) y T6(0.29)

Page 82: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Ejemplo 46. Ejemplo 4

Page 83: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Ejemplo 46. Ejemplo 4

Page 84: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Ejemplo 56. Ejemplo 5

Page 85: Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O. Departamento de Informática Área Métodos y Modelos Cuantitativos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

7. Bibliografía7. Bibliografía

• [B.1] Breiman, L. et al. Classification and Regression Trees (1984)

• [B.2] Cortijo, F. Un estudio comparativo de métodos de clasificación de imágenes de multibanda (1995)

• [B.3] Fukunaga, K. Introduction to statistical pattern recognition (1998)