30
Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline Chávez Cuzcano César Pérez Pinche error del clasificador número de características número de ejemplos

Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

Embed Size (px)

Citation preview

Page 1: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

Comparación de cuatro técnicas de selección de características envolventes

para procesos de clasificación.

Samuel Oporto DíazIván Aquino Morales

Jacqueline Chávez CuzcanoCésar Pérez Pinche

erro

r d

el c

lasi

ficad

or

número de características

número de ejemplos

Page 2: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

22/45/45

PLANTEAMIENTO DEL PROBLEMA

Page 3: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

33/45/45

Selección de Características

La selección de características se encuentra dentro de la etapa de preparación de datos dentro de un proceso de minería de datos.

Comprensión del negocio

Comprensión de los datos

Preparación de los datos

Modelación

Evaluación

Despliegue de resultados

DATOS

Comprensión del negocio

Comprensión de los datos

Preparación de los datos

Modelación

Evaluación

Despliegue de resultados

Comprensión del negocio

Comprensión de los datos

Preparación de los datos

Modelación

Evaluación

Despliegue de resultados

Comprensión del negocio

Comprensión de los datos

Preparación de los datos

Modelación

Evaluación

Despliegue de resultados

DATOS

Page 4: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

44/45/45

Selección de Características

Encontrar un subconjunto de características Sm’ del conjunto inicial de características Sm tal que logren minimizar el error de un clasificador.

Se trata de reducir la dimensionalidad de los patrones de entrada Sm.

Sm’ se construye eliminando las variables redundantes o las que no aportan suficiente información al clasificador.

Page 5: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

55/45/45

Selección de Características

• Si se evalua todo el espacio de posibles combi-naciones, el costo computacional es muy alto

• Si n es la cantidad de características identificadas y m es la cantidad de características deseadas, el número total de posibles subconjuntos a evaluar es:

Si n = m; 2n

n 2n

10 1,02420 1,048,57630 1,073,741,82440 1,099,511,627,776

Page 6: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

66/45/45

PROCEDIMIENTO DE SOLUCION

Page 7: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

77/45/45

Proceso de Selección de Características

FiltroEnvolventeHíbrido

e: error del clasificador

B. OptimaB. Sub-optimaB. AleatoriaB. Heurística

Clasificador

Page 8: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

88/45/45

Generación del Sub-Conjunto

• Búsqueda exhaustiva

• Búsqueda secuencial hacia delante.• Búsqueda secuencial hacia atrás.

• Búsqueda Aleatoria (BA).• Búsqueda Aleatoria Optimizada (BAO)

• Búsqueda Mejor Primero (BMP)• Búsqueda Genética (BG)

Optima

Sub-optima

Aleatoria

Heurística

Page 9: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

99/45/45

Evaluación del Sub-Conjunto

• Filtro. Independientes del algoritmo de aprendizaje.

• Componente principal, entropía.

• Envolvente. Usan el mismo algoritmo para escoger el sub-conjunto como para el aprendizaje.

• Búsqueda Aleatoria, Búsqueda Aleatoria Optimizada, Búsqueda Mejor Primero, Búsqueda Genética.

• Híbridos. Filtro + Envolvente.

Page 10: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

1010/45/45

Criterio de Paro

¿Cuándo detener la búsqueda? :

error del clasificador

Page 11: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

1111/45/45

ALGORITMOS

Page 12: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

1212/45/45

Algoritmos de Búsqueda

• BUSQUEDA ALEATORIA (BA)• Realiza una búsqueda sobre un porcentaje de

todo el espacio de sub-conjuntos posibles, seleccionados aleatoriamente. Es una búsqueda de tipo exhaustivo.

• BUSQUEDA ALEATORIA OPTIMIZADA (BAO)• Dado un subconjunto de características, si al

quitar una característica.– error sube relevante <fracaso>– error baja irrelevente <exito>

• Se pretende eliminar las irrelevantes.

Page 13: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

1313/45/45

Algoritmos de Búsqueda

• BUSQUEDA MEJOR PRIMERO (BMP)• Usa un árbol de búsqueda, de tal forma que la

característica de mejor evaluación inicial sea la primera en ser considerada como parte del subconjunto óptimo de características.

• BUSQUEDA GENÉTICA (BG)• Hace uso de un algoritmo genético. El objetivo

consiste en encontrar el sub-conjunto de características (individuos) óptimas mediante la minimización de una función objetivo (tasa de error del clasificador).

Page 14: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

1414/45/45

Criterio de Paro

Búsqueda Aleatoria (BA) gradiente error < umbral

Búsqueda Aleatoria Optimizada (BAO) fracasos consecutivos < umbral

Búsqueda Mejor Primero (BMP) error (l) < error (l + k) k = [1, 2, 3, 4, 5]

Búsqueda Genética (BG) minimizar el error del clasificador.

Page 15: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

1515/45/45

Algoritmos de Clasificación

Desarrollado por Quinlan. Es un árbol de regresión.Es recursivo, y se basa en la estrategia "divide y vencerás“Mejora del ID3.

Árbol de Decisión C4.5 Naive Bayesian

Aprendizaje probabilístico:Incremental: Cada ejemplo puede incrementar / decrementar la probabilidad de que una hipótesis sea correcta.La predicción probabilística predice múltiples hipótesis ponderadas

Tiempo P N Humedad P Nsoleado 2/9 3/5 alta 3/9 4/5cubierto 4/9 0 normal 6/9 1/5lluvia 3/9 2/5Temperatura Vientocalor 2/9 2/5 si 3/9 3/5suave 4/9 2/5 no 6/9 2/5fresco 3/9 1/5

Page 16: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

1616/45/45

Algoritmos de Clasificación

Presentadas en 1992. Vapnik y Chervonenkis.Crea nuevas características linealmente separables.Busca un hiperplano que puede separar el espacio en dos partes

Maquinas de Vector Soporte

Red de Retropropagación

Trabaja con datos continuos o discretosLa salida puede ser vector de valores reales o discretos.Aprende por modificación de los pesos.Largo tiempo de entrenamiento Es difícil entender el significado de los pesos.

Page 17: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

1717/45/45

FUENTES DE DATOS

Page 18: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

1818/45/45

Datos

Nombre inst

anci

as

cara

cter

ístic

as

clases % nom % num 1% 0%ADULT 48,842 14 2 57 43 23.5 76.5BANDS 512 39 2 50 50 35.5 64.5MUSHROOM 8,124 22 2 100 0 37.3 62.7

UCI Repository of Machine Learning DatabaseUniversity of California

Page 19: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

1919/45/45

DISEÑO DE EXPRIMENTO

Page 20: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

2020/45/45

Diseño de Experimentos

DATOS

AL

GO

RIT

MO

D

E B

US

QU

ED

AC

LA

SIF

ICA

DO

RE

S

ADULT, BANDS, MUSHROOM

• Árbol de Decisión C4.5

• Naive Bayesian

• Maquinas de Vector Soporte

• Red de Retropropagación

• Búsqueda Aleatoria

• Búsqueda Aleatoria Optimizada

• Búsqueda Mejor Primero

• Búsqueda Genética

48experimentos

K-fold

K = 10

Validación cruzadaANOVAVoting

Page 21: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

2121/45/45

RESULTADOS EXPERIMENTALES

Page 22: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

2222/45/45

Resultados Experimentales

Page 23: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

2323/45/45

BANDS BA BAO BMP BG Puntaje ( e )BA 0 1 2 2 5

BAO 3 0 3 4 10BMP 2 1 0 3 6BG 2 0 1 0 3

ADULT BA BAO BMP BG Puntaje ( e )BA 0 0 2 1 3

BAO 4 0 1 1 6BMP 2 3 0 1 6BG 3 3 3 0 9

MUSHROOM BA BAO BMP BG Puntaje ( e )BA 0 1 1 1 3

BAO 3 0 3 3 9BMP 3 1 0 3 7BG 3 1 1 0 5

Tablas de Votación (error)Puntajes en función a la tasa de error promedio del clasificador

Page 24: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

2424/45/45

Tablas de Votación (reducción)Puntajes en función al porcentaje de reducción promedio de las características de las bases de datos

BANDS BA BAO BMP BG Puntaje ( % red )BA 0 3 2 1 6

BAO 1 0 2 1 4BMP 2 2 0 2 6BG 3 3 2 0 8

ADULT BA BAO BMP BG Puntaje ( % red )BA 0 4 2 3 9

BAO 0 0 2 0 2BMP 2 2 0 2 1BG 1 4 2 0 7

MUSHROOM BA BAO BMP BG Puntaje ( % red )BA 0 3 2 1 6

BAO 1 0 0 0 1BMP 1 4 0 1 6BG 3 4 3 0 10

Page 25: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

2525/45/45

Conclusión Voting

Reducción del error• No se puede concluir quién es el peor (2BA y 1BG)• No se puede concluir quién es el mejor (2 BAO y 1BG)

Reducción de la dimensionalidad.• El peor es BAO para la data usada (3 BAO)• No se puede concluir quién es el mejor (2 BG, 1 BA)

Page 26: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

2626/45/45

ANOVA: Error

24,4 22,4 23,4 26,275BA BAO BMP BG

24,4 BA 0,93680459 0,1475422 2,10833222,4 BAO 0,6632365 2,7093123,4 BMP 1,919958

26,275 BG

ERROR (%)

4,125 2,5 2,7 2,6BA BAO BMP BG

4,125 BA 0,88402 0,79302 1,292422,5 BAO 0,04872 0,064872,7 BMP 0,067022,6 BG

ERROR (%)

t(5%,6)=1.9432

23,6 22,4 23,4 26,275BA BAO BMP BG

23,6 BA 1,692829 0,277184 3,3248622,4 BAO 1,961948 6,2333323,4 BMP 4,51995

26,275 BG

ERROR (%)

BANDS

ADULT

MUSHROOM

Page 27: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

2727/45/45

ANOVA: Reducción t(5%,6)=1.9432

BANDS

ADULT

MUSHROOM 48,8635 28,409 51,13625 60,2275BA BAO BMP BG

48,8635 BA 2,17217 0,26262 1,8678028,409 BAO 0,93658 3,0430151,1363 BMP 0,9300360,2275 BG

REDUCCIÓN (%)

44,9998 20,0000 23,3335 31,6668BA BAO BMP BG

44,9998 BA 3,38232 1,832351 1,7597220,0000 BAO 0,333352 2,7815323,3335 BMP 0,82231,6668 BG

REDUCCIÓN (%)

50,8065 49,1935 57,25825 61,29025BA BAO BMP BG

50,8065 BA 0,25132383 0,8193583 1,03313449,1935 BAO 1,1840049 1,294193

57,25825 BMP 0,38766261,29025 BG

REDUCCIÓN (%)

Page 28: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

2828/45/45

Conclusión ANOVA

Reducción del error• El peor es el BG para la data usada• Los mejores son BAO y BA para la data usada,

pero entre los no se de puede concluir una diferencia.

Reducción de la dimensionalidad.• El peor es el BAO para la data usada• Los mejores son BA y BG para la data usada,

pero entre los no se de puede concluir una diferencia.

Page 29: Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline

2929/45/45

GRACIAS