35
Algoritmos de Estimación de Distribuciones Algoritmos de Estimación de Distribuciones para la Selección Simultánea de Instancias y Atributos MAEB 2012 – Albacete 810 Febrero Pablo Bermejo, José A. Gámez, Ana M. Martínez y José M. Puerta Universidad de CastillaLa Mancha Universidad de Castilla La Mancha 1

Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

Algoritmos de Estimación de DistribucionesAlgoritmos de Estimación de Distribucionespara la Selección Simultánea de Instancias y

Atributos

MAEB 2012 – Albacete8‐10 Febrero

Pablo Bermejo, José A. Gámez, Ana M. Martínez y José M. PuertaUniversidad de Castilla‐La ManchaUniversidad de Castilla La Mancha

1

Page 2: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

ResumenResumen

1. Pre‐procesamiento de bases de datosp

2. IFS ‐ Propuestas

3. Experimentos

4. Conclusiones y Trabajo Futuro

2

Page 3: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

1. Pre‐procesamiento de bases de datos

• Las técnicas de pre‐procesamiento mejoran la calidad de los datos con los que se pretende construir modelos predictivos:

• Cuando  n es del orden de miles, hablamos de bases de datos de alta di i lid d Si N d b d d t idimensionalidad. Si N es muy grande, bases de datos masivas.

• Otro problema común: imbalanceado.3

Page 4: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

1. Pre‐procesamiento de bases de datos

• Las técnicas de pre‐procesamiento mejoran la calidad de los datos con los que se pretende construir modelos predictivos:

Selección de atributos(FS)

..

• Cuando  n es del orden de miles, hablamos de bases de datos de alta di i lid d Si N d b d d t idimensionalidad. Si N es muy grande, bases de datos masivas.

• Otro problema común: imbalanceado.4

Page 5: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

1. Pre‐procesamiento de bases de datos

• Las técnicas de pre‐procesamiento mejoran la calidad de los datos con los que se pretende construir modelos predictivos:

Selección de atributos(FS) Construcción de Atributos

Xn+1

..

……………………

• Cuando  n es del orden de miles, hablamos de bases de datos de alta di i lid d Si N d b d d t idimensionalidad. Si N es muy grande, bases de datos masivas.

• Otro problema común: imbalanceado.5

Page 6: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

1. Pre‐procesamiento de bases de datos

• Las técnicas de pre‐procesamiento mejoran la calidad de los datos con los que se pretende construir modelos predictivos:

Selección de atributos(FS) Construcción de AtributosMuestrear instancias

Xn+1

Muestrear instancias

..

……………………

• Cuando  n es del orden de miles, hablamos de bases de datos de alta di i lid d Si N d b d d t i

N+1 … … … … …

dimensionalidad. Si N es muy grande, bases de datos masivas.• Otro problema común: imbalanceado.

6

Page 7: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

1. Pre‐procesamiento de bases de datos

• Las técnicas de pre‐procesamiento mejoran la calidad de los datos con los que se pretende construir modelos predictivos:

Selección de atributos(FS) Construcción de AtributosMuestrear instancias Seleccionar Instancias (IS)

Xn+1

Muestrear instancias Seleccionar Instancias (IS)

..

……………………

• Cuando  n es del orden de miles, hablamos de bases de datos de alta di i lid d Si N d b d d t i

N+1 … … … … …

dimensionalidad. Si N es muy grande, bases de datos masivas.• Otro problema común: imbalanceado.

7

Page 8: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

1. Pre‐procesamiento de bases de datos

S (S l ió d ib )• FS (Selección de atributos):– Reduce la anchura de la base de datos: ligereza, mejores modelos, más 

entendibles.– Las métricas utilizadas para seleccionar un atributo suelen calcularse a partir 

de las instancias disponibles.

• IS (Selección de instancias):– Reduce la longitud de la base de datos: ligereza, clusters mejor definidos, gran 

mejora para clasificadores perezosos.mejora para clasificadores perezosos.– Las métricas utilizadas para seleccionar una instancia suelen calcularse a partir 

de los atributos disponibles.

FS influye en ISIS influye en FS¿Cuál realizar antes?  Selección Simultánea (IFS)

8

Page 9: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

2 IFS2. IFS

• IFS‐CHC: algoritmo evolutivo adaptativo CHC.IGA l it éti i t li t d d• IGA: algoritmo genético inteligente con operador de cruce ortogonal.

• HGA: algoritmo genético híbrido: técnicas de búsqueda local+AG.HGA:  algoritmo genético híbrido: técnicas de búsqueda local+AG.• Una de las propuestas más recientes y exitosas es IFS‐CoCo:

– Co‐evolución genética de 3 poblaciones• 1 población para FS• 1 población  para IS• 1 población para IFS1 población para IFS

– Resultados muy buenos– Wrapper: caro computacionalmente

9

Page 10: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

EDAsEDAs• Algoritmos evolutivos que trabajan sobre conjuntos de poblaciones de soluciones 

candidatas.candidatas.

10

Page 11: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

EDAsEDAs

(f l )• Ventajas (frente a los AGs): – Menor número de parámetros a ajustar.– Mayor expresividad y transparencia del modelo probabilístico que guía el y p y p p q g

proceso de búsqueda.

• Existen multitud de EDAs:• Existen multitud de EDAs: – Sin dependencias: UMDA.

• Distribución de probabilidad conjunta a partir de las distribuciones univariadas independientes.

– Dependencias bivariadas.– Dependencias múltiples.p p

11

Page 12: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

2 IFS2. IFS

• Proponemos 2 nuevos métodos para realizar IFS, ambos basados en evolución de EDAs (UMDA), y con evaluación i i l t filtprincipalmente filter:

– IFS‐EDAig– IFS‐EDAcfs– En ambas búsquedas, las poblaciones se inicializan dando la probabilidad a cada instancia inversamente proporcional a la cardinalidad de su clase, para 

l l d b d dintentar sesgar el resultado a una base de datos balanceada  IFS + balanceado.

12

Page 13: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

2 IFS2. IFS• IFS‐EDAig: 

– Fase filter (UMDA): repetida n vecesU i di id t lí it t l i t i l i d• Un individuo representa explícitamente las instancias seleccionadas

• Los atributos seleccionadas se representan implícitamente con un ranking de los kmejores atributos por IG

• La suma de estos k atributos es la bondad de un individuoLa suma de estos k atributos es la bondad de un individuo– Fase wrapper: comparación del mejor individuo de cada UMDAk

( [])[]1

f c Tc

ki

iIG x

K mejores atributos: ranking por IG

13

Page 14: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

2 IFS2. IFS• IFS‐EDAcfs:  filter puro: 1 sola búsqueda UMDA

– Un individuo representa explícitamente las instancias seleccionadasUn individuo representa explícitamente las instancias seleccionadas.– Los atributos seleccionadas se representan implícitamente con una búsqueda voraz con 

métrica CFS (correlation‐based FS).– La bondad de un individuo es la devuelta por dicha búsqueda.La bondad de un individuo es la devuelta por dicha búsqueda.

14

Page 15: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. Experimentos• Utilizamos el siguiente corpus para la evaluación de nuestras propuestas y 

comparación con otros métodos:comparación con otros métodos:

15

Page 16: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. Experimentos

l d di 3 0 l l d• Hemos evaluado nuestras propuestas mediante una 3x10cv, y los resultados devueltos son la media los 3 valores devueltos por la media de cada 10cv.

– Nº generaciones = 50– Tamaño población = 20– Tamaño población aprendizaje (cada generación) = 10 

• 1NN como algoritmo base de clasificación.

• Atenderemos a los siguientes criterios para comparar nuestras propuestas con otras existentes:

– Tasa de aciertos (TA)– Kappa– Tiempo de ejecución

Test de Wilcoxon

Tiempo de ejecución– % Reducción de atributos

16

Page 17: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. ExperimentosIFS-EDAcfsIFS-EDAig

17

Page 18: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. ExperimentosIFS-EDAcfsIFS-EDAig

18

Page 19: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. ExperimentosIFS-EDAcfsIFS-EDAig

19

Page 20: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. ExperimentosIFS-EDAcfsIFS-EDAig

20

Page 21: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. ExperimentosIFS-EDAcfsIFS-EDAig

21

Page 22: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. ExperimentosIFS-EDAcfsIFS-EDAig

22

Page 23: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. Experimentos

23

Page 24: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. Experimentos

24

Page 25: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. Experimentos

25

Page 26: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. Experimentos

26

Page 27: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. Experimentos

27

Page 28: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. Experimentos

28

Page 29: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. Experimentos

29

Page 30: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. Experimentos

• IFS-EDA mejor que el resto

TASA DE ACIERTO

Negrita: diferencia estadística

KAPPA

Resultados comparables con IFS-CoCo al tomar sólo bdd discretas

30

Resultados comparables con IFS-CoCo al tomar sólo bdd discretas

Page 31: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. Experimentos

• IFS-EDA mejor que el resto

TASA DE ACIERTO

Negrita: diferencia estadística

KAPPA

Resultados comparables con IFS-CoCo al tomar sólo bdd discretas

31

Resultados comparables con IFS-CoCo al tomar sólo bdd discretas

Page 32: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

3 Experimentos3. Experimentos

• IFS-EDA mejor que el resto

TASA DE ACIERTO

Negrita: diferencia estadística

KAPPA

Resultados comparables con IFS-CoCo al tomar sólo bdd discretas

32

Resultados comparables con IFS-CoCo al tomar sólo bdd discretas

Page 33: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

4 Conclusiones4. Conclusiones

d d l b d l• Propuesta de dos algoritmos basados en EDAs para la IFS:– IFS‐EDAig: UMDA para un nº creciente de atributos evaluados con IG. 

Validación cruzada de 1NN para seleccionar nº atributos final en pfunción de instancias.

– IFS‐EDAcfs: más sencillo. Un único UMDA con selección de atributos mediante métrica cfsmediante métrica cfs.

• Ventajas a nivel de kappa con el resto de técnicas excepto IFS‐CoCo, a quien aventaja en coste computacional.

• Otras ventajas:– Necesidad de ajustar un nº menor de parámetros .

P ibilid d d i l l li ió– Posibilidad de recurrir a la paralelización.– Las bases de datos resultantes están balanceadas.– Porcentaje de reducción en cuanto al número de atributos es mayorPorcentaje de reducción en cuanto al número de atributos es mayor.

33

Page 34: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

Trabajo futuroTrabajo futuro

• Hacer extensibles los algoritmos a bases de datos con atributos numéricos para evitar el uso de técnicas de discretizacióndiscretización .– Medidas filter que manejen los valores numéricos directamentedirectamente.

• Explotar formas alternativas de inicializar la población para aumentar el porcentaje de reducción de instancias.p j

• Probar diferentes EDAs bivariados, o incluso multivariados, para manejar las relaciones entre las variables.

• Interesante: adaptar las propuestas HGA e IFS‐CoCo para la utilización de EDAs.

34

Page 35: Ana M. Martínez y José M. Puerta - Monash Universityanam/research/files/MAEB... · 2012. 2. 5. · Algoritmos de Estimación de Distribuciones para la Selección Simultánea de

Gracias!Gracias!

35