52
Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más que sentido común reducido a cálculos ...” [Pierre Simon Laplace, 1819] Modelos Gráficos Probabilistas L. Enrique Sucar INAOE

Arboles de Decisión Naive Bayes

Embed Size (px)

DESCRIPTION

Datamining

Citation preview

Page 1: Arboles de Decisión Naive Bayes

Sesión 6:Clasificadores Bayesianos

“ La teoría de probabilidades en el fondo noes nada más que sentido común reducido acálculos ...”[Pierre Simon Laplace, 1819]

Modelos Gráficos ProbabilistasL. Enrique Sucar

INAOE

Page 2: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 2

Clasificadores

• Introducción a Clasificación• Clasificador bayesiano simple• Extensiones - TAN, BAN• Mejora estructural• Clasificadores multidimensionales• Discriminadores lineales y discretización• Evaluación

Page 3: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 3

Clasificación

• El concepto de clasificación tiene dossignificados:– No supervisada: dado un conjunto de datos,

establecer clases o agrupaciones (clusters)– Supervisada: dadas ciertas clases, encontrar

una regla para clasificar una nueva observacióndentro de las clases existentes

Page 4: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 4

Clasificación

• El problema de clasificación (supervisada)consiste en obtener el valor más probable de unavariable (hipótesis) dados los valores de otrasvariables (evidencia, atributos)

ArgH [ Max P(H | E1, E2, ...EN) ]ArgH [ Max P(H | EE) ]

EE = {E1, E2, ...EN}

Page 5: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 5

Tipos de Clasificadores

• Métodos estadísticos clásicos– Clasificador bayesiano simple (naive Bayes)– Descriminadores lineales

• Modelos de dependencias– Redes bayesianas

• Aprendizaje simbólico– Árboles de decisión, reglas, …

• Redes neuronales, SVM, …

Page 6: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 6

Clasificación

• Consideraciones para un clasificador:– Exactitud – proporción de clasificaciones

correctas– Rapidez – tiempo que toma hacer la

clasificación– Claridad – que tan comprensible es para los

humanos– Tiempo de aprendizaje – tiempo para obtener o

ajustar el clasificador a partir de datos

Page 7: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 7

Regla de Bayes

• La probabilidad posterior se puede obteneren base a la regla de Bayes:

P(H | EE) = P(H) P(EE | H) / P(EE)P(H | EE) = P(H) P(EE | H) / Σi P(EE | Hi ) P(Hi)

• Normalmente no se requiere saber el valorde probabilidad, solamente el valor másprobable de H

Page 8: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 8

Regla de Bayes

• Para el caso de 2 clases H:{0, 1}, la regla dedecisión de Bayes es:

H*(E) = 1 si P(H=1 | EE) > 1/20, de otra forma

• Se puede demostrar que la regla de Bayes esóptima

Page 9: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 9

Valores Equivalentes

• Se puede utilizar cualquier funciónmonotónica para la clasificación:

ArgH [ Max P(H | EE) ]ArgH [ Max P(H) P(EE | H) / P(EE) ]

ArgH [ Max P(H) P(EE | H) ]ArgH [ Max log {P(H) P(EE | H)} ]

ArgH [ Max ( log P(H) + log P(EE | H) ) ]

Page 10: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 10

Clasificador bayesiano simple

• Estimar la probabilidad: P(EE | H) es complejo, pero sesimplifica si se considera que los atributos sonindependientes dada la hipotesis:P(E1, E2, ...EN | H) = P(E1 | H) P(E2 | H) ... P(EN | H)

• Por lo que la probabilidad de la hipótesis dada laevidencia puede estimarse como:

P(H | E1, E2, ...EN) = P(H) P(E1 | H) P(E2 | H) ... P(EN | H) P(EE)

• Esto se conoce como el clasificador bayesiano simple

Page 11: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 11

Clasificador bayesiano simple

• Como veíamos, no es necesario calcular eldenominador:

P(H | E1, E2, ...EN) ~P(H) P(E1 | H) P(E2 | H) ... P(EN | H)

• P(H) se conoce como la probabilidad a priori,P(Ei | H) es la probabilidad de los atributos dadala hipótesis (verosimilitud), y P(H | E1, E2, ...EN)es la probabilidad posterior

Page 12: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 12

Ejemplo

• Para el caso del golf, cuál es la acción másprobable (jugar / no-jugar) dado elambiente y la temperatura?

Page 13: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 13

Ventajas

• Bajo tiempo de clasificación• Bajo tiempo de aprendizaje• Bajos requerimientos de memoria• “Sencillez”• Buenos resultados en muchos dominios

Page 14: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 14

Limitaciones

• En muchas ocasiones la suposición de independenciacondicional no es válida

• Para variables continuas, existe el problema dediscretización

• Alternativas – dependencias:– Estructuras que consideran dependencias– Mejora estructural del clasificador

• Alternativas – variables continuas:– Descriminador lineal (variables gaussianas)– Técnicas de discretización

Page 15: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 15

CBS – modelo gráfico

C

A2A1 An…

Page 16: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 16

Enfoques para clasificación

C

A

C

A

Generativo Descriminativo

P(C)P(A|C) P(C|A)

Page 17: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 17

Extensiones

• TAN

C

A2A1 An…

Se incorpora algunasdependencias entre atributos mediante laconstrucción de un“árbol” entre ellos

Page 18: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 18

Extensiones

• BAN

C

A2

A1 An…

Se incorpora una “red” para modelar lasdependencias entre atributos

Page 19: Arboles de Decisión Naive Bayes

Extensiones

• Los clasificadores TAN y BAN son encasos particulares de redes bayesianas, porlo que para realizar el aprendizaje yclasificación en base a estos modelos seutilizan técnicas de redes bayesianas

Page 20: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 20

Mejora estructural

• Otra alternativa para mejorar el CBS es partir deuna estructura “simple” y modificarla mediante:– Eliminación de atributos irrelevantes (selección de

atributos)– Verificación de las relaciones de independencia entre

atributos y alterando la estructura:• Eliminar nodos• Combinar nodos• Insertar nodos

Page 21: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 21

Eliminación de atributos• Medir la “dependencia” entre la clase y atributos

(por ejemplo con la información mutua), yeliminar aquellos con “poca” aportación

C

A2A1 A4A3

Page 22: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 22

Mejora estructural

• Medir la dependencia entre pares de atributosdada la clase (por ejemplo mediante lainformación mutua condicional), alterar laestructura si hay 2 dependientes:

1. Eliminación: quitar uno de los dos (redundantes)2. Unión: juntar los 2 atributos en uno, combinando sus

valores3. Inserción: insertar un atributo “virtual” entre la clase

y los dos atributos que los haga independientes.

Page 23: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 23

Mejora Estructural

YX

Z

X

Z

XY

Z W

Z

YX

Page 24: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 24

Atributos redundantes

• Prueba de dependencia entre cada atributoy la clase

• Información mutua:I(C, Ai) = Σ P(C, Ai) log [P(C, Ai) / P(C) P(Ai)]

• Eliminar atributos que no proveaninformación a la clase

Page 25: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 25

Atributos dependientes

• Prueba de independencia de cada atributodada la clase

• Información mutua condicionalI(Ai, Aj | C) =

Σ P(Ai,Aj|C) log [P(Ai,Aj|C) / P(Ai|C) P(Aj|C)]

• Eliminar, unir o (insertar) atributos

Page 26: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 26

Ejemplo:clasificación de piel

• 9 atributos - 3 modelos de color: RGB,HSV, YIQ

S

GR B IY QSH V

Page 27: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 27

Mejora estructural

S

GR IY QSH V

Elimina B

Page 28: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 28

S

GR IYSH V

Elimina Q

Page 29: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 29

S

GR IYS V

Elimina H

Page 30: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 30

S

RG IYS V

Unir RG

Page 31: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 31

S

RG IYS

Elimina V

Page 32: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 32

S

RG IY

Elimina S Exactitud: inicial 94%final 98%

Page 33: Arboles de Decisión Naive Bayes

ClasificadoresMultidimensionales

• A diferencia de los clasificadores tradicionales(de una dimensión), los clasificadoresmultidimensionales asignan cada instancia avarias clases a la vez

• Ejemplos:– Textos, un documento puede pertenecer a varias

categorías– Genética, un gen puede tener varias funciones– Imágenes, una imagen puede tener varios objetos

Page 34: Arboles de Decisión Naive Bayes

ClasificadoresMultidimensionales

• En un clasificador multidimensional se desea maximizarla probabilidad del conjunto posible de clases dados losatributos:

ArgH [ Max P(H1, H2, …Hm | E1, E2, ...EN) ]ArgH [ Max P(H1, H2, …Hm | EE) ]

EE = {E1, E2, ...EN}

Page 35: Arboles de Decisión Naive Bayes

Enfoques Básicos

• Existen dos enfoques básicos para resolver esteproblema:– Binario: se separa en “m” clasificadores

independientes y se obtiene un clasificadorindependiente para cada clase, y luego se concatena elresultado (no considera la dependencia entre clases)

– Conjunto potencia: se forma una variable clase globalque es la combinación de todas las clases individuales(complejidad computacional, aumentaexponencialmente con el número de clases base)

Page 36: Arboles de Decisión Naive Bayes

Clasificadores BayesianosMultidimensionales

• Para considerar las dependencias entre clases yatributos, se construye un modelo gráfico de 3capas:– Dependencias entre Clases– Dependencias entre Atributos– Dependencias entre Clases y Atributos

• Aprender y clasificar con este modelo escomputacionalmente complejo (explicación másprobable o MAP)

Page 37: Arboles de Decisión Naive Bayes

Clasificadores BayesianosMultidimensionales

c2c1 c3

a4a3 a5a1

c4

a2

Subgrafode Clases

Puente

Subgrafode atributos

Page 38: Arboles de Decisión Naive Bayes

Clasificadores en Cadena

• Otra alternativa más sencilla es partir declasificadores binarios y agregar otras clasescomo atributos para de cierta forma tomar encuenta las dependencias entre clases

• Se forma una “cadena” entre las clases de formaque las clases previas en la cadena se incluyencomo atributos de las siguientes clases

Page 39: Arboles de Decisión Naive Bayes

Clasificadores en Cadena

c2c1 c3 c4

Page 40: Arboles de Decisión Naive Bayes

Clasificadores en CadenaBayesianos

• Se aprende un modelo de dependenciasentre clases (red bayesiana)

• El modelo de dependencias puede ser dediversos tipos: árbol, poliárbol, redmulticonectada

• Dicho modelo se utiliza para definir elorden de la cadena y los atributosadicionales que se incluyen en cada clase

Page 41: Arboles de Decisión Naive Bayes

Clasificadores en CadenaBayesianos

Page 42: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 42

Descriminador lineal

• Se define un hiperplano (descriminante) que esuna combinación lineal de los atributos:

g(X) = Σ aj xj,xj – valores de los atributos,a1 ...an - coeficientes

• Asumiendo una distribución normal multivariada,se puede obtener la ecuación del hiperplano enfunción de los promedios y covarianzas de lasclases

Page 43: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 43

Descriminador lineal

C1

C2

X2

X1

Page 44: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 44

Descriminador Lineal

• Para el caso gaussiano, la probabilidadposterior es una función logística (rampa):

P( Cn | X ) = 1 / [ 1 + exp ( -θTX) ]• Donde el parámetro θ depende de las

medias y covarianzas de las distribucionescondicionales de cada clase

Page 45: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 45

Discretización

• Si los atributos no siguen una distribucióngaussiana, la alternativa es convertirlos adiscretos agrupando los valores en unconjunto de rangos o intervalos

• Dos tipos de técnicas de discretización:– No supervisada: no considera la clase– Supervisada: en base a la clase

Page 46: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 46

Discretización no supervisada

• Intervalos iguales• Intervalos con los mismos datos• En base al histograma

Page 47: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 47

Discretización supervisada

• Considerando los posibles “cortes” entreclases:– Probar clasificador (con datos diferentes)– Utilizar medidas de información (p. ej., reducir

la entropía)• Problema de complejidad computacional

Page 48: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 48

Costo de mala clasificación

• En realidad, no sólo debemos considerar laclase más probable si no también el costode una mala clasificación– Si el costo es igual para todas las clases,

entonces es equivalente a seleccionar la demayor probabilidad

– Si el costo es diferente, entonces se debeminimizar el costo esperado

Page 49: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 49

Costo de mala clasificación• El costo esperado (para dos clases, + y -) está

dado por la siguiente ecuación:CE = FN p(-) C(-|+) + FP p(+) C(+|-)

FN: razón de falsos negativosFP: razón de falsos positivosp: probabilidad de negativo o positivoC(-|+): costo de clasificar un positivo como negativoC(+|-): costo de clasificar un negativo como positivo

• Considerando esto y también la proporción decada clase, existen técnicas más adecuadas paracomparar clasificadores como la curva ROC y lascurvas de costo

Page 50: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 50

Referencias• Clasificadores:

– D. Michie, D.J. Spiegelhalter , C.C. Taylor, “MachineLearning, Neural and Statistical Classification”, EllisHorwood, 1994

– L. E. Sucar, D. F. Gillies, D. A. Gillies, "ObjectiveProbabilities in Expert Systems", Artificial IntelligenceJournal, Vol. 61 (1993) 187-208.

– J. Cheng, R. Greiner, “Comparing Bayesian networkclassifiers”, UAI´99, 101-108.

– M. Pazzani, “Searching for attribute dependencies inBayesian classifiers”, Preliminary Papers of Intelligenceand Statistics, 424-429.

– M. Martínez, L.E. Sucar, “Learning an optimal naiveBayesian classifier”, ICPR, 2006

Page 51: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 51

Referencias• Clasificadores multidimensionales:

– Read, et al., “Classifier chains for multilabelclassification”, ECML/PKDD, 2009

– Bielza, Li, Larrañaga, “Multidimensional classificationwith Bayesian networks”, IJAR, 2011

– Zaragoza, Sucar, Morales, Larrañaga, Bielza, “Bayesianchain classifiers for multidimensional classification”,IJCAI, 2011

• Evaluación:– C. Drummond, R. C. Holte, “Explicitly representing

expected cost: an alternative to the ROC representation”.

Page 52: Arboles de Decisión Naive Bayes

© L.E. Sucar: MGP - Básicos 52

Actividades

• Leer referencias de clasificadores• Ejercicios clasificación• Ejercicios con Weka (entregar)