23
Aprendizaje Supervisado Análisis Discriminante (Lineal y Cuadrático)

Análisis Discriminante (Lineal y Cuadrático) · 1 Sí Soltero 125K No 2 No Casado 100K No 3 No Soltero 70K No 4 Sí Casado 120K No 5 No Divorcia do 95K Sí 6 No Casado 60K No 10

Embed Size (px)

Citation preview

Aprendizaje Supervisado

Análisis Discriminante

(Lineal y Cuadrático)

Modelo general de los métodos de Clasificación

|Id Reembolso Estado Civil

Ingresos Anuales Fraude

1 Sí Soltero 125K No

2 No Casado 100K No

3 No Soltero 70K No

4 Sí Casado 120K No

5 No Divorciado

95K Sí

6 No Casado 60K No 10

Tabla de Aprendizaje

Id Reembolso Estado Civil

Ingresos Anuales Fraude

7 No Soltero 80K No

8 Si Casado 100K No

9 No Soltero 70K No 10

Tabla de Testing

Generar

el

Modelo

Aplicar

el

Modelo

Modelo

Algoritmo

de

Aprendizaje

Nuevos

Individuos

Evaluar

Definición de Clasificación

Dada una base de datos 𝐷 = {𝑡1, 𝑡2,… , 𝑡𝑛} de tuplas o registros

(individuos) y un conjunto de clases 𝐶 = {𝐶1,𝐶2,… ,𝐶𝑚 }, el

problema de la clasificación es encontrar una función 𝑓:𝐷 → 𝐶

tal que cada 𝑡𝑖 es asignada una clase 𝐶𝑗 .

𝑓:𝐷 → 𝐶 podría ser una Red Neuronal, un Árbol de Decisión, un

modelo basado en Análisis Discriminante, o una Red Beyesiana.

Ejemplo: Créditos en un Banco

Tabla de Aprendizaje

Con la Tabla de Aprendizaje se entrena (aprende) el modelo matemático

de predicción, es decir, a partir de esta tabla se calcula la función f de la

definición anterior.

Variable

Discriminante

Ejemplo: Créditos en un Banco

Tabla de Testing

• Con la Tabla de Testing se valida el modelo matemático de predicción, es

decir, se verifica que los resultados en individuos que no participaron en la

construcción del modelo es bueno o aceptable.

• Algunas veces, sobre todo cuando hay pocos datos, se utiliza la Tabla de

Aprendizaje también como de Tabla Testing.

Variable

Discriminante

Ejemplo: Créditos en un Banco

Nuevos Individuos

Con la Tabla de Nuevos Individuos se predice si estos serán o no

buenos pagadores.

Variable

Discriminante

Supongamos que la matriz de datos (tabla de aprendizaje)

está etiquetada separando por bloques las k distintas

clases que se quieren clasificar con (Xj )1≤ j ≤ k y el tamaño

de cada clase es el número de filas de dicha clase, en R,

nrow(Xj) = nj.

La regla de Clasificación: Asigne cada nuevo individuo con

valores en las variables “x” como sigue:

Idea: Se proyecta el nuevo individuo en

suplementario y se asigna a la clase más cercana,

pero ¿qué significa clase más cercana?

v1

v2

v4

v3

v5

v6

v8

Idea: Se proyecta el nuevo individuo en

suplementario y se asigna a la clase más

cercana

Definimos el Centro de Gravedad de la Clase o

Centroide como sigue:

¿Qué significa la distancia en este contexto?

Entonces la distancia al clase significa la distancia al

Centro de Gravedad de la Clase o Centroide como sigue:

Fisher propuso usar lo siguiente, primero se descompone

la tabla de aprendizaje como sigue:

Escogiendo la Fórmula para distancia

Luego calcular:

Luego el Centro de Gravedad es el centro de gravedad de

la proyección:

Consiste en asignar el nuevo individuo x a la clase con

centro de gravedad proyectado más cercano:

Análisis Discriminante Lineal

Centroide más cercano

Línea de separación

dada por el ADL

El paquete MASS contiene la

función “lda” para realizar Análisis

Discriminante Lineal

Instalando y usando el paquete “MASS”:

install.packages(“MASS”,dependencies=TRUE)

library(MASS)

Ejemplo con IRIS.CSV

Ejemplo con la tabla de datos IRIS

IRIS Información de variables:

1.sepal largo en cm

2.sepal ancho en cm

3.petal largo en cm

4.petal ancho en cm

5.clase:

• Iris Setosa

• Iris Versicolor

• Iris Virginica

> library(scatterplot3d)

> scatterplot3d(datos$p.ancho,datos$s.largo,datos$s.ancho)

Ejemplo 1: iris.csv

Ejemplo 2:

Credit-Scoring MuestraAprendizajeCredito2500.csv

MuestraTestCredito2500.csv

Descripción de Variables

MontoCredito MontoCuota 1= Muy Bajo 1 =Muy Bajo 2= Bajo 2 =Bajo 3= Medio 3 =Medio 4= Alto 4 =Alto

IngresoNeto GradoAcademico 1= Muy Bajo 1 =Bachiller 2= Bajo 2 =Licenciatura 3= Medio 3 =Maestría 4= Alto 4 =Doctorado

CoeficienteCreditoAvaluo BuenPagador 1= Muy Bajo 1 =NO 2= Bajo 2 =Si 3= Medio 4= Alto

Análisis Discriminante Cuadrático

ADC

ADL

Análisis Discriminante Cuadrático

Datos IRIS con separación Lineal y Cuadrática

Lineal

Cuadrática

Ejemplo con IRIS.CSV

Ejemplo con la tabla de datos IRIS

IRIS Información de variables:

1.sepal largo en cm

2.sepal ancho en cm

3.petal largo en cm

4.petal ancho en cm

5.clase:

• Iris Setosa

• Iris Versicolor

• Iris Virginica

Ejemplo 2:

Credit-Scoring MuestraAprendizajeCredito2500.csv

MuestraTestCredito2500.csv

Gracias….