Ejemplos de Análisis Discriminante. En medicina forense, se debe determinar el
sexo de una persona con base en algunas medidas sobre determinados huesos de su cuerpo.
De acuerdo con el registro de calificaciones que un estudiante históricamente ha mostrado, se quiere determinar si llegará a graduarse o no, en una determinada institución educativa.
Una persona que aspira a ocupar un cargo en una empresa, es sometida a una serie de pruebas; de acuerdo a su puntaje se sugiere ubicarlo en alguno de los departamentos de la empresa.
Un biólogo quiere clasificar una “nueva” planta en una de varias especies conocidas (taxonomía numérica).
Un arqueólogo debe ubicar a un antepasado en uno de cuatro periodos históricos.
Más ejemplos….
Introducción Supongamos que tenemos un conjunto de n objetos
divididos en q grupos, no necesariamente del mismo tamaño, que constituyen una partición de la población a que dichos objetos pertenecen.
Sea X=(X1,...,Xp)' un conjunto de variables numéricas, observadas sobre dichos objetos.
Objetivos Analizar si existen diferencias entre los grupos en
cuanto a su comportamiento con respecto a las variables consideradas y averiguar en qué sentido se dan dichas diferencias.
Elaborar procedimientos de clasificación de individuos de origen desconocido, en uno de los grupos analizados.
Descriptivo: consistente en analizar si existen diferencias entre una serie de grupos en los que se divide una población, con respecto a un conjunto de variables y, en caso afirmativo, averiguar a qué se deben.
Predictivo: consistente en proporcionar procedimientos sistemáticos de clasificación de nuevas observaciones de origen desconocido en algunos de los grupos considerados.
Funciones Discriminantes Las funciones discriminantes son combinaciones
lineales de las variables originales que tienen como fin maximizar la diferencia entre grupos.
La fórmula de la i-ésima función es Yi = u’X, donde los coeficientes se obtienen de modo que se maximice:
B es la matriz de suma de cuadrados entre grupos y W es la matriz de suma de cuadrados intra-grupos, sujeto a u’Wu=1.
Wu'u
Bu'u
grupos de dentro advariabilid
grupos entre advariabilid
La solución está dada por el vector propio u1 de W-1B asociado al mayor valor propio 1.
Una segunda función discriminante no correlacionada con la anterior estará dada por por el vector propio u2 de W-1B asociado al mayor valor propio siguiente, 2, etc.
¿Qué indican lo valores propios?
Los valores propios {i, i=1, ..., r} miden el poder
discriminación de la i-ésima función discriminante
de forma que si =0 la función discriminante no
tiene ningún poder discriminante.
¿Cuántas FD es posible obtener?
El número máximo de funciones discriminantes que se puede calcular es min{q-1,p}.
¿Cuántas realmente son
necesarias?
Criterios
Proporción de cada valor propio:
Lambda de Wilks:
Cuanto más cercano a cero mayor es el poder discriminante de las variables consideradas.
j
i
)p,1qmin(
1i i1
1
Correlación Canónica:
Mide en términos relativos, el poder discriminante de la i-ésima f.d., valores cercanos a uno indican mayor potencia discriminante.
r,...1i ,1
cci
ii
Ho: k+1=…=min{q-1,p}=0
Este es un contraste de hipótesis secuencial, donde k es el número de funciones discriminantes significativas. Este proceso comienza con k=0.
2)1kq)(kp(
.}p,1qmin{
1kjj ~1log
2qp
1nT
Será de interés: Número de funciones discriminantes.
Relación entre variables y función discriminante
(coeficientes estandarizados de las f.d.).
Relación entre grupos y función discriminante
(coeficientes de correlación de las variables
originales con cada f.d.).
Importancia de las variables.
Eficacia y calidad de la clasificación.
Gráficos de interés Box-plot de las variables originales. Box-plot de las puntuaciones obtenidas. Gráfico de dispersión de las puntuaciones.
¿Son necesarias todas las variables?
Algoritmos: fordward – backward -stepwise. (prueba de tolerancia, valores cercanos a uno indican que la información aportada por esta variable es independiente de la información aportada por las otras variables.)
Criterio del lambda de Wilks basado en la p’ primeras variables (valor de F alto indica que la variable debe ser incluida).
'pgn,1g1'p
'p F~11g
'pgnF
Supuestos Las variables no deben estar correlacionadas
entre si. La matriz de varianza covarianza deben ser
iguales. Las variables deben tener distribución normal, en
cada grupo. Evaluación Proceso de Clasificación
Tabla de clasificación cruzada.
Ejemplo Cráneo
Ejemplo Iris
g=3
Variables S_largo: largo sépalo (milímetros) S_ancho: ancho sépalo P_largo: largo pétalo P_ancho: ancho pétalo
p=4, n=50 en cada grupo.