Diapositivas de Analisis Cluster

Preview:

DESCRIPTION

Diapositivas de una técnica multivariante cuya idea basica es clasificar objetos formando grupos o conglomerados.

Citation preview

ANÁLISIS CLÚSTER

DÍAZ MAZA ANTONY FAVIÁN

UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO

INTRODUCCIÓN

• El análisis clúster es una técnica multivariante cuya idea básica es clasificar objetos formando grupos/conglomerados (clúster) que sean lo más homogéneos posible dentro de si mismos y heterogéneos entre si.

•Surge ante la necesidad de diseñar una estrategia que permita definir grupos de objetos homogéneos. Este agrupamiento se basa en la idea de distancia o similitud entre las observaciones y la obtención de dichos clústers depende del criterio o distancia considerados

EJEMPLOS:

•Clasificar grupos de consumidores respecto a sus preferencias en nuevos productos

•Clasificar las entidades bancarias donde sería más rentable invertir

PLANTEAMIENTO DEL PROBLEMA

•Consideremos una muestra X formada por n individuos sobre los que se

miden p variables, X1,…,Xp (p variables numéricas

observadas en n objetos). Sea xij el valor de la

variable Xj en el i -ésimo objeto i = 1,…,n; j = 1,…,p.

• Este conjunto X de valores numéricos se pueden ordenar en una matriz

• La i-ésima fila de la matriz X contiene los valores de cada variable para el i-ésimo individuo, mientras que la j-ésima columna muestra los valores pertenecientes a la j-ésima variable a lo largo de todos los individuos de la muestra.

•Se trata, fundamentalmente, de resolver el siguiente problema: Dado un conjunto de n individuos caracterizados por la

información de p variables Xj, (j = 1,2,…, p),

nos planteamos clasificarlos de manera que los individuos pertenecientes a un grupo (clúster) (y siempre con respecto a la información disponible de las variables) sean lo más similares posibles entre sí y los distintos grupos sean entre ellos tan disimilares como sea posible.

•El análisis clúster es muy sensible a la presencia de objetos muy diferentes del resto (atípicos).

ANÁLISIS CLÚSTER COMO TÉCNICA DE AGRUPACIÓN DE VARIABLES

•Como técnica de agrupación de variables, el análisis clúster es similar al análisis factorial. Pero, mientras que el análisis factorial es poco flexible en algunos de sus supuestos (linealidad, normalidad, variables cuantitativas, etc.) y estima de la misma manera la matriz de distancias, el análisis clúster es menos restrictivo en sus supuestos (no exige linealidad, ni simetría, permite variables categóricas, etc.) y admite varios métodos de estimación de la matriz de distancias. 

•Como técnica de agrupación de casos, el análisis clúster es similar al análisis discriminante. Pero mientras que el análisis discriminante se centra en la agrupación de variables, es decir efectúa la clasificación tomando como referencia un criterio o variable dependiente (los grupos de clasificación), el análisis clúster se centra en agrupar objetos, es decir permite detectar el número óptimo de grupos y su composición únicamente a partir de la similaridad existente entre los casos; además, el análisis de clúster no asume ninguna distribución específica para las variables.

ANÁLISIS CLÚSTER COMO TÉCNICA DE AGRUPACIÓN DE CASOS

Algoritmo para la obtención de los clúster.

• Procedimientos jerárquicos

• Procedimientos no jerárquicos

ANÁLISIS CLÚSTER NO JERÁRQUICO

•Se conoce a priori el número de k grupos

•Cada observación es asignada a un grupo

•Maximiza la homogeneidad dentro de los grupos

•Maximiza la heterogeneidad entre grupos

•Este procedimiento intenta identificar grupos relativamente homogéneos de casos (o de variables) basándose en las características seleccionadas. Permite trabajar conjuntamente con variables de tipo mixto (cualitativas y cuantitativas),siendo posible analizar las variables brutas o elegir de entre una variedad de transformaciones de estandarización. Se utiliza cuando no se conoce el número de clústers a priori.

ANÁLISIS CLÚSTER JERÁRQUICO

Jerárquicos aglomerativos:

•Método del Linkage Simple, Enlace Simple o Vecino más próximo

•Método del Linkage Completo, Enlace Completo o Vecino más alejado

•Método del Promedio entre grupos

•Método del Centroide

•Método del la Mediana

•Método de Ward

Jerárquicos divisivos o disociativos

•Método del Linkage Simple

•Método del Linkage Completo

•Método del Promedio entre grupos

•Método del Centroide

•Método del la Mediana

•Análisis de Asociación

PROCESO QUE SE DEBE SEGUIR EN UN ANÁLISIS

CLÚSTER

•Paso 1: Selección de variables

•La clasificación dependerá de las variables elegidas. Introducir variables irrelevantes aumenta la posibilidad de errores. Hay que utilizar algún criterio de selección:

•Seleccionar sólo aquellas variables que caracterizan los objetos que se van agrupando, y referentes a los objetivos del análisis clúster que se va a realizar

•Si el número de variables es muy grande se puede realizar previamente un Análisis de Componentes Principales y resumir el conjunto de variables.

•Paso 2:Detección de valores atípicos. El análisis clúster es muy sensible a la presencia de objetos muy diferentes del resto (valores atípicos).

•Paso 3. Seleccionar la forma de medir la distancia/disimilitud entre objetos dependiendo de si los datos con cuantitativos o cualitativos

•Datos métricos: Medidas de correlación y medidas de distancia

•Datos no métricos: Medidas de asociación.

•Paso 4: Estandarización de los datos (Decidir si se trabaja con los datos según se miden o estandarizados). El orden de las similitudes puede cambiar bastante con sólo un cambio de escala de una de las variables por lo que sólo se realizará una tipificación cuando resulte necesario.

•La mayoría de los métodos clúster son muy sensibles al hecho de que las variables no estén todas medidas en las mismas unidades y que la variabilidad sea muy diferente

•Si queremos que todas las variables tengan la misma importancia en el análisis podemos estandarizar los datos variable por variable de varias maneras.

Estandarización

•Paso 5: Obtención de los clústers y valoración de la clasificación realizada

•Elegir el algoritmo para la formación de clúster (Procedimientos jerárquicos o procedimientos no jerárquicos)

•Número de Clusters

•Adecuación del modelo. Comprobar que el modelo no ha definido clúster con un solo objeto, clúster con tamaños desiguales.

TIPOS DE ANÁLISIS

JERÁRQUICOS(LOS MÁS

RELEVANTES)

• Enlace simple o vecino más próximo: Mide la proximidad entre dos grupos calculando la distancia entre sus objetos más próximos o la similitud entre sus objetos más semejantes

• Enlace completo o vecino más alejado: Mide la proximidad entre dos grupos calculando la distancia entre sus objetos más lejanos o la similitud entre sus objetos menos semejantes

• Enlace medio entre grupos: Mide la proximidad entre dos grupos calculando la media de las distancias entre objetos de ambos grupos o la media de las similitudes entre objetos de ambos grupos

• Enlace medio dentro de los grupos: Mide la proximidad entre dos grupos con la distancia media existente entre los miembros del grupo unión de los dos grupos

MÉTODO DE WARD

•  Ward propuso que la pérdida de información que se produce al integrar los distintos individuos en clústers puede medirse a través de la suma total de los cuadrados de las desviaciones entre cada punto (individuo) y la media del clúster en el que se integra.

• El método de Ward es el más utilizado (maximiza la Homogeneidad dentro de los grupos). - Para ello, plantea todas las posibles fusiones en cada etapa concreta y elige la que maximiza la homogeneidad

•Método del vecino más cercano: Tiende a crear pocos grupos, aunque es muy sensible a outliers

•Método del vecino más lejano: Grupos muy homogéneos

•Método de Ward: Tiende a grupos muy compactos de tamaño similar

Recommended