Download docx - analisis cluster Chacon Luis.docx

Análisis multivariante – 2015II

ANALISIS CLUSTER

APLICACIÓNIntroducciónActualmente la cantidad de datos que se obtienen todos los días es mayor y en la mayoría de análisis lo que se requiere es realizar una clasificación de los mismos, básicamente se puede dividir las técnicas de agrupamiento o clasificación como supervisados y no supervisados.

La clasificación supervisada consiste en dada una colección de objetos previamente clasificados o etiquetados, llamado conjunto de entrenamiento, y un nuevo objeto aún no etiquetado, clasificar dicho objeto.

Por otra parte, la clasificación no supervisada o agrupamiento se basa en estructurar un conjunto de datos en un número de grupos, donde los objetos dentro de un mismo grupo muestran un cierto grado de proximidad o similitud superior a los objetos que se encuentran en grupos distintos.

Data Los datos corresponden a un grupo de clientes de una distribuidora mayorista. Se mide el gasto anual en unidades monetarias de diversas categorías de productos.

El conjunto de datos se originó a partir de una base de datos más grande se hace referencia en: Abreu, N. (2011). Análise do Perfil do Cliente Recheio e Desenvolvimento de um promocional system. Mestrado marketing em, ISCTE-IUL, Lisboa.

Desarrollo aplicativoPara la ejecución de la técnica se empelo el software estadístico R con el entorno de desarrollo integrado (IDE) RStudio.

Profesor: Lic José cardenas Alumno: Luis Chacón

http://images.google.com.pe/imgres?imgurl=http://www.censor.name/page/uploads/pics/escudo.GIF&imgrefurl=http://www.censor.name/page/index.php?id=55&h=224&w=188&sz=31&hl=es&start=2&um=1&tbnid=OWCWcuP9fR4y8M:&tbnh=108&tbnw=91&prev=/images?q=unmsm&svnum=10&um=1&hl=es&sa=X


Lectura de datos

Se muestra la cabecera de la data, donde se observa las variables que son el id del mayorista además de las ventas anuales en Alimentos Fresco, lacto y congelados y comestibles finos.

Cluster jerárquico

Se observa que se pueden tener cuatro grupos distintivos.




Aquí se muestra la formación del dendogramas, es decir en la primera iteración se juntan los mayoristas 22 y 39, en la segunda iteración se juntan los mayoristas 19 y 31 y así todos los que tienen signo negativo adelante. En la iteración 7 se juntan el grupo de la primera iteración con el mayorista 36 y así hasta agrupar a todos.

Se observa la formación de los cluster.




Cluster K-Means

Como tenemos la idea de formar cuatro grupos se realiza la técnica de Kmedias para cuatro grupos.

Cluster Pam




El resultado es muy parecido al de kmedias. Se ve q los grupos están distintos entre ellos y dentro de cada grupo son muy similares.

Cluster c-meanSe empelara un método difuso como el cmedias, aquí si bien un elemento no pertenece exclusivamente a un solo grupo sino tiene diferentes grados de pertenencia para cada grupo. Esta técnica nos da los siguientes resultados.

Para este último se desarrollara la verificación mediante el análisis discriminante

Análisis discriminantegrupo=may.cm$clustermay.final=cbind(mayorista,grupo)head(may.final)lda(grupo~.,may.final[,2:4])may.lda = lda(grupo~.,may.final[,2:4])may.lda$prior table(grupo,predict(may.lda,may.final[,2:4])$class)open3d()plot3d(may.final,type="p",col=may.final[,5]).




Donde se observa que la “clusterización” es adecuada y solo dos observaciones no fueron bien clasificadas.

Se obtiene una distribución muy parecida a la del cluster c medias. Es decir nuestro agrupamiento es adecuado.