analisis cluster Chacon Luis.docx

  • View
    6

  • Download
    0

Embed Size (px)

Text of analisis cluster Chacon Luis.docx

Anlisis multivariante 2015II

ANALISIS CLUSTERAPLICACINIntroduccinActualmente la cantidad de datos que se obtienen todos los das es mayor y en la mayora de anlisis lo que se requiere es realizar una clasificacin de los mismos, bsicamente se puede dividir las tcnicas de agrupamiento o clasificacin como supervisados y no supervisados. La clasificacin supervisada consiste en dada una coleccin de objetos previamente clasificados o etiquetados, llamado conjunto de entrenamiento, y un nuevo objeto an no etiquetado, clasificar dicho objeto.Por otra parte, la clasificacin no supervisada o agrupamiento se basa en estructurar un conjunto de datos en un nmero de grupos, donde los objetos dentro de un mismo grupo muestran un cierto grado de proximidad o similitud superior a los objetos que se encuentran en grupos distintos.Data Los datos corresponden a un grupo de clientes de una distribuidora mayorista. Se mide el gasto anual en unidades monetarias de diversas categoras de productos. El conjunto de datos se origin a partir de una base de datos ms grande se hace referencia en: Abreu, N. (2011). Anlise do Perfil do Cliente Recheio e Desenvolvimento de um promocional system. Mestrado marketing em, ISCTE-IUL, Lisboa.Desarrollo aplicativoPara la ejecucin de la tcnica se empelo el software estadstico R con el entorno de desarrollo integrado (IDE) RStudio.Lectura de datos

Se muestra la cabecera de la data, donde se observa las variables que son el id del mayorista adems de las ventas anuales en Alimentos Fresco, lacto y congelados y comestibles finos. Cluster jerrquico

Se observa que se pueden tener cuatro grupos distintivos.

Aqu se muestra la formacin del dendogramas, es decir en la primera iteracin se juntan los mayoristas 22 y 39, en la segunda iteracin se juntan los mayoristas 19 y 31 y as todos los que tienen signo negativo adelante. En la iteracin 7 se juntan el grupo de la primera iteracin con el mayorista 36 y as hasta agrupar a todos.

Se observa la formacin de los cluster.Cluster K-Means

Como tenemos la idea de formar cuatro grupos se realiza la tcnica de Kmedias para cuatro grupos.

Cluster Pam

El resultado es muy parecido al de kmedias. Se ve q los grupos estn distintos entre ellos y dentro de cada grupo son muy similares.Cluster c-meanSe empelara un mtodo difuso como el cmedias, aqu si bien un elemento no pertenece exclusivamente a un solo grupo sino tiene diferentes grados de pertenencia para cada grupo. Esta tcnica nos da los siguientes resultados.

Para este ltimo se desarrollara la verificacin mediante el anlisis discriminanteAnlisis discriminantegrupo=may.cm$clustermay.final=cbind(mayorista,grupo)head(may.final)lda(grupo~.,may.final[,2:4])may.lda = lda(grupo~.,may.final[,2:4])may.lda$prior table(grupo,predict(may.lda,may.final[,2:4])$class)open3d()plot3d(may.final,type="p",col=may.final[,5]).

Donde se observa que la clusterizacin es adecuada y solo dos observaciones no fueron bien clasificadas.

Se obtiene una distribucin muy parecida a la del cluster c medias. Es decir nuestro agrupamiento es adecuado. Profesor: Lic Jos cardenasAlumno: Luis Chacn