Clusters Pmg

Preview:

DESCRIPTION

análisis estadístico avanzado

Citation preview

7/21/2019 Clusters Pmg

http://slidepdf.com/reader/full/clusters-pmg 1/15

Análisis Cluster Análisis Cluster  

Se usa para definir grupos homogéneosSe usa para definir grupos homogéneosde objetos (individuos, firmas, productos,de objetos (individuos, firmas, productos,

ó incluso comportamiento).ó incluso comportamiento).

Encontrar una estructura “natural” aEncontrar una estructura “natural” a

través de las observaciones basándose entravés de las observaciones basándose en

un perfil multivariado.un perfil multivariado.

7/21/2019 Clusters Pmg

http://slidepdf.com/reader/full/clusters-pmg 2/15

ANALISIS CLUSTERANALISIS CLUSTER

•CLUSTER = Grupo, Conglomerado,Racimo, Apiñarse, etc.

•ANALISIS CLUSTER = Taxonomíanumérica, Conglomerados, Análisis Tipológico, Clasificación Automática, etc.

•La diferencia con Discriminante es que elDiscriminante se conoce a priori el grupode pertenencia.

7/21/2019 Clusters Pmg

http://slidepdf.com/reader/full/clusters-pmg 3/15

Análisis ClusterAnálisis Cluster

•Es una clase de técnicas utilizadaspara clasificar casos en grupos que

son relativamente homogéneosdentro de si mismos y heterogéneosentre ellos, sobre la base de un

conjunto definido de variables.Estos grupos se llamanClusters oConglomerados.

7/21/2019 Clusters Pmg

http://slidepdf.com/reader/full/clusters-pmg 4/15

Análisis cluster?Análisis cluster?

No hace distinción entre variables dependientesindependientes, sino quecalcula relaciones

interdependientes de todoel conjunto de valores.

7/21/2019 Clusters Pmg

http://slidepdf.com/reader/full/clusters-pmg 5/15

Análisis Cluster eAnálisis Cluster eInvestigación de mercadosInvestigación de mercados

•Segmentación de Mercados. Agrupamiento deconsumidores de acuerdo a sus preferencias deatributos

•Comprender el comportamiento de los

compradores. Los consumidores con similarescomportamientos/características son agrupados

 juntos.

•Identificar oportunidades de nuevos productos.Los clusters de similares marcas/productos puedenayudar a identificar competidores/oportunidades demercado

•Reducción de los datos.En mapas de preferencias

7/21/2019 Clusters Pmg

http://slidepdf.com/reader/full/clusters-pmg 6/15

Etapas de un AnálisisEtapas de un Análisis

clustercluster1.Seleccionar unamedida dedistancia

2.Seleccionar unalgoritmo deagrupamiento

3.Determinar elnúmero de clusters

4.Validar el análisis

7/21/2019 Clusters Pmg

http://slidepdf.com/reader/full/clusters-pmg 7/15

REGR factor score 2 for analysis 1

43210-1-2-3

   R   E   G   R

   f  a  c   t  o  r  s  c  o  r  e

   1   f  o  r  a  n  a   l  y  s   i  s

   1

3

2

1

0

-1

-2

-3

-4

7/21/2019 Clusters Pmg

http://slidepdf.com/reader/full/clusters-pmg 8/15

Definición de laDefinición de ladistancia La distanciadistancia La distancia

Eucl!deaEucl!dea

Dij distancia entre los casosi y j

xki valor de la variable Xk para el caso j

Problemas:

•Diferentes medidas = diferentes ponderaciones•Correlación entre variables (redundancia)

Solución: Análisis de componentes principales

( ) 2

1

n

ij ki kj

 D x x=

= −∑

7/21/2019 Clusters Pmg

http://slidepdf.com/reader/full/clusters-pmg 9/15

"rocedimientos de"rocedimientos de

ClusteringClustering•Procedimientos jerarquicos

 – Aglomerativo(comienza desde n

clusters, hasta llegar a obtener 1cluster)

 –Divisivo(comienza desde1 cluster,

hasta obtenern cluster)•Procedimientos no jerarquicos

 –Cluster de K-medias

7/21/2019 Clusters Pmg

http://slidepdf.com/reader/full/clusters-pmg 10/15

Agrupamiento aglomerativoAgrupamiento aglomerativo

7/21/2019 Clusters Pmg

http://slidepdf.com/reader/full/clusters-pmg 11/15

AgrupamientoAgrupamiento

aglomerativoaglomerativo• Métodos de enlace – Enlace simple (distancia mínima)

 – Enlace Completo (distancia máxima)

 – Enlace promedio

• Método de Ward1. Calcular la suma de las distancias al cuadrado

dentro de los clusters

2. Agregar clusters con incremento mínimo en la suma

de cuadrados total

• Método del centroide – La distancia entre dos clusters se define como la

distancia entre los centroides (medias de los cluster)

7/21/2019 Clusters Pmg

http://slidepdf.com/reader/full/clusters-pmg 12/15

Cluster de #$mediasCluster de #$medias

1. El númerok de clusters es fijo2. Se proporciona un conjunto inicial dek “semillas”(centros de agregación)• K primeros elementos

• Otras semillas3. Dado un cierto umbral, todas unidades sonasignadas a la más cercana semilla del grupo

4. Se calculan nuevas semillas

5. Volver a la etapa 3 hasta que no sea necesariauna reclasificación

Las unidades pueden ser reasingnadas en etapassucesivas ( partición óptima)

7/21/2019 Clusters Pmg

http://slidepdf.com/reader/full/clusters-pmg 13/15

%&todos 'erar(uicos vs%&todos 'erar(uicos vs

no 'erar(uicosno 'erar(uicos Agrupamiento jerarquico

•No hay decisión acercadel número de clusters

•Existen problemascuando los datoscontienen un alto nivelde error

•Puede ser muy lento

•La decisión inicialinfluye mucho (unaetapa única)

 Agrupamiento no jerarquico

•Más rápido, más fíable

•Es necesario especificar elnúmero de clusters(arbitrario)

•Es necesario establecer lasemilla inicial (arbitrario)

7/21/2019 Clusters Pmg

http://slidepdf.com/reader/full/clusters-pmg 14/15

%&todo sugerido%&todo sugerido

1.Primero ejecutar un método jerárquico para definir el número

de clusters2.Luego utilizar el procedimientok-medias para formar los clusters

7/21/2019 Clusters Pmg

http://slidepdf.com/reader/full/clusters-pmg 15/15

REGR factor score 1 for analysis 1

210-1-2-3

   R   E   G

   R    f   a

   c   t   o   r   s   c   o   r   e

   4

   f   o   r   a   n   a   l  y   s   i   s

   1

3

2

1

0

-1

-2

-3

Cluster Number of Ca

  6

  5

  4

  3

  2

  1