Upload
juan11hotmail
View
171
Download
0
Embed Size (px)
DESCRIPTION
marketing
Citation preview
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
Estadística Multivariante
Jaime C. Rubin-de-Celis
22 de noviembre de 2012
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
ÍNDICE GENERAL ÍNDICE GENERAL
Índice general
1. Análisis de Conglomerados 11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Uso del Análisis de Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3. ¿En qué consiste? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.4. Etapas para la formación de Clústers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4.1. Casos Atípicos (outliers) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.5. Medida de Similitud/Distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5.1. Distancias para Datos de Intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.5.2. Otras Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.5.3. Distancias para Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6. Formación de los Clústers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.6.1. Procesos Jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.6.2. Procesos No-Jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.6.3. Optimización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7. Selección del número de Clústers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.7.1. Métodos Jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.7.2. Métodos No-Jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.8. Validación Predictiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Bibliografía 21
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 i
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
ÍNDICE DE CUADROS ÍNDICE DE CUADROS
Índice de cuadros
1.1. Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2. Ejemplo Distancias Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 ii
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
ÍNDICE DE FIGURAS ÍNDICE DE FIGURAS
Índice de figuras
1.1. Análisis de Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Distancias Entre e Inter Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3. ¿Cuántos Clústers puede encontrar? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.4. Casos Atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.5. Ventas vs. Patentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.6. Análisis de Perfil de Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.7. Métodos (a) Aglomerativos (AGNES); y (b) Métodos Divisivos (DIANA) . . . . . . . . . 121.8. Métodos Aglomerativos: (a) Enlace Simple; (b) Enlace Completo; y (c) Enlace Promedio 121.9. Chaining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.10. Dendrograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.11. Dendrograma (Manhattan / Encadenamiento Simple) . . . . . . . . . . . . . . . . . . . . 151.12. Dendrograma (Distancia Euclideana / Encadenamiento Promedio) . . . . . . . . . . . . . 161.13. Dendrograma (Distancia Euclideana / Encadenamiento Promedio) . . . . . . . . . . . . . 161.14. Dendrograma (Similitud de Jaccard / Centroides) . . . . . . . . . . . . . . . . . . . . . . 18
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 iii
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Capítulo 1
Análisis de Conglomerados
1.1. Introducción
Figura 1.1: Análisis de Conglo-
merados
El análisis de conglomerados (clústers) busca la identificación degrupos dentro de una población. Agrupa objetos (encuestados, productos,empresas, variables, etc.) de modo que cada objeto sea similar a los otrosobjetos en el clúster y diferente de los objetos en todos los otros grupos.
El análisis de conglomerados busca una estructura subyacente entrelas observaciones basada en un perfil multivariante. Este técnica buscacaracterísticas compartidas entre individuos u objetos. Es un enfoqueque se basa en la clasificación de datos según una característica “natural”común a todos los objetos.
Este método engloba un grupo de técnicas multivariantes cuyo prin-cipal propósito es agrupar objetos basándose en las características queposeen. Es una técnica de clasificación sin supervisión: no existen claseso grupos predefinidos.
1.2. Uso del Análisis de Conglomerados
Al análisis de conglomerados se le conoce con muchos nombres dependiendo de los ojos (área delconocimiento) con que se observe. Algunos de los métodos basado en este conjunto de técnicas multivarianteincluyen segmentación (Marketing), Análisis de Grupos Estratégicos (Estrategia), Análisis de Q (Psicologíay Medicina), Construcción de tipologías (Sistemas de Información), Análisis de Clasificación (Metereología),Taxonomías (Biología), Análisis Espacial (Geolocalización).
Algunos ejemplos específicos de su uso:
Marketing: Identificar segmentos de consumidores para desarrollar campañas publicitarias o depromoción más enfocadas.
Uso del Suelo (Geo-Agricultura): Identificación de superficies en base a su uso (cosecha) usandosatélites.
Seguros: Identificar grupos de asegurados para detectar aquellos que tienen altos costos por reclamos.
Planificación Urbana: Identificación de grupos de hogares de acuerdo al tipo de casa, valor, y ubicacióngeográfica.
Sismología: Agrupación de epicentros a lo largo de fallas continentales.
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 1
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.3. ¿EN QUÉ CONSISTE? CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
1.3. ¿En qué consiste?
Básicamente lo que se busca es:
Minimizar la variación dentro del clúster; y, maximizar la variación entre clústers.
Usando otras palabras, un buen análisis de clústers busca:
Una alta similitud intra-clase ; y, una baja similitud entre-clases,
Figura 1.2: Distancias Entre e Inter Cluster
La calidad del análisis de clúster depende de la medida de similitud o distancia que se ocupe. La calidadtambién depende de la habilidad en identificar patrones subyacentes.
El Análisis de Clúster puede ser muy subjetivo, a manera de ejemplo, considere las siguientes tareas:
Ejemplo 1.1.Agrupe los siguientes animales: oveja, lagarto, gato, perro, gorrión, tiburón azul, víbora, gaviota, pezdorado, rana, salmón.
Criterios de Agrupación
Por la forma en que tienen a su progenie
Por el hecho de tener pulmones
Por el entorno en el que viven
Por la forma en que tienen a su progenie y porque tienen pulmones
¿Cuál es la forma correcta?
1.4. Etapas para la formación de Clústers
El análisis de clúster puede realizarse en 5 pasos o etapas simples y claramente definidas (Romesburg,2004).
1er. Paso: Formular el problema (ver ejemplo anterior).En esta etapa, el investigador puede realizar entrevistas informales para identificar y seleccionarlas variables en las que basará la agrupación, ya que si se incluyen variables irrelevantes, puedendistorsionar el problema.
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 2
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Figura 1.3: ¿Cuántos Clústers puede encontrar?
2do. Paso: Seleccionar una medida de similitud.La forma en que generalmente se hace es en términos de la distancia (ver siguiente sección) entrecada par de casos; cuando la distancia es menor se considera que los casos son más parecidos entre sí.Cuando las variables se miden en unidades muy diferentes, antes de agrupar los casos, se recomiendaestandarizar los datos para eliminar la influencia de la unidad de medición.
3er. Paso: Seleccionar un procedimiento de agrupamiento.Para este paso hay diversos métodos (se discuten más adelante).
4to. Paso: Decidir el número de conglomerados a conservar.Una vez que ya se ha hecho un clasificación, se decidirá con cuántos conglomerados se trabajará,algunas veces esto es una decisión subjetiva del investigador.
5to. Paso: Interpretar y elaborar un perfil de los conglomerados.En esta etapa se procederá a determinar las características de cada conglomerado que se conservará.
1.4.1. Casos Atípicos (outliers)
Figura 1.4: Casos Atípicos
Los casos atípicos (outliers) son objetos que nopertenecen a ningún cluster o forman un clúster debaja cardinalidad (ver Figura 1.4). Para analizarestas situaciones se pueden realizar Diagramas dePerfil (Profile Analysis) u ocupar una medida deajuste como D
2 o Distancia de Mahalanobis.La existencia de casos atípicos representa un
problema importante en el análisis de conglomera-dos.
1.5. Medida de Similitud/Dis-
tancia
La distancia se expresa con una función de la forma: d(i, j). La definición de las distancias dependendel tipo de datos que estemos ocupando: escala métrica, no-métrica, binaria, categórica, ordinal, etc.
En general, los datos están expresados en una matriz (sin estandarizar) con n observaciones (objetos) yp variables, de la forma:
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 3
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
X =
0
BBBB@
x11 . . . x1k . . . x1p
. . . . . . . . . . . . . . .
xi1 . . . xik . . . xip
. . . . . . . . . . . . . . .
xn1 . . . xnk . . . xnp
1
CCCCA(1.1)
De ser necesario, los datos deben estandarizarse para eliminar los problemas asociados a escalasdiferentes. Esto generalmente puede lograrse mediante el cálculo de los Z-score (con la Desviación MediaAbsoluta):
mk =
1
n
(x1k + x2k + . . .+ xnk) 8k 2 [1, . . . , p]
s
mk =
1
n
(|x1k �mk|+ |x2k �mk|) + . . .+ |xnk �mk|
Zik =
xik �mk
s
mk
Usar la desviación media absoluta (smf ), en lugar de la desviación estándar, produce resultados másrobustos en el análisis de clúster. No obstante, también puede ocupar la desviación estándar:
xk =
1
n
nX
i=1
xik s
2k =
1
n� 1
nX
i=1
(xik � xk)2
zik =
(xik � xk)
sk
La matriz de datos estandarizados es entonces:
Z =
0
BBBB@
z11 . . . z1k . . . z1p
. . . . . . . . . . . . . . .
zi1 . . . zik . . . zip
. . . . . . . . . . . . . . .
zn1 . . . znk . . . znp
1
CCCCA(1.2)
Luego, la matriz de datos originales (o estandarizados) debe ser transformada en una matriz dedistancias D = dij , que es simétrica con dii = 0:
D =
0
BBBBB@
0
d(2, 1) 0
d(3, 1) d(3, 2) 0
...... . . .
d(n, 1) d(n, 2) d(n, 3) . . . 0
1
CCCCCA
1.5.1. Distancias para Datos de IntervaloPor lo general usamos distancias para medir la similitud o diferencia entre dos objetos. Una de las
distancias más populares es la Distancia de Minkowski :
d(xi,xj) =
"pX
k=1
|xik � xjk|q# 1
q
=
q
q|xi1 � xj1|q + |xi2 � xj2|q + · · ·+ |xip � xjp|q
donde xi = (xi1, xi2, . . . , xip) , y xj = (xj1, xj2, . . . , xjp) son dos vectores de dimensión p; y q es un enteropositivo.
Si q = 1, esta distancia se conoce como distancia de Manhattan o también llamada city-block.Si q = 2, entonces tenemos Distancia Euclidiana:
d(xi,xj) =
q|xi1 � xj1|2 + |xi2 � xj2|2 + · · ·+ |xip � xjp|2
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 4
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Formalmente, las propiedades de estas distancias son:d(xi,xj) � 0
d(xi,xi) = 0
d(xi,xj) = d(xj,xi)
d(xi,xj) d(xi,xk) + d(xk,xj)
También pueden usarse distancias ponderadas (ej. correlaciones Pearson-paramétricas), u otro tipo deponderación (w), como:
d(xi,xj) =
qw1|xi1 � xj1|2 + w2|xi2 � xj2|2 + · · ·+ wp|xip � xjp|2
Ejemplo 1.2.Suponga que existen 6 firmas (1-6) de las cuales se conoce su nivel de ventas (y) y el número de patentesque tienen registradas (x). Se desea conocer si existen grupos estratégicos dentro de esta industria. Lasolución se hará ocupando Stata12.
1 . list2 +-------------------+3 | firm x y |4 |-------------------|5 1. | Firma 1 0 3 |6 2. | Firma 2 1 2 |7 3. | Firma 3 4 3.5 |8 4. | Firma 4 5 5 |9 5. | Firma 5 4 4 |
10 6. | Firma 6 1 1 |11 +-------------------+12 . label var firm "Firmas"13 . label var x "Patentes"14 . label var y "Ventas"
Los datos pueden estandarizarse fácilmente:1 . egen zy = std(y)2 . egen zx = std(x)3 . list4 +-------------------------------------------+5 | firm x y zx zy |6 |-------------------------------------------|7 1. | Firma 1 0 3 -1.205607 -.0583212 |8 2. | Firma 2 1 2 -.7233642 -.7581754 |9 3. | Firma 3 4 3.5 .7233642 .2916059 |
10 4. | Firma 4 5 5 1.205607 1.341387 |11 5. | Firma 5 4 4 .7233642 .641533 |12 6. | Firma 6 1 1 -.7233642 -1.45803 |13 +-------------------------------------------+
Considerando que los datos tienen magnitudes similares (y para simplificar la presentación de resultados),los datos no serán estandarizados, sin embargo, debe recordarse que ese paso es necesario en la mayoría delos casos.
En adelante simplemente puede reemplazar las variables orginales (x, y) por estas nuevas variablesestandarizadas (zx, zy), y así obtener resultados más robustos.
La distribución de estas firmas puede ser obtenida:1 . scatter y x, title(" Ventas vs. Patentes ") ///2 ylabel (0(1)5) mlabel(firm) mlabp (5) aspect (.7)
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 5
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Firma 1
Firma 2
Firma 3
Firma 4
Firma 5
Firma 6
01
23
45
Ve
nta
s
0 1 2 3 4 5
Patentes
Ventas vs. Patentes
Figura 1.5: Ventas vs. Patentes
Del gráfico anterior puede apreciarse que aparentemente existen (al menos) dos grupos. Las firmas 3,4 y 5 poseen un nivel alto de patentes y también de ventas; por lo que aparentemente son parte de unmismo grupo. Les llamaremos las “innovadoras”.
Un case particular es el de la firma 1, ya que no tiene patentes pero sí Ventas por encima del promedio.Esto supone que debe revisarse si no se trata de un caso atípico (outlier). Para ello revisamos el Perfil deVariables:
1 . gen n = _n2 . label values n firm_ids3 . profileplot y x, by(n)
01
23
45
mean
y xVariables
Firma 1 Firma 2
Firma 3 Firma 4
Firma 5 Firma 6
mean
Figura 1.6: Análisis de Perfil de Variables
La Figura 1.6 muestra un comportamiento atípico de la firma 1, sin embargo aún no puede descartarse;deben realizarse primero calcularse las distancias y los agrupamientos correspondientes.
La matriz de distancias de Manhattan (city-block) es:1 . mat diss L1 = y x, L12
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 6
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
3 . mat list L14
5 symmetric L1[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 2 09 Firma_3 4.5 4.5 0
10 Firma_4 7 7 2.5 011 Firma_5 5 5 .5 2 012 Firma_6 3 1 5.5 8 6 0
Nótese que el resultado anterior también puede obtenerse ocupando la Distancia de Minkowski deGrado 1:
1 . mat diss M1 = y x, Lpow (1)2
3 . mat list M14
5 symmetric M1[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 2 09 Firma_3 4.5 4.5 0
10 Firma_4 7 7 2.5 011 Firma_5 5 5 .5 2 012 Firma_6 3 1 5.5 8 6 0
En esta matriz de distancias, las menores valores están en d3,5 = 0,5 y en d2,6 = 1, por lo que podemosesperara que éstos sean los primeros grupos que se formarían (en un método jerárquico). Esto también esconsistente si ocupamos distancias euclidianas. La matriz de distancias euclidianas es:
1 . mat diss L2 = y x, L22
3 . mat list L24
5 symmetric L2[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 1.4142136 09 Firma_3 4.0311289 3.354102 0
10 Firma_4 5.3851648 5 1.8027756 011 Firma_5 4.1231056 3.6055513 .5 1.4142136 012 Firma_6 2.236068 1 3.9051248 5.6568542 4.2426407 0
1.5.2. Otras Distancias1.5.2.1. Canberra
d(xi,xj) =
pX
k=1
|xik � xjk|xik + xjk
�(1.3)
Ejemplo 1.3.Distancia de Canberra (continua del ejemplo anterior).
1 . mat diss Cb = y x, canberra names(firm)2
3 . mat list Cb4
5 symmetric Cb[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 1.2 09 Firma_3 1.0769231 .87272727 0
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 7
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
10 Firma_4 1.25 1.0952381 .2875817 011 Firma_5 1.1428571 .93333333 .06666667 .22222222 012 Firma_6 1.5 .33333333 1.1555556 1.3333333 1.2 0
Nótese que en este caso el orden de agrupamiento es algo diferente a los casos anteriores. La menordistancia está aún entre las firmas 3 y 5, sin embargo, la segunda menor distancia está entre las firmas4 y 5 (d4,5 = 0,22). Más aun, la tercera menor distancia es d3,4 = 0,29. Esto muestra que el orden deagrupamiento será diferente, y eventualmente, dependiendo del Método de Agrupamiento, podríamosencontrar soluciones diferentes.
cuando la distancia euclidiana (y también la de Manhattan) ponen a las firmas 2 y 6 como las máscercanas (d2,6 = 1). Esto también es evidente de la Figura 1.5.
1.5.2.2. Czekanowski
d(xi,xj) = 1�
2
66664
2
pX
k=1
mın(xik, xjk)
pX
k=1
(xik + xjk)
3
77775(1.4)
1.5.2.3. Tchebyschev
d(xi,xj) = max
i=1,2,...,n|xik � xjk| (1.5)
Ejemplo 1.4.Distancia de Tchebyschev
1 . mat diss Tch = y x, maximum names(firm)2
3 . mat list Tch4
5 symmetric Tch[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 1 09 Firma_3 4 3 0
10 Firma_4 5 4 1.5 011 Firma_5 4 3 .5 1 012 Firma_6 2 1 3 4 3 0
1.5.2.4. Distancia de Cosenos
d(xixj) =1
2
[1� cos(xi,xj)] =1
2
1� xi · xj
kxikkxjk
�(1.6)
Donde
cos(xi,xj) =xi · xj
kxikkxjk=
xiTxj
kxikkxjk=
xi1xj1 + · · ·+ xipxjpqx
2i1 + · · ·+ x
2ip
qx
2j1 + · · ·+ x
2jp
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 8
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
cos(xi,xj) =
pX
k=1
(xik ⇥ xjk)
vuutpX
k=1
x
2ik ⇥
pX
h=1
x
2jh
Este último valor también se conoce como la Distancia Angular.
Ejemplo 1.5.
1 . mat diss ANG = y x, angle names(firm) dissim(oneminus)2
3 . mat list ANG4
5 symmetric ANG[6,6]6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_67 Firma_1 08 Firma_2 .10557281 09 Firma_3 .34149539 .07445304 0
10 Firma_4 .29289322 .0513167 .00221484 011 Firma_5 .29289322 .0513167 .00221484 0 012 Firma_6 .29289322 .0513167 .00221484 0 0 0
Nótese en la matriz anterior que las distancias entre las firmas 4, 5 , 6 es igual a 0 (d4,5 = d4,6 = d5,6 = 0).Esto se debe a que esta medida de distancia, como su nombre indica, mide las distancias en ángulos; alestar las firmas 4, 5 y 6 sobre la diagonal (45o) (ver Figura 1.5), su distancia es igual a cero.
1.5.2.5. Distancia de Mahalanobis
d(x,y) = x
TA
�1y A es definida positiva (1.7)
Mahalanobis, al permitirnos elegir la matriz A, entrega mayores posibilidades de controlar la geometríade los potenciales clústers.
1.5.3. Distancias para Datos BinariosCuando trabajamos con datos binarios es más común hablar de similitud y no de distancia. Estas
similitudes pueden calcularse de la siguiente forma:
Cuadro 1.1: Datos Binarios
Objeto j1 0 Suma
Objeto i1 a b a+b0 c d c+d
Suma a+c b+d p
Similitud para variables simétricas binarias:
sim(i, j) =
b+ c
a+ b+ c+ d
Similitud para variables asimétricas binarias:
sim(i, j) =
b+ c
a+ b+ c
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 9
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Similitud de Jaccard: Jaccard (1901, 1908)
simJacard(i, j) =a
a+ b+ c
Similitud de Russel: Russel y Rao (1940)
simRussel(i, j) =b
a+ b+ c+ d
Similitud de Hamann: Hamann (1961)
simHamann(i, j) =(a+ d)� (b+ c)
a+ b+ c+ d
Similitud de Czekanowski: También conocida como Similitud de Dice. Czekanowski (1932), Dice (1945),Sørensen (1948).
simDice(i, j) =2a
2a+ b+ c
Similitud de Ochiai: Ochiai (1957)
simOchiai(i, j) =ap
(a+ b)(a+ c)
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 10
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Ejemplo 1.6.
Suponga que en una encuesta sobre acceso de tecnología para el hogar se obtuvieron los siguientesresultados:
Cuadro 1.2: Ejemplo Distancias Datos Binarios
Nombre Sexo TV Auto Casa Comp. Telef. CableJuan M 1 0 1 0 0 0María F 1 0 1 0 1 0Pedro M 1 1 0 0 0 0
“Sexo” es el único atributo simétrico, el resto son atributos asimétricos.
Matriz de Frecuencia Binaria (Pedro, María):
1 0 Total1 1 1 20 3 2 5
Total 4 3 7
simJaccard(Pedro,Maria) =
1
1 + 1 + 3
= 0,2
1 . list2
3 +---------------------------------------------------------+4 | name sex tv auto home comp cell cable |5 |---------------------------------------------------------|6 1. | Juan Hombre 1 0 1 0 0 0 |7 2. | Maria Mujer 1 0 1 0 1 0 |8 3. | Pedro Hombre 1 1 0 0 0 0 |9 +---------------------------------------------------------+
10
11 . mat diss SIM = sex tv auto home comp cell cable , Jaccard names(name)12
13 . mat list SIM14
15 symmetric SIM[3,3]16 Juan Maria Pedro17 Juan 118 Maria .5 119 Pedro .33333333 .2 1
Y, para obtener la matriz de distancias ocupada luego para la formación de clústers (note que la matrizde distancias debe siempre tener ceros en la diagonal):
1 . mat diss DIST = sex tv auto home comp cell cable , ///2 Jaccard names(name) dissim(one minus)3 . mat list DIST4
5 symmetric DIST [3,3]6 Juan Maria Pedro7 Juan 08 Maria .5 09 Pedro .66666667 .8 0
1.6. Formación de los Clústers
Una vez obtenida la Matriz de Distancia (D), se debe seleccionar un procedimiento para agrupar lasobservaciones:
Procedimientos Jerárquicos
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 11
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Procedimientos No-Jerarquicos
Procedimientos Compuestos
1.6.1. Procesos JerárquicosEstos procesos puede clasificarse en métodos aglomerativos o métodos divisivos. Éstos están repre-
sentados os en la Figura 1.7. En el primer caso, como sugiere el nombre, el objetivo es ir agrupando lasobservaciones en función a su cercanía (o distancia). En el caso de los métodos divisivos, se parte conun único clúster que contiene a todas las observaciones y se va desagregando, de nuevo, en función a ladistancia.
(a) Métodos Aglomerativos
(b) Métodos Divisivos
Figura 1.7: Métodos (a) Aglomerativos (AGNES); y (b) Métodos Divisivos (DIANA)
1.6.1.1. Métodos Aglomerativos (AGNES)
Objetos que son similares (están cerca) son agrupados uno a uno. Son los métodos más sencillos y losprincipales son:
Figura 1.8: Métodos Aglomerativos: (a) Enlace Simple; (b) Enlace Completo; y (c) Enlace Promedio
Single Linkage. (Enlace Simple o «Vecino más cercano»)
Este algoritmo calcula la distancias o similitudes entre pares de objetos y forma los gruposagregando al objeto vecino más cercano
d(UV )W = mın[dUW , dVW ]
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 12
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Una ventaja de este método es que puede identificar clústers que no necesariamente tienen unaforma elipsoidal.Una desventaja es que no puede discriminar fácilmente entre grupos muy distantes. Esto sucedeporque el agrupamiento sucede muy pronto, ver la figura. Esta tendencia de formar clústers conpoca cohesión interna se conoce como chaining (ver Figura 1.9).
Figura 1.9: Chaining
Complete Linkage. (Enlace Completo o «Vecino más lejano»)
Este algoritmo es similar al anterior, pero calcula la distancia entre los objetos más distantes.De esta forma este algoritmo se asegura que todos los miembros de cada grupo estén dentro dela mayor distancia posible.
Average Linkage. (Enlace Promedio o «Promedio de Grupo»)
d(UV )W =
Pi
Pk dik
NUV NW
Donde:dik = distancia entre objeto i en cluster ( UV ) y objecto k en clusterW .NUV = número de objetos en cluster ( UV )NW = número de objetos en cluster ( W )
Método de los Centroides. En este algoritmo la distancia entre clusters se calcula usando los centroides.
Los centroides son los valores medios de las observaciones de las variables en el valor teórico delcluster.Cálculo de Centroides: Suponga dos puntos (en tres dimensiones) X = (x1, x2, x3) ; Y =
(y1, y2, y3). Al agrupar estos puntos en un clúster, el centroide se obtiene de: Z = (z1, z2, z3).
Donde: z1 =
(x1 + y1)
2
; z2 =
(x2 + y2)
2
; z3 =
(x3 + y3)
2
Método de Ward. Método de la Suma de Cuadrados
Los nuevos clústers se crean de tal manera de que se minimice la suma de cuadrados total delas distancias dentro de cada clúster.
1.6.1.2. Métodos Divisivos (DIANA):
Los métodos divisivos parten separando toda la muestra en dos grupos y luego se van retirando gruposque son diferentes (mayor distancia o diferencia).
Este proceso puede realizarse en base al uso de las mismas distancias discutidas para los MétodosAglomerativos.
1.6.1.3. Representación Gráfica (Dendrogramas)
En procesos jerárquicos, es muy común la representación gráfica de los clústers usando dendrogramas
(ver Figura 1.10). Éstos pueden representarse en forma vertical (como se muestra) o en forma horizontal.Siguiendo los ejemplos anteriores, se muestran a continuación distintos tipos de agrupamiento.
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 13
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
02
46
L2
dis
sim
ilarity
me
asu
re
1 2 6 3 5 4
Dendrogram for Euclidean cluster analysis
Figura 1.10: Dendrograma
Ejemplo 1.7.Distancia de Manhattan, Encadenamiento Simple
1 . cluster singlelinkage y x, L1 name(L1)2
3 . cluster gen Grupos_L1 = group (2)4
5 . table firm Grupos_L16
7 ----------------------8 | Grupos_L19 Firmas | 1 2
10 ----------+-----------11 Firma 1 | 112 Firma 2 | 113 Firma 3 | 114 Firma 4 | 115 Firma 5 | 116 Firma 6 | 117 ----------------------18 . label var L1_ord "Valor de Corte"19
20 . cluster dend , hor labels(firm) ylabel(,angle (0)) ///21 title (" Dendrograma (Distancia de Manhattan / Single Linkage )") ///22 addplot(line L1_ord cutvalue , clpattern(dot) lcolor(red))23
24 . graph export dend_L1.eps , replace
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 14
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Firma 4
Firma 3
Firma 5
Firma 1
Firma 2
Firma 6
0 1 2 3 4 5L1 dissimilarity measure
y1/y2 Valor de Corte
Dendrograma (Distancia de Manhattan / Single Linkage)
Figura 1.11: Dendrograma (Manhattan / Encadenamiento Simple)
Ejemplo 1.8.Distancia Euclideana, Encadenamiento Promedio
1 . cluster averagelinkage y x, L2 name(L2)2
3 . cluster gen Grupos_L2 = group (2)4
5 . table firm Grupos_L26
7 ----------------------8 | Grupos_L29 Firmas | 1 2
10 ----------+-----------11 Firma 1 | 112 Firma 2 | 113 Firma 3 | 114 Firma 4 | 115 Firma 5 | 116 Firma 6 | 117 ----------------------18
19 . cluster dend , hor labels(firm) ylabel(,angle (0)) ///20 title (" Dendrograma (Distancia Euclideana / Average Linkage )")21
22 . graph export dend_L2.eps , replace
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 15
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Firma 1
Firma 2
Firma 6
Firma 3
Firma 5
Firma 4
0 1 2 3 4L2 dissimilarity measure
y1/y2 Valor de Corte
Dendrograma (Distancia Euclideana / Average Linkage)
Figura 1.12: Dendrograma (Distancia Euclideana / Encadenamiento Promedio)
Ejemplo 1.9.Distancia de Canberra, Método de Ward
1 . cluster ward y x, canberra name(Canberra)2
3 . cluster dend , hor labels(firm) ylabel(,angle (0)) ///4 title (" Dendrograma (Distancia de Canberra / Ward )")5
6 . graph export dend_Canberra.eps , replace
Firma 1
Firma 3
Firma 5
Firma 4
Firma 2
Firma 6
0 .5 1 1.5 2Canberra dissimilarity measure
y1/y2 Valor de Corte
Dendrograma (Distancia de Canberra / Ward)
Figura 1.13: Dendrograma (Distancia Euclideana / Encadenamiento Promedio)
Nótese en este caso que la solución más apropiada es de 3 grupos. En caso de formar sólo dos grupos,la firma 1 pasaría a formar parte del grupo compuesto por 3, 4 y 5; algo que no sucedió en los ejemplosanteriores. Esto podría confirmar la sospecha de que la firma 1 es un caso atípico. Dado que el objetivo
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 16
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
acá es ver si existen grupos este caso debería ser tratado como un grupo de un miembro (o eventualmenteretirarse, por ejemplo, si después se pretende realizar un análisis de regresión con los datos agregados).
En el Dendrograma puede verse que incorporar la firma 1 al grupo (3/4/5) agregaría mucha entropia
(la línea de unión de la firma 1 al grupo está muy separada -hacia la derecha- del anterior agrupamiento).Los grupos según esta medida de distancia y método de agrupamiento son:
1 . cluster gen Canberra_3G = group (3)2
3 . table firm Canberra_3G4
5 ----------------------------6 | Canberra_3G7 Firmas | 1 2 38 ----------+-----------------9 Firma 1 | 1
10 Firma 2 | 111 Firma 3 | 112 Firma 4 | 113 Firma 5 | 114 Firma 6 | 115 ----------------------------
Ejemplo 1.10.Análisis de Clúster con Datos Binarios, Similitud de Jaccard y agrupamiento a través del Método deCentroides.
1 . list2
3 +---------------------------------------------------------+4 | name sex tv auto home comp cell cable |5 |---------------------------------------------------------|6 1. | Juan Hombre 1 0 1 0 0 0 |7 2. | Maria Mujer 1 0 1 0 1 0 |8 3. | Pedro Hombre 1 1 0 0 0 0 |9 +---------------------------------------------------------+
10
11 . cluster cent sex tv auto home comp cell cable , Jaccard name(Jaccard)12
13 . cluster gen Grupos_Jaccard = group (2)14
15 . table name Grupos_Jaccard16
17 ---------------------------18 Encuestado |Grupos_Jaccard19 | 1 220 -----------+---------------21 Juan | 122 Maria | 123 Pedro | 124 -----------_---------------
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 17
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
.4
.6
.8
1
Jacc
ard
sim
ilarity
measu
re
Juan Maria Pedro
y1/y2 Valor Límite
Dendrograma (Jaccard / Centroid)
Figura 1.14: Dendrograma (Similitud de Jaccard / Centroides)
1.6.2. Procesos No-JerárquicosLos procedimientos no jerárquicos se conocen como agrupación de k medias (k-means clustering). Estos
métodos se dividen en tres que son: umbral secuencial, umbral paralelo y división para la optimización. Estosmétodos no-jerárquicos parten con la generación de una semilla y permiten en ocasiones que observacionesqueden fuera de algún clúster; i.e. el método de k medias es menos sensible a los outliers.
Ejemplo 1.11.
1 . cluster kmeans y x, k(3) Lpow (3) keep name(km3)2
3 . table firm km34
5 ----------------------------6 | km37 Firmas | 1 2 38 ----------+-----------------9 Firma 1 | 1
10 Firma 2 | 111 Firma 3 | 112 Firma 4 | 113 Firma 5 | 114 Firma 6 | 115 ----------------------------
Nótese que en esta oportunidad, forzando la existencia de 3 clústers, Stata respeta esta condicióndejando como un único grupo a la Firma 1 (outlier).
Asimismo, podemos obtener los centros de cada uno de los clústers.1 . list y x if km3 == .2
3 +---------------------+4 | y x |5 |---------------------|6 7. | 4.166667 4.333333 |7 8. | 1.5 1 |8 9. | 3 0 |9 +---------------------+
Sin embargo, con 2 medias, los resultados son consistentes con Métodos Jerárquicos.
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 18
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.7. SELECCIÓN DEL NÚMERO DE CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
1 . cluster kmeans y x, k(2) Lpow (3) keep name(km2)2
3 . table firm km24 ----------------------5 | km26 Firmas | 1 27 ----------+-----------8 Firma 1 | 19 Firma 2 | 1
10 Firma 3 | 111 Firma 4 | 112 Firma 5 | 113 Firma 6 | 114 ----------------------15
16 . list y x if km2 == .17 +---------------------+18 | y x |19 |---------------------|20 7. | 2 .6666667 |21 8. | 4.166667 4.333333 |22 +---------------------+
1.6.2.1. Método del Umbral Secuencial
Se selecciona una primera semilla para un cluster. Esta semilla representa el centro del clúster. Todoslos objetos con una distancia menor al umbral son agregados a este clúster. A continuación se seleccionauna segunda semilla, y se incluyen todos los objetos que están a un distancia menor al umbral. Así,sucesivamente hasta obtener el número deseado de clusters.
Una vez que un objeto (observación) ha sida asignado a un clúster, no es considerado para las iteracionesposteriores.
1.6.2.2. Método del Umbral Paralelo
Se seleccionan varias semillas simultáneamente al inicio. Cada semilla representa el centro de cadaclúster. Todos los objetos con una distancia menor al umbral son agregados al clúster más cercano.
En este caso, algunos objetos pueden permanecer fuera de un clúster si su distancia es superior alumbral especificado.
1.6.3. OptimizaciónEste procedimiento es similar a los métodos anteriores, con la excepción que permite la reubicación de
los objetos. I.e. si en proceso de iteración, un objeto se acerca más a otro clúster, distinto del que tieneasignado en ese momento, entonces este procedimiento cambia el objeto al clúster más cercano.
1.7. Selección del número de Clústers
Esto depende de la pregunta que busca responderse y de la teoría subyacente. No obstante, una formacomún de realizar esto es a través de un Análisis de Perfil de Clusters.
Algunos software de estadística han popularizado algunas “reglas de parada” como el CCC (Cluster
Cubic Criterion) popluarizado por SAS (Stata no lo tiene).La buena noticia es que se ha demostrado empíricamente que los criterios “subjetivos” (ej. nivel de
entropía del dendrograma) son extremadamente consistentes con técnicas más elaboradas.
1.7.1. Métodos JerárquicosLa selección del número de clústers se realiza en estos casos a través de una comparación de cambios
porcentuales en coeficientes de aglomeración (suma de los cuadrados de las distancias entre objetos dentro
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 19
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
1.8. VALIDACIÓN PREDICTIVA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
de los clústers). Cuando el coeficiente de aglomeración aumenta significativamente en la formación deun nuevo grupo, entonces es momento de detener el proceso. A esta situación comúnmente se le llamaentropia.
En un estudio de indices usando Simulación de Montercarlo, Dubes (1987) encontró que los métodosde Enlace Completo (“Vecino más lejano”) consistentemente encontraban el verdadero número de Clustersen comparación a otros métodos jerárquicos.
1.7.2. Métodos No-JerárquicosTest de Hipótesis de comparación de medias entre clústers. Consiste en realizar una prueba simple
de medias (con varianzas iguales), para cada una de las variables de estudio separadas según los clústersencontrados.
1.8. Validación Predictiva
Una forma de validar el análisis de clústers es a través de la Validación Predictiva. Ésta consiste endejar fuera del análisis de clúster una variable que se sabe que cambia según el clúster. Con esto, se puedever si luego del análisis de clúster la separación de la variable extra se cumple.
Esta variable de validación debe tener una fuerte base teórica para ser ocupada como tal.
(Still working on this section!)
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 20
NOCOPI
ARO
PUBLI
CAR- c�
J
a
i
m
e
C
.
R
u
b
i
n
-
d
e
-
C
e
l
i
s
BIBLIOGRAFÍA BIBLIOGRAFÍA
Bibliografía
Dubes, R. C. (1987). How many clusters are the best?- an experiment. Pattern Recognition, 20(6):645–663.
Romesburg, C. (2004). Cluster Analysis for Researchers. Lulu.com.
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 21