21
Tema 8: Análisis Multivariante

Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

Embed Size (px)

Citation preview

Page 1: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

Tema 8: Análisis Multivariante

Page 2: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

Conjunto de técnicas aplicables cuando se registran los valoresde muchas variables (esencialmente numéricas, pero también cualitativas) a la vez.

Esencialmente, vamos a ver tres problemas:

1.- Reducir el número de variables (Análisis en componentes principales).2.- Dada una variable clasificadora (cualitativa), predecir el valor de la variable, para un individuo dado, a partir de un conjunto de variables numéricas (Análisis Discriminante).3.- Distinguir grupos (clusters) entre los individuos de la población. (Análisis Cluster)

Page 3: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

EJEMPLO:

Hemos recogido datos entre distintos usuarios de una biblioteca pública,a fin de conocer mejor el público que acude a ella, y especialmente paraanalizar el funcionamiento de la biblioteca y el grado de satisfacción de sus usuarios.

Page 4: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

Aficion_lectura

Num_hijos

Aficion_cine

Aficion_musica

renta_mens

Nivel_estudios

Aficion_TV

Satisfaccion

4 0 3 5 1200 4 4 4

3 0 3 4 1500 5 4 3

5 1 4 1 1800 3 5 5

2 2 1 3 1000 2 2 3

4 1 5 3 1300 3 4 4

3 1 3 4 1900 1 4 3

5 3 4 5 1300 4 5 5

3 0 2 3 1200 4 4 3

3 1 4 1 1600 2 5 4

1 3 2 1 1400 2 1 2

4 0 5 4 1700 3 4 4

5 0 5 5 2500 4 5 5

5 2 4 4 1100 5 3 5

5 2 5 3 1400 3 4 5

2 1 1 4 1800 4 3 3

4 2 5 4 2000 4 5 5

3 3 2 4 1500 4 3 3

1 1 2 3 1000 2 2 2

2 1 2 2 1300 3 3 3

1 0 2 5 1600 4 4 2

5 1 4 4 1800 3 4 4

2 2 3 3 1200 4 4 4

4 1 5 5 1700 2 5 4

4 1 4 3 1500 5 4 4

5 2 4 5 1100 5 5 5

Page 5: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

PREGUNTA1: ¿Se puede “resumir” la información proporcionada por los datos utilizando una cantidad menor de variables?(Análisis en componentes principales)

PREGUNTA2: ¿Qué grupos, con “personalidad” propia, podemos distinguir entre los usuarios de la biblioteca?(Análisis cluster)

PREGUNTA3: Suponiendo que hemos clasificado a los usuarios en tres grupos (A, B y C), y que se nos presenta un nuevo usua-rio, ¿cómo identificar el grupo al que debe ser asignado el usua-rio? ¿Cuáles son las variables más influyentes a la hora de predecir el valor de la variable cualitativa “grupo de pertenencia”?(Análisis Discriminante)

Page 6: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

1. Análisis en Componentes Principales.

X1, X2, …, XnY1, Y2, …, Yn

Variables iniciales(son cuantitativas)

Componentes principales

1.- Número elevado de variables.2.- Existen correlaciones entre ellas (info. redundante)3.- Tienen significación “clara”

1.- Mismo número de variables, pero ordenadas según % de “información” retenido.2.- Independientes.3.- En principio, son artificiales, pero con frecuencia algunas de ellas pueden ser interpretadas a partir de los pesos (EJEMPLO PIZARRA)4.- La relación entre las Y’s y las X’s es del tipo:

Yj=a1,jX1+ a2,jX2+ … + an,jXn

pesos

Page 7: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

-La variabilidad “conjunta” de X1,…,Xn es la suma de las variabilidades de cada Xi; para medirla, sumamos las varianzas V[Xi].

-Análogamente, la variabilidad “conjunta” de Y1,…,Yn es la suma de V[Yi]. Esta variabilidad coincide con la de arriba.

-Puesto que las Y’s y las X’s están relacionadas según ciertas expre- siones, podemos calcular las varianzas V[Yi] a partir de las V[Xi]; en consecuencia, podemos presentar las Y’s ordenadas según el % del total de variabilidad inicial que recogen.

-En la práctica, uno se queda con el número de componentes principales Y1,…,Ym necesario para que su variabilidad conjunta sea al menos un 80% de la variabilidad inicial. Se entiende de ese modo que se está perdiendo al menos un 20% de información, pero a cambio de mayor claridad/concisión (menor número de variables). En suma, el proceso permite reducir el número de variables.

Statgraphics

Page 8: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

2. Análisis Discriminante.

X1, X2,…,Xn, Y

Variables cuantitativas

Factor de clasificación (var. Cualitativa o cuant. Discreta)

(Y puede ser el grado de satisfacción de un usuario de una biblioteca, el hábito de lectura, el tema de un artículo o un libro, el periodo histórico, la gravedad de una enfermedad, etc.)

PREGUNTA1: ¿Cuáles son las variables Xi que permiten discriminar (predecir) mejor el valor de Y (es decir, las más “influyentes”: obsérveseque si Y es cuantitativa, esta pregunta se puede responder también utilizando regresión múltiple).

Page 9: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

2. Análisis Discriminante.

X1, X2,…,Xn, Y

Variables cuantitativas

Factor de clasificación (var. Cualitativa o cuant. Discreta)

PREGUNTA1: ¿Cuáles son las variables Xi que permiten discriminar (predecir) mejor el valor de Y (es decir, las más “influyentes”: obsérveseque si Y es cuantitativa, esta pregunta se puede responder también utilizando regresión múltiple).

PREGUNTA2: Dado un nuevo individuo que presenta ciertos valores Para las variables X1,…,Xn, predecir el valor de Y para dicho individuo.

Page 10: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

Clave_1 Clave_2 Clave_3 Clave_4 Clave_5 TEMA

15 16 5 7 1FILOSOFIA

13 5 13 2 6HISTORIA

4 23 2 10 14FILOLOGIA

10 13 8 3 3HISTORIA

9 2 16 1 8HISTORIA

5 1 13 6 12FILOLOGIA

20 14 6 9 3FILOSOFIA

6 17 6 7 21FILOLOGIA

18 12 2 0 4FILOSOFIA

15 15 5 5 0FILOSOFIA

16 8 20 5 4HISTORIA

23 41 12 12 5FILOLOGIA

25 21 0 3 28FILOSOFIA

11 3 19 0 3HISTORIA

9 1 14 3 5HISTORIA

4 19 4 8 23FILOLOGIA

3 17 5 5 17FILOLOGIA

14 4 15 1 5HISTORIA

0 20 3 0 18FILOLOGIA

16 19 4 6 0FILOSOFIA

16 2 18 2 6HISTORIA

14 6 12 1 5HISTORIA

3 15 3 4 31FILOLOGIA

17 1 20 4 7HISTORIA

1 17 2 2 21FILOLOGIA

19 24 3 4 1FILOSOFIA

3 15 4 0 22FILOLOGIA

11 12 10 8 24FILOLOGIA

EJEMPLO: Hemos seleccionadocinco términos clave que aparecentípicamente, con distintas frecuen-cias, en textos históricos, filosóficosy filológicos. Después, hemos regis-trado la frecuencia de aparición de dichos términos clave en 30 artículosde dichas materias, y hemos anotadoel tema (FILOSOFIA, HISTORIA, FILOLOGIA) de cada uno de esosartículos. Nos preguntamos:

1.- ¿Cuáles son los términos claveque permiten clasificar mejor un artículo dentro de cada área (Filosofía,Historia o Filología)? ¿Es realmenteefectivo?

2.- ¿Dónde encuadrar (de manera “automática”) un artículo, conocidas las frecuencias de dichos términos “clave” en dicho artículo?

Page 11: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

PREGUNTA1: ¿Cuáles son las variables Xi que permiten discriminar (predecir) mejor el valor de Y (es decir, las más “influyentes”: obsérveseque si Y es cuantitativa, esta pregunta se puede responder también utilizando regresión múltiple).

Funciones discriminantes:

F1=a1,1X1+…+a1,nXn

F2=a2,1X1+…+a2,nXn

pesos

- Puede haber una o varias funciones discriminantes.- Están ordenadas por su “poder discriminante” (su “efectividad” para clasificar a un individuo en un grupo determinado). - Dentro de una función discriminante, las variables más influyentes son las que tienen mayor peso.

Page 12: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

PREGUNTA2: Dado un nuevo individuo que presenta ciertos valores Para las variables X1,…,Xn, predecir el valor de Y para dicho individuo.

Funciones de clasificación:

Si la variable clasificadora Y tiene j valores distintos (niveles), tendremosj funciones de clasificación:

S1= c1,0+ c1,1X1+ … + c1,nXn

....Sj = cj,0+ cj,1X1+ … + cj,nXn

Dado un nuevo individuo que presenta unos ciertos valores para X1,…,Xn, sustituimos dichos valores en las fórmulas de arriba, y vemoscuál de esas expresiones es la mayor; el nivel de Y al que correspondadicha expresión, será el valor predicho para Y.

Page 13: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

Statgraphics

Page 14: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

3. Análisis Cluster.

A partir de los valores de X1,…, Xn registrados sobre una muestra de una población, queremos establecer grupos “homogéneos” dentro de la población. Dichos “grupos homogéneos” reciben el nombre de clusters.

Ejemplo: Determinación de perfiles de usuarios (en general, de “clientes”).

X1

X2

Page 15: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

3. Análisis Cluster.

Ejemplo: Determinación de perfiles de usuarios (en general, de “clientes”).

X1

X2

A partir de los valores de X1,…, Xn registrados sobre una muestra de una población, queremos establecer grupos “homogéneos” dentro de la población. Dichos “grupos homogéneos” reciben el nombre de clusters.

Si buscamos tresclusters…

Page 16: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

3. Análisis Cluster.

Ejemplo: Determinación de perfiles de usuarios (en general, de “clientes”).

X2

A partir de los valores de X1,…, Xn registrados sobre una muestra de una población, queremos establecer grupos “homogéneos” dentro de la población. Dichos “grupos homogéneos” reciben el nombre de clusters.

X1

Si buscamos cuatroclusters…

Page 17: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

El análisis cluster se basa en la detección de “afinidades” entre individuos;para nosotros, cada individuo viene representado por (x1,…,xn), y la nociónintuitiva de “afinidad” se materializa en el concepto matemático de DISTANCIA. En este sentido, antes de realizar un análisis cluster, debemosfijar (elegir) dos tipos de distancias:

1.- Distancia entre observaciones (individuos) (PIZARRA)

Euclídea

Euclídea al cuadrado(la más habitual)

Distancia de Mahalanobis(ventajosa si hay multicolinealidado distintos “tamaños” entre las variables)

Otras…

Page 18: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

El análisis cluster se basa en la detección de “afinidades” entre individuos;para nosotros, cada individuo viene representado por (x1,…,xn), y la nociónintuitiva de “afinidad” se materializa en el concepto matemático de DISTANCIA. En este sentido, antes de realizar un análisis cluster, debemosfijar (elegir) dos tipos de distancias:

2.- Distancia entre grupos (PIZARRA).

Método delcentroide

Distancia mínima(vecino más próx.): la distanciaentre dos grupos es la menor de lasdistancias entre los miembros de cada grupo

Distancia máxima (vecino máslejano): la distancia entre dos gruposes la mayor de las dists. entre los miembros de los grupos.

Método de Ward: el grupo más próximo a otro es aquél que minimiza la variabilidad conjunta.

Page 19: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

Según el tipo de distancia que fijemos para cada concepto, los resul-tados cambian. También corre de nuestra cuenta fijar el número de

clusters.

Buscamos los resultados “más significativos” posibles.

Page 20: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

¿Cómo se realiza un análisis cluster?

a.- Fijamos el número de grupos (clusters).

b.- Fijamos una distancia entre observaciones, y una distancia entre grupos.

c.- Inicialmente, cada observación forma un grupo distinto. Utilizando la distancia entre observaciones, buscamos las dos observaciones más próximas; en lo sucesivo, ambas forman un único grupo.

d.- Utilizando la distancia entre grupos, buscamos los dos grupos más próximos; en adelante, la unión de ambos forma un nuevo grupo.

e.- Reiteramos d hasta obtener el número deseado de clusters.

EJEMPLO: PIZARRA

Page 21: Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también

Fin del Temario

Statgraphics