Upload
guiomar-cendejas
View
215
Download
0
Embed Size (px)
Citation preview
1
Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios.
Matriz de datos de orden (n*p):Tabla de doble entrada.
Filas: n modalidades de la variable A. Columnas: p modalidades de la variable B. Intersección kij: frecuencia conjunta entre las modalidades i y j.
Método:
Simétrico con relación a líneas y columnas. Deberá permitir comparar las distribuciones de frecuencias.
3. Análisis de Correspondencias Simples
2
Estudio sobre la posible asociación entre la zona o lugar de residencia de los turistas en Tenerife y su edad agrupada en intervalos
Datos: base turistas curso.sav. Información sobre 796 turistas a los que se ha realizado la encuesta. Se han elegido la edad en intervalos y lugar de residencia de los turistas en Tenerife.
Se elaboró una tabla de contingencia. Como algunos pares de modalidades se repetían un número muy pequeño de veces, se agruparon:
Los ocho intervalos de edad de la base de datos se redujeron a seis:* < de 24 anos * 24 a 30 años* 31 a 40 años * 41 a 50 años* 51 a 60 años * > 60 años
El lugar de residencia se reduce a tres modalidades:* Puerto de la Cruz* Las Américas-Los Cristianos * Resto
Caso:Lugar de residencia de turistas y su edad
3
Objetivo:
Conocer el lugar de residencia de los turistas que se asocia con un intervalo de edad en mayor proporción que los demás.Detectar las características que más destacan en cada intervalo de edad y en cada lugar de residencia de los turistas.Reducir nº de caracteres relacionados a dimensiones independientes.
Método:Obtener ejes factoriales que reducen la información original mediante nuevas variables estudiando la asociación entre modalidades fila y columna. Se parte de frecuencias relativas para comparar.
En el espacio de las columnas: nube de n puntos i con coordenadas kij/ki. para j = 1, 2, .....pEn el espacio de las filas: nube de p puntos j con coordenadas kij/k.j para i = 1, 2, ......n
Metodología:Análisis de correspondencias simple
4
Transformaciones en la matriz de datos
F Perfil de líneas en Rp Perfil de líneas en Rn
1.............j..............p 1 . i Kij . n
fij
fij/fi
fij/fj
Iguales en ambos subespacios, llevando a transformaciones analíticas diferentes.
p y n puntos de las nubes, situados en subespacios de p-1 y n-1 dimensiones.
Centro de gravedad: media de perfiles de frecuencias afectados por sus masas
.j
n
1i i.
iji. f
f
ff
5
Tabla de contingencia
Intervalo de edad: Los turistas de < 24 años se alojaron mayoritariamente en Las Américas-Los Cristianos. El menor número de turistas tienen una edad > 60 años y que se alojaron en el Resto de Lugares. La edad más frecuente es [30-40).
Lugar de Residencia: Las Américas-los Cristianos alojan los 95 turistas de menos de 24 años, que representan la mayor frecuencia conjunta de la muestra. Los 11 turistas alojados en el Resto de Lugares tienen una edad >60 años los que representan el grupo de menor frecuencia conjunta. En cuanto a la frecuencia marginal, Las Américas-Los Cristianos es la zona más frecuente de residencia.
Tabla de correspondencias
33 95 16 144
41 85 26 152
50 82 51 183
35 71 45 151
25 46 27 98
26 32 11 69
210 411 176 797
Intervalos de Edad< de 24 años
[24 - 30)
[30 - 40)
[40 - 50)
[50 - 60)
> de 60 años
Margen activo
Pto. de laCruz
Américas-Cristianos
RestoLugares Margen activo
Lugar de Residencia
6
SPSS: Introducir los datos
Poner en las dos primeras columnas los pares de rangos posibles para las columnas (Lugar de residencia: 1 a 3) y las filas (Intervalos de edad: 1 a 6) y, en la tercera, la frecuencia de cada par de rangos. Se puede poner etiquetas al valor de cada rango.
Utilizar como variable de ponderación las frecuencias mediante los comandos del menú: Datos, Ponderar casos
7
Distancia Chi-cuadrado
Propiedades:
Equivalencia distribucional
Permite agregar dos modalidades de idénticas frecuencias de una variable, en una nueva modalidad afectada por la suma de sus masas, sin cambiar nada, ni en las distancias entre modalidades de esta variable o de la otra.
Relaciones de transición
Ligan gráficamente las dos variables representadas en líneas y columnas.
2
j
ij
i
i j
i
2 2
i
ij
j
ij
j
2d (i,i ) = (1f
)(f
f -
f
f) d (j, j ) = (
1f
)(f
f -
f
f)
8
Obtención de los ejes factoriales
i
O)(i,2di.fMaxu
Dos transformaciones: en el perfil de líneas y de las columnas.Se toma como columnas la dimensión más pequeña.Maximizar la suma ponderada de los cuadrados de las proyecciones sobre el eje:
Matriz a diagonalizar
Descartado el valor propio trivial igual a 1 y su vector propio asociado, retenemos los p-1 valores propios no nulos y sus vectores propios asociados. Obtendremos como máximo p-1 ejes factoriales.
n
1i .j´i
ij´ijjj ff
ffs
Analizar Reducción de datos Análisis de correspondencias
9
Normalización
Canónica: Para examinar conjuntamente las diferencias o similitudes entre dos variables.
Principal: Examinar las diferencias o similitudes entre categorías de variables, pero por separado.
Principal por filas: Averiguar cómo difieren entre sí las distintas categorías de la variable fila.
Principal por columnas: Averiguar cómo difieren entre sí las distintas categorías de la variable columna.
Las soluciones son equivalentes en términos de ajuste (valores singulares), inercia y contribuciones, pero las puntuaciones por filas y columnas son diferentes.
10
Estadísticos
Dependiendo de la opción elegida en la normalización se podrá demandar el gráfico conjunto o no.
Si se ha elegido la normalización canónica: Gráfico conjunto.
Si se ha elegido la principal: Gráficos por separado de filas y columnas.
11
Análisis
Valores propios. Inercia total
Coordenadas: Proyecciones de los puntos filas en los ejes factoriales
Contribuciones a la inercia de puntos a varianza explicada en cada eje
Correlaciones: Contribución de dimensiones a la inercia de cada punto
1p
1ααλI
kχ
Iciaindependen de ContrasteIkχ2
2
α
2αii.
α λ
ψf(i)Cr
G)(i,d
ψ
G)(i,d
G)(i,d(i)Cos 2
2αi
2
2α2
α
12
Interpretación de representación simultánea
Filas (columnas) con estructura similar, situación próxima en el plano.
Cercanía punto fila i y columna j: interpretar si están alejados del origen.
Línea con perfil próximo al medio, se encontrará próxima al origen.
Buscar los puntos de mayor Contribución absoluta de las inercias. Se separa los que se proyectan del lado positivo de los del lado negativo.
Estudiar la calidad de representación (correlación) de los puntos. Correlación pequeña: tiene un papel importante sobre otro eje.
Se buscan aquellos puntos i(j) que si bien no contribuyen a la formación del factor, sí se encuentran bien representados (correlación alta).
13
Resultados AC 1Perfil fila
Proporción de modalidades de la variable fila en cada modalidad de la variable columna. Proporción de edades en cada zona. El 66% de los turistas de < 24 años se alojaron en Las Américas-Los Cristianos, mayoritaria en cada estrato de edad, con un 51,6% de turistas de la muestra alojados en ella.
Perfiles de fila
,229 ,660 ,111 1,000
,270 ,559 ,171 1,000
,273 ,448 ,279 1,000
,232 ,470 ,298 1,000
,255 ,469 ,276 1,000
,377 ,464 ,159 1,000
,263 ,516 ,221
Intervalos de Edad< de 24 años
[24 - 30)
[30 - 40)
[40 - 50)
[50 - 60)
> de 60 años
Masa
Pto. de laCruz
Américas-Cristianos
RestoLugares Margen activo
Lugar de Residencia
14
Resultados AC 2 Perfil columnaDe 30 a 40 años es la edad más frecuente (23%), repitiéndose esta
situación entre los turistas alojados en el Puerto de la Cruz (23.8%) y los alojados en el Resto de Lugares (29%). Sin embargo, entre los turistas alojados en Las Américas-Los Cristianos, el intervalo de edad modal es los jóvenes de menos de 24 años (23.1%).
Perfiles de columna
,157 ,231 ,091 ,181
,195 ,207 ,148 ,191
,238 ,200 ,290 ,230
,167 ,173 ,256 ,189
,119 ,112 ,153 ,123
,124 ,078 ,063 ,087
1,000 1,000 1,000
Intervalos de Edad< de 24 años
[24 - 30)
[30 - 40)
[40 - 50)
[50 - 60)
> de 60 años
Margen activo
Pto. de laCruz
Américas-Cristianos
RestoLugares Masa
Lugar de Residencia
15
Resultados AC 3
Valor propio o singular: medida de asociación para cada una de las dimensiones entre las variables fila y columna, donde valores altos indican la existencia de una fuerte relación
Inercia: Cuadrado del valor propio. Varianza explicada Inercia global
Chi cuadrado: Prueba de independencia.
2 = 796*0,041 = 32,953. Se rechaza la hipótesis de independencia entre las modalidades.
1p
1ααλI
k
χIIkχ
22
Resumen
,183 ,033 ,807 ,807 ,032 ,050
,089 ,008 ,193 1,000 ,038
,041 32,953 ,000a 1,000 1,000
Dimensión1
2
Total
Valor propio Inercia Chi-cuadrado Sig. Explicada Acumulada
Proporción de inercia
Desviacióntípica 2
Correlación
Confianza para el Valorpropio
10 grados de libertada.
16
ANÁLISISAnalisis en Rp: Examen de los puntos fila
COORDENADAS :Puntos filaProyecciones de los puntos filas en los ejes factoriales. Mientras más alejados del origen sean los valores, mejor representadas estarán las filas en cada uno de los ejes.
CONTRIBUCIÓN A LA INERCIA O ABSOLUTAS:Las de cada uno de los puntos filas a la inercia explicada en cada eje. Se busca conocer los elementos responsables de la construcción de cada eje.
CORRELACIÓN O CONTRIBUCIÓN RELATIVA:La contribución de las dimensiones a la inercia de cada punto fila es la correlación existente entre cada uno de los caracteres y los nuevos ejes. Coseno del ángulo entre el eje y el vector uniendo el centro de gravedad de la nube al punto i.
Analisis en Rp: Examen de los puntos columna. Igual
α
2αii.
α λ
ψf(i)Cr
G)(i,d
ψ
G)(i,d
G)(i,d(i)Cos
2
2αi
2
2α2
α
17
Resultados AC 3
Analisis en Rp: Examen de los puntos fila
Examen de los puntos de filaa
,181 ,718 -,239 ,018 ,510 ,115 ,949 ,051 1,000
,191 ,284 ,056 ,003 ,084 ,007 ,981 ,019 1,000
,230 -,363 ,063 ,006 ,165 ,010 ,985 ,015 1,000
,189 -,399 -,253 ,007 ,165 ,136 ,836 ,164 1,000
,123 -,309 -,073 ,002 ,064 ,007 ,973 ,027 1,000
,087 ,150 ,865 ,006 ,011 ,725 ,058 ,942 1,000
1,000 ,041 1,000 1,000
Intervalos de Edad< de 24 años
[24 - 30)
[30 - 40)
[40 - 50)
[50 - 60)
> de 60 años
Total activo
Masa 1 2
Puntuación en ladimensión
Inercia 1 2
De los puntos a lainercia de ladimensión
1 2 Total
De la dimensión a la inercia delpunto
Contribución
Normalización Simétricaa.
18
Resultados AC 4
Analisis en Rn: Examen de los puntos columna
Examen de los puntos columnaa
,263 -,015 ,500 ,006 ,000 ,736 ,002 ,998 1,000
,516 ,331 -,174 ,012 ,310 ,175 ,881 ,119 1,000
,221 -,755 -,190 ,024 ,690 ,089 ,970 ,030 1,000
1,000 ,041 1,000 1,000
Lugar de ResidenciaPto. de la Cruz
Américas-Cristianos
Resto Lugares
Total activo
Masa 1 2
Puntuación en ladimensión
Inercia 1 2
De los puntos a lainercia de ladimensión
1 2 Total
De la dimensión a la inercia delpunto
Contribución
Normalización Simétricaa.
19
GRÁFICO
20
Interpretación de resultados
INTERPRETACIÓN:
• Eje 1
Puntuación: Lado positivo: < 24 años, 24-30 años, > 60 años. Américas-Cristianos. Lado negativo: 31 a 40 años, 41 a 50 y 51 a 60. Resto de Lugares y Puerto de la Cruz muy ligeramente.Contribución a la inercia: < 24 años, 31-40 y 41-50 años. Américas-Cristianos y Resto de Lugares.Correlaciones: Todas las edades. Américas-Cristianos y Resto de Lugares.
• Eje 2
Puntuación: Lado positivo: > de 60 años, 25 a 30 y 31 a 40 años. Puerto de la Cruz. Lado negativo: < 24 años, 41-50 y 51-60 años. Américas-Cristianos y Resto de Lugares.Contribución de puntos a la inercia de la dimensión: 41-50 años y < 24 años. Puerto de la Cruz.Contribución de la dimensión a la inercia del punto: 41-50 años. Puerto de la Cruz.
21
CONCLUSIONES
Existe asociación entre las dos variables, por lo que será posible el hacer corresponder las modalidades de una con las de la otra.
Los turistas con una edad mayor de los 60 años se alojan preferentemente en la zona del Puerto de la Cruz, mientras que los menores de 30 años lo hacen en Las Américas-Los Cristianos.
Los turistas con una edad entre los 30 y 50 años tienen una tendencia a alojarse en el grupo de zonas etiquetadas con el nombre de Resto de Lugares.