27
INTRODUCCIÓN AL ANALIS MULTIVARIADO INTRODUCCIÓN. Los procedimientos multivariables constituyen un conjunto de técnicas estadísticas de amplia aplicación en el mundo científico, especialmente en los estudios de tipo empírico, adquiriendo cada día más importancia en la investigación Comercial y muy especialmente en el tratamiento de las encuestas. A través del análisis multivariante lo que hacemos es combinar todas las variables, eliminando la información redundante y se obtiene una nueva variable que no es observable directamente, que representa un concepto abstracto que se puede medir obteniéndose un valor para cada elemento, en el caso del ejemplo lo denominamos estilo de vida. Esta situación la podemos resumir en el siguiente esquema. Esquema ¿POR QUÉ SE USAN LAS TÉCNICAS MULTIVARIANTES? Las técnicas de análisis multivariante se utilizan cada vez más en la investigación comercial por las siguientes razones: 1. Permiten el analizar un gran número de encuestas. Simplificando muchos datos, con la mínima pérdida de información. Consiguiendo hacer más comprensible la información para la mente humana. Variables observadas Análisis multivarian Nueva variable

ANÁLISIS MULTIVARIANTE 1

Embed Size (px)

Citation preview

Page 1: ANÁLISIS  MULTIVARIANTE 1

INTRODUCCIÓN AL ANALIS MULTIVARIADO

INTRODUCCIÓN.

Los procedimientos multivariables constituyen un conjunto de técnicas estadísticas de amplia aplicación en el mundo científico, especialmente en los estudios de tipo empírico, adquiriendo cada día más importancia en la investigación Comercial y muy especialmente en el tratamiento de las encuestas.

A través del análisis multivariante lo que hacemos es combinar todas las variables, eliminando la información redundante y se obtiene una nueva variable que no es observable directamente, que representa un concepto abstracto que se puede medir obteniéndose un valor para cada elemento, en el caso del ejemplo lo denominamos estilo de vida.

Esta situación la podemos resumir en el siguiente esquema.

Esquema

¿POR QUÉ SE USAN LAS TÉCNICAS MULTIVARIANTES?

Las técnicas de análisis multivariante se utilizan cada vez más en la investigación comercial por las siguientes razones:

1. Permiten el analizar un gran número de encuestas. Simplificando muchos datos, con la mínima pérdida de información. Consiguiendo hacer más comprensible la información para la mente humana.

2. Permiten analizar toda la información acerca de un determinado fenómeno, considerando simultáneamente todos los factores que intervienen.

2. Permiten trabajar con cualquier tipo de variable.

Variables observadas

Análisis multivariante

Nueva variable abstracta

Page 2: ANÁLISIS  MULTIVARIANTE 1

ÁREAS DE APLICACIÓN DEL ANÁLISIS MULTIVARIANTE

El análisis Multivariante es de aplicación en la Investigación Comercial, en las siguientes circunstancias:

Reducción de datos. Se trata de simplificar la estructura del fenómeno investigado buscando la mayor simplicidad, lo que permitirá una interpretación muy fácil.

Clasificación y agrupación Por ejemplo las técnicas de segmentación y tipología Análisis de las relaciones de dependencia, con el fin de predecir o bien explicar En la construcción de modelos. Econometría

DEFINICIÓN Y CLASIFICACIÓN DE LAS VARIABLES

En las técnicas del análisis multivariante se entiende por variable alguna magnitud que representa la característica de los elementos objeto de investigación que tratamos de medir.

En una primera clasificación las variables las podemos clasificar en dos grupos, variables independientes (VI) y variables dependientes (VD).Las variables dependientes son aquellas cuyo comportamiento es explicado o pronosticado por una o más variables independientes. Las variables dependientes también se denominan variables criterio o respuesta, mientras que las variables independientes son las que servirán para explicar el fenómeno estudiado y se en ocasiones se denominan como variables explicativas, factores o variables predictoras.

En los estudios no experimentales, la situación de las variables no siempre es clara, definiéndose su papel en el contexto de la investigación. Una misma variable puede adoptar diferentes roles en función de situaciones.

Cuando existen diferencias sistemáticas en una variable dependiente (Y) asociada a diferentes niveles de variación de la variable independiente (X) se dice que están relacionadas.Si todas las variables desempeñan el mismo papel se habla de relaciones de interdependencia.

En este caso no hay una variable con las que se intente explicar el comportamiento de otras.En ocasiones, al analizar el modelo la única forma de diferenciar las variables es simplemente por donde están situadas en la ecuación.

Page 3: ANÁLISIS  MULTIVARIANTE 1

TEORÍA SOBRE ANÁLISIS MULTIVARIADO.

El análisis multivariante engloba un grupo de técnicas o métodos estadísticos cuya finalidad es analizar simultáneamente conjuntos de datos multivariantes en el sentido de que hay varias variables medidas para cada individuo u objeto estudiado. Su razón de ser radica en un mejor entendimiento del fenómeno estudiado, obteniendo información que los métodos estadísticos univariantes y bivariantes son incapaces de conseguir.

Así, como Hair et al. (1999) dicen:“Sólo a través del análisis multivariante las relaciones múltiples de este tipo podrán ser examinadas adecuadamente para obtener un entendimiento más completo y real del entorno que permita tomar las decisiones más adecuadas.”

Ejemplo: “Las mujeres y hombres de negocios de hoy no pueden seguir aproximaciones ya pasadas en las que los consumidores eran considerados homogéneos y caracterizados por un número pequeño de variables demográficas. En su lugar, deben desarrollar estrategias que atraigan a numerosos segmentos de clientes con características demográficas y psicográficas diversas en un mercado con múltiples restricciones (legales, económicas, competitivas, tecnológicas, etc.). Sólo a través del análisis multivariante las relaciones múltiples de este tipo podrán ser examinadas adecuadamente para obtener un entendimiento más completo y real del entorno que permita tomar las decisiones más adecuadas.”

Es una metodología estadística sofisticada, mucho más potente, que utiliza los métodos del álgebra lineal, matricial, cálculo numérico, geometría lineal, entre otras.

Los métodos de análisis multivariante se diferencian unos de otros, según su área de aplicación se refiera a una o más problemas y según se requiera uno o más grupo de variables.

Pueden sintetizarse en dos:

1) Proporcionar métodos cuya finalidad es el estudio conjunto de datos multivariantes que el análisis estadístico uni y bidimensional no pueden conseguir.

2) Ayudar al analista o investigador a tomar decisiones óptimas en el contexto en el que se encuentre teniendo en cuenta la información disponible por el conjunto de datos analizado.

Page 4: ANÁLISIS  MULTIVARIANTE 1

Se pueden clasificar en tres grandes grupos:

1) Métodos de dependencia Suponen que las variables analizadas están divididas en dos grupos: las variables dependientes y las variables independientes. El objetivo de los métodos de dependencia consiste en determinar si el conjunto de variables independientes afecta al conjunto de variables dependientes y de qué forma. 2) Métodos de interdependencia Estos métodos no distinguen entre variables dependientes e independientes y su objetivo consiste en identificar qué variables están relacionadas, cómo lo están y por qué. 3) Métodos estructurales Suponen que las variables están divididas en dos grupos: el de las variables dependientes y el de las independientes. El objetivo de estos métodos es analizar, no sólo como las variables independientes afectan a las variables dependientes, sino también cómo están relacionadas las variables de los dos grupos entre sí.

Page 5: ANÁLISIS  MULTIVARIANTE 1

MODELOS A TRATAR

1. ANÁLISIS DE SUPERVIVENCIA

El interés se centra en establecer el tiempo necesario que ha de transcurrir para que ocurra algo. Trata de describir la proporción de casos en diferentes momentos del tiempo que permanecen en el estudio. A menudo se emplea más de un grupo. El análisis presenta curvas de supervivencia para cada grupo, aunque también es posible realizar pruebas estadísticas para comparar los grupos

El tipo de relación que está siendo examinadas es de:

Métodos de Dependencia

Métodos de Interdependencia.

Variables.C.P.

Análisis FactorialModelos loglineal.

Casos.Análisis Cluster

una Variabledependiente

Métrica. Regresión Múltiple. Análisis de

supervivencia.

No métrica.Análisis Discriminante.

Modelos de Regresión Logística.Análisis Conjunto.

Objetos.Escalamiento

multidimensional.Análisis de

Correspondencias

Modelos estructurales

Varias Variablesdependientes

Métricas.Manova.

Correlación Canónica.

Page 6: ANÁLISIS  MULTIVARIANTE 1

ESQUEMA GENERAL DE UN ANALISIS DE SUPERVIVENCIA

EJEMPLO

Es muy común que la variable que se desea estudiar sea el tiempo que tarda en ocurrir un suceso, ya sea éste beneficioso (curación, alta hospitalaria) o perjudicial (muerte, aparición de efecto adverso, rechazo del trasplante) o incluso indiferente (cambio de tratamiento). El conjunto de técnicas estadísticas que se emplean para analizar este tipo de datos se conoce en medicina como "análisis de supervivencia", debido a que se diseñaron inicialmente para estudiar el tiempo hasta el fallecimiento del paciente, fundamentalmente en el campo de la oncología.Para centrar la exposición supongamos que el dato de interés es el tiempo hasta la aparición de problemas microvasculares en un conjunto de pacientes diabéticos tipo II hipertensos, en un estudio prospectivo durante 5 años. Escogemos intencionadamente un ejemplo en el que el suceso no es el fallecimiento del paciente para ilustrar precisamente el uso de estas técnicas fuera del ámbito del concepto estricto de supervivencia.La característica más importante de este tipo de datos (tiempo hasta que ocurre un suceso) es que, muy probablemente, al final del periodo de observación no todos los pacientes habrán presentado el suceso objeto de estudio. Además puede ocurrir que algunos pacientes se hayan perdido por causas diversas, no habiendo sido posible determinar su estado. O cuando el suceso es la muerte pueden haber fallecido por causas diferentes a las que se analizan (por ejemplo en un accidente de automovilístico).También es habitual que los pacientes vayan incorporándose durante todo el periodo de observación, por lo que los últimos en hacerlo serán observados durante un periodo de tiempo menor que los que entraron al principio y por lo tanto la probabilidad de que les ocurra el suceso es menor.

Page 7: ANÁLISIS  MULTIVARIANTE 1

Y por último, al final habrá pacientes que no presentan el suceso.Es intuitivo que con este tipo de datos no podemos usar los métodos estadísticos habituales para variables cuantitativas, como pueden ser el cálculo de medias y su comparación mediante la t de Student. Así en el ejemplo planteado ¿qué sentido tendría calcular el tiempo medio hasta la aparición de problemas microvasculares, cuando no todos los pacientes han sido observados durante el mismo periodo y además hay pacientes que no llegan a tenerlos? ¿Y qué hacemos con los pacientes que no se observaron hasta el final?Precisamente esas observaciones incompletas, todos los pacientes que hasta el último momento en que fueron observados (bien sea al final del estudio o antes, si se perdieron por alguna causa) y no habían desarrollado el suceso, tienen también importancia, y el tiempo durante el que fueron observados debe intervenir en el análisis, denominadas observaciones "censuradas".Si todos los pacientes estudiados experimentan el suceso durante el periodo de observación (en nuestro ejemplo todos en algún momento llegan a presentar problemas microvasculares), es fácil calcular la proporción de pacientes que transcurrido un tiempo determinado desde que comenzó su observación no han llegado a tener problemas microvasculares. Podríamos representar gráficamente la proporción de pacientes sin problemas en función del tiempo desde que entraron en el estudio.Función de Supervivencia calculada por el método de Kaplan-Meier:

Pero las cosas no son tan sencillas si no todos los pacientes presentan el suceso. Un paciente puede haber entrado a mitad del estudio, siendo observado durante 3 años, y al finalizar éste no presentar problemas microvasculares. No sabemos entonces que habría pasado con el paciente si lo siguiéramos 2 años más, hasta completar los 5 años. Ahora ya no es tan simple determinar la proporción de pacientes con problemas microvasculares a los 5 años desde la inclusión en el estudio. Por ello se utiliza el denominado método de Kaplan-Meier, que se basa en algo que es obvio: para sobrevivir un año hay que sobrevivir cada uno de los días de éste. Calculamos entonces para cada día la proporción de sucesos que se observan en ese día.Utilizando el concepto de probabilidad condicional decimos que para vivir 31 días hay que vivir 30 días y luego un día más. En estadística esto se calcula multiplicando las probabilidades. La probabilidad de vivir una semana vendrá dada por

Siendo p1 la tasa de supervivencia el primer día, p2 la del segundo, etc. La tasa de supervivencia para un día dado, por ejemplo para el séptimo, se calcula como el cociente entre el número de pacientes vivos el día 7 (o que no experimentaron el suceso) de entre los que estaban vivos el día anterior, el 6. En nuestro ejemplo donde dice número de pacientes vivos leemos número de pacientes sin problemas microvasculares.Así que la supervivencia se calculará mediante la siguiente fórmula recursiva:

Page 8: ANÁLISIS  MULTIVARIANTE 1

Para cada instante de tiempo la supervivencia se calcula como la supervivencia en el instante anterior multiplicada por la tasa de supervivencia en ese instante. En el denominador tenemos el número de pacientes r que continuaban en el estudio en el instante anterior (expuestos al riesgo) y en el numerador a ese valor se resta el número de pacientes m que presentan el suceso en ese instante.A lo largo del tiempo van saliendo del estudio los pacientes que presentan el suceso y aquellos para los que finaliza la observación por otras causas (incompletos).Los valores de la curva de supervivencia sólo hay que calcularlos para aquellos momentos en los que se produce algún suceso, ya que en el resto de casos el numerador y el denominador coinciden y por tanto el cociente vale 1 y la supervivencia es igual que en el instante anterior, no cambia.

Si hay observaciones incompletas (censuradas o pérdidas) hacen que vaya cambiando el número de pacientes expuestos al riesgo, pero si en un instante determinado sólo hay observaciones incompletas y no hay sucesos la curva de supervivencia no cambia al ser m = 0, aunque r haya cambiado, lo que se tendrá en cuenta en el siguiente instante en el que se observen sucesos ya que habrá menos pacientes expuestos.Aunque la tasa de supervivencia p calculada en nuestra muestra para cada instante individual es una estimación muy burda del valor verdadero, sin embargo el producto de muchas de esas tasas constituye una estimación bastante precisa de la curva de supervivencia.

Page 9: ANÁLISIS  MULTIVARIANTE 1

Ejemplo de curva de supervivencia

A pesar de que la información que proporciona la curva de supervivencia es mucho más fiable que las tasas individuales que se han utilizado para calcularla, se pueden producir en ésta grandes saltos o grandes zonas planas, cuyo intento de explicación puede ser complicado, sobre todo si el número de pacientes que permanecen es pequeño. Esta advertencia cobra especial importancia en las zonas de la derecha de la curva donde el efectivo de muestra puede ser muy pequeño. Seguidamente se presenta un ejemplo de una tabla con los datos numéricos de una curva de supervivencia

Tiempo Supervivencia Err.est.S. Nº Sucesos Expuestos10 0,9836 0,0163 1 6125 0,9660 0,0236 1 5629 0,9482 0,0292 1 5439 0,9299 0,0338 1 5246 0,9113 0,0379 1 5047 0,8927 0,0415 1 4950 0,8547 0,0476 2 4751 0,8167 0,0525 2 45

Page 10: ANÁLISIS  MULTIVARIANTE 1

54 0,7978 0,0546 1 4360 0,7788 0,0565 1 4263 0,7598 0,0583 1 4164 0,7408 0,0598 1 4065 0,7218 0,0612 1 3966 0,7028 0,0625 1 3868 0,6838 0,0636 1 37136 0,6637 0,0649 1 34161 0,6436 0,0659 1 33253 0,6214 0,0673 1 29280 0,5992 0,0685 1 28297 0,5770 0,0694 1 27322 0,5539 0,0704 1 25624 0,5193 0,0740 1 16730 0,4822 0,0775 1 14836 0,4420 0,0808 1 12994 0,3929 0,0854 1 91024 0,3438 0,0877 1 81350 0,2750 0,0933 1 51775 0,2750 0,0933 0 0

Page 11: ANÁLISIS  MULTIVARIANTE 1

Se trata de una curva obtenida con datos reales que presenta intervalos de tiempo largos en los que no aparece ningún suceso. Es esta una característica común a las curvas de supervivencia obtenidas a partir de muestras de pequeño tamaño (en nuestro caso comienzan el estudio 61 pacientes).

Con el fin de determinar la precisión de la estimación es posible calcular un intervalo de confianza aproximado a partir del error estándar, que se suele indicar en las salidas de ordenador. En la figura siguiente vemos representadas las bandas de confianza para el 95 % de la curva anterior

Vemos que a los 1.350 días la supervivencia cambia de 0.3438 a valer 0.275 ya que a los 1350 días quedan en el estudio (expuestos al riesgo) 5 pacientes y se observa 1 suceso por lo que el nuevo valor de supervivencia vendrá dado por

que es igual a 0.275. Sin embargo se trata de una estimación muy imprecisa ya que el límite inferior del intervalo de confianza aproximado es de 0.092.En las curvas a veces se representa también mediante un punto o una pequeña raya vertical los instantes para los que existen observaciones incompletas (censuradas).

Page 12: ANÁLISIS  MULTIVARIANTE 1

Los programas de ordenador calculan el error estándar de la supervivencia mediante el método de Greenwood, pero si sólo se dispone de la tabla de supervivencia es posible calcular el error estándar de una forma más simple. Si en un momento determinado el valor de la curva de supervivencia es S y hay N pacientes que continúan en el estudio, el error estándar de S es aproximadamente

El razonamiento para esta fórmula es muy sencillo y se basa en que para que en ese momento la supervivencia sea S y continúen N pacientes, es necesario que inicialmente hubiera al menos N/S pacientes. Si fuera exactamente así (no hay observaciones incompletas), la fórmula anterior no es más que la habitual del error estándar de una proporción, basándonos en la distribución binomial.

Comparación de curvas de supervivencia:

Para comparar dos curvas de supervivencia de forma global se suele emplear la prueba denominada log-rank.

El razonamiento empleado en esta prueba es bastante fácil de comprender. Si se está comparando dos grupos de pacientes, y por ejemplo en un momento del estudio del total de pacientes que permanecen 1/4 son del grupo A y el resto 3/4 son del grupo B, y no hubiera diferencias en cuanto a la supervivencia entre los grupos, es de esperar que del total de sucesos que ocurran en ese momento 1/4 correspondan al primer grupo y 3/4 al segundo. Aunque verdaderamente no hubiera diferencias en cuanto a la supervivencia, el número real de sucesos observados en cada momento de tiempo puede no coincidir con lo que es más probable, y así para el grupo A unas veces el número de sucesos será superior al esperado y otras será inferior, pero a la larga esas diferencias se equilibrarán, como las series de números en una ruleta.Para efectuar los cálculos se ordenan cronológicamente las observaciones de los dos grupos de forma combinada, como si de un solo grupo se tratase, al igual que se hace para el cálculo de la curva de supervivencia. Para cada instante en el que se observa algún suceso se determina el número total de pacientes que continúan en el estudio r y cuántos son del primer grupo a. Si el número de sucesos que se observan en ese instante es d, el número esperado para el primer grupo es

con el subíndice i se indica que este cálculo se repite para todos los instantes de tiempo en los que se produce algún suceso, pero no para aquellos en los que sólo hay

Page 13: ANÁLISIS  MULTIVARIANTE 1

observaciones incompletas, que sólo contribuirán a reducir el número de pacientes expuestos a considerar en el siguiente momento en el que se producen sucesos. Se calcula finalmente la suma de todos los sucesos esperados para el grupo A

Si D es el número total de sucesos observados en el estudio, considerando ambos grupos, el número de sucesos esperado para el grupo B podemos calcularlo por diferencia

Para contrastar la hipótesis nula (hipótesis de que el riesgo es el mismo en ambos grupos) se calcula

que se distribuye como una chi² con 1 grado de libertad.Este método es también válido para comparar más de dos grupos.

2. ANALISIS DISCRIMINANTES

CONCEPTO: El análisis discriminante se utiliza para seleccionar entre diferentes grupos, mediante el análisis de datos con una variable dependiente categórica y variables independientes medidas en escalas de intervalo. Trata de explicar la pertenencia de las observaciones a las diferentes categorías o grupos preestablecidos.

EJEMPLOVariable dependiente o criterio: Marca de Refresco que toman los consumidores (Fanta, coca-cola, etc.)Variables independientes o de predicción: Las valoraciones obtenidas a través de una escala Diferencial Semántico.

OBJETIVO DEL ANALISIS DISCRIMINATE

Explicar la pertenencia de individuos u objetos a grupos preestablecidos

Desarrollar las funciones discriminantes. Se trata de combinaciones lineales de las variables independientes, que discriminan mejor entre las categorías (Grupos) de la variable dependiente.

Page 14: ANÁLISIS  MULTIVARIANTE 1

Identificar diferencias significativas entre los grupos en función de las variables predictoras

Determinar las variables independientes que más contribuyen a la diferencia entre grupos.

Clasificar los casos para uno de los grupos en función de las variables predictoras.·

Evaluar la exactitud de la clasificación.

CLASIFICACION DEL ANALISIS DISCRIMINANTE

Las técnicas del Análisis Discrimínate se clasifican por el número de categorías que tiene la variable criterio

1. Análisis discriminante de dos grupos: la variable criterio tiene dos categorías(Dicotómica)

2. Análisis discriminante múltiple: la variable criterio tiene tres o más categorías

MODELO DEL ANALISIS DISCRIMINATE

El modelo estadístico en que se fundamenta el AD comprende combinaciones lineales de la siguiente estructura:

D = b0 + b1 x1 + b2 x2 + b3 x3 + …..+ bK xK

Siendo D la calificación discriminante B los coeficientes discriminantes X variables predictoras

PASOS DEL ANALISIS DISCRIMINANTE

Los pasos o fases que contiene el análisis discriminante son:

1. Formular el problema,2. Estimar los coeficientes de función discriminante,

Page 15: ANÁLISIS  MULTIVARIANTE 1

3. Determinar la significación discriminante,4. Interpretar los resultados5. Verificar la validez del análisis discriminante.

FORMULACION DEL PROBLEMA

Hemos de identificar a través de los objetivos que perseguimos la variable criterio y las variables predictoras o independientes.La variable criterio debe establecerse en categorías mutuamente excluyentes y colectivamente exhaustivas.Las variables predictivas deben escogerse en función del criterio del investigador.La muestra se divide en dos partes,Una parte de la muestra se utiliza para el cálculo de la función discriminante (Muestra de análisis) La otra parte que se suele denominar como proposición o muestra de validación y se usa para validar la función discriminante.Cuando la muestra es grande y se divide en dos partes iguales, lo que se hace es intercambiar el papel de las mitades haciéndose lo que se denomina validación cruzada doble.

ESTIMACION

La muestra de análisis la utilizamos para determinar los coeficientes de función discriminante.Método directo. Todos los indicadores se incluyen directamente. Es decir se incluyen todas las variables sin importar su poder de discriminaciónAnálisis discriminante discreto. Las variables de predicción entran de forma secuencial, en función de su capacidad para discriminar entre los grupos.El primer procedimiento es apropiado cuando, por alguna causa (modelo o experiencias) el investigador quiere que la discriminación se base en todos los indicadores.El método discreto es de utilidad cuando se quiere seleccionar un conjunto o subconjunto de indicadores para su inclusión en la función discriminante final.

DETERMINACION DEL GRADO DE SIGNIFICACION

Para probar la significación estadística se toma como hipótesis nula (H ) En la población las medias de todas las funciones discriminantes son iguales en todos los grupos.

Page 16: ANÁLISIS  MULTIVARIANTE 1

La prueba se basa en la λ de Wilks La significación se calcula con base en una transformación de ji cuadradoNormalmente se trabaja para un contraste del nivel de significación = 5%Rechazamos H cuando la significación calculada sea menor que 0

INTERPRETACION

La interpretación de los coeficientes es similar a la que se realiza en el análisis de regresión múltiple.El valor del coeficiente de un indicador concreto depende del resto de indicadores que se incluyan en la función discriminante.

Los signos de los coeficientes indican que valores de la variable dan como resultado valores de la función altos y bajos así como las correlaciones con los gruposDebido a la posible multicolinealidad en las variables predoctoras, no existe ninguna medición objetiva de la significación relativa de los indicadores en la discriminación entre los grupos.Podemos tener idea de la significación relativa al examinar los coeficientes estandarizados de la función discriminanteEn la praxis, los indicadores con coeficientes estandarizados altos contribuyen más al poder discriminante.También se analiza la significación relativa de las variables predoctoras (indicadores) analizando las correlaciones de estructura (Cargas canónicas o cargas discriminantes)Estas correlaciones simples entre el indicador y la función discriminante representan la varianza que la variable independiente comparte con la función.También podemos añadir a la interpretación de los resultados el Perfil Característico, se trata de interpretar los resultados mediante la descripción de cada grupo en términos de las medias de los grupos para las variables de predicción. Una comparación entre las medias nos ayuda a comprender sus diferencias.Para una mejor comprensión de estos conceptos reseñamos el siguiente ejemplo del autor Narres K. Malhotra.

EJEMPLO LOS VENDEDORES SATISFECHO CONSERVAN SU TRABAJO

Se utilizó el AD para determinar qué factores explicaban las diferencias entre los vendedores que permanecen en la empresa y los que la abandonaron. Las variables utilizadas pueden observarse en la tabla de resultados.

El resultado fue: La correlación canónica, un índice de discriminación R = 0,4572 esSignificativa de Wilk = 0,7909, F (26 - 173) = 1,7588 y p = 0,0180.

Por tanto el resultado indica que las variables consideradas discriminan entre los que se fueron de la empresa y los que permanecen.

Page 17: ANÁLISIS  MULTIVARIANTE 1

Resultados del análisis discriminante

VARIABLE COEFICIENTES

COEFICIENTES ESTANDARIZADO

CARGAS CANONICAS

1. Trabajo 0.0903 0.3910 54462. Promoción 0.0288 0.1515 50443. seguridad de empleos 0.1567 0.1384 49064. Relaciones con los clientes 0.0086 0.1751 48245. clasificación de la compañía 0.4059 0.3240 46516. Trabajar con otras personas 0.0018 0.0365 4518

7. desempeño general -0.0148 -0.3252 44968. Manejo del tiempo y el territorio 0.0126 0.2899 4484

9. Ventas producidas 0.0059 0.1404 438710. Habilidad para la presentación 0.0118 0.2526 4173

11. Información técnica 0.0003 0.0065 378812. Prestaciones de pago 0.0600 0.1843 378013. cuota lograda 0.0035 0.2915 357114. Gerencia 0.0014 0.0138 332615. Recopilación de información -0.0146 -0.3327 -322116. Familia -0.0684 -0.3408 290917. Gerente de ventas -0.0121 -0.1102 267118. Compañero de trabajo 0.0225 0.0893 -260219. Cliente -0.0625 -0.2797 218020. Familia 0.0473 0.1970 211921. empleo 0.1378 0.5312 -102922. Cliente 0.0060 -0.0255 1004

Page 18: ANÁLISIS  MULTIVARIANTE 1

23. Gerente de ventas -0.0365 -0.2406 -049924. gerente de ventas -0.0606 -0.3333 046725. Clientes -0.0338 -0.1488 0192

Nota: El orden de clasificación de la significancia se en la magnitud de las cargas canónicas: a Satisfacción b Desempeño c Ambigüedad d Conflicto

VALIDACION

Si recordamos los datos se dividían aleatoriamente en dos submuestras. Una la denominamos muestra de análisis y la utilizamos para estimar la función discriminante y la segunda que llamamos muestra de validación se utiliza para desarrollar la matriz de clasificación.

Los valores relativos discriminantes que se calculan a través de la muestra de análisis, se multiplican por los valores de las variables de predicción con el objetivo de obtener las correspondientes calificaciones discriminantes (D) de la muestra de validación. De aquí se obtiene la razón de aciertos, que es, el porcentaje de casos que se clasifican correctamente por medio del Análisis Discriminante.Es de utilidad el comparar el porcentaje de los casos que se clasificaron de forma correcta con el AD con el porcentaje que obtendríamos por la probabilidad.Cuando las dos submuestras tienen el mismo tamaño el porcentaje de clasificación por probabilidad es 0,5, en general cuando los grupos tienen el mismo tamaño el porcentaje de clasificación por probabilidad es1 dividido por el número de grupos.Algunos autores citan que: La exactitud alcanzada por el AD debe ser por lo menos un25% mayor que la alcanzada por la probabilidad.Los paquetes estadísticos utilizados habitualmente estiman una matriz de clasificación con base en la muestra de análisis. Dando significación a la variación probable de esos datos.

Page 19: ANÁLISIS  MULTIVARIANTE 1

COMENTARIOS

Podemos definir las técnicas multivariantes como, un conjunto de métodos estadísticos que permiten el análisis de forma simultánea de más de dos variables observadas en distintos y variados tipos de investigación.

Además gracias a las distintas aplicaciones del Análisis Multivariante podemos analizar las relaciones entre un número razonablemente amplio de variables (medidas), tomadas sobre cada elemento de análisis, en una o más muestras simultáneamente., comparar resultados, tomar decisiones, etc.

La razón del análisis estadístico multivariado radica en un mejor entendimiento del fenómeno objeto de estudio obteniendo información que los métodos estadísticos univariantes y bivariantes son incapaces de conseguir.

Page 20: ANÁLISIS  MULTIVARIANTE 1

BIBLIOGRAFÍA

http://bibing.us.es/proyectos/abreproy/11162/fichero/ Proyecto+Manuel+Sosa%252FCap%EDtulo+7.pdf

http://ciberconta.unizar.es/leccion/anamul/100.HTM http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/AMult/

tema1am.pdf http://www.seh-lelha.org/superviv1.htm http://books.google.cl/books?id=vq_FAbd88N4C&pg=RA1-

PA444&dq=analisis+de+supervivencia&hl=es&ei=SBgFTp3dC8rd0QGZsuzODQ&sa=X&oi=book_result&ct=result&resnum=2&ved=0CDMQ6AEwAQ#v=onepage&q&f=false

http://books.google.cl/books? id=IoMan8LibZgC&pg=PA257&dq=analisis+de+supervivencia&hl=es&ei=jCQFTrrZBoKq0AH57rCmAg&sa=X&oi=book_result&ct=book-thumbnail&resnum=5&ved=0CEIQ6wEwBA#v=onepage&q&f=false

http://books.google.cl/books?id=g- IT184TSS4C&printsec=frontcover&dq=analisis+MULTIVARIADO&hl=es&ei=LCUFTvqpNOnn0QGIhsn0Cg&sa=X&oi=book_result&ct=result&resnum=2&ved=0CDAQ6AEwAQ#v=onepage&q&f=false

Page 21: ANÁLISIS  MULTIVARIANTE 1