8
STATGRAPHICS – Rev. 9/14/2006 © 2006 por StatPoint, Inc. Correlaciones Canónicas - 1 Correlaciones Canónicas Resumen El procedimiento Correlaciones Canónicas esta diseñado para ayudar a identificar asociaciones entre dos conjuntos de variables. Esto lo hace encontrando combinaciones lineales de las variables en los dos conjuntos que exhiban correlaciones fuertes. El par de combinaciones lineales con la correlación más fuerte forman el primer conjunto de variables canónicas. El segundo conjunto de variables canónicas es el par de combinaciones lineales que muestran la siguiente correlación más fuerte entre todas las combinaciones que no están correlacionadas con el primer conjunto. Frecuentemente, un número pequeño de pares puede ser usado para cuantificar la relación que existe entre los dos conjuntos. Ejemplo StatFolio: canonical.sgp Datos del Ejemplo: El archivo 93cars.sf6 contiene información acerca de 26 variables para n = 93 marcas y modelos de automóviles, tomadas de Lock (1993). La siguiente tabla muestra una lista parcial de los datos de este archivo: Make (Marca) Model (Modelo) Mid Price (Precio) MPG City (MPG en Ciudad) Engine Size (Tamaño del Motor) Horsepower (Caballos de fuerza) Length (Longitud) Acura Integra 15.9 25 1.8 140 177 Acura Legend 33.9 18 3.2 200 195 Audi 90 29.1 20 2.8 172 180 Audi 100 37.7 19 2.8 172 193 BMW 535i 30 22 3.5 208 186 Buick Century 15.7 22 2.2 110 189 Buick LeSabre 20.8 19 3.8 170 200 Buick Roadmaster 23.7 16 5.7 180 216 Buick Riviera 26.3 19 3.8 170 198 Cadillac DeVille 34.7 16 4.9 200 206 Cadillac Seville 40.1 16 4.6 295 204 Chevrolet Cavalier 13.4 25 2.2 110 182 Las variables serán divididas en dos conjuntos. El primer conjunto de p = 7 variables que caracterizan las características físicas de los vehículos: Engine Size Horsepower Length Wheelbase Width Rear seat Weight El segundo conjunto de q = 4 variables que caracterizan el precio y el funcionamiento de los automóviles:

Correlaciones-Canonicas

Embed Size (px)

DESCRIPTION

correlacion canonica

Citation preview

STATGRAPHICS Rev. 9/14/2006 2006 por StatPoint, Inc.Correlaciones Cannicas - 1 Correlaciones Cannicas ResumenEl procedimiento Correlaciones Cannicas esta diseado para ayudar a identificar asociaciones entredosconjuntosdevariables.Estolohaceencontrandocombinacioneslinealesdelas variablesenlosdosconjuntosqueexhibancorrelacionesfuertes.Elpardecombinaciones linealesconlacorrelacinmsfuerteformanelprimerconjuntodevariablescannicas.El segundo conjunto de variables cannicas es el par de combinaciones lineales que muestran la siguiente correlacin ms fuerte entre todas las combinaciones que no estn correlacionadas con elprimerconjunto.Frecuentemente,unnmeropequeodeparespuedeserusadopara cuantificar la relacin que existe entre los dos conjuntos. Ejemplo StatFolio: canonical.sgp Datos del Ejemplo: El archivo 93cars.sf6 contiene informacin acerca de 26 variables para n =93 marcas y modelos de automviles, tomadas de Lock (1993). La siguiente tabla muestra una lista parcial de los datos de este archivo: Make (Marca) Model (Modelo) Mid Price (Precio)MPG City (MPG en Ciudad) Engine Size (Tamao del Motor)Horsepower (Caballos de fuerza) Length (Longitud) AcuraIntegra15.9251.8140177 AcuraLegend33.9183.2200195 Audi9029.1202.8172180 Audi10037.7192.8172193 BMW535i30223.5208186 BuickCentury15.7222.2110189 BuickLeSabre20.8193.8170200 BuickRoadmaster23.7165.7180216 BuickRiviera26.3193.8170198 CadillacDeVille34.7164.9200206 CadillacSeville40.1164.6295204 ChevroletCavalier13.4252.2110182 Lasvariablesserndivididasendosconjuntos.Elprimerconjuntodep=7variablesque caracterizan las caractersticas fsicas de los vehculos: Engine Size Horsepower Length Wheelbase Width Rear seat Weight El segundo conjunto deq=4 variables que caracterizanel precio y el funcionamiento de los automviles: STATGRAPHICS Rev. 9/14/2006 2006 por StatPoint, Inc.Correlaciones Cannicas - 2 Mid Price 1 / MPG Highway 1 / MPG City U Turn Space Note que las millas observadas por galn han sido reexpresadas como galones por milla, de aqu que las 4 variables se espera que se incrementen con el tamao del automvil. Un grfico de matriz de las 11 variables muestra correlaciones positivas consistentes entre todas las variables: EngineSizeHorsepowerLengthWheelbaseWidthRear seatWeightMidPrice1/MPG City1/MPG HighwayU TurnSpace STATGRAPHICS Rev. 9/14/2006 2006 por StatPoint, Inc.Correlaciones Cannicas - 3 Entrada de Datos La caja de dialogo de entrada requiere los nombres de las columnas que contiene los datos en los dos conjuntos Primer Conjunto de Variables: Los nombres de lasp variables en el conjunto mas grande. SegundoConjuntodeVariables:Losnombresdelasqvariablesenelconjuntoms pequeo. Etiquetas de Puntos: Etiquetas opcionales para cada observacin. Seleccin: Seleccin de un subconjunto de los datos. Note que los conjuntos deben ser seleccionados tal que p q. STATGRAPHICS Rev. 9/14/2006 2006 por StatPoint, Inc.Correlaciones Cannicas - 4 Modelo Estadstico El objetivo de la correlacin cannica es construir combinaciones lineales de las variables en los dosconjuntostalquetenganlascorrelacionesmsgrandes.Elprimerconjuntodevariables cannicas toma la forma p pX a X a X a U1 2 12 1 11 1...+ + + = (1) q qY b Y b Y b V1 2 12 1 11 1...+ + + = (2) dondeXyYrepresentanlosvaloresestandarizadosdelasvariablesenelprimerysegundo conjunto respectivamente. La correlacin entre el primer conjunto de combinaciones lineales es llamada la primera correlacin cannica y ser denotada por. *1 Adicionalesq1variablescannicaspuedenserconstruidasdemanerasimilar.Lasq correlaciones cannicas son encontradas determinando los eigenvalores de 2 / 111 21122 122 / 111 (3) donde las s representan las matrices de correlacin entre variables en cada conjunto y entre conjuntos. Los coeficientes de las variables cannicas pueden ser derivados de los eigenvectores. STATGRAPHICS Rev. 9/14/2006 2006 por StatPoint, Inc.Correlaciones Cannicas - 5 Resumen del Anlisis La tabla del Resumen del Anlisis es mostrada enseguida: Correlaciones Cannicas Variables en el conjunto 1: Engine Size (liters) Horsepower (maximum) Length (inches) Wheelbase (inches) Width (inches) Rear seat (inches) Weight (pounds) Variables en el conjunto 2: Mid Price (average of min and max prices in $1,000) 1/MPG Highway 1/MPG City U Turn Space (feet) Nmero de casos completos: 91 Correlacions Cannicas CorrelacinLambda de NmeroEigenvalorCannicaWilksChi-CuadradaG.L.Valor-P 10.8952750.946190.0275328301.76280.0000 20.4958190.7041440.262906112.22180.0000 30.4628850.6803560.52145354.6955100.0000 40.02916080.1707650.9708392.4859340.6472 Coeficientes de Variables Cannicas del Primer Conjunto Engine Size0.2617260.698443-0.07370522.04984 Horsepower0.1274660.4043091.23884-0.784463 Length0.02417771.062910.279635-0.0542533 Wheelbase0.04117460.3448530.710682-1.45037 Width-0.06769570.292913-1.51189-1.08908 Rear seat0.00425793-0.0929359-0.0789944-0.261572 Weight0.657779-2.42508-0.4707771.19131 Coeficientes de Variables Cannicas del Segundo ConjuntoMid Price0.2566180.154631.21063-0.401701 1/MPG Highway-0.0971257-2.205470.175652-1.51504 1/MPG City0.6520621.42486-0.7963652.80861 U Turn Space0.322190.454982-0.340661-1.33714 Desplegada en la parte superior de la tabla estn: Variables de Datos: Los nombres de las p+q columnas de entrada. Numerodecasoscompletos:Elnumerodecasosnparaloscualesningunadelas observaciones esta perdida. La seccin de la salida etiquetada con Correlaciones Cannicastabula: Numero: El ndice de la correlacin cannica j. Eigenvalor: Los eigenvalores de. 2 / 111 21122 122 / 111 STATGRAPHICS Rev. 9/14/2006 2006 por StatPoint, Inc.Correlaciones Cannicas - 6 )Correlacin Cannica: Las correlaciones cannicas . *j Lambda de Wilk: Un estadstico calculado de las correlaciones cannicas de acuerdo a (= = qj ii j2*1 (4) Chi-Cuadrada:Unapruebaestadsticausadaparaprobarlahiptesisdequetodaslas correlaciones cannicas de j y mas grandes son igual a 0. es calculada de ( )jq p n + + = ln 12112(5) G.L.: Los grados de libertad (p-j+1)(q-j+1) asociados con el estadstico Chi-cuadrada. P-Valor:UnP-ValordeunacolaparaelestadsticoChi-cuadradaobservada.P-valores pequeos(menosde0.05siseoperaenunnivelde95%deconfianza)correspondena correlaciones cannicas que son significativamente diferentes de cero. Lasultimasdostablasmuestranloscoeficientesaybenlaconstruccindelasvariables cannicas U y V. Enelejemplo,lasprimeras3correlacionescannicassonestadsticamentesignificantes.La primeracorrelacin,conunamagnitudde0.94,esparticularmentefuerte.Lascorrelaciones cannicas asociadas son U1 =0.262 Engine Size +0.127 Horsepower +0.024 Length +0.041 Wheelbase- 0.068 Width +0.004 Rear Seat +0.658 Weight V1 =0.257 Mid Price 0.097 * GPM Highway +0.652 GPM City +0.322 U Turn Space donde las variables de entiende que han sido estandarizadas sustrayendo su media y dividiendo entre la desviacin estndar. Esto parece ser primariamente una relacin entre pesos de vehculos ygalonespormilla(GPM)usadosencuidad,conalgunascontribucionesdeltamaodela maquina, precio, y espacio requerido para hacer una vuelta U. Lasegundacorrelacincannicaestanbienfuerte0.70.LavariablecannicaparaXesun contraste de Engine Size, Horsepower y Length contra el Weight del vehiculo. Este contraste es correlacionado con algn parecido a la diferencia entre millas por galn observadas en la ciudad versus carretera. La tercera correlacin cannica es igual a 0.68. La variable cannica para X es un contraste de HorsepoweryWheelbasecontraelWidthdelvehiculo.Estoescorrelacionadoconalgn parecido a un contraste de Price del vehiculo versus GPM ciudad y U Turn Space. STATGRAPHICS Rev. 9/14/2006 2006 por StatPoint, Inc.Correlaciones Cannicas - 7 Tabla de Datos El panel de la Tabla de Datos despliega los valores de las variables cannicas para cada una den observaciones. Una porcin de la tabla es mostrada enseguida: Tabla de Variables CannicasConjunto-VariableConjunto-VariableConjunto-VariableConjunto-Variable FilaEtiqueta1-12-11-22-2 1Integra-0.633815-0.689720.252376-0.191381 2Legend0.898170.8297150.341564-0.320696 3900.4798340.246904-1.41249-0.794373 41000.5093270.659087-0.251631-0.2627 5535i1.067150.245875-0.7238740.732446 6Century-0.3905420.07561470.6257431.1806 7 El orden de las columnas es U1, V1, U2, V2, , Uq, Vq. Grfico de Variables CannicasEl Grfico de Variables Cannicas despliega n valores de un conjunto seleccionado de variables cannicas Grfica de Variables Cannicas #1-2.2 -1.2 -0.2 0.8 1.8 2.8Conjunto 1-2.3-1.3-0.30.71.72.7Conjunto 2 U es graficado en el eje horizontal, mientras que V es graficado en el eje vertical. Note las muy fuertes correlaciones para las primeras variables cannicas. Opciones del Panel STATGRAPHICS Rev. 9/14/2006 2006 por StatPoint, Inc.Correlaciones Cannicas - 8 Numero de Variable: Especifica 1 para graficar el primer conjunto de variables cannicas, 2 para graficar el segundo conjunto, hasta q para el ultimo conjunto. Una variacin interesante de este grafico es en la cual las variables cannicas son codificadas de acuerdo a otra columna, tal como el tipo de vehiculo: Grfico de CVARB_1 vs CVARA_1-2.2 -1.2 -0.2 0.8 1.8 2.8CVARA_1-2.3-1.3-0.30.71.72.7CVARB_1TypeCompactLargeMidsizeSmallSportyVan Para producir la grafica anterior: 1.PresionarelbotnGuardarResultadosyguardarlasVariablesCannicasennuevas columnas de hoja de datos. 2.Seleccione el procedimiento Grafico X-Yde la parte superior del men e introduzca las primeras variables cannicas para cada conjunto. 3.Seleccione Opciones del Anlisis y especifique Tipo en le campo Cdigos de Puntos. Note el agrupamiento de automviles por tipo Guardar Resultados Los siguientes resultados pueden ser guardados en una hoja de datos: 1.CoeficientesPrimerConjunto q columnas que contienen los p coeficientes a de las variables cannicas correspondientes a X. 2.Coeficientes Segundo Conjunto q columnas que contienen los q coeficientes b de las variables cannicas correspondientes a Y. 3.VariablesCannicas-PrimerConjunto q columnas que contienen los valores de las variables cannicas U correspondientes a cada una de n observaciones en X. 4.Variables Cannicas Segundo Conjunto q columnas que contienen los valores de las variables cannicas U correspondientes a cada una de las n observaciones en Y.