9
UNIVERSIDAD NACIONAL DE INGENIERIA ESCUELA PROFESIONAL DE INGENIERÍA ESTADÍSTICA - FIECS Prof. Lic. Nel Quezada Lucio Problema 2 Los datos representan una muestra de 41 ciudades del Perú en las que se midieron diferentes variables relacionadas con la contaminación atmosférica. SO2 Temperatura Empresas Población Viento Precipitación Días Iquitos 10,00 70,30 213,00 582,00 6,00 7,05 36,00 Sicuani 13,00 61,00 91,00 132,00 8,20 48,52 100,00 Huánuco 12,00 56,70 453,00 716,00 8,70 20,66 67,00 Trujillo 17,00 51,90 454,00 515,00 9,00 12,95 86,00 Chiclayo 56,00 49,10 412,00 158,00 9,00 43,37 127,00 Paita 36,00 54,00 80,00 80,00 9,00 40,25 114,00 Pucallpa 29,00 57,30 434,00 757,00 9,30 38,89 111,00 Cusco 14,00 68,40 136,00 529,00 8,80 54,47 116,00 Huancayo 10,00 75,50 207,00 335,00 9,00 59,80 128,00 Chimbote 24,00 61,50 368,00 497,00 9,10 48,34 115,00 Lima 110,00 50,60 3344,00 3369,00 10,40 34,44 122,00 Tacna 28,00 52,30 361,00 746,00 9,70 38,74 121,00 Sullana 17,00 49,00 104,00 201,00 11,20 30,85 103,00 Juliaca 8,00 56,60 125,00 277,00 12,70 30,58 82,00 Ica 30,00 55,60 291,00 593,00 8,30 43,11 123,00 Cajamarca 9,00 68,30 204,00 361,00 8,40 56,77 113,00 Chincha 47,00 55,00 625,00 905,00 9,60 41,31 111,00 Arequipa 35,00 49,90 1064,00 1513,00 10,10 30,96 129,00 Tumbes 29,00 43,50 699,00 744,00 10,60 25,94 137,00 Ayacucho 14,00 54,50 381,00 507,00 10,00 37,00 99,00 Puno 56,00 55,90 775,00 622,00 9,50 35,89 105,00 Tarapoto 14,00 51,50 181,00 347,00 10,90 30,18 98,00 Huaraz 11,00 56,80 46,00 244,00 8,90 7,77 58,00 Talara 46,00 47,60 44,00 116,00 8,80 33,36 135,00 Huaral 11,00 47,10 391,00 463,00 12,40 36,11 166,00 Jaén 23,00 54,00 462,00 453,00 7,10 39,04 132,00 Pasco 65,00 49,70 1007,00 751,00 10,90 34,99 155,00 Chulucanas 26,00 51,50 266,00 540,00 8,60 37,01 134,00 Piura 69,00 54,60 1692,00 1950,00 9,60 39,93 115,00 Catacaos 61,00 50,40 347,00 520,00 9,40 36,22 147,00 Moyobamba 94,00 50,00 343,00 179,00 10,60 42,75 125,00 Lambayeque 10,00 61,60 337,00 624,00 9,20 49,10 105,00 Yurimaguas 18,00 59,40 275,00 448,00 7,90 46,00 119,00 Barranca 9,00 66,20 641,00 844,00 10,90 35,94 78,00 Callao 10,00 68,90 721,00 1233,00 10,80 48,19 103,00 Tarma 28,00 51,00 137,00 176,00 8,70 15,17 89,00 Ilo 31,00 59,30 96,00 308,00 10,60 44,68 116,00 Huacho 26,00 57,80 197,00 299,00 7,60 42,59 115,00 Abancay 29,00 51,10 379,00 531,00 9,40 38,79 164,00

Problema 2

Embed Size (px)

DESCRIPTION

asda

Citation preview

  • UNIVERSIDAD NACIONAL DE INGENIERIA

    ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio

    Problema 2 Los datos representan una muestra de 41 ciudades del Per en las que se midieron diferentes variables relacionadas con la contaminacin atmosfrica.

    SO2 Temperatura Empresas Poblacin Viento Precipitacin Das

    Iquitos 10,00 70,30 213,00 582,00 6,00 7,05 36,00

    Sicuani 13,00 61,00 91,00 132,00 8,20 48,52 100,00

    Hunuco 12,00 56,70 453,00 716,00 8,70 20,66 67,00

    Trujillo 17,00 51,90 454,00 515,00 9,00 12,95 86,00

    Chiclayo 56,00 49,10 412,00 158,00 9,00 43,37 127,00

    Paita 36,00 54,00 80,00 80,00 9,00 40,25 114,00

    Pucallpa 29,00 57,30 434,00 757,00 9,30 38,89 111,00

    Cusco 14,00 68,40 136,00 529,00 8,80 54,47 116,00

    Huancayo 10,00 75,50 207,00 335,00 9,00 59,80 128,00

    Chimbote 24,00 61,50 368,00 497,00 9,10 48,34 115,00

    Lima 110,00 50,60 3344,00 3369,00 10,40 34,44 122,00

    Tacna 28,00 52,30 361,00 746,00 9,70 38,74 121,00

    Sullana 17,00 49,00 104,00 201,00 11,20 30,85 103,00

    Juliaca 8,00 56,60 125,00 277,00 12,70 30,58 82,00

    Ica 30,00 55,60 291,00 593,00 8,30 43,11 123,00

    Cajamarca 9,00 68,30 204,00 361,00 8,40 56,77 113,00

    Chincha 47,00 55,00 625,00 905,00 9,60 41,31 111,00

    Arequipa 35,00 49,90 1064,00 1513,00 10,10 30,96 129,00

    Tumbes 29,00 43,50 699,00 744,00 10,60 25,94 137,00

    Ayacucho 14,00 54,50 381,00 507,00 10,00 37,00 99,00

    Puno 56,00 55,90 775,00 622,00 9,50 35,89 105,00

    Tarapoto 14,00 51,50 181,00 347,00 10,90 30,18 98,00

    Huaraz 11,00 56,80 46,00 244,00 8,90 7,77 58,00

    Talara 46,00 47,60 44,00 116,00 8,80 33,36 135,00

    Huaral 11,00 47,10 391,00 463,00 12,40 36,11 166,00

    Jan 23,00 54,00 462,00 453,00 7,10 39,04 132,00

    Pasco 65,00 49,70 1007,00 751,00 10,90 34,99 155,00

    Chulucanas 26,00 51,50 266,00 540,00 8,60 37,01 134,00

    Piura 69,00 54,60 1692,00 1950,00 9,60 39,93 115,00

    Catacaos 61,00 50,40 347,00 520,00 9,40 36,22 147,00

    Moyobamba 94,00 50,00 343,00 179,00 10,60 42,75 125,00

    Lambayeque 10,00 61,60 337,00 624,00 9,20 49,10 105,00

    Yurimaguas 18,00 59,40 275,00 448,00 7,90 46,00 119,00

    Barranca 9,00 66,20 641,00 844,00 10,90 35,94 78,00

    Callao 10,00 68,90 721,00 1233,00 10,80 48,19 103,00

    Tarma 28,00 51,00 137,00 176,00 8,70 15,17 89,00

    Ilo 31,00 59,30 96,00 308,00 10,60 44,68 116,00

    Huacho 26,00 57,80 197,00 299,00 7,60 42,59 115,00

    Abancay 29,00 51,10 379,00 531,00 9,40 38,79 164,00

  • UNIVERSIDAD NACIONAL DE INGENIERIA

    ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio

    Sihuas 31,00 55,20 35,00 71,00 6,50 40,75 148,00

    Tingo Mara 16,00 45,70 569,00 717,00 11,80 29,07 123,00

    Las variables son:

    Contenido en SO2 (xido de azufre, llamado dixido de azufre) Temperatura anual en grados F. Nmero de empresas mayores de 20 trabajadores. Poblacin (en miles de habitantes). Velocidad media del viento. Precipitacin anual media. Das lluviosos al ao. Interesa investigar la relacin entre la concentracin en SO2 y el resto de variables, (para

    eliminar relaciones entre las variables se emplea un anlisis de componentes principales). a.- Realizar anlisis de componente principales sobre todas las variables salvo SO2. b.- Realizar grficas descriptivas exploratorias. Y observar los datos anmalos (outliers). c.- Realizar la prueba de esfericidad de Barlett.

    d.- Realizar grficos de componentes. Solucin:

    Se realiza un anlisis de componentes principales sobre todas las variables salvo SO2.

    Anlisis de Componentes Principales (con SPSS)

    El objetivo del Anlisis de Componentes Principales es identificar a partir de un conjunto de p variables, otro conjunto de k (k Reduccin de Datos (Data Reduction) -> Factor

  • UNIVERSIDAD NACIONAL DE INGENIERIA

    ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio

    Aparece el cuadro de dialog siguiente: Al cuadro de variables se pasan las seis variables de las que

    se est interesado investigar la relacin entre la concentracin en SO2.

    A continuacin se ingresa a descriptivos y se marca las siguientes estadsticas.

  • UNIVERSIDAD NACIONAL DE INGENIERIA

    ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio

    Luego clic en Extraccin:

    Finalmente:

  • UNIVERSIDAD NACIONAL DE INGENIERIA

    ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio

    Obtenindose los siguientes resultados:

    1.- La tabla representa las medias y desviaciones estndar de cada variable:

    2.- Se calcula la matriz de correlaciones con la significacin de cada componente. Se obtienen los

    componentes principales a partir de la matriz de correlaciones para emplear las mismas escalas en todas las variables.

    Estadsticos descriptivos

    55,763 7,2277 41

    463,10 563,474 41

    608,61 579,113 41

    9,44 1,429 41

    36,7690 11,77155 41

    113,90 26,506 41

    Neg.Temp

    Empresas

    Poblacin

    Viento

    Precip

    Das

    Media

    Desv iacin

    tpica N del anlisis

  • UNIVERSIDAD NACIONAL DE INGENIERIA

    ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio

    Para que se pueda realizar el Anlisis de Componentes Principales, es necesario que las variables presenten factores comunes. Es decir, que estn muy correlacionadas entre s. Los coeficientes de la matriz de correlaciones deben ser grandes en valor absoluto.

    3.- Test de esfericidad de Barlett: Para comprobar que las correlaciones entre las variables son distintas de cero de modo significativo, se comprueba si el determinante de la matriz es distinto de uno, es decir, si la matriz de correlaciones es distinta de la matriz identidad. Si las variables estn correlacionadas hay muchos valores altos en valor absoluto fuera de la diagonal principal de la matriz de correlaciones, adems, el determinante es menor que 1 (el

    mximo valor del determinante es 1 si las variables estn incorrelacionadas). El test de Barlett realiza el contraste: H0: |R| = 1 H1: |R| 1

    El determinante de la matriz da una idea de la correlacin generalizada entre todas las variables. Se basa el test en la distribucin chi-cuadrado donde valores altos llevan a rechazar H0, as, la prueba de esfericidad de Bartlett contrasta si la matriz de correlaciones es una matriz identidad, que indicara que el modelo factorial es inadecuado. Por otro lado, la medida de la adecuacin muestral de Kaiser-Meyer-Olkin contrasta si las correlaciones parciales entre las variables son pequeas:

    Matriz de correlacionesa

    1,000 -,190 -,063 -,350 ,386 -,430

    -,190 1,000 ,955 ,238 -,032 ,132

    -,063 ,955 1,000 ,213 -,026 ,042

    -,350 ,238 ,213 1,000 -,013 ,164

    ,386 -,032 -,026 -,013 1,000 ,496

    -,430 ,132 ,042 ,164 ,496 1,000

    ,117 ,349 ,012 ,006 ,002

    ,117 ,000 ,067 ,420 ,206

    ,349 ,000 ,091 ,436 ,397

    ,012 ,067 ,091 ,468 ,153

    ,006 ,420 ,436 ,468 ,000

    ,002 ,206 ,397 ,153 ,000

    Neg.Temp

    Empresas

    Poblacin

    Viento

    Precip

    Das

    Neg.Temp

    Empresas

    Poblacin

    Viento

    Precip

    Das

    Correlacin

    Sig. (Unilateral)

    Neg.Temp Empresas Poblacin Viento Precip Das

    Determinante = ,014a.

  • UNIVERSIDAD NACIONAL DE INGENIERIA

    ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio

    4.- La comunalidad asociada a la variable j-sima es la proporcin de variabilidad de dicha variable

    explicada por los k factores considerados. Equivale a la suma de la fila j-sima de la matriz factorial. Sera igual a 0 si los factores comunes no explicaran nada la variabilidad de una variable, y sera igual a 1 si quedase totalmente explicada.

    5.- Varianza Total Explicada. Se utiliza para determinar cuntos factores deben retenerse. Los primeros tres componentes tienen todos varianzas (autovalores) mayores que 1 y entre los tres

    recogen el 84.846% de la varianza de las variables originales.

    KMO y prueba de Bartlett

    ,365

    159,231

    15

    ,000

    Medida de adecuacin muestral de

    Kaiser-Meyer-Olkin.

    Chi-cuadrado

    aproximado

    gl

    Sig.

    Prueba de esf ericidad

    de Bartlet t

    Comunalidades

    1,000 ,892

    1,000 ,968

    1,000 ,979

    1,000 ,424

    1,000 ,941

    1,000 ,888

    Neg.Temp

    Empresas

    Poblacin

    Viento

    Precip

    Das

    Inicial Extraccin

    Mtodo de extraccin: Anlisis de Componentes principales.

    Varianza total explicada

    2,196 36,603 36,603 2,196 36,603 36,603

    1,500 24,999 61,602 1,500 24,999 61,602

    1,395 23,244 84,846 1,395 23,244 84,846

    ,760 12,670 97,516

    ,115 1,910 99,426

    ,034 ,574 100,000

    Componente

    1

    2

    3

    4

    5

    6

    Total

    % de la

    varianza % acumulado Total

    % de la

    varianza % acumulado

    Autov alores iniciales

    Sumas de las saturaciones al cuadrado

    de la extraccin

    Mtodo de extraccin: Anlisis de Componentes principales.

  • UNIVERSIDAD NACIONAL DE INGENIERIA

    ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio

    Grfico de la varianza asociada a cada factor. Se utiliza para determinar cuntos factores deben retenerse. Tpicamente el grfico muestra la clara ruptura entre la pronunciada pendiente de los factores ms importantes y el descenso gradual de los restantes (los sedimentos). Otra opcin es usar el criterio de Kaiser: consiste en conservar aquellos factores cuyo autovalor asociado sea mayor que 1.

    6.- Matriz de Componentes El primer componente se le podra etiquetar como calidad de vida con valores negativos altos en empresas y poblacin indicando un entorno relativamente pobre. El segundo componente se puede etiquetar como tiempo hmedo, y tiene pesos altos en las variables precipitaciones y das. El tercer componente se podra etiquetar como tipo de clima y est relacionado con la temperatura y la

    cantidad de lluvia. Aunque no se encontrasen etiquetas claras para los componentes, siempre es interesante calcular componentes principales para descubrir si los datos se encuentran en una dimensin menor; de hecho, los tres primeros componentes producen un mapa de los datos donde las distancias entre los puntos es bastante semejante a la observada en los mismos respecto a las variables originales.

    1,00 2,00 3,00 4,00 5,00 6,00

    Nmero de componentes

    0,00

    0,50

    1,00

    1,50

    2,00

    Au

    tova

    lore

    s

    Grfico de sedimentacin

  • UNIVERSIDAD NACIONAL DE INGENIERIA

    ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio

    7.- Matriz de correlaciones estimada a partir de la solucin factorial. Tambin se muestran las correlaciones residuales (la diferencia entre la correlacin observada y la reproducida). Correlaciones reproducidas

    Neg. Temp

    Empresas Poblacin Viento Precio Das

    Correlacin reproducida

    Neg.Temp ,892(b) -,155 -,048 -,560 ,383 -,395

    Empresas -,155 ,968(b) ,965 ,329 -,020 ,106

    Poblacin -,048 ,965 ,979(b) ,260 -,013 ,020

    Viento -,560 ,329 ,260 ,424(b) -,119 ,362

    Precip ,383 -,020 -,013 -,119 ,941(b) ,574

    Das -,395 ,106 ,020 ,362 ,574 ,888(b)

    Residual(a) Neg.Temp -,035 -,015 ,210 ,003 -,035

    Empresas -,035 -,010 -,091 -,013 ,026

    Poblacin -,015 -,010 -,047 -,013 ,022

    Viento ,210 -,091 -,047 ,106 -,198

    Precip ,003 -,013 -,013 ,106 -,078

    Das -,035 ,026 ,022 -,198 -,078

    Mtodo de extraccin: Anlisis de Componentes principales. a Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 5 (33,0%) residuales no redundantes con valores absolutos mayores que 0,05. b Comunalidades reproducidas

    Matriz de componentesa

    -,489 -,156 ,793

    ,906 -,206 ,322

    ,856 -,272 ,414

    ,524 ,160 -,351

    -,060 ,763 ,596

    ,353 ,867 -,110

    Neg.Temp

    Empresas

    Poblacin

    Viento

    Precip

    Das

    1 2 3

    Componente

    Mtodo de extraccin: Anlisis de componentes principales.

    3 componentes extradosa.