46
CURSO DE CAPACITACIÓN: ANÁLISIS ESTADÍSTICO CON SPSS PARA WINDOWS (PAQUETE ESTADÍSTICO PARA LAS CIENCIAS SOCIALES) SPSS PARA WINDOWS (VERSIÓN 13.0) TOMO II: Análisis Estadístico Lic. Andrea Blazsek Ing. Augusto Norte MENDOZA, NOVIEMBRE DE 2006

Manual SPSS 13.0 Tomo_2

Embed Size (px)

Citation preview

Page 1: Manual SPSS 13.0 Tomo_2

CURSO DE CAPACITACIÓN:

ANÁLISIS ESTADÍSTICO CON SPSS PARA WINDOWS (PAQUETE ESTADÍSTICO PARA LAS CIENCIAS

SOCIALES)

SPSS PARA WINDOWS(VERSIÓN 13.0)

TOMO II: Análisis Estadístico

Lic. Andrea BlazsekIng. Augusto Norte

MENDOZA, NOVIEMBRE DE 2006

Page 2: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

3

INDICE

INDICE.................................................................................................................................... 3

INTRODUCCIÓN.................................................................................................................... 4

1. ESTADÍSTICA DESCRIPTIVA........................................................................................ 5

1.1. ANÁLISIS UNIVARIADO.................................................................................................. 51.1.1. Distribución de frecuencias ................................................................................... 51.1.2. Medidas de tendencia central: media, moda, mediana. ........................................ 91.1.3. Medidas de dispersión ........................................................................................ 11

ANÁLISIS BIVARIADO............................................................................................................. 121.1.4. Asociación entre dos variables ........................................................................... 121.1.5. Coeficientes de asociación ................................................................................. 16

2. ESTADÍSTICA INFERENCIAL...................................................................................... 18

2.1. PRUEBAS NO PARAMÉTRICAS .................................................................................... 182.1.1. Chi cuadrado de Pearson ................................................................................... 18

2.2. PRUEBAS PARAMÉTRICAS.......................................................................................... 262.2.1. Medias ................................................................................................................ 262.2.2. Contraste sobre una media................................................................................. 302.2.3. Contraste sobre dos medias independientes ...................................................... 322.2.4. Análisis de varianza de un factor ........................................................................ 372.2.5. Correlaciones Bivariadas .................................................................................... 41

BIBLIOGRAFÍA.................................................................................................................... 47

Page 3: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

4

Introducción

El presente manual ilustra los procedimientos para análisis de datos más utilizados en ciencias sociales que ofrece el paquete estadístico SPSS. El mismo no pretende ser un libro de estadística ni de metodología y por lo tanto no contiene explicaciones ni conceptos de tales materias.

Para la mejor comprensión de los procedimientos y la correcta interpretación de sus resultados, se sugiere revisar los siguientes conceptos metodológicos y estadísticos: Población, Muestra, Distribución de la muestra, Distribución muestral, Teorema central del límite, Parámetro de la población y estadístico de la muestra, Prueba de hipótesis, Hipótesis nula e hipótesis alternativa, Distribución Normal, Distribución t de Student, Distribución Chi cuadrado, Nivel de significancia e intervalo de confianza.

Nota: Se recuerda a los usuarios que al trabajar con la versión de prueba de SPSS que se brinda junto con este manual, se puede pedir que los resultados sean generados en otros idiomas ya que la misma se encuentra en inglés. Para los ejemplos utilizados en este manual se ha configurado la salida de resultados en español. Para cambiar el idioma en el que se generarán los resultados se debe ingresar en el menú Edición / Opciones… ( Edit / Options…) y en la pestaña General dentro del recuadro Resultados (Output) seleccionar Español (Spanish) en donde dice Idioma (Language).

Page 4: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

5

1. Estadística Descriptiva

1.1.Análisis univariado

1.1.1. Distribución de frecuencias

El procedimiento Frecuencias (Frequencies) proporciona estadísticos y representaciones gráficas que resultan útiles para describir muchos tipos de variables. Es un buen procedimiento para una inspección inicial de los datos.

Particularmente, la distribución de frecuencias muestra el número de veces que ocurre cada valor (o categoría) de una variable. Se representa mediante conjuntos de pares (xi, fi) en donde xi representan los valores de la variable (categorías, en el caso en que la variable es cualitativa) y fi el número de veces que ocurre la categoría o el valor xi.

Para los informes de frecuencias y los gráficos de barras, puede organizar los diferentes valores en orden ascendente o descendente u ordenar las categorías por sus frecuencias. Es posible suprimir el informe de frecuencias cuando una variable posee muchos valores diferentes. Puede etiquetar los gráficos con las frecuencias (la opción por defecto) o con los porcentajes.

Para obtener una distribución de frecuencias en SPSS, se procede de la siguiente manera: se elige en el menú Analizar (Analyze) la opción Estadísticos descriptivos (Descriptive Statistics), y luego la opción Frecuencias (Frequencies).

Datos: Utilice códigos numéricos o cadenas cortas para codificar las variables categóricas (medidas de nivel nominal u ordinal).

Supuestos: Las tabulaciones y los porcentajes proporcionan una descripción útil para los datos de cualquier distribución, especialmente para las variables con categorías ordenadas o desordenadas. Muchos de los estadísticos de resumen optativos, tales como la media y la desviación típica, se basan en la teoría normal y son apropiados para las variables cuantitativas con distribuciones simétricas. Los estadísticos robustos, tales como la mediana, los cuartiles y los percentiles son apropiados para las variables cuantitativas que pueden o no cumplir el supuesto de normalidad.

Para utilizar el procedimiento Frecuencias (Frequencies) accedemos a través del menú Analizar / estadísticos descriptivos / Frecuencias... (Analyze / Descriptive Statistics / Frequencies) y nos encontramos con el cuadro de diálogo:

Page 5: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

6

A la izquierda del cuadro se ubica el listado de variables: las variables contenidas en la matriz de datos. Las variables aparecen según el orden que tienen en la matriz de datos (se puede optar por el orden alfabético en el menú Edit: Options....). De este listado se deben seleccionar las variables para el análisis univariado, en este caso, la distribución de frecuencias. Para seleccionar las variables, se utilizan los procedimientos habituales de selección empleados en las aplicaciones Windows. Para seleccionar una sola variable, se apunta con el mouse a la misma y se aprieta el botón izquierdo del mouse. La variable quedará seleccionada. Para seleccionar varias variables contiguas, se apunta con el mouse a la primera, se aprieta el botón izquierdo y se arrastra la flecha del mouse hasta seleccionar todas las variables. También se pueden utilizar las teclas Shift y . Para seleccionar variables que se ubican en lugares discontinuos, se mantiene apretada la tecla Ctrl y se las selecciona con el mouse (apretando el botón izquierdo).

En el centro del cuadro de diálogo se ubica un cuadro de texto que lleva el nombre Variables. En este cuadro se ubicarán las variables que se han seleccionado para el análisis. Para pasarlas del listado de variables a este cuadro, se acciona la flecha negra que separa el listado del cuadro de texto. Para volver a pasar las variables al listado de variables, se las selecciona y se las pasa al listado accionando la pequeña flecha negra.

El botón Estadísticos (Statistics...) Al activarlo, se generará un cuadro que contiene las instrucciones de cálculo de medidas de tendencia central, de posición, de dispersión y de distribución.

El botón Gráficos (Charts...) Permite la obtención de gráficos de barra, de sectores e histogramas.

El botón Formato (Format...). Permite cambiar el formato del cuadro de distribución de frecuencias (por ejemplo, ordenar los resultados de manera descendente o ascendente según los códigos o las frecuencias).

Los botones OK, Pegar (Paste), Reset, Cancel y Help.

A continuación realizaremos un ejemplo simple para ilustrar este procedimiento.

- Accedemos a través del menú Analizar / estadísticos descriptivos / Frecuencias...(Analyze / Descriptive Statistics / Frequencies)

- Trasladamos las variables “Línea de pobreza” [LIN_POB] y “línea de indigencia” [LIN_IND] a la lista Variable(s).

Page 6: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

7

- Luego hacemos clic en Aceptar (Ok) y observamos los cuadros generados en el visor de resultados (Output).

Interpretación:

El primer cuadro nos muestra por defecto algunos estadísticos descriptivos relacionados con esta prueba. En él se puede ver un resumen en donde se indica la cantidad de casos que fueron procesados y los que fueron excluidos del análisis.

Estadísticos

3625 3625

196 196

Válidos

Perdidos

N

LINEA DEPOBREZA

LINEA DEINDIGENCIA

Los siguientes dos cuadros son las tablas de distribución de frecuencias propiamente dichas de cada una de las variables seleccionadas.

LINEA DE POBREZA

2145 56,1 59,2 59,2

1480 38,7 40,8 100,0

3625 94,9 100,0

196 5,1

3821 100,0

Pobre

No pobre

Total

Válidos

Ns/NcPerdidos

Total

Frecuencia PorcentajePorcentaje

válidoPorcentajeacumulado

Page 7: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

8

LINEA DE INDIGENCIA

1047 27,4 28,9 28,9

2578 67,5 71,1 100,0

3625 94,9 100,0

196 5,1

3821 100,0

Pobre

No pobre

Total

Válidos

Ns/NcPerdidos

Total

Frecuencia PorcentajePorcentaje

válidoPorcentajeacumulado

Los cuadros de distribución de frecuencias generados en SPSS contienen los siguientes elementos:

La descripción (etiqueta) de la variable como título del cuadro

El sistema de categorías de la variable (las etiquetas de valores)

La frecuencia absoluta, es decir, el número de ocurrencia de cada categoría. En la misma columna aparece también el total de casos de la población o muestra (3821 en el ejemplo).

El porcentaje que se obtiene dividiendo la frecuencia absoluta de cada categoría al total de casos, y multiplicando el resultado por 100.

El porcentaje válido es el porcentaje que se obtiene al designar alguna categoría o valor de la variable como valor perdido por el usuario.

El porcentaje acumulado es la suma de los porcentajes válidos. La sumatoria empieza con el porcentaje del primer valor, al cual se suma el porcentaje del segundo valor, etc.

La diferencia entre el “porcentaje” y el “porcentaje válido”

LINEA DE POBREZA

2145 56,1 59,2 59,2

1480 38,7 40,8 100,0

3625 94,9 100,0

196 5,1

3821 100,0

Pobre

No pobre

Total

Válidos

Ns/NcPerdidos

Total

Frecuencia PorcentajePorcentaje

válidoPorcentajeacumulado

En el caso en que determinados valores de la variable se definen como valores perdidos (en el ejemplo, la categoría “Ns/Nc” de la variable “Línea de pobreza” se definió como “valor perdido”, en realidad esta categoría indica que no se dispone de los datos de ingresos del hogar), el cálculo del porcentaje válido se realiza tomando como base el total del cual se resta la cantidad de casos perdidos. Es decir, la base de cálculo del porcentaje válido será 3821 – 196 = 3625.

Al realizar este cálculo, se acepta implícitamente el hecho de que los valores perdidos se distribuyen en la población con la misma proporción que los restantes valores de la variable.

Page 8: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

9

Cuando se definen ciertos códigos o valores como “valores perdidos” siempre hay que evaluar el porcentaje de dichos casos en la distribución de frecuencias de la variable. Si el porcentaje excede el 5%, la distribución de estos casos según la frecuencia válida puede sesgar los resultados, sobre todo por el hecho de que a veces los casos de no respuesta tienen alguna característica que los diferencia del resto de la muestra y por ende, no se reparten en la misma proporción que los casos válidos.

La distribución de frecuencias se puede utilizar para todos los niveles de medición: nominal, ordinal, intervalar y de razón. Para los niveles de medición intervalar y de razón se aconseja presentar los datos bajo forma agrupada, es decir, obteniendo variables con intervalos. El procedimiento de recodificación de las variables (véase el capítulo 6) permite agrupar una variable cuantitativa en una variable con intervalos de clase.

1.1.2. Medidas de tendencia central: media, moda, mediana.

Para calcular la media de una variable cuyo nivel de medición es intervalar o de razón (recuérdese que el cálculo de la media no tiene sentido para variables nominales y ordinales), se procede de la siguiente manera: se elige la opción Estadísticos Descriptivos (Descriptive Statistics) del menú Analizar (Analyze). En la opción Estadísticos Descriptivos se elige Descriptivos... (Descriptives…)

Al seleccionar esta opción, se genera un cuadro de diálogo que contiene en la parte izquierda el listado de variables de la matriz. Al activar el botón Opciones (Options) se puede visualizar el cuadro que contiene algunos estadísticos relacionados con las medidas de tendencia central y de dispersión. Para el cálculo de la media se hace clic con el mouse en la opción Media (Mean) (al elegir la opción, aparece una tilde en la casilla correspondiente). Para desactivar las otras opciones seleccionadas, se hace un clic con el mouse en las casillas correspondientes. Después se hace clic en el botón Continue, volviéndose al cuadro inicial. El procedimiento de selección de variables para las cuales se quiere calcular la media es el mismo que en el caso de las distribuciones de frecuencias.

Para calcular la moda y la mediana se debe utilizar la opción Frecuencias... En esta opción también se puede calcular la media.

Recuérdese que la moda se puede calcular para todos los niveles de medición, e indica el valor o categoría que tiene la frecuencia máxima en la distribución. La mediana se puede calcular a partir del nivel ordinal, e indica el valor que divide a la serie de datos (ordenada de manera ascendente o descendente) en dos partes numéricamente iguales.

Page 9: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

10

- Accedemos a través del menú Analizar / estadísticos descriptivos / Frecuencias...(Analyze / Descriptive Statistics / Frequencies)

En el cuadro de diálogo correspondiente a las distribuciones de frecuencias, se eligen las variables para las cuales se quieren obtener las medidas de tendencia central. Luego en el cuadro que se activa desde el botón Estadísticos (Statistics) se eligen las opciones contenidas en Tendencia Central (Central Tendency): Media (Mean), Mediana (Median) y Moda (Mode). Se pulsa el botón Continue, volviéndose al cuadro inicial. En el caso en que no se quiere obtener una distribución de frecuencias de las variables (solamente se quieren calcular las medidas de tendencia central) se desactiva la opción Mostrar tablas de frecuencia (Display frequency tables) en el cuadro inicial, haciendo un solo clic con el botón izquierdo del mouse en la casilla tildada.

Page 10: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

11

Ejemplo: (con la tabla de frecuencias desactivada)Cálculo de la media, mediana y moda del ingreso total familiar, en base a la EPH, onda

octubre de 2002.

Estadísticos

MONTO DEL INGRESO TOTAL FAMILIAR983

72

739,7294

502,0000

300,00

Válidos

Perdidos

N

Media

Mediana

Moda

El cálculo se ha realizado sobre el total de hogares relevados en la EPH

En el mismo cuadro de diálogo correspondiente a la opción Estadísticos del cuadro Frecuencias se pueden calcular los valores correspondientes a diferentes medidas de posición: cuartiles, quintiles, deciles, percentiles. Los cuartiles (dividen a la serie ordenada en cuatro partes iguales) se obtienen al elegir la opción Cuartiles (Quartiles). Los quintiles (dividen a la serie ordenada en 5 partes iguales), los deciles (dividen a la serie en 10 partes iguales), etc., se pueden obtener al teclear en la casilla correspondiente a Puntos de corte para ... grupos iguales (Cut points for ….. equal groups) la cantidad de divisiones iguales que se quiere aplicar a la serie de datos.

1.1.3. Medidas de dispersión

Las medidas de dispersión se pueden calcular recurriendo a la opción Frequencies (pulsandoel botón Statistics en el cuadro de diálogo correspondiente a Frequencies) o la opción Descriptives (eligiendo Options... en el cuadro de diálogo).

Se pueden calcular las siguientes medidas de dispersión:

La amplitud o rango (Range) es la diferencia entre el valor máximo y el mínimo de un conjunto de datos.

La varianza (Variance) es la media de las desviaciones que tienen los casos con respecto a la media de la serie de datos, elevadas al cuadrado.

La desviación típica (Std. Deviation) es la raíz cuadrada de la varianza.

Para calcular las medidas descritas, se hace clic con el mouse en las siguientes opciones: Desviación típica, Varianza, Amplitud.

Ejemplo: Cálculo del rango, desviación típica y varianza del ingreso total familiar, en base a la EPH, onda octubre de 2002.

Estadísticos descriptivos

983 6730,00 20,00 6750,00 730,0916 533033,7

983

MONTO DEL INGRESOTOTAL FAMILIAR

N válido (según lista)

N Rango Mínimo Máximo Desv. típ. Varianza

Page 11: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

12

Análisis bivariado

1.1.4. Asociación entre dos variables

Para poder analizar la asociación entre dos variables, en primer lugar se deben comparar porcentajes. Dichos porcentajes se obtienen mediante una tabulación cruzada (un “cruce”) de las dos variables que se quieren analizar. La tabulación cruzada es una tabla de dos entradas, que permite examinar conjuntamente el comportamiento de dos variables.

Ejemplo de tabla de asociación 2x2 (con dos variables dicotómicas):

Variable XVariable Y x1 x2 Total FilaY1 f11 f12 f11 + f12

Y2 f21 f22 f21 + f22

Total columna f11 + f21 f12 + f22 N

En el ejemplo se han cruzado dos variables dicotómicas X e Y, con sus correspondientes categorías: x1 x2; y1 y2. Las frecuencias f11, f12, f21 y f22 corresponden a la cantidad de casos observada en cada una de las cuatro combinaciones de las categorías de las dos variables: x1y1, x2y1, x1y2, x2y2, respectivamente.

Las frecuencias correspondientes al total marginal de las columnas (total columna) y al total marginal de las filas (total fila) se llaman frecuencias marginales, y en realidad, representan la distribución de frecuencias para cada variable en parte. Así, la frecuencia marginal de la columna representa la distribución de frecuencias de la variable X, sin tener en cuenta la influencia de la variable Y. N representa el total de la población o de la muestra.

En una tabla de asociación se pueden calcular tres tipos de porcentajes.

Los porcentajes por fila se obtienen dividiendo el valor absoluto de cada celda al total marginal de la fila correspondiente y multiplicando por 100, es decir f11/(f11+ f12) *100; f12(/f11 + f12)* 100 para la primera fila del cuadro y f21(/f21 + f22)*100; (f22/f21 + f22)*100 para la segunda fila. Los porcentajes así obtenidos deben sumar 100 horizontalmente.

Los porcentajes por columna se obtienen dividiendo el valor absoluto de cada celda al total marginal de la columna correspondiente y multiplicando el resultado por 100, es decir f11/(f11 + f21)*100; f21/(f11 + f21)*100 para la primera columna del cuadro y f12/(f12 + f22)*100; (f22/f12 + f22)*100 para la segunda columna. Los porcentajes así obtenidos deben sumar 100 verticalmente.

Los porcentajes totales se obtienen dividiendo el valor de cada celda a n y multiplicando el resultado por 100: f11/n*100, f12/n*100, f21/n*100 y f22/n*100. La suma de dichos porcentajes debe dar 100.

Para efectuar de una manera correcta la comparación de los porcentajes por columna y por fila, en el caso en que se quiere estudiar el efecto que produce una variable sobre la otra, se debe seguir la regla de Zeisel. Según esta regla, la comparación de los porcentajes siempre se debe hacer en el sentido opuesto al que han sido sacados. Así, en el caso en que el porcentaje se obtuvo por columna (utilizando como base de cálculo los totales marginales de columna), la comparación se hace horizontalmente, y a la inversa, si los porcentajes se han sacado en el sentido de la fila, la comparación se debe hacer verticalmente.

Page 12: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

13

A continuación se ilustra la lógica subyacente a esta forma de comparación.

Variable XVariable Y x1 x2 Total Filay1 a b a+cy2 c d c+dTotal columna a+c b+d a+b+c+d

Si se calculan los porcentajes por columna se obtienen los siguientes resultados: a/(a+c)*100 y c/(a+c)*10 para la primera columna y b/(b+d)*100 y d/(b+d)*100 para la segunda columna. Si la diferencia porcentual se calcula en el mismo sentido en que han sido sacados los porcentajes, se obtiene:

(1) a/(a+c)*100 - c/(a+c)*100 = (a-c) / (a+c) *100

o para la segunda columna

(2) b/(b+d)*100 - b/(b+d)*100 = (b-d) / (b+d) *100

Cabe destacar que el resultado (1) es independiente de b y d, es decir si la comparación se hace en el mismo sentido en que se han calculado los porcentajes, no se toma en cuenta toda la información contenida en la tabla. Lo mismo sucede con el resultado (2), en tanto que es independiente de a y c.

Si los porcentajes se comparan en el sentido opuesto al que han sido sacados, los resultados son:

(1) a/(a+c)*100 - b/(b+d)*100 = (ad-bc)/(a+c)(b+d)*100

(2) c/(a+c)*100 - d/(b+d)*100 = (bc-ad)/(a+c)(b+d)*100

En este caso el resultado obtenido refleja los valores contenidos en toda la tabla.

La diferencia porcentual calculada de este modo representa un coeficiente de asociación, llamado Epsilon. Si bien no es del todo riguroso y es muy simple, tiene ventajas prácticas, ya que es muy fácil de calcular. Esta diferencia porcentual se calcula en sentido contrario al que han sido sacados los porcentajes. Por ejemplo, si los porcentajes han sido sacados verticalmente, el coeficiente Epsilon se obtiene, restando horizontalmente, dos a dos, los porcentajes de las columnas. Si la tabla es 2x2, es suficiente calcular un solo coeficiente Epsilon. En el caso de tablas que tienen dimensiones más grandes, se deben calcular varios coeficientes.

Para obtener una tabla de asociación entre dos variables en el SPSS, accedemos a través del menú Analizar / Estadísticos Descriptivos / Tablas de contingencia... (Analyze / Descriptive Statistics / Crosstabs…) y de esta manera nos encontramos con el siguiente cuadro de diálogo:

Page 13: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

14

En el cuadro de diálogo que se genera se eligen del listado de variables las dos variables que se quieren asociar. Una de ellas se ubicará horizontalmente (por fila) y la otra, verticalmente (por columna) en la tabla de dos entradas. La variable que se ubicará por fila se debe pasar al cuadro correspondiente a Filas (Rows) y la variable que se situará por columna, se debe pasar al cuadro llamado Columnas (Columns).

Para poder calcular los porcentajes en el interior de cada celda, se elige en el cuadro de diálogo correspondiente a las tablas de asociación la opción Casillas (Cells....)

En el cuadro que se genera al activar esta opción, se hace clic con el mouse en las casillas correspondientes a Porcentajes (Percentages) indicando el tipo de porcentajes que se quiere obtener: Fila (Row) (calculado sobre el total de la fila), Columna (Column) (calculado sobre el total de la columna), Total (calculado sobre el total de la población). Una vez activadas las opciones, se hace clic en el botón Continue y se vuelve al cuadro inicial.

En el caso en que una de las variables (o ambas) contienen valores perdidos (del sistema o definidos por el usuario), estos valores se omitirán de la tabla de asociación.

Dado que se pueden sacar tres tipos de porcentajes, es importante establecer cuál de los tres presenta mayor interés para el análisis. También es muy importante, antes de efectuar la asociación, formular la hipótesis asociativa que vincula las dos variables que se estudian.

Generalmente el porcentaje sobre el total no se utiliza para la interpretación de la relación de asociación, excepto cuando se analizan tipologías obtenidas con las categorías de las dos variables. Un ejemplo podría ser la tipología de pobreza obtenida a partir del cruce de la variable “Línea de pobreza” (Hogares encima de la línea de pobreza y hogares debajo de la línea de pobreza) con la variable “Necesidades básicas insatisfechas”. Esta asociación permite obtener los siguientes tipos de pobreza: pobreza crónica (Hogares que se ubican debajo de la línea de pobreza y tienen por lo menos una necesidad básica insatisfecha), nueva pobreza (hogares que son pobres por línea de pobreza pero no tienen carencias críticas), pobreza inercial (hogares pobres por NBI, pero cuyos

Page 14: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

15

ingresos los ubican encima de la línea de pobreza) y hogares no pobres (no presentan carencias críticas y se ubican encima de la línea de pobreza). Para analizar la proporción de cada uno de estos tipos en los hogares estudiados, se realiza el cruce correspondiente y se calculan los porcentajes sobre el total.

Ejemplo: Cruce de la variable NBI con la variable Pobreza por ingresos para establecer tipos de pobreza. Datos de la EPH – onda octubre de 1996 (total hogares)

93 210 303

9,5% 21,5% 31,0%

40 635 675

4,1% 64,9% 69,0%

133 845 978

13,6% 86,4% 100,0%

Recuento

% del total

Recuento

% del total

Recuento

% del total

Pobre

No pobre

LINEA DE POBREZA

Total

Pobre No pobre

NBI

Total

En el cuadro del ejemplo se puede observar que el 9,5% de los hogares se encuentra en pobreza crónica, el 21,5% debajo de la línea de pobreza (“nuevos pobres”), el 4,1% son pobres inerciales y un 64,9% del total de los hogares no son pobres.

Cuando se desea comparar porcentajes por fila o columna, en primer lugar se debe establecer cuál de las dos variables es la independiente (la causa) y cuál es la dependiente (el efecto). Obviamente no en todas las situaciones es posible establecer la causa de un fenómeno, sobre todo en ciencias sociales, donde la mayoría de los fenómenos tienen causas múltiples, y generalmente las relaciones no son asimétricas (de causa a efecto), sino recíprocas (una de las variables influye en la otra, y viceversa). Pese a estas dificultades, en ciertas situaciones se puede establecer con precisión cuál es la variable independiente.

Generalmente las variables de base y de personalidad son independientes en relación con las variables de opinión y comportamiento, ya que las suelen determinar. Ejemplos de variables de base son: edad, sexo, ocupación, nivel educativo, raza, religión, etc. Las variables de personalidad son de tipo psicológico, a saber, coeficiente de inteligencia, motivación, rasgos de personalidad, etc.

La relativa permanencia de una variable con respecto a la otra (los cambios en la primera no ocurren con frecuencia, mientras que la segunda varía a menudo) hace que se pueda asumir que la primera es la independiente y la segunda la dependiente.

La anterioridad temporal de una variable con respecto a la otra. La variable anterior puede considerarse como variable independiente.

A veces, los objetivos de la investigación permiten plantear cuál es la variable independiente, y cuál la dependiente.

En todas estas situaciones, cuando se conoce cuál es la variable independiente, según la regla de Zeisel, los porcentajes se deben obtener en el sentido de la variable independiente, efectuándose la comparación de porcentajes en el sentido opuesto. Para facilitar la lectura de los porcentajes, generalmente la variable independiente se suele ubicar en la columna. Esta ubicación es solamente una convención y no influye en los datos. En el caso de haber ubicado la variable

Page 15: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

16

independiente por columna, la comparación se hace horizontalmente, dado que los porcentajes se han calculado en el sentido vertical. En el siguiente ejemplo se muestra el procedimiento.

Resumen del procesamiento de los casos

994 94,2% 61 5,8% 1055 100,0%LINEA DE POBREZA* NIVELREC

N Porcentaje N Porcentaje N Porcentaje

Válidos Perdidos Total

Casos

Jefes de hogar por nivel educativo según línea de pobreza

254 195 14 29 492

63,2% 53,1% 27,5% 16,7% 49,5%

148 172 37 145 502

36,8% 46,9% 72,5% 83,3% 50,5%

402 367 51 174 994

100,0% 100,0% 100,0% 100,0% 100,0%

Recuento

% de NIVELREC

Recuento

% de NIVELREC

Recuento

% de NIVELREC

Pobre

No pobre

LINEA DE POBREZA

Total

Primario Secundario Superior Universitario

NIVELREC

Total

Los porcentajes han sido sacados verticalmente, pero la comparación se debe hacer por fila. Leyendo dichos porcentajes, se puede observar que a menor nivel educativo, aumenta el porcentaje de los jefes de hogar que están en situación de pobreza (se comparan los porcentajes en sentido horizontal: 63,2%, 53,1%, 27,5% y 16,7%). A la inversa, a mayor nivel educativo, desciende el porcentaje de jefes de hogar pobres.

1.1.5. Coeficientes de asociación

Los coeficientes de asociación se utilizan para evaluar la intensidad de la asociación. Estos coeficientes varían entre 0 y 1 para variables nominales, y –1 y 1 para variables ordinales. En el caso de las variables nominales, 0 indica la ausencia de asociación y 1 la presencia de una asociación perfecta. En el caso de las variables ordinales es posible establecer la dirección de la asociación, -1 indicando una asociación perfecta negativa, y +1, una asociación perfecta positiva.

Se utilizan distintos coeficientes en función del nivel de medición de las variables.

En el caso en que las variables son nominales y dicotómicas, el coeficiente más utilizado es el Phi. Si la tabla tiene dimensiones más grandes, se recomienda el uso del coeficiente V de Cramer.

En el caso de dos variables ordinales, se pueden utilizar los coeficientes Tau-b y Tau-c de Kendall. Para las tablas simétricas (igual cantidad de filas y columnas) se debe utilizar el Tau-b. Para las tablas asimétricas (la cantidad de filas no coincide con la cantidad de columnas) se debe utilizar el Tau-c.

Si se asocia una variable ordinal con una nominal, se debe utilizar un coeficiente correspondiente al nivel nominal.

Page 16: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

17

Para calcular estos coeficientes, se debe activar la opción Statistics de la instrucción Tablas de contingencia (Crosstabs) y se hace clic en los nombres de los coeficientes que se desea calcular (Phi y V de Cramer; Tau-b de Kendall; Tau-c de Kendall).

Page 17: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

18

2. Estadística Inferencial

2.1.Pruebas No Paramétricas

2.1.1. Chi cuadrado de Pearson

Para evaluar si hay alguna relación entre las variables, comúnmente se recurre a la diferencia de porcentajes. También se pueden obtener coeficientes de asociación, que indican la intensidad de la asociación. Sin embargo, antes de interpretar las diferencias porcentuales y los eventuales coeficientes, se debe evaluar la significación estadística de la relación e inferir su validez respecto a la población. La prueba estadística que permite realizar esto es el Chi-cuadrado.

El método “tradicional” de la prueba de hipótesis consiste en los siguientes pasos:

Se formula la hipótesis de investigación que afirma una relación entre dos variables.

Se formula la hipótesis nula según la cual no hay relación entre las dos variables, es decir, las variables son independientes.

Se elige la prueba: Chi-cuadrado.

Se elige un nivel de significación (). indica el riesgo de equivocarse y rechazar la hipótesis nula, cuando en realidad ésta es verdadera. En lenguaje estadístico se llama error tipo I. Generalmente el nivel de significación con el cual se trabaja en las ciencias sociales es 0,05. Esto significa que de 100 muestras que se podrían seleccionar a partir de la población considerada, en 5 se rechaza erróneamente la hipótesis nula. En el caso de la asociación, esto significa que en 5 muestras de 100, si bien se ha obtenido una relación, ésta se debe al azar y no refleja la existencia una relación en la población.

Se determinan los grados de libertad de la tabla de asociación. La distribución Chi-cuadrado es una familia de distribuciones que depende de los grados de libertad, los cuales se obtienen mediante un cálculo. Los grados de libertad indican la cantidad de datos que se pueden emplear en el cálculo estadístico sin restricciones. En el caso de las distribuciones univariadas, los grados de libertad son n-1. En el caso de las tablas de asociación, los grados de libertad se calculan utilizando la fórmula (c-1)(r-1), en donde c – representa la cantidad de columnas del cuadro, y r – la cantidad de filas. Por ejemplo, si la tabla tiene 2 columnas y 3 filas, los grados de libertad son 2.

Conociendo y los grados de libertad, se puede obtener el valor crítico del estadístico 2 , recurriendo a las tablas de la distribución de Chi-cuadrado. El valor crítico correspondiente al nivel de significación seleccionado y a los grados de libertad de la tabla de asociación se encuentra en la intersección de la fila (grados de libertad) con la columna (nivel de significación).

Determinación de la zona de rechazo de la hipótesis nula. El valor crítico delimita la zona de aceptación de la zona de rechazo. Todos los valores observados del estadístico 2, que son mayores al valor crítico se ubicarán en la zona de rechazo de la hipótesis nula.

Se calcula el valor observado del 2 y se compara con el valor crítico.

Toma de decisión: si el valor observado es mayor que el valor crítico, se puede rechazar la hipótesis nula, es decir la hipótesis de independencia entre las variables consideradas. Esto significa que la relación entre las variables es estadísticamente significativa, a un nivel de significación del 5%.

El cálculo del estadístico Chi-cuadrado se hace comparando las frecuencias observadas con las frecuencias esperadas, que se obtienen en el caso en que las dos variables fueran independientes. Las frecuencias esperadas se calculan multiplicando las frecuencias marginales de

Page 18: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

19

las columnas y filas, correspondientes a cada una de las celdas de la tabla de asociación y dividiendo el producto a la cantidad de casos.

Para la tabla de asociación general que se presenta a continuación, la frecuencia esperada para la primera celda de la tabla con la frecuencia observada f11 es (f11 + f12)(f11 + f21) / n. Cuanto mayor es la diferencia entre las frecuencias observadas y esperadas, mayor será la probabilidad de que la muestra provenga de una población en la que las variables estén relacionadas.

Variable X

Variable Y X1 x2 Total Fila

Y1 f11 f12 f11 + f12

Y2 f21 f22 f21 + f22

Total columna f11 + f21 f12 + f22 N

Para efectuar la Prueba de Chi cuadrado accedemos a través del menú Analizar / Estadísticos Descriptivos / Tablas de contingencia... (Analyze / Descriptive Statistics / Crosstabs…) y de esta manera nos encontramos con el siguiente cuadro de diálogo:

La lista de variables contiene un listado con todas las variables del archivo de datos. Para llevar a cabo un contraste con las especificaciones que el procedimiento tiene establecidas por defecto:

Trasladar al menos una variable al cuadro de Filas (Row(s)) y una variable al cuadro de Columnas (Column(s)).

Page 19: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

20

Luego hacer click en el botón Estadísticos (Statistics) y tildar la opción Chi cuadrado (Chi-square).

También se pueden obtener las frecuencias esperadas. Para esto se debe hacer click en el botón Casillas (Cells) y tildar la opción Esperadas (Expected). Se puede observar que la opción Observadas (Observed) está predeterminada. Esta opción permite obtener las frecuencias absolutas observadas en cada celda de la tabla de asociación.

Advertencia: El estadístico Chi-cuadrado puede estar sesgado y no se recomienda su utilización en el caso en que haya celdas con valores esperados menos de 1, y haya más del 20% de las celdas con valores esperados menos de 5. Esta situación se produce en los casos en que la

Page 20: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

21

muestra es pequeña, o las variables cruzadas contienen muchas categorías. En el último caso conviene agrupar las categorías, reduciendo la cantidad de las mismas.

A continuación realizaremos dos ejemplos para este procedimiento.

Se plantea la siguiente hipótesis de investigación: “las mujeres tienen mayor probabilidad de estar desocupadas que los hombres”. Se quiere contrastar la hipótesis utilizando los datos de la base EPH2002.sav. La población en estudio es la población económicamente activa (PEA).

Se formula la hipótesis nula: “no hay relación entre el sexo y la desocupación”.

Para realizar esta prueba de hipótesis, previamente se debe acondicionar la base de datos. En este caso, se debe realizar un filtro para seleccionar solamente la PEA. La expresión que se introducirá en la opción del filtro es la siguiente: estado = 1 | estado = 2.

Una vez aplicado el filtro,

- Trasladamos al recuadro Fila(s) (Row(s)) la variable “Condición de actividad” [estado]

- Trasladamos al recuadro Columna(s) (Column(s)) la variable “Sexo”

- Luego damos click en el botón Casillas (Cells), tildamos las opciones “Esperadas” (Expected) y “Columna” (Column) y damos click en Continuar (Continue).

Page 21: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

22

- Luego damos click en el botón Estadísticos (Statistics), tildamos la opción “Chi cuadrado” (Chi-square) y damos click en Continuar (Continue).

- Luego damos click en Aceptar (Ok) y observamos los cuadros generados en el visor de resultados (Output).

Page 22: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

23

Tabla de contingencia CONDICION DE ACTIVIDAD * SEXO

787 527 1314

782,2 531,8 1314,0

89,0% 87,7% 88,5%

97 74 171

101,8 69,2 171,0

11,0% 12,3% 11,5%

884 601 1485

884,0 601,0 1485,0

100,0% 100,0% 100,0%

Recuento

Frecuencia esperada

% de SEXO

Recuento

Frecuencia esperada

% de SEXO

Recuento

Frecuencia esperada

% de SEXO

Ocupado

Desocupado

CONDICION DEACTIVIDAD

Total

Varón Mujer

SEXO

Total

Pruebas de chi-cuadrado

,630b 1 ,427

,506 1 ,477

,627 1 ,429

,456 ,238

,630 1 ,427

1485

Chi-cuadrado de Pearson

Corrección porcontinuidad

a

Razón de verosimilitud

Estadístico exacto deFisher

Asociación lineal porlineal

N de casos válidos

Valor glSig. asintótica

(bilateral)Sig. exacta(bilateral)

Sig. exacta(unilateral)

Calculado sólo para una tabla de 2x2.a.

0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperadaes 69,21.

b.

Interpretación:

Si se analiza la tabla de asociación obtenida, se distinguen los siguientes valores:

las frecuencias absolutas observadas en cada celda. Por ejemplo, hay 787 varones ocupados y 74 mujeres desocupadas.

los totales de cada fila y columna, es decir, las frecuencias marginales que representan la distribución de frecuencia simple de cada una de las variables cruzadas.

el segundo valor de la celda indica la frecuencia esperada (por ejemplo, 782,2 en el caso de los varones ocupados). Si se analizan dichas frecuencias, se puede notar que la diferencia entre los valores observados y esperados es muy reducida.

los porcentajes por columna. Se puede observar que la diferencia porcentual entre varones y mujeres según las dos categorías de la condición de actividad (ocupado y desocupado) es muy reducida.

El Chi-cuadrado utilizado en la evaluación de la significación estadística de la relación es el Chi-cuadrado (Chi-Square) de Pearson. El SPSS efectúa otros dos contrastes también: Likelihood Ratio (Razón de Máxima Verosimilitud) y Linear-by-Linear Association. La razón de máxima verosimilitud se utiliza en el contexto de modelos lineales logarítmicos (que representa un sistema

Page 23: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

24

general de análisis de tablas de asociación), y para muestras grandes tiene valores semejantes al Chi-cuadrado de Pearson.

También se indica la frecuencia mínima esperada (Minimum Expected Frequency), que en ninguna celda debe ser menor de 1. Si en el 20% de las celdas se obtienen valores esperados entre 1 y 5, la salida de resultados indicará esta situación. En nuestro ejemplo se consigna que no hay ninguna celda que tenga una frecuencia esperada inferior a 5.

Si las variables que se han cruzado son dicotómicas, en vez de leer el valor del Chi-Cuadrado (Chi-Square), se debe leer el valor del Continuity Correction que es la corrección de Yates (corrección por continuidad) aplicada al cálculo del Chi-Cuadrado de las tablas dicotómicas.

En el ejemplo presentado, el Chi-cuadrado de Pearson es 0,630 y la corrección por continuidad introduce una leve modificación al valor del Chi-cuadrado: 0,506.

Cabe notar que en la salida del SPSS se registran los valores de las pruebas de contraste en la columna correspondiente a Valor (se lee la fila correspondiente al Chi-cuadrado de Pearson / corrección por continuidad), los grados de libertad en la columna llamada gl (grados de libertad) y los valores-P en la columna Sig. Asintótica (significación asintótica – bilateral)

El valor-P mide la probabilidad de obtener al azar un determinado estadístico. En el ejemplo presentado, el valor-P representa la probabilidad de obtener el valor 0,506 del estadístico de Chi-cuadrado al azar. Observamos que el valor-P de este estadístico es 0,477, casi 0,5. Esto significa que la probabilidad de rechazar la hipótesis nula equivocadamente a partir de los resultados del ejemplo es 0,5; probabilidad significativamente mayor que = 0,05.

En consecuencia, la evaluación de los resultados de la salida de SPSS para el Chi-cuadrado se puede hacer de dos formas:

Se compara el valor crítico del estadístico 2 (obtenido de las tablas, en función del nivel de significación y los grados de libertad) con el valor observado obtenido en la salida de resultados. Si el valor observado es mayor que el valor crítico, se puede rechazar la hipótesis nula de independencia. A la inversa, si el valor observado es menor que el valor crítico, hay que aceptar la hipótesis nula.

Se compara el valor del (generalmente 0,05) con el valor-P (Significación) obtenido en la salida de resultados. Si el valor-P es mayor que =0,05, hay que aceptar la hipótesis nula de independencia (es decir, no hay relación entre las variables estudiadas). Si el valor-P es menor que =0,05, se rechaza la hipótesis nula, confirmándose de este modo la existencia de una relación entre las dos variables.

En este ejemplo, el valor-P es significativamente mayor que =0,05, por lo tanto se acepta la hipótesis nula, es decir, se puede inferir, que a nivel de la población en cuestión, no hay relación entre las dos variables estudiadas: sexo y condición de actividad.

Veamos otro ejemplo, en donde trabajamos con una variable dicotómica y otra, policotómica (que tiene más de dos categorías). Planteamos la siguiente hipótesis de investigación: existe relación entre sexo y categoría ocupacional. La hipótesis nula correspondiente es: no hay relación entre sexo y categoría ocupacional.

Nuevamente se debe acondicionar la base, seleccionando, esta vez, al conjunto de ocupados.

Se obtiene la siguiente tabla de asociación:

Page 24: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

25

Tabla de contingencia CATEGORIA OCUPACIONAL * SEXO

36 11 47

28,2 18,8 47,0

4,6% 2,1% 3,6%

225 102 327

195,9 131,1 327,0

28,6% 19,4% 24,9%

510 407 917

549,4 367,6 917,0

64,9% 77,4% 69,9%

15 6 21

12,6 8,4 21,0

1,9% 1,1% 1,6%

786 526 1312

786,0 526,0 1312,0

100,0% 100,0% 100,0%

Recuento

Frecuencia esperada

% de SEXO

Recuento

Frecuencia esperada

% de SEXO

Recuento

Frecuencia esperada

% de SEXO

Recuento

Frecuencia esperada

% de SEXO

Recuento

Frecuencia esperada

% de SEXO

Patrón

Cta. propia

Asalariado

Trabaj. sin salario

CATEGORIAOCUPACIONAL

Total

Varón Mujer

SEXO

Total

Si se realiza un mero examen de los porcentajes, se pueden notar diferencias porcentuales por categoría ocupacional: entre los patrones y los trabajadores por cuenta propia se observa una cierta predominancia de los varones, y entre los asalariados, sobresalen las mujeres.

Pruebas de chi-cuadrado

24,425a 3 ,000

25,144 3 ,000

18,035 1 ,000

1312

Chi-cuadrado de Pearson

Razón de verosimilitud

Asociación lineal porlineal

N de casos válidos

Valor glSig. asintótica

(bilateral)

0 casillas (,0%) tienen una frecuencia esperada inferior a 5.La frecuencia mínima esperada es 8,42.

a.

En cuanto a la prueba Chi-cuadrado, se observa que el valor del estadístico es 24,4 y la significación o valor-P correspondiente a este valor del Chi-cuadrado es 0,000, es decir, bastante menor que =0,05. Esto significa, que esta vez, la hipótesis nula se rechaza y se acepta la existencia de una relación entre sexo y categoría ocupacional

Page 25: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

26

2.2.Pruebas Paramétricas

Presuposiciones de la estadística paramétrica:

- La distribución poblacional de la variable dependiente es normal: el universo tiene una distribución normal.

- El nivel de medición de la variable es por intervalos o de razón.- Cuando dos o más poblaciones son estudiadas, éstas tienen una varianza homogénea:

las poblaciones en cuestión tienen una dispersión similar en sus distribuciones. (Test de Levene)

Comparación de medias

La opción Comparar medias (Compare Means) del menú Analizar (Analyze) contiene varios de los procedimientos estadísticos diseñados para efectuar contrastes de hipótesis sobre medias, en concreto, la prueba T y el análisis de varianza de un factor.

En las pruebas para comparación de medias la Hipótesis nula que se formula es del tipo “las medias de las poblaciones comparadas son iguales”. Evaluando la probabilidad de que esta H0 se cumpla podemos responder a preguntas tales como “¿Son distintas las medias de las poblaciones en estudio?” , “¿Qué tan distintas podrían ser en el universo?” , “¿Con qué porcentaje de confiabilidad puedo asegurarlo?”

2.2.1. Medias

El procedimiento Medias calcula medias de subgrupo y estadísticos univariados relacionados para variables dependientes dentro de las categorías de una o más variables independientes. Si lo desea, puede obtener el análisis de varianza de un factor, la eta y pruebas de linealidad.

Este procedimiento en particular es utilizado mayormente para un análisis exploratorio-descriptivo de primera instancia ya que, si no se seleccionan el análisis de varianza de un factor, la eta o las pruebas de linealidad que se ofrecen accesoriamente a este procedimiento, se calculan las medias de los subgrupos sin hacer ninguna prueba de hipótesis.

Datos: Las variables dependientes son cuantitativas y las independientes son categóricas. Los valores de las variables categóricas pueden ser numéricos o de cadena corta.

Supuestos: Algunos de los estadísticos opcionales de subgrupo, como la media y la desviación típica, se basan en la teoría normal y son adecuados para variables cuantitativas con distribuciones simétricas. Los estadísticos robustos, tales como la mediana y el rango, son adecuados para las variables cuantitativas que pueden o no cumplir el supuesto de normalidad. El análisis de varianza es robusto a las desviaciones de la normalidad, aunque los datos de cada casilla deberían ser simétricos. El análisis de varianza también supone que los grupos proceden de poblaciones con la misma varianza. Para comprobar este supuesto, utilice la prueba de homogeneidad de las varianzas de Levene, disponible en el procedimiento ANOVA de un factor.

Si ud todavía no abre ningún archivo de datos, abra el archivo EPH 2002.sav.

Para utilizar el procedimiento Medias accedemos a través del menú Analizar / Comparar medias / Medias... (Analyze / Compare Means / Means…) y de esta manera nos encontramos con el siguiente cuadro de diálogo:

Page 26: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

27

Para obtener los estadísticos que el procedimiento ofrece debe:

Trasladar a la lista Dependientes (Dependent list) la/s variable/s que interesa describir o aquellas en las que se van a comparar los grupos.

Trasladar a la lista Independientes (Independent list) la/s variable/s que definen los grupos que interesa describir o comparar.

El botón Opciones… (Options) permite seleccionar los estadísticos descriptivos concretos que interese obtener y algunos contrastes sobre medias o linealidad.

También es posible combinar más de una variable independiente para, dentro de los grupos definidos por una primera variable, formar subgrupos definidos por una segunda variable (o una tercera, o una cuarta, etc.). Es decir, cada estadístico solicitado puede calcularse en cada uno de los

Page 27: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

28

subgrupos resultantes de combinar dos o más variables independientes. Esto se consigue definiendo capas (layers).

Para definir capas (layers) utilice los botones Siguiente y Anterior (Next , Previous) del apartado Capa “x” de “n” (Layer “x” of “n”) donde “x” se refiere al número de capa en el que nos encontramos y ”n” al número total de capas definidas.

A continuación realizaremos un ejemplo simple para ilustrar este procedimiento.

- Accedemos a través del menú Analizar / Comparar medias / Medias... (Analyze / Compare Means / Means…)

- Trasladamos la variable “Años cumplidos” a la lista de variables dependientes y la variable “Sexo” a la lista de variables independientes.

Page 28: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

29

- En el botón Opciones… (Options…) seleccionamos los siguientes estadísticos:

- Una vez seleccionados los estadísticos hacemos click en Continuar (Continue) y luego en Aceptar (Ok) y observamos los cuadros generados en el visor de resultados (Output).

Interpretación:

El primer cuadro nos muestra por defecto algunos estadísticos descriptivos relacionados con esta prueba. En él se puede ver un resumen en donde se indica la cantidad de casos que fueron procesados y los que fueron excluidos del análisis (que para nuestro ejemplo no se excluye ninguno)

Resumen del procesamiento de los casos

3821 100,0% 0 ,0% 3821 100,0%AÑOS CUMPLIDOS* SEXO

N Porcentaje N Porcentaje N Porcentaje

Incluidos Excluidos Total

Casos

En el segundo cuadro se puede observar el valor de los 4 estadísticos seleccionados para la variable edad calculados por separado para el grupo de varones y para el grupo de mujeres (ya que se utilizó la variable sexo como variable de agrupación)

Page 29: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

30

Informe

AÑOS CUMPLIDOS

30,03 21,179 1742 45,6%

33,30 22,518 2079 54,4%

31,81 21,975 3821 100,0%

SEXOVarón

Mujer

Total

Media Desv. típ. N% del

total de N

2.2.2. Contraste sobre una media

El procedimiento Prueba T para una muestra contrasta si la media de una sola variable difiere de una constante especificada.

Datos: Para contrastar los valores de una variable cuantitativa con un valor de contraste hipotetizado, elija una variable cuantitativa e introduzca un valor de contraste hipotetizado.

Supuestos: Esta prueba asume que los datos están normalmente distribuidos; sin embargo, esta prueba es bastante robusta frente a las desviaciones de la normalidad.

Atención: Antes de realizar el próximo ejemplo aplicamos un filtro “estado = 1” para trabajar con los ocupados

Para utilizar el procedimiento Prueba T para una muestra accedemos a través del menú Analizar / Comparar medias / Prueba T para una muestra... (Analyze / Compare Means / One-Sample T test…) y de esta manera nos encontramos con el siguiente cuadro de diálogo:

La lista de variables contiene un listado con todas las variables del archivo de datos excepto las que tienen formato cadena. Para llevar a cabo un contraste con las especificaciones que el procedimiento tiene establecidas por defecto:

Trasladar a la lista Contrastar variables (Test variable(s)) la/s variable/s cuya media poblacional se desea contrastar.

Indicar el Valor de prueba (Test value) el valor poblacional concreto que se desea contratar. Este valor se utiliza para todas las variables seleccionadas en la lista Contrastar variables.

En el botón Opciones…(Options…) se permite controlar algunos aspectos de este análisis:

Page 30: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

31

Intervalo de confianza (Confidence Interval): k %. Esta opción permite establecer en escala porcentual, el nivel de confianza (1-) con el que deseamos obtener el intervalo de confianza para la diferencia entre la media muestral y el Valor de prueba. El valor de k es, por defecto, 95, pero es posible seleccionar cualquier otro valor comprendido entre 0,01 y 99,99.

Valores perdidos (Missing values): Podemos optar entre dos formas diferentes de tratar los casos con valores perdidos:

o Excluir casos según análisis (Exclude cases analysis by analysis). Esta opción excluye de cada análisis (de cada prueba T) los casos con valor perdido en la variable concreta que se está contrastando.

o Excluir casos según lista (Exclude cases listwise). Esta opción excluye de todos los análisis los casos con algún valor perdido en cualquiera de las variables seleccionadas en la lista Contrastar variables.

A continuación realizaremos un ejemplo para este procedimiento.

- Trasladamos la variable “Ingreso total individual” [p47t] a la lista Contrastar variables(Test variables) y asignamos un Valor de prueba (Test value) igual a 330.

- Luego damos click en Aceptar (Ok) y observamos los cuadros generados en el visor de resultados (Output).

Interpretación:

La Hipótesis nula (H0) que se plantea en esta prueba nos dice que “las medias de las poblaciones comparadas son iguales”. En este caso bien la podemos enunciar como : “la diferencia entre la media de la población y el valor de prueba es nula” o bien como “la media de la población es igual al valor de prueba”

Page 31: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

32

El primer cuadro nos muestra por defecto algunos estadísticos descriptivos relacionados con esta prueba.

Estadísticos para una muestra

1314 451,51 502,200 13,854INGRESO TOTALINDIVIDUAL

N MediaDesviación

típ.Error típ. de

la media

En el segundo cuadro nos encontramos con los resultados de la prueba para una muestrapropiamente dicha.

Prueba para una muestra

8,771 1313 ,000 121,51 94,33 148,69INGRESO TOTALINDIVIDUAL

t gl Sig. (bilateral)Diferenciade medias Inferior Superior

Intervalo de confianzapara la diferencia

(95%)

Valor de prueba = 330

Se encuentra el valor calculado para el estadístico t que en nuestro ejemplo es 8,771.

Los grados de libertad (gl = N-1) que junto con el nivel de significación alfa (en el SPSS se define como intervalo de confianza en %) se utilizan para entrar en la tabla de la distribución t y de esta manera comparar con el valor obtenido para t en nuestra prueba y así determinar la aceptación o el rechazo de la Hipótesis nula. En nuestro ejemplo para gl = 1313 y alfa = 0,05

La Significación bilateral nos indica directamente (sin necesidad de recurrir a la tabla) la probabilidad de que la hipótesis nula sea cierta. Para nuestro ejemplo, es la probabilidad de obtener una media en la población igual al valor de prueba. Siendo este valor en nuestro ejemplo igual a 0,000 determinamos el rechazo de la hipótesis nula.

La Diferencia de medias es la diferencia entre la media de la muestra y el valor de prueba.

El Intervalo de confianza para la diferencia nos indica los valores entre los cuales puede oscilar la diferencia de medias con una confiabilidad igual al porcentaje que hayamos indicado en el botón opciones en intervalo de confianza. Nos dice: “Podemos asegurar con una confiabilidad del 95% (o del % que se haya indicado) que la media poblacional se encuentra comprendida entre:

(Valor de prueba + Lím. Inferior) y (Valor de prueba + Lím. Superior)( 330 + 94,33 ) y ( 330 + 148,69 ) , o sea, entre: 424,33 y 478,69.

2.2.3. Contraste sobre dos medias independientes

El procedimiento Prueba T para muestras independientes permite contrastar hipótesis referidas a la diferencia de las medias de dos grupos de casos. Para esta prueba, idealmente los sujetos deben asignarse aleatoriamente a dos grupos.

Page 32: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

33

Datos: Los valores de la variable cuantitativa de interés se hallan en una única columna del archivo de datos. El procedimiento utiliza una variable de agrupación con dos valores para separar los casos en dos grupos. La variable de agrupación puede ser numérica (valores como 1 y 2, o 6,25 y 12,5) o de cadena corta (como SÍ y NO). También puede usar una variable cuantitativa, como la EDAD, para dividir los casos en dos grupos especificando un punto de corte (el punto de corte 21 divide la EDAD en un grupo de menos de 21 años y otrode más de 21).

Supuestos: Para la prueba t de igualdad de varianzas, las observaciones deben ser muestras aleatorias independientes de distribuciones normales con la misma varianza de población. Para la prueba t de varianzas desiguales, las observaciones deben ser muestras aleatorias independientes de distribuciones normales. La prueba t para dos muestras es bastante robusta a las desviaciones de la normalidad.

Para utilizar el procedimiento Prueba T para muestras independientes accedemos a través del menú Analizar / Comparar medias / Prueba T para muestras independientes (Analyze / Compare Means / Independent-Samples T test…) y nos encontramos con el cuadro de diálogo:

La lista de variables contiene un listado con todas las variables numéricas y de cadena corta del archivo de trabajo. Para llevar a cabo un contraste con las especificaciones que el procedimiento tiene establecidas por defecto:

Trasladar a la lista Contrastar variables (Test variable(s)) la/s variable/s en la que desea comparar los grupos. Todas estas variables deben ser de tipo numérico. Cada variable seleccionada genera una prueba T acompañada de su nivel crítico y del intervalo de confianza para la diferencia entre las medias.

Trasladar al cuadro Variable de agrupación (Grouping variable) la variable que define los grupos que se desean comparar. Esta variable puede ser de tipo numérico o de cadena corta.

Definir grupos (Define Groups). Tras seleccionar una variable de agrupación, es necesario iniciar cuáles son los códigos que definen los dos grupos que se desea comparar. Para ello:

Pulsar el botón Definir Grupos… (Define Groups…) para acceder al subcuadro de diálogo Definir grupos (Define Groups) que se muestra a continuación:

Page 33: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

34

o Usar valores especificados (Use specified values). Si la variable de agrupación posee códigos que definen los dos grupos que deseamos comparar, esos códigos deben introducirse en los cuadros de texto Grupo 1 y Grupo 2 (Group 1, Group 2). Los casos que posean otros códigos serán excluidos del análisis.

o Punto de corte (Cut point). Si se desea utilizar como variable de agrupación una variable cuantitativa continua, esta opción permite introducir un valor como punto de corte: los casos con puntuación igual o mayor que el punto de corte forman un grupo; el resto de los casos forman el otro grupo. Esta opción no está disponible si, como variable de agrupación, se elige una variable de tipo cadena corta.

En el botón Opciones…(Options…) se permite controlar algunos aspectos de este análisis:

Intervalo de confianza (Confidence Interval): k %. Esta opción permite establecer, en escala porcentual, el nivel de confianza (1-) con el que deseamos obtener el intervalo de confianza para la diferencia entre la media muestral y el Valor de prueba. El valor de k es, por defecto, 95, pero es posible seleccionar cualquier otro valor comprendido entre 0,01 y 99,99.

Valores perdidos (Missing values): Podemos optar entre dos formas diferentes de tratar los casos con valores perdidos:

o Excluir casos según análisis (Exclude cases analysis by analysis). Esta opción excluye de cada análisis (de cada prueba T) los casos con valor perdido en la variable concreta que se está contrastando.

o Excluir casos según lista (Exclude cases listwise). Esta opción excluye de todos los análisis los casos con algún valor perdido en cualquiera de las variables seleccionadas en la lista Contrastar variables.

A continuación realizaremos un ejemplo para este procedimiento.

Para este ejemplo mantendremos aplicado el filtro “estado = 1”

- Accedemos a través del menú Analizar / Comparar medias / Prueba T para muestras independientes… ( Analyze / Compare Means / Independent-Samples T test…)

Page 34: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

35

- Trasladamos la variable “Ingreso total individual” [p47t] a la lista Contrastar variables(Test variable(s))

- Trasladamos la variable [sexo] al cuadro Variable de agrupación (Grouping variables).

- Pulsamos el botón Definir Grupos… (Define Groups…)

o Usar valores especificados (Use specified values). Introducimos el valor 1 para el Grupo 1 y el valor 2 para el Grupo 2

- Hacemos click en Continuar (Continue) y Luego en Aceptar (Ok) y observamos los cuadros generados en el visor de resultados (Output).

Interpretación:

La Hipótesis nula (H0) que se plantea en esta prueba nos dice que “las medias de las poblaciones comparadas son iguales”.

El primer cuadro nos muestra por defecto algunos estadísticos descriptivos relacionados con esta prueba.

Page 35: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

36

Estadísticos de grupo

787 488,65 504,990 18,001

527 396,05 493,296 21,488

SEXOVarón

Mujer

INGRESO TOTALINDIVIDUAL

N MediaDesviación

típ.Error típ. de

la media

En el segundo cuadro nos encontramos con los resultados de la prueba de muestras independientes propiamente dicha.

Prueba de muestras independientes

7,445 ,006 3,288 1312 ,001 92,592 28,162 37,345 147,840

3,303 1145,7 ,001 92,592 28,032 37,593 147,592

Se han asumidovarianzas iguales

No se hanasumido varianzasiguales

INGRESOTOTALINDIVIDUAL

F Sig.

Prueba deLevene para

la igualdad devarianzas

t glSig.

(bilateral)

Diferencia de

medias

Errortíp. de

ladiferen

cia Inferior Superior

95% Intervalo deconfianza para la

diferencia

Prueba T para la igualdad de medias

La t y los gl se calculan de distinta manera para varianzas iguales que para varianzas desiguales. Es por eso que en primer lugar nos encontramos con la Prueba de Levene para la igualdad de las varianzas . Dicho test da un valor F que relaciona ambas varianzas muestrales indicándonos la homogeneidad de las mismas. Si el valor de F se aproxima a 1 entonces las varianzas serán similares, a mayor valor de F mayor diferencia entre las varianzas.

La HF postula que “las varianzas de las subpoblaciones son iguales”.

El nivel de significancia (Sig.) nos indica la probabilidad de que se cumpla la HF. Un valor mayor a 0,05 nos indica que se debe aceptar esta hipótesis.

A partir de aquí estudiamos el cuadro siguiendo la fila que indica que se han asumido varianzas iguales o desiguales según corresponda. En nuestro ejemplo el nivel de significancia es igual a 0,006 o sea mucho menor que 0,05 con lo cual rechazamos la HF y asumimos varianzas desiguales (o sea que leemos los valores de la segunda fila).

El análisis que se hace de los demás valores de la tabla es el mismo que se hizo para Contraste sobre una media.

Nota: Las diferencias de ingresos medios pueden estar sometidas a la influencia de factores como los estudios y no solamente el sexo. En estas situaciones, debe asegurarse de que las diferencias en otros factores no enmascaren o resalten una diferencia significativa entre las medias.

Page 36: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

37

2.2.4. Análisis de varianza de un factor

El procedimiento ANOVA de un factor genera un análisis de varianza de un factor para una variable dependiente cuantitativa respecto a una única variable de factor (la variable independiente). El análisis de varianza se utiliza para contrastar la hipótesis de que varias medias son iguales. Esta técnica es una extensión de la prueba t para dos muestras.

Datos: Los valores de la variable de factor deben ser enteros y la variable dependiente debe ser cuantitativa.

Supuestos: Cada grupo es una muestra aleatoria independiente procedente de una población normal. El análisis de varianza es robusto a las desviaciones de la normalidad, aunque los datos deberán ser simétricos. Los grupos deben proceder de poblaciones con varianzas iguales. Para contrastar este supuesto, se utiliza la prueba de Levene de homogeneidad de varianzas.

Para utilizar el procedimiento ANOVA de un factor accedemos a través del menú Analizar / Comparar medias / ANOVA de un factor... (Analyze / Compare Means / One-Way ANOVA…) y nos encontramos con el cuadro de diálogo:

La lista de variables contiene un listado con todas las variables numéricas del archivo de trabajo (No figuran las variables de cadena). Para llevar a cabo un ANOVA de un factor con las especificaciones que el procedimiento tiene establecidas por defecto:

Trasladar a la lista Dependientes (Dependent List) la/s variable/s en la que desea comparar los grupos. Se generará un ANOVA de un factor para cada una de las variables seleccionadas.

Trasladar al cuadro Factor (Factor) la variable que define los grupos que se desean comparar. Esta variable debe ser categórica (nominal u ordinal).

En el botón Opciones…(Options…) se permite controlar algunos aspectos de este análisis:

Page 37: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

38

Estadísticos (Statistics). Este recuadro incluye algunos estadísticos descriptivos y la prueba de Levene para contrastar la hipótesis de homogeneidad de varianzas:

Descriptivos (Descriptive): Ofrece estadísticos descriptivos referidos tanto a cada grupo como al total muestral: número de observaciones, media, desviación típica, error típico de la media, intervalo de confianza para la media al 95% y valores mínimo y máximo.

Efectos fijos y aleatorios (Fixed and random effects): Muestra la desviación típica, el error típico de la media, intervalo de confianza para la media al 95% para los modelos de efectos fijos, y el error típico de la media, intervalo de confianza para la media al 95% y la varianza entre componentes para los modelos de efectos aleatorios.

Homogeneidad de varianzas (Homogeneity of variance test): El estadístico F del ANOVA de un factor se basa en el cumplimiento de dos supuestos fundamentales: normalidad y homocedasticidad.

Normalidad significa que la variable dependiente se distribuye normalmente en todas las poblaciones muestreadas (tantas como grupos definidos por la variable independiente o factor). No obstante, si los tamaños de los grupos son grandes, el estadístico F se comporta razonablemente bien incluso con distribuciones poblaciones sensiblemente alejadas de la normalidad.

Homocedasticidad o igualdad de varianzas significa que todas las poblaciones muestreadas (tantas como grupos definidos por la variable independiente o factor) poseen la misma varianza. Con grupos de distinto tamaño, el incumplimiento de este supuesto debe ser cuidadosamente vigilado. La opción Homogeneidad de varianzas (Homogeneity of variance test) permite contrastar este supuesto mediante la prueba de Levene.

Los test para igualdad de medias de grupo de Brown-Forsythe y de Welch son preferibles al estadístico de F cuando no se pueden asumir varianzas iguales.

� Gráfico de las medias (Means Plot). Esta opción permite obtener un gráfico de líneas con la variable factor en el eje de abscisas y la variable dependiente en el de ordenadas

Valores perdidos (Missing values): Podemos optar entre dos formas diferentes de tratar los casos con valores perdidos:

Page 38: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

39

o Excluir casos según análisis (Exclude cases analysis by analysis). Esta opción excluye de cada ANOVA los casos que tienen algún valor perdido en la variable factor o en la variable dependiente que está siendo analizada.

o Excluir casos según lista (Exclude cases listwise). Esta opción excluye de todos los ANOVAsolicitados los casos con algún valor perdido en la variable factor o en cualquiera de las variables seleccionadas en la lista Dependientes.

A continuación realizaremos un ejemplo para este procedimiento.

Para este ejemplo mantendremos aplicado el filtro “estado = 1”

- Accedemos a través del menú Analizar / Comparar medias / ANOVA de un factor...(Analyze / Compare Means / One-Way ANOVA…)

- Trasladamos la variable “Ingreso total individual” [p47t] a la lista Dependientes(Dependent List)

- Trasladamos la variable “Máximo nivel que cursa o cursó” [nivel] al cuadro Factor (Factor)

- Luego presionamos el botón Opciones (Options) y seleccionamos Descriptivos(Descriptives).

Page 39: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

40

- Hacemos click en Continuar (Continue) y Luego en Aceptar (Ok) y observamos los cuadros generados en el visor de resultados (Output).

Interpretación:

La Hipótesis nula (H0) que se plantea en esta prueba nos dice que “las medias de los grupos comparados son iguales”. Es decir que toda la varianza de los ingresos es atribuible a otros factores, independientes del nivel educativo, lo cual implica que los promedios poblacionales de ingresos son iguales en todos los niveles educativos, y que la varianza entre los grupos es igual a cero.

El primer cuadro nos muestra por defecto algunos estadísticos descriptivos relacionados con esta prueba.

Descriptivos

INGRESO TOTAL INDIVIDUAL

10 167,50 96,875 30,634 98,20 236,80 10 300

360 267,75 217,963 11,488 245,16 290,34 0 1800

128 294,34 275,218 24,326 246,20 342,47 0 1500

215 397,03 346,911 23,659 350,39 443,66 0 2000

34 353,26 343,509 58,911 233,41 473,12 0 1500

135 451,21 422,449 36,359 379,30 523,12 0 3000

26 308,96 262,121 51,406 203,09 414,83 0 1000

96 568,48 473,454 48,322 472,55 664,41 0 2950

307 769,22 761,574 43,465 683,69 854,75 0 5900

3 166,67 288,675 166,667 -550,44 883,78 0 500

1314 451,51 502,200 13,854 424,33 478,69 0 5900

preescolar

primario

nacional

comercial

normal

técnica

otra enseñanza media

superior

universitaria

9

Total

N MediaDesviación

típica Error típico Límite inferiorLímite

superior

Intervalo de confianza parala media al 95%

Mínimo Máximo

En el segundo cuadro nos encontramos con los resultados del Análisis de Varianza propiamente dicho.

Page 40: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

41

ANOVA

INGRESO TOTAL INDIVIDUAL

50165019,152 9 5573891,017 25,868 ,000

280979675,219 1304 215475,211

331144694,371 1313

Inter-grupos

Intra-grupos

Total

Suma decuadrados gl

Mediacuadrática F Sig.

Se presenta la Suma de cuadrados (es decir la suma de las diferencias respecto a la media, elevadas al cuadrado) entre los grupos (Inter-grupos, varianza explicada) y dentro de los grupos (o varianza residual).

Los grados de libertad Inter-grupos (gl = cant. grupos – 1) e Intra-grupos (gl = N-1).

La Media cuadrática es el promedio de la suma de cuadrados obtenida como la suma de cuadrados / grados de libertad.

El valor que obtenemos de F que nos permite verificar la aceptación o rechazo de la Hipótesis nula (H0) se calcula como el cociente: media cuadrática Inter-grupos / media cuadrática Intra-grupos)

La Significación es la probabilidad asociada a ese valor de F. Siendo este valor igual a 0,000 determinamos el rechazo de la hipótesis nula, y se concluye que a nivel del universo de referencia el nivel educativo es un factor significativo para explicar las diferencias de ingreso.

Nota: Para calcular qué porcentaje de la variable dependiente es explicada por la variable independiente puede realizarse un cuadro como el siguiente:

Suma de cuadrados Porcentaje de la varianzaInter-grupos(Varianza explicada) 50165019,152 15,1%Intra-grupos(Varianza residual) 280979675,219 84,9%

Total 331144694,371 100%

En este cuadro se calcula qué porcentaje corresponde a la Varianza explicada y qué porcentaje corresponde a la Varianza residual sobre el Total de la Varianza. De esta manera se puede decir que un 15,1% de la variabilidad de ingresos es atribuible al nivel educativo. Resta explicar el 84,9% con otras variables independientes.

2.2.5. Correlaciones Bivariadas

El procedimiento Correlaciones Bivariadas estudia la relación entre variables cuantitativas y permite calcular el coeficiente de correlación de Pearson, la rho de Spearman y la tau-b de Kendall con sus niveles de significación.

Las correlaciones miden cómo están relacionadas las variables o los órdenes de los rangos. Antes de calcular un coeficiente de correlación, inspeccione los datos para detectar valores atípicos (que pueden producir resultados equívocos ) y evidencias de una relación lineal.

Datos: Utilice variables cuantitativas simétricas para el coeficiente de correlación de Pearson y variables cuantitativas o variables con categorías ordenadas para la rho de Spearman y la tau-b de Kendall.

Page 41: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

42

Supuestos: El coeficiente de correlación de Pearson asume que cada pareja de variables es normal bivariada.

Para utilizar el procedimiento Correlaciones Bivariadas accedemos a través del menú Analizar / Correlaciones / Bivariadas... (Analyze / Correlate / Bivariate…) y nos encontramos con el siguiente cuadro de diálogo:

La lista de variables contiene un listado con todas las variables numéricas del archivo de trabajo (No figuran las variables de cadena). De este cuadro de diálogo es posible obtener varios coeficientes de correlación y algunos estadísticos descriptivos básicos. Para ello:

Trasladar a la lista Variables (Variables) la/s variable/s cuyo grado de relación se desea estudiar. Es necesario trasladar el menos dos variables.

Coeficientes de correlación (Correlation coefficients).

Los valores de los coeficientes de correlación varían entre -1 y 1. El signo del coeficiente indica la dirección de la relación. Su valor absoluto indica la intensidad. Los valores absolutos mayores indican que la

relación es más estrecha.

� Pearson. Medida de asociación lineal entre dos variables medidas en un nivel por intervalos o de razón: Dos variables pueden estar perfectamente relacionadas, pero si la relación no es lineal, el coeficiente de correlación de Pearson no será un estadístico adecuado para medir su asociación.

� Tau b de Kendall. Medida no paramétrica de asociación para variables ordinales o de rangos que tiene en consideración los empates. Un valor de -1 o +1 sólo se puede obtener a partir de tablas cuadradas.

� Spearman. Versión no paramétrica del coeficiente de correlación de Pearson, que se basa en los rangos de los datos en lugar de hacerlo en los valores reales. Resulta apropiada para datos ordinales, o los de intervalo que no satisfagan el supuesto de normalidad.

Prueba de significación (Test of Significance).

Page 42: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

43

Junto con cada coeficiente de correlación se presenta la información necesaria para contrastar la hipótesis nula de que el valor poblacional del coeficiente es cero.

o Bilateral (Two-tailed) Opción apropiada para cuando no existen expectativas sobre la dirección de la relación. Indica la probabilidad de obtener coeficientes tan extremos como el obtenido, y en cualquier dirección, cuando la hipótesis nula es cierta. Un nivel de significación bilateral (de dos colas) contrasta una hipótesis nula en la que la dirección del efecto no se especifica de antemano.

o Unilateral. (One-tailed). Opción apropiada para cuando existen expectativas sobre la dirección de la relación. Indica la probabilidad de obtener coeficientes tan extremoscomo el observado, y en la misma dirección, cuando la hipótesis nula es cierta. Contrasta la hipótesis nula en la que se especifica con antelación la dirección del efecto.

� Marcar las correlaciones significativas. Marca con un asterisco los coeficientes de correlación significativos al nivel 0,05 y, con dos asteriscos, los significativos al nivel 0,01.

En el botón Opciones…(Options…) se permite controlar algunos aspectos de este análisis:

Estadísticos (Statistics). Si se ha elegido el coeficiente de correlación de Pearson, este recuadro permite seleccionar una o más de las siguientes opciones:

� Medias y desviaciones típicas (Means and Standard deviations). Muestra, para cada variable, la media aritmética, la desviación típica insesgada y el número de casos válidos

� Productos cruzados y covarianzas. (Cross-products deviations and covariances). Muestra, para cada par de variables, el numerador del coeficiente de correlación de Pearson (es decir, los productos cruzados de las desviaciones de cada puntuación respecto a su media) y ese mismo numerador dividido por n-1 (es decir, la covarianza).

Valores perdidos (Missing values): Podemos optar entre dos formas diferentes de tratar los casos con valores perdidos:

o Excluir casos según pareja (Exclude cases pairwise). Se excluyen del cálculo de cada coeficiente de correlación los casos con valor perdido en alguna de las dos variables que se están correlacionando.

Page 43: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

44

o Excluir casos según lista (Exclude cases listwise). Se excluyen del cálculo de todos los coeficientes de correlación los casos con valor perdido en cualquiera de las variables seleccionadas.

A continuación realizaremos un ejemplo para este procedimiento.

Atención: Para este ejemplo desactivamos todos los filtros que puedan estar activos.

- Accedemos a través del menú Analizar / Correlaciones / Bivariadas... (Analyze / Correlate / Bivariate…)

- Trasladamos al cuadro Variables las siguientes variables del archivo de trabajo:

AÑOS CUMPLIDOS [edad] INGRESO TOTAL INDIVIDUAL [p47t] MONTO DEL INGRESO TOTAL FAMILIAR [itf] MONTO DEL INGRESO PER CAPITA FAMILIAR [ipcf] CANTIDAD DE PERSONAS EN EL HOGAR [pob_tot]

- Hacemos click en Aceptar (Ok) y observamos los cuadros generados en el visor de resultados (Output).

Interpretación:

La Hipótesis nula (H0) que se plantea en esta prueba es de independencia lineal y se puede enunciar como “el coeficiente de correlación vale cero en la población”.

La Hipótesis alternativa a probar es correlacional del tipo “A mayor X, mayor Y” , “A mayor X, menor Y”.

Page 44: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

45

La prueba en sí no considera a una variable como independiente y a otra como dependiente, ya que no se trata de una prueba que evalúa la causalidad.

El siguiente cuadro ofrece la información referida al coeficiente de correlación de Pearson:

Correlaciones

1 ,346** ,037* ,185** -,369**

,000 ,025 ,000 ,000

3821 3821 3585 3821 3821

,346** 1 ,469** ,583** -,186**

,000 ,000 ,000 ,000

3821 3821 3585 3821 3821

,037* ,469** 1 ,804** ,037*

,025 ,000 ,000 ,027

3585 3585 3585 3585 3585

,185** ,583** ,804** 1 -,304**

,000 ,000 ,000 ,000

3821 3821 3585 3821 3821

-,369** -,186** ,037* -,304** 1

,000 ,000 ,027 ,000

3821 3821 3585 3821 3821

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

AÑOS CUMPLIDOS

INGRESO TOTALINDIVIDUAL

MONTO DEL INGRESOTOTAL FAMILIAR

MONTO DEL INGRESOPER CAPITA FAMILIAR

CANTIDAD DEPERSONAS EN ELHOGAR

AÑOSCUMPLIDOS

INGRESOTOTAL

INDIVIDUAL

MONTO DELINGRESO

TOTALFAMILIAR

MONTO DELINGRESO

PER CAPITAFAMILIAR

CANTIDADDE

PERSONASEN EL

HOGAR

La correlación es significativa al nivel 0,01 (bilateral).**.

La correlación es significante al nivel 0,05 (bilateral).*.

Cada celda contiene tres valores referidos al cruce entre cada dos variables:

Correlación de Pearson: El valor del coeficiente de correlación de Pearson. Sig. (Bilateral): El nivel crítico bilateral que corresponde a ese coeficiente. N: El número de casos válidos sobre el que se han efectuado los cálculos.

Rechazaremos la hipótesis nula de independencia (y concluiremos que existe relación lineal significativa) cuando el nivel crítico (Sig.) sea menor que el nivel de significación establecido (si se establece 0,05 entonces se tiene un 95% de confianza en que la correlación sea verdadera y 5% de probabilidad de error. Si fuera menor que 0,01 tendríamos un 99% de confianza y un 1% de probabilidad de error)

En nuestro ejemplo hemos resaltado con colores tres situaciones particulares:

En verde una correlación significativa entre la variable “años cumplidos” y la variable “Ingreso total individual”. Esta correlación tiene una intensidad de 0,346 en el rango de 0 a 1, es una relación directa, es decir, del tipo “A mayor edad, mayor ingreso” ya que su signo es positivo, y es significativa al 99% ya que presenta un nivel crítico (Sig) igual a 0,000.

Page 45: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

46

En rojo una correlación significativa entre la variable “años cumplidos” y la variable “Cantidad de personas en el hogar”. Esta correlación tiene una intensidad de 0,369 en el rango de 0 a 1, el signo negativo indica que es una relación inversa, es decir, del tipo “A mayor edad del sujeto, menor cantidad de personas en su hogar”, y es significativa al 99% ya que presenta un nivel crítico (Sig) igual a 0,000.

En amarillo una correlación poco significativa entre la variable “Ingreso total familiar” y la variable “Cantidad de personas en el hogar”. Esta correlación tiene una intensidad muy baja de solo 0,037 en el rango de 0 a 1, el signo positivo indica que es una relación directa, es decir, del tipo “A mayor cantidad de personas en el hogar, mayor Ingreso Total familiar”, y es significativa al 95% ya que presenta un nivel crítico (Sig) igual a 0,027.Concluimos que existe una correlación entre ambas variables pero de una intensidad tan baja que la torna insignificante.

En el mismo cuadro se encuentran correlaciones con coeficientes más altos que los resaltados, sin embargo, esto se debe a que una de estas variables ha sido calculada a partir de la otra con la cual existe una correlación tan alta.

A continuación se presenta una clasificación del grado de correlación:

Correspondencia entre el grado de correlación y el valor de r

r menor que 0,200 Correlación leve, casi insignificante.r de 0,200 a 0,400 Baja correlación, definida, pero baja.

r de 0,400 a 0,700 Correlación moderada, sustancial.r de 0,700 a 0,900 Correlación marcada, alta.

r de 0,900 a 1,000 Correlación altísima, muy significativa.

Consideración Importante: elevando el coeficiente de Pearson al cuadrado (r2) se obtiene la varianza de factores comunes, es decir, el porcentaje de la variación de una variable debido a la variación de la otra.

Page 46: Manual SPSS 13.0 Tomo_2

Análisis Estadístico con SPSS versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte

47

Bibliografía

Briones, G. “Métodos y Técnicas de Investigación para las Ciencias Sociales”. México, Limusa, 1982.

Carrión Sánchez, Juan Javier “Manual de análisis de datos”. Madrid, Alianza Editorial, 1995.

Hernández Sampieri R., Fernández Collado C., Baptista Lucio P. “Metodología de la Investigación”. Colombia, McGrawHill, 1994.

Galtung J “Teoría y Métodos de Investigación Social”, tomo I y II. Buenos Aires, Eudeba, 1973.