20
Primera guía de Ayudantía Estadística II Profesor Rodrigo Asún Ayudante Cristian Sandoval Contenido: I) Creación de una base de datos en SPSS II) Importar y exportar bases de datos (SPSS – EXCEL) III) Tratamiento casos perdidos IV) Tablas de frecuencias, descriptivos y tablas personalizadas V) Seleccionar casos VI) Ponderación de casos VII) Recodificar una variable VIII) Calcular variables _________________________________________________________ I. Creación de una base de datos en SPSS. En vista de variables, de izquierda a derecha: 1) Nombre: Corresponde al código de la variable, el cuál es usado para los procesamientos estadísticos con posterioridad (en la sintaxis, por ejemplo). Este nombre no puede tener espacios y es importante generar un registro donde se señale qué significa cada código (generalmente estos códigos se extraen del cuestionario, ejemplo: P1.a).

Guía básica de SPSS

Embed Size (px)

DESCRIPTION

Guía básica de SPSS

Citation preview

Primera gua de Ayudanta Estadstica IIProfesor Rodrigo AsnAyudante Cristian Sandoval Contenido:I) Creacin de una base de datos en SPSSII) Importar y exportar bases de datos (SPSS EXCEL)III) Tratamiento casos perdidosIV) Tablas de frecuencias, descriptivos y tablas personalizadasV) Seleccionar casosVI) Ponderacin de casosVII) Recodificar una variableVIII) Calcular variables

_________________________________________________________

I. Creacin de una base de datos en SPSS.

En vista de variables, de izquierda a derecha:1. Nombre: Corresponde al cdigo de la variable, el cul es usado para los procesamientos estadsticos con posterioridad (en la sintaxis, por ejemplo). Este nombre no puede tener espacios y es importante generar un registro donde se seale qu significa cada cdigo (generalmente estos cdigos se extraen del cuestionario, ejemplo: P1.a).1) Tipo: Sirve para asignar el tipo de variable con el que trabajaremos, por defecto es de tipo numrico, pero tambin se usan variables en cadena (con texto en lugar de nmeros)2) Anchura: Nmero de caracteres que permite cada una de las casillas de la vista de datos (tanto en nmeros como en letras)*Nota: estos tres primeros puntos son los esenciales para comenzar la digitacin de las respuestas. Para ello debe irse a la opcin Vista de Variables, en donde los sujetos van en las filas y las variables en las columnas.3) Decimales: Nmero de decimales que mostrar cada nmero en las casillas de la vista de datos4) Etiqueta: Nombre completo de la variable o pregunta. Adems ser la frase que aparecer en las salidas estadsticas.5) Valores: Corresponde a las categoras de la variable, las cuales se ingresan en una tabla como la siguiente (si no se incluyen es esta tabla, los valores sern aquellos incluidos en vista de datos, es decir, hay valores que estn por defecto; se pone cuando el valor no es autoexplicativo):

En esta tabla se ingresa un determinado valor numrico que representa el valor indicado en la etiqueta. NOTA: Para el caso de las variables de escala (intervalo y razn), tales como la edad, no suelen usarse las etiquetas de valor, salvo para designar los valores perdidos.6) Perdidos: En esta ventana se deben ingresar todas las categoras que sern consideradas como valores perdidos en los procedimientos estadsticos, no hacerlo puede introducir distorsiones en clculos estadsticos tan simples como la media, adems de impedir realizar algn tipo de tratamiento de valores perdidos, como por ejemplo el reemplazo por la media.

7) Columnas: Propiedad de formato, solamente sirve para ampliar el tamao de las columnas (Variables) en la vista de datos.

8) Alineacin: Propiedad de formato, sirve para ordenar los datos de una determinada forma en la vista de datos (hacia la izquierda, centro o derecha)

9) Medida: En esta propiedad se debe ingresar el nivel de medida de la variable en cuestin, que puede ser nominal, ordinal o escalar. Esto es importante para el tipo de anlisis que podemos y no podemos hacer con una determinada variable.

10) Rol: Sirve para indicar la forma en que se trabajar la variable: Entrada: Variable independiente Destino: Variable dependiente Ambos: Dependiente e independiente Ninguna: No hay un rol asignado Particin: La variable servir para dividir en distintas muestrasIngreso de variables en sintaxis:*En primer lugar se debe crear una variable escribiendo un cdigo que la identifique, en este caso el cdigo es PRUEBA, de modo que queda como en la siguiente imagen.

Luego, de todas las propiedades que posee la variable, las ms importantes a designar son su etiqueta (VARIABLE LABELS), nivel de medicin (VARIABLE LEVEL) y valores (VALUE LABELS), los cuales se ingresan en sintaxis del siguiente modo:NOTA: al escribir la etiqueta de la variable en sintaxis, esta debe ir entre comillas ( ) para ser reconocida.

Algunas reglas generales sobre la sintaxis:

a) Todo comando ingresado en una sintaxis debe terminar con un punto .b) Para poder ordenarse, es til generar comentarios que describan los procedimientos que se estn realizando en la sintaxis, para hacer esos comentarios se ingresa el smbolo *, tal y como muestra el ejemplo (Los comentarios tambin deben terminar con un punto).c) Para asegurarse de que un comando est terminado y bien ingresado, SPSS lo marca con color azul. Por otra parte, si el comando se mantiene en color rojo indica que an no est bien terminado.d) El SPSS puede dar mensajes de error, lo que no solucionar el problema, sino que servir de informativo sobre dnde est el problema.

Algunas ventajas de usar sintaxis:a) Muy til para trabajos a distancia.b) Hace ms fcil el trabajo con grandes agregados de variables.c) Importante si se quiere reconstruir el trabajo de otro investigador.d) Facilita el entendimiento de otros programas estadsticos.

II. Importar y exportar bases de datos (SPSS EXCEL / SPSS TEXTO)

1) Para importar datos desde una plantilla de Excel a SPSS se debe seguir la siguiente ruta en el SPSS: Archivo Abrir Datos

Se selecciona el tipo de datos de Excel (.xls, .xlsx, .xlsm) y el archivo que se desea importar.

Luego, SPSS nos da la posibilidad de elegir el rango de celdas que se desea importar (el cual debe encontrarse dentro del rango que aparece entre parntesis en el nombre de la hoja de trabajo a importar). Por otra parte, SPSS marca por defecto la opcin de que la primera fila de la plantilla Excel sea la que defina el nombre de las variables. La anchura (nmero de caracteres aceptados por casilla) viene con un amplio rango por defecto, por lo que no es necesario modificarla.2) Para exportar una base de datos desde SPSS a Excel basta con pedir al programa que guarde el archivo en formato Excel, lo que se hace mediante la ruta:Archivo Guardar como

Debe seleccionarse el tipo de archivo en el que se desea guardar (.xls, .xlsx) y asignarle un nombre al archivo nuevo.3) Puede tambin exportarse una base de datos al formato .csv, que corresponde al formato de texto que se abre en el block de notas. Varios softwares como R y MPlus requieren de este formato para utilizar una base de datos de SPSS. Antes debe modificarse la longitud que debe ser una ms de la longitud posible de la variable (Por ejemplo en la variable ao se dejaran 5 columnas) y los decimales que deben quedar en 0. Para ello se hace lo siguiente:

Archivo Guardar como

III. Tratamiento casos perdidosComo ya se mostr anteriormente, los casos perdidos deben seleccionarse en la columna de Perdidos en la vista de variables, la cual muestra la siguiente tabla:

*Nota: Se suelen diferenciar dos valores perdidos (en este caso 8 y 9) porque uno alude a aquellos casos que no respondieron, y el otro a aquellos casos a los que no les correspondi esa variable (si deba cumplirse alguna condicin). Adems, suele usarse el valor 99 como perdido para evitar confusiones con los dems valores.Luego de hacer este procedimiento, es posible buscar otras opciones que permitan reemplazar los valores perdidos, la ms comn de ellas es reemplazar por la media. La forma de realizar esto es por la siguiente ruta: Transformar Reemplazar valores perdidos

En esta tabla se debe seleccionar la variable a la cual se le desean reemplazar sus valores perdidos. Luego se puede seleccionar un nombre para la nueva variable (SPSS genera un nombre por defecto, que puede reemplazarse con el botn cambiar), adems del mtodo para reemplazar los valores perdidos: Media de series: La ms comn, se reemplazan los valores perdidos por el promedio de todos los casos en la variable que se est analizandoCuando se completa el proceso, SPSS genera una nueva variable (con el nombre que le asignamos en la tabla anterior) en la cual los datos que antes eran perdidos (8 y 9 generalmente), toman un nuevo valor segn el mtodo de reemplazo que seleccionamos (generalmente la media de todos los dems casos). Para ocupar este mtodo, debe saberse primero si la razn de estos valores perdidos responde a razones especficas o a la aleatoriedad. Slo sabiendo esto pueden hacerse inferencias y tomarse decisiones al respecto. Importante tener en cuenta que la imputacin de valores perdidos distorsiona la generalidad de los datos, alterando la distribucin de los casos en la imputacin por medias (ya que se concentran muchos ms casos en esta), sobre todo cuando los valores perdidos son muchos (se recomienda no usar imputacin si los valores perdidos superan el 20%)

IV. Tablas de frecuencia, descriptivos y tablas personalizadas

1) Para describir una variable lo ms comn es utilizar tablas de frecuencia que pueden incluir:a) Frecuencia absoluta: nmero de casos por categora.b) Frecuencia relativa: nmero de casos por categora dividido en los casos totales.c) Frecuencia acumulada (absoluta o relativa): la suma de frecuencia de la categora, con las categoras anteriores.2) En trminos de tablas de frecuencia, existen dos formas de pedirlas, la primera es mediante la ruta: Analizar Estadsticos descriptivos Frecuencias

El modo de funcionamiento es bastante simple, se ingresan en la tabla variables todas las variables que se desea someter a anlisis. En cuanto a las dems opciones, las ms importantes son: Estadsticos: en donde es posible pedir las medidas de tendencia central (media, moda y mediana), dispersin (desviacin estndar, varianza, entre otras), distribucin (asimetra y curtosis) y los valores percentiles que se deseen obtener. Estos mismos estadsticos pueden obtenerse mediante una tabla de estadsticos descriptivos. Grficos: Es posible pedir 3 tipos de grfico, de los cules el ms til es el histograma, en especial marcando la opcin mostrar curva normal en el histograma. El resto de las opciones no son muy utilizadas para el anlisis a este nivel.Por otra parte, es posible obtener las tablas de frecuencia en sintaxis con el comando FREQUENCIES seguido por la o las variables que se desea medir separadas por un espacio. Adems, pueden pedirse las medidas de tendencia central, desviacin estndar y grficos tal y como se muestra en la imagen.

3) Estadsticos descriptivos: En las versiones ms actualizadas de SPSS se puede pedir de 3 formas, la primera de ellas es con clic derecho sobre la variable que se desea estudiar en la vista de variables (en cualquiera de sus propiedades), en donde se abrir una ventana que ofrece la posibilidad de pedir estadsticos descriptivos.

La segunda opcin es con la ruta: Analizar Estadsticos descriptivos Descriptivos

Al igual que en el caso de las frecuencias, se introduce en la tabla de variables los datos que se desea analizar. En cuanto a sus opciones, estas son solicitar medidas de tendencia central, de dispersin y de distribucin, adems de poder modificar el orden de visualizacin. Otra de las opciones interesantes est en la casilla Guardar valores estandarizados como variables (que est marcada en la imagen precedente), ya que permite crear una nueva variable en la base de datos, en donde los datos son los mismos que la variable analizada, pero en puntaje Z, de modo que quedan estandarizados y susceptibles de un anlisis comparado con otras variables de distinta medida.Por ltimo, pueden obtenerse los estadsticos descriptivos en sintaxis con el comando DESCRIPTIVES, seguido por el cdigo de las variables que se desea analizar, separados por un espacio.

4) Tablas personalizadas: Este tipo de tablas son muy prcticas para obtener una mirada rpida de la forma en que se distribuyen los datos en varias variables, por ejemplo si quiero saber cmo cada sexo evala al gobierno en diversas materias (delincuencia, salud, educacin, etc). De este modo es posible obtener esos indicadores sin tener que pedir un montn de tablas de estadsticos descriptivos.La forma de sacar tablas personalizadas es por la siguiente ruta: Analizar Tablas Tablas personalizadas...

La tabla es bastante dinmica, y los datos pueden ingresarse en el orden que se desee, ya sea en filas o en columnas, sin embargo se recomienda ingresar la variable de agrupacin que se desea comparar (sexo en este caso) en las filas, y las dems variables en las columnas.NOTA: Si se ingresan las variables tal y como estn, el SPSS nicamente permitir anlisis de frecuencia para todas las variables, mientras que las medidas de tendencia central y de dispersin quedarn exclusivamente para las variables de escala. Por este motivo es necesario hacer una pequea trampa para el SPSS, que consiste en cambiar el nivel de medida de las variables que se desea analizar (las nominales y ordinales), para realizar esto se debe hacer clic derecho en las variables antes de ingresarlas a la tabla, y seleccionar la opcin Escala.

Para seleccionar los estadsticos que se desean comparar, se debe hacer clic sobre la tabla y seleccionar el botn de Estadsticos de resumen, en donde se pueden escoger los estadsticos, su formato de presentacin y el nmero de decimales. Luego se debe seleccionar aplicar a todo, para que todas las variables tengan los mismos estadsticos (Fijarse en dar valores por perdido antes de aplicar esto, sino la media se dispara)

La tabla que se obtiene en el presente ejemplo es la siguiente (un menor nmero indica una mejor evaluacin, y uno mayor una peor evaluacin):cmo lo ha hecho el gobierno en delincuencia?cmo lo ha hecho el gobierno en salud?cmo lo ha hecho el gobierno en educacin?

MediaDesviacin estndarMediaDesviacin estndarMediaDesviacin estndar

sexohombre3,67,833,52,893,58,88

mujer3,69,883,62,953,60,94

V. Seleccionar casosEsta herramienta es til para cuando queremos trabajar solamente con una parte de los datos que poseemos, y para eso debemos utilizar una determinada variable para segmentar los casos y seleccionar los que nos interesan. La ruta para este procedimiento es:Datos Seleccionar casosMs all de las operaciones simples y los nmeros, la calculadora de SPSS posee las siguientes funciones que deben comprenderse para filtrar los casos:|o (ms de una condicin posible para seleccionar)

&y (Ms de una condicin necesaria para seleccionar)

Mayor a

=Mayor o igual a

=Diferente a

Negacin lgica

En esta ruta aparece una tabla como la que sigue, en la cual se debe seleccionar la segunda opcin (Si se satisface la condicin), de modo que la seleccin de casos estar condicionada por el resultado que tenga cada caso en la variable o variables que se desea utilizar como filtro.

Para ejemplificar, vamos a suponer que deseamos medir una determinada variable nicamente en los hombres mayores de 24 aos, que pertenezcan al grupo socioeconmico medio o bajo, de modo que necesitamos realizar un filtro que incorpore tres variables: TRAMO EDAD, SEXO y GSE. La frmula para dicho filtro queda como se muestra en la imagen.

A continuacin se muestran las tablas de frecuencia de las variables correspondientes antes de la seleccin de casos (a la izquierda) y despus de la seleccin de casos (a la derecha).

NOTA: Para volver a trabajar con todos los casos, es necesario volver a seguir la ruta Datos Seleccionar casos, y elegir la primera opcin (Todos los casos).VI. Ponderacin de casosEs posible tambin ponderar casos por una variable de pesos con el objeto de que los anlisis estadsticos que se realicen mantengan la ponderacin de aquella variable. Por ejemplo si se ponderara por la variable sexo, y la muestra contara con el doble de hombres que de mujeres, en el resto de anlisis estadsticos los valores de hombres tendrn el doble de peso.

Para la ponderacin se sigue la siguiente ruta:Datos Ponderar casos

Debe seleccionarse la opcin Ponderar casos mediante para luego introducir la variable de acuerdo a la que se ponderar. A partir de esta aplicacin todos los anlisis que se hagan se realizarn tomando en cuenta estas ponderaciones. Para desactivarlo se vuelve al cuadro de dilogo y se selecciona No ponderar casos. Este procedimiento puede tambin realizarse con el comando WEIGHT por sintaxis de la siguiente forma:

VII. Recodificar una variableEste procedimiento puede realizarse de dos formas, la primera de ellas es mediante la siguiente ruta:Transformar Recodificar en diferentes variables * Siempre es recomendable recodificar en variables distintas, para evitar perder informacin al recodificar en la misma variable.

En la tabla anterior, primero se ingresa la variable que se desea recodificar, en este caso la edad de los encuestados. Luego, se ingresa un nombre (cdigo) para la nueva variable y la etiqueta (nombre completo), se selecciona el botn cambiar para concretar el cambio. Ahora solo resta determinar los valores de la nueva variable en base a los anteriores, para ello se selecciona la opcin valores antiguos y nuevos

La forma de operar es bastante simple: Se selecciona un determinado valor antiguo (en la variable de origen), que puede ser un nico valor o un rango de valores, y luego un valor nuevo para la variable recodificada. Cuando todos los valores antiguos tengan un nuevo valor asignado, se coloca continuar y aceptar. Luego, solo resta nombrar las categoras en la vista de variables.Por otra parte, es posible realizar este procedimiento por medio de la sintaxis, mediante los siguientes comandos:WEIGHT OFF (ON): Este comando sirve para apagar o encender el ponderador, de modo que podamos trabajar solo con los datos en su estado normal, sin ponderar.RECODE: El comando de la recodificacin, se ingresa la variable que se desea recodificar, luego entre parntesis los valores antiguos y su equivalente en los valores nuevos. El comando termina con INTO + el nombre de la nueva variable. *TRHU: hasta, sirve para seleccionar un rango de datos. HIGHEST: Hasta el valor ms alto. LOWEST: Hasta el valor ms bajo. SYSMIS: Valores perdidos.EXECUTE: Este comando se ingresa cada vez que se est realizando una operacin que modifica de alguna forma la base de datos, en este caso lo hace creando una nueva variable.

VIII. Calcular variablesEsta herramienta permite crear una nueva variable a partir de algn tipo de operacin con otras variables existentes. Por ejemplo es posible calcular un promedio de una serie de puntajes obtenidos por algn sujeto. La forma de usar esta aplicacin es mediante la siguiente ruta:Transformar Calcular variable

En la variable de destino se coloca un nombre para la nueva variable, mientras que en la expresin numrica se coloca la frmula que representa dicha variable (En este caso el promedio de 5 puntajes). Este procedimiento tambin puede realizarse con el comando COMPUTE en sintaxis, de la siguiente forma:

* Al igual que para la recodificacin de variables, el comando debe terminar con EXECUTE, para aplicar los cambios en la base de datos.