30
1 Práctica3 Cálculo de estadísticos de tendencia central y dispersión a partir de ficheros de encuesta. En esta práctica se obtendrán estadísticos de resumen de variables de intervalo procedentes de encuestas de opinión. La práctica tiene dos fases, en la primera se explicará cómo descargar un fichero con microdatos de una encuesta del CIS mientras que en la segunda parte se calcularán e interpretarán los principales estadísticos de tendencia central y de dispersión. En la primera parte se descargará el fichero .SAV que es el fichero que viene preparado para el análisis. Al final de la práctica hay un anexo en el que se detalla el procedimiento para generar un fichero .SAV. Para el desarrollo de la segunda parte se expondrá primero el desarrollo a través de ventanas de menú y posteriormente se desarrollará el mismo ejercicio para introducir al estudiante en el manejo de comandos de sintaxis. La realización de esta práctica resulta central para conocer los instrumentos básicos para el tratamiento de grandes cantidades de información. En concreto analizaremos algunas variables del Barómetro de Opinión de Septiembre de 2019 (Estudio del CIS nº 3261). En la práctica anterior se explicó como grabar manualmente los datos de una variable. Ahora nos situaremos en el caso en que los datos procedentes de los cuestionarios ya han sido grabados en soporte informático. Por una parte tendremos los datos de los cuestionarios grabados en un fichero de trabajo y por otra parte tenemos instalado el programa para realizar los cálculos: el PSPP. Primera parte: obtención de los ficheros de datos Comenzaremos obteniendo los ficheros necesarios desde el banco de datos del CIS. Desde la dirección www.cis.es podemos llegar a localizar los datos desde diversos lugares (Estudios, Barómetros,,,) En este caso recomendamos el acceso por el Banco de datos. Dentro de la opción del “Banco de datosseleccionaremos “Catálogo de encuestas”

Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

1

Práctica3 Cálculo de estadísticos de tendencia central y dispersión a partir de ficheros de encuesta.

En esta práctica se obtendrán estadísticos de resumen de variables de intervalo

procedentes de encuestas de opinión. La práctica tiene dos fases, en la primera se

explicará cómo descargar un fichero con microdatos de una encuesta del CIS mientras

que en la segunda parte se calcularán e interpretarán los principales estadísticos de

tendencia central y de dispersión.

En la primera parte se descargará el fichero .SAV que es el fichero que viene preparado

para el análisis. Al final de la práctica hay un anexo en el que se detalla el procedimiento

para generar un fichero .SAV.

Para el desarrollo de la segunda parte se expondrá primero el desarrollo a través de

ventanas de menú y posteriormente se desarrollará el mismo ejercicio para introducir al

estudiante en el manejo de comandos de sintaxis. La realización de esta práctica resulta

central para conocer los instrumentos básicos para el tratamiento de grandes cantidades

de información. En concreto analizaremos algunas variables del Barómetro de Opinión de

Septiembre de 2019 (Estudio del CIS nº 3261). En la práctica anterior se explicó como

grabar manualmente los datos de una variable. Ahora nos situaremos en el caso en que

los datos procedentes de los cuestionarios ya han sido grabados en soporte informático.

Por una parte tendremos los datos de los cuestionarios grabados en un fichero de trabajo y

por otra parte tenemos instalado el programa para realizar los cálculos: el PSPP.

Primera parte: obtención de los ficheros de datos

Comenzaremos obteniendo los ficheros necesarios desde el banco de datos del CIS.

Desde la dirección www.cis.es podemos llegar a localizar los datos desde diversos lugares

(Estudios, Barómetros,,,) En este caso recomendamos el acceso por el Banco de datos.

Dentro de la opción del “Banco de datos” seleccionaremos “Catálogo de encuestas”

Page 2: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

2

Y en la página que se abre seleccionamos el índice anual:

Abriremos el año 2019 y buscaremos en la lista el estudio nº 3261 que es el Barómetro de

septiembre.

Page 3: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

3

En la parte derecha de la pantalla aparecen los iconos de los archivos disponibles,

seleccione el Fichero de datos que es un archivo comprimido Zip.

Se abrirá una nueva pantalla donde deberá introducir sus datos personales, e-mail y el

objeto (por ejemplo trabajo de curso). Más abajo en la misma página deberá marcar la

opción de aceptación de los términos y condiciones de utilización.

Page 4: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

4

Al aceptar, se descargará el archivo Zip en su ordenador.

Guarde los archivos que contiene esta carpeta una vez descomprimida:

El primer archivo 3261.sav es un ejecutable que se abre con el PSPP haciendo doble clic.

El siguiente archivo codigo3261.pdf podrá ser consultado para conocer los códigos de las

variables y sus categorías.

El archivo cues3261.pdf es esencial y deberá servir de guía para ver las preguntas que se

hicieron a los entrevistados. También para observar las variables que luego utilizaremos.

Page 5: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

5

Los archivos DA3261 y ES3261 son archivos de texto que contienen los datos en bruto y la

sintaxis para abrirlos, pero que no necesitaremos pues ya tenemos el fichero activo

3261.sav

Al abrir el archivo ejecutable 3261.sav visualizaremos los datos del barómetro en el editor

de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen

siguiente:

El programa abrirá también una tercera ventana de resultados, en la que se van

registrando las órdenes de la sesión y los resultados de la misma.

Si observamos la matriz del editor de datos, podemos ver en la primera línea el número de

cuestionario 1 la comunidad autónoma 16, la provincia 1. Observando estos códigos en el

archivo código3261.pdf podemos comprobar que este el primer caso se corresponde con

una entrevista realizada en Álava, y los códigos del municipio, etc. La respuesta a la

primera pregunta del cuestionario P1, que es “la valoración de la situación económica de

España” la respuesta es 3, que es el código de “Regular”.

1 Para abrir estudios del CIS anteriores a octubre de 2017, habrá que crear el fichero activo a partir de los ficheros de

texto que contienen los datos y la sintaxis siguiendo las instrucciones dadas en el anexo de este documento.

Page 6: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

6

Resulta evidente que la lectura de los datos mediante los datos mediante los códigos

resulta engorrosa. Para ello se han empleado dos comandos que nos facilitan esa labor:

“Variable label” y “Value label”

Pinchando en el último icono de la parte superior, podemos ver los mismos datos con su

etiqueta:

En la matriz de datos podemos activar también la vista de las variables, abriendo la

pestaña correspondiente desde la parte inferior izquierda de la pantalla:

Desde la vista de las variables podemos ver las características de las diferentes variables

así como ver o modificar las etiquetas de variables y/o valores.

Page 7: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

7

Pinchando en la casillas de “etiqueta”, “etiqueta de valor”, “valores perdidos”, etc., de una

variable se abrirá una ventana donde podrá editar el elemento.

Segunda parte:

Page 8: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

8

A. Obtención de estadísticos de resumen a partir de menús

Desde la parrilla del fichero activo podemos comenzar a solicitar información sobre los

datos de la encuesta. En concreto estamos interesados en conocer las valoraciones dadas

a diferentes políticos. En concreto la pregunta 16 del cuestionario en la que se valoran de 1

a 10 a un total de 6 líderes políticos:

Antes de solicitar cualquier estadístico conviene observar los datos, para ello vamos a

pedir una distribución de frecuencias. Como forma expositiva, vamos a analizar los datos

de Pedro Sánchez y Pablo Casado. Conviene que el estudiante realice la práctica con la

valoración de otros dos políticos.

Para la obtención de frecuencias nos iremos –desde la ventana del fichero activo- a

Analizar, opción Estadística Descriptiva, para seleccionar Frecuencias.

Page 9: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

9

En la ventana que se abre seleccionamos a ambos políticos y los enviamos a la caja de

variables y en dicha caja aparecerán con el nombre de la variable P1601, que corresponde

a Pedro Sánchez (pregunta 16, opción 1) y P1602 que corresponde a Pablo Casado

(pregunta 16, opción 2).

(En la caja de la izquierda puede ver los códigos de las variables o sus etiquetas. Con el

botón derecho del ratón puede seleccionar una opción u otra)

Al pulsar OK se obtienen los siguientes resultados:

Page 10: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

10

Las tablas anteriores nos muestran la distribución de frecuencias para cada uno de los

valores de 1 a 10 más los códigos No conoce (97) No sabe (98) No contesta (99). Además

de las frecuencias absolutas, tenemos los porcentajes, los porcentajes válidos –cuyo

significado explicaremos más adelante- y la distribución porcentual acumulada basada en

los porcentajes válidos.

Después de la tabla de frecuencias aparece una tabla con diferentes estadísticos. Nos dice

que N, el número de casos, ha sido 5906 para las dos variables, los 5906 han sido

tomados por válidos porque no hay ningún caso “perdido”. Es decir, para todos los

cuestionarios se han rellenado dichas variables, bien con una valoración o bien con un

código de conocimiento o de no respuesta. Sin embargo, hay situaciones en que puede

que no exista para algunos casos valor en dicha variable, por ejemplo porque no es

procedente la respuesta o no está definida la variable (por ejemplo el lugar de trabajo para

personas en paro).

A continuación nos ofrece las medias y las desviaciones típicas, así como los máximos y

mínimos.

Probablemente el lector haya pensado que algo falla. Por ejemplo P. Sánchez tiene una

valoración media de 8,28 y P Casado de 9,28 cuando en realidad las puntuaciones

inferiores a 5 tienen más respuestas que las superiores a 5. Resulta evidente que no tiene

mucho sentido dicho resultado. El problema es que los códigos 97, 98 y 99 se han

computado como valores de la escala que debe ir del 1 al 10.

Para calcular los estadísticos de la valoración debemos seleccionar únicamente a aquellos

entrevistados que han valorado a los políticos. Para realizar dicha operación lo haremos en

Page 11: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

11

dos fases; primero haremos una copia de la variable, y segundo sobre la variable copiada,

declararemos inválidos los valores 97, 98 y 99.

Utilizando los menús de la GUI (interfaz gráfica de usuario) del PSPP) realizaríamos la

siguiente operación: Desde el menú superior Seleccionar Transformar y luego Calcular.

Se abrirá una ventana donde crearemos la nueva variable P1601V como copia de la

variable anterior aceptando en OK. Y hacemos lo mismo para la variable P1602V

Page 12: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

12

A continuación desde la ventana de variables de la matriz, podemos observar que al final

de la lista de variables aparecen dos nuevas variables P1601V y P1602V. Procedemos

entonces a poner desde esa misma ventana las etiquetas de la variable y las etiquetas de

los valores.

En la casilla correspondiente a la etiqueta de la variable P1601V escribimos Pedro

Sánchez. En la casilla de etiquetas de valor pinchamos y se abrirá una ventana donde

iremos añadiendo los valores y su correspondiente etiqueta:

Page 13: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

13

y finalmente definimos los valores perdidos pinchando en la casilla correspondiente.

Seleccionamos Valores perdidos discretos y añadimos los valores 97, 98 y 99

correspondientes a No conoce, no sabe y no contesta.

Aceptamos y ya estamos en condiciones de obtener las tablas de frecuencias de ambas

variables correctamente, con sus valores de media, desviación típica y casos válidos.

Repitiendo la solicitud de las frecuencias de las dos nuevas variables:

Page 14: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

14

Page 15: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

15

Ahora podemos comprender la diferencia entre la distribución de porcentajes y la de

“porcentajes válidos” por ejemplo, los 756 entrevistados que han valorado con un 5 a

Casado son el 12,80% de la muestra, pero suponen el 13,69 de quienes han valorado a

ese político.

Ahora las medias son reales, están hechas sobre el número de valoraciones. Podemos

observar que la valoración de Sánchez del 1 al 10 es 4,29. En cuanto a Casado la

valoración media del 1 al 10 es 3,15.

Como ejercicio, reproduzca el proceso para el resto de los políticos de la pregunta 16.

Para terminar esta práctica, nos centraremos en el cálculo de otras medidas de tendencia

central como son la moda y la mediana. Para ello utilizaremos la pregunta P34, que

contiene la edad de los entrevistados.

No hay casos perdidos. Los 5906 casos son válidos e intervienen en los cálculos.

La media nos dice que la edad media de la muestra es de 50,86 años (téngase en cuenta

que el universo está compuesto de mayores de 18 años)

La moda (Modo) es el valor que más veces se repite y son las 140 personas que tienen 42

años.

La desviación estándar (desviación típica muestral) es de 18,01 años

La varianza es el cuadrado de la desviación estándar

La suma es la suma de todas las edades de los entrevistados

El recorrido de la variable es 80 años siendo el mínimo 18 y el máximo 98

El percentil 50 o mediana es 50 años. Es el valor que divide la muestra en dos grupos

iguales. Los diferentes programas utilizan algoritmos distintos para obtener la mediana u

otros cuartiles2.

2 Rob J. Hyndman and Yanan Fan en su artículo “Sample Quantiles in Statistical Packages” publicado en la revista The

American Statistician, Vol. 50, No. 4 (nov., 1996), pp. 361-365, repasan los algoritmos utilizados en los principales paquetes estadísticos (BMDP, GLIM, SAS, Splus, SPSS, etc) para calcular la mediana o los cuartiles y encuentran hasta 9

Page 16: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

16

sistemas diferentes, en gran parte de los cuales no se hace público su sistema de cálculo. Los autores denuncian la falta de estandarización de algoritmos que provocan confusión en los usuarios.

Page 17: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

17

B. Obtención de estadísticos de resumen a partir de menús

Volvamos a considerar el cuestionario para situarnos variables P1601 y P1602

Abriremos una ventana de sintaxis. En la parte superior, seleccionamos: Archivo, Nuevo, Sintaxis

Para calcular las frecuencias de una variable utilizaremos el comando FRECUENCIES, ya empleado en la

práctica anterior.

El comando FRECUENCIES puede abreviarse utilizando sólo las tres primeras letras FRE y la sintaxis para

obtener las frecuencias de las valoraciones de Pedro Sánchez (pregunta P1601) y Pablo Casado (pregunta

P1602) sería la siguiente:

FRE VAR=P1601 P1602.

(No hay que olvidar el punto final. Recuerde que todos los comandos en PSPP llevan punto final)

Colocando el cursor sobre la línea en la que hemos escrito el comando, pulsamos ejecutar (EJECUTAR-LINEA

ACTUAL) obtenemos en la ventana de resultados las siguientes tablas:

Page 18: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

18

Pero antes debemos modificar esas variables para evitar que los valores 98 y 99 correspondientes a las

respuestas “no sabe” NS y “no contesta” NC, distorsionen los estadísticos de tendencia central y de

dispersión.

Para calcular los estadísticos de la valoración, debemos seleccionar únicamente a aquellos entrevistados que

han valorado a los políticos. Para realizar dicha operación lo haremos en dos fases; primero haremos una

copia de las variables originales y luego sobre las variables copiadas declararemos inválidos los valores 97, 98

y 99.

Volviendo a la ventana de sintaxis, escribiremos:

COMPUTE P1601V=P1601.

COMPUTE P1602V=P1602.

La sintaxis del comando es sencilla, la nueva variable= vieja variable. (obsérvese que cada comando, como es

habitual termina con un punto). En una columna nueva de nuestra lista de variables hemos copiado los

valores de las variables con un nombre modificado, añadiendo la letra V al final.

Una vez copiadas las variables vamos a eliminar los valores 97, 98 y 00. Para ello utilizaremos el comando

MISSING VALUES

MISSING VALUES P1601V P1602V (97,98,99).

Page 19: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

19

Para terminar nuestra operación podemos añadir el comando variable label para etiquetar las nuevas

variables. A continuación la secuencia de sintaxis. Añadiremos también el comando *. (este comando con un

asterisco termina también con un punto y desde el asterisco al punto, podemos introducir el texto y las

anotaciones que queramos en el fichero de sintaxis, pues no se ejecutarán.

***Sintaxis para la transformación de las variables de valoración a los políticos y la obtención de puntuaciones medias: Primero con COMPUTE se hace una copia de las variables y después, sobre esas nuevas variables se declaran los códigos de los valores perdidos, para finalmente etiquetar las nuevas variables. COMPUTE P1601V=P1601. COMPUTE P1602V=P1602. MISSING VALUES P1601V P1602V (97,98,99). VARIABLE LABEL P1601V ‘Valoración de Pedro Sánchez’ / P1602V ’Valoración de Pablo Casado’.

Ahora simplemente es cuestión de solicitar la distribución de frecuencias de P1601V y de P1602V. Como

veremos más adelante, también desde la parrilla de datos, podemos seleccionar la secuencia de menús

Analizar: Estadística Descriptiva: Frecuencias e incluimos las dos variables (P1601V y P1602V) que

encontraremos al final del listado de variables.

Page 20: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

20

Ahora podemos comprender la diferencia entre la distribución de porcentajes y la de porcentajes válidos, al

haberse recalculado los porcentajes eliminando los casos perdidos.

Para terminar nos centraremos en el cálculo de otras medidas de tendencia central, dispersión o curtosis

utilizando la variable que recoge la edad de los entrevistados P34:

Desde la ventana de sintaxis escribimos:

FREQUENCIES /VARIABLES= P34 /FORMAT=AVALUE TABLE /STATISTICS=ALL.

Page 21: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

21

Y obtenemos la tabla de frecuencias y todos los estadísticos que ofrece el PSPP para esa variable3.

3 Rob J. Hyndman and Yanan Fan en su artículo “Sample Quantiles in Statistical Packages” publicado en la revista The

American Statistician, Vol. 50, No. 4 (nov., 1996), pp. 361-365, repasan los algoritmos utilizados en los principales paquetes estadísticos (BMDP, GLIM, SAS, Splus, SPSS, etc) para calcular la mediana o los cuartiles y encuentran hasta 9 sistemas diferentes, en gran parte de los cuales no se hace público su sistema de cálculo. Los autores denuncian la falta de estandarización de algoritmos que provocan confusión en los usuarios.

Page 22: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

22

ANEXO. Explicación del funcionamiento del PSPP mediante comandos ejecutados desde una ventana de

sintaxis.

Hemos explicado cómo funciona la GUI (Interfaz gráfica de usuario) del PSPP que permite realizar casi todas

las acciones necesarias para el análisis de un estudio mediante un sistema de menús que se manejan con el

ratón de su ordenador. Pero habrá ocasiones en que necesite leer datos o ejecutar comandos que no están

implementados en la GUI del PSPP. En esos casos tendrá que teclear en una ventana de sintaxis los

comandos y ejecutarlos manualmente.

Con ese propósito explicamos a continuación cómo funciona el sistema de comandos en el programa PSPP.

En el manual del programa podrá ver todos los comandos del PSPP Y sus funcionalidades.

Cuando obtenemos un estudio del CIS tenemos una carpeta comprimida ZIP que contiene 7 ficheros y en

cuyos nombres está el número del estudio en la base de datos del CIS. En nuestro ejemplo utilizaremos el

estudio 3261 de septiembre de 2019 y la carpeta comprimida que lo contiene se llama: MD3261.ZIP. Al

abrirla encontraremos los siguientes ficheros:

Código3261.pdf Es el libro de código del Estudio. Muestra la posición de las variables (columnas) en el fichero de datos. También nos muestra los valores permitidos para cada una de las variables.

Cues3261.pdf Es la reproducción del cuestionario utilizado

DA3261 Son los datos de la encuesta grabados (en formato ASCII)

ES3261 Es el fichero de sintaxis para PSPP o SPSS. Básicamente es el libro de códigos convertido en comandos para la lectura del fichero de los datos.

Ft3261.pdf Es la ficha técnica del estudio

Tarjetas3261.pdf Es el fichero que contiene una reproducción de las tarjetas que se utilizaron para mostrar a los entrevistados durante la realización de la encuesta

3261.sav Es el archivo ejecutable que abre el estudio en directamente en PSPP.

En la práctica primera se explicó como grabar manualmente en el PSPP los datos de una variable. Ahora nos

situaremos en el caso en que los datos ya han sido grabados en soporte informático por el CIS. El fichero de

datos, una vez cargado para su uso por el programa se conoce con el nombre de fichero activo –tiene

extensión SAV-, y lo visualizaremos en el formato de hoja de cálculo. Es el fichero 3261.sav que hemos

empleado para acceder directamente a los datos del barómetro en esta práctica.

Page 23: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

23

Pero entre los ficheros que hemos obtenido del CIS hay dos archivos DA3261 y ES3261 que merecen nuestra

atención y que vamos a utilizar para mostrar cómo se obtuvo ese archivo con extensión “.sav “, operación

necesaria para, por ejemplo, abrir los barómetros del CIS anteriores a octubre de 20174.

Por una parte tenemos los datos de la encuesta en formato ASCII de las respuestas a los cuestionarios

grabados en un fichero llamado DA3261 y que abierto en un bloc de notas de Windows tiene este aspecto:

En ese fichero está organizado de forma que cada línea contiene las respuestas de una de las personas

encuestadas y en las columnas están organizadas las respuestas a las 53 preguntas del cuestionario y otra

serie de codificaciones sobre la realización de la entrevista. La información no es legible directamente pues

tendremos (como podemos ver en la ficha técnica) 5.906 líneas correspondientes a las 5.906 personas

entrevistadas, cada una de las cuales pertenece a la entrevista de una persona; los datos están también

organizados en 256 columnas en las que se ordenan las respuestas.

Para poder trabajar con toda esa información el CIS proporciona también un fichero de sintaxis con la

información necesaria para leer ordenadamente toda esa información y presentarla de forma legible. Ese

fichero cuyo nombre es ES3261 informa al programa PSPP en qué columna está cada variable, su nombre y

las etiquetas de las categorías de las respuestas:

4 También para, crear una sintaxis ad hoc que permita abrir microdatos de otras instituciones.

Page 24: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

24

Como podemos leer en la imagen superior, con los comandos de la sintaxis se informa al programa, en

primer lugar de la localización o path del fichero que contiene los datos y su nombre (DA3261), esto es el

primer comando del archivo de sintaxis, por defecto aparece automáticamente el nombre del archivo:

DATA LIST FILE= “DA3261”

Pero el archivo estará físicamente situado en alguna parte de nuestro ordenador o en algún dispositivo de

almacenamiento conectado, de manera que para que el programa localice los datos deberemos modificar el

comando especificando la ruta. En mi caso, dado que tengo el archivo de los datos en la raíz de una unidad

USB, sin mediar carpeta alguna pondría la letra que el ordenador a asignado a mi unidad USB y dos puntos:

DATA LIST FILE= “E:DA3261”

Si mi archivo hubiera estado en una carpeta llamada, por ejemplo CIS, mi comando sería: DATA LIST FILE=

“E:\CIS\DA3261”. Pero para que no haya confusión a la hora de escribir el path, esté donde esté el archivo,

lo mejor es obtener la ruta accediendo al archivo y pinchando en el mismo con el botón derecho del ratón;

se abrirá una lista de opciones y seleccionaremos, abajo del todo, la opción “propiedades”. Suponiendo que

el archivo de datos estuviera en mi escritorio, en la ventana que se abriera vería:

Copiaríamos con el ratón el path y añadiríamos el nombre del archivo de datos dentro de las comillas con la

siguiente sintaxis DATA LIST FILE= “C:\USERS\Alejandro\Desktop\DA3261”

Volvamos al archivo de sintaxis: vemos que, a continuación del path, encontramos un Slash o barra inversa “

\” y una lista de variables seguida del número de la columna o las columnas de la matriz de datos donde se

encuentra dicha variable. Por ejemplo, empezamos a leer la sintaxis que comienza con en número de Estudio

del CIS (ESTU 1-4) indicando que tiene cuatro dígitos desde la columna 1 a la 4, sigue con el número de

cuestionario (CUES) con 5 dígitos de la columna 5 a la 9, sigue la comunidad autónoma de residencia (CCAA)

con dos dígitos 10 y 11, y así sucesivamente incluyendo las preguntas del cuestionario que comienzan con la

Page 25: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

25

letra P y seguidas de número, que es la numeración de las preguntas en cuestionario. Termina el comando

con un punto. Cada comando debe acabar con un punto para que el programa lo ejecute.

A continuación en la sintaxis de la imanen vemos Otro comando que define las etiquetas de las variables.

Bajo el comando VARIABLE LABELS, se enumeran las variables y las etiquetas de las variables, para que en los

informes y tablas que obtengamos con el PSPP aparezcan “Tamaño de municipio” en lugar de “TAMUNI”, o

“Valoración de la situación económica general de España” en lugar de “P1”

Más abajo, fuera de la imagen siguen los comandos donde también se etiquetan las categorías a seleccionar

en cada pregunta, por ejemplo como las escalas codificadas con 1, 2 y 3 y etiquetados estos valores como

“mucho”, “poco”, “nada”, o “mejor”, “igual”, “peor”. También la numeración dada en la codificación de las

categorías del nivel de estudios del entrevistado 1, 2, 3, 4… tiene sus etiquetas: ”primarios”, “secundarios”,

“FP”, “superiores”, etc. La operación de abrir el fichero de la sintaxis y los datos con el PSPP sería la

siguiente:

Ejecutamos el programa PSPP. Y en el menú superior navegamos seleccionando Abrir

Y se abrirá una ventana donde buscaremos la unidad USB y dentro de ella el archivo ES3261 con la sintaxis

Abrimos el archivo seleccionado y se abrirá el Editor de sintaxis:

Page 26: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

26

Si nos desplazamos por el fichero vamos a encontrar cinco instrucciones distintas: las instrucciones

comienzan con las siguientes expresiones y terminan con “.” (un punto):

Línea 1 Data LIST

Línea 21 VARIABLE LABEL

Línea 171 VALUE LABEL

Línea 789 MISSING VALUES

Línea 794 FREQUENCIES VARIABLES

Instrucción DATA LIST: sirve para indicar al programa la posición “path” del fichero que contiene los datos, y

la posición de cada una de los datos en el fichero.

VARIABLE LABEL: nos rotula a las variables. Por ejemplo, en los resultados en vez de que aparezca CCAA

aparezca “Comunidad Autónoma”. La sintaxis de dicho comando es simple. Nombre de la variable y entre

comillas el rótulo, las variables se separan con la barra “/”. (Nótese como es habitual que el comando

termina con un punto).

VALUE LABEL: que nos rotula los valores de las variables. La sintaxis es también sencilla, después de cada

nombre de variable se van colocando los distintos valores con sus rótulos entre comillas.

Page 27: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

27

Modificamos el path como se ha explicado más arriba para definir la unidad USB:

Y ejecutamos desde el menú superior:

Al ejecutar los comandos contenidos en el archivo ES3261 desde el menú superior de la ventana de sintaxis

del PSPP se abrirá el Editor de catos con el barómetro dispuesto para trabajar con él haciéndose visible todo

el estudio de forma estructurada, como en una hoja de cálculo:

Page 28: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

28

Realizada esta operación es recomendable guardar el archivo con el formato .sav para poder abrirlo con un

doble clic de ratón en lo sucesivo.

Al guardar el archivo con su extensión 3261.sav podremos abrirlo directamente haciendo doble clic con el

ratón.

Page 29: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

29

De forma esquemática podemos representar el funcionamiento de los programas de análisis de encuestas

en la siguiente imagen:

Page 30: Práctica3 Cálculo de estadísticos de tendencia central y ... · de datos, que tiene el formato de una hoja de cálculo1, como puede ver en la imagen ... Después de la tabla de

30