Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Fuente: Romero, R.; Zúnica, L. R. Estadística. I.S.B.N 84-7721-223-6
PRÁCTICA 2. ESTADÍSTICA DESCRIPTIVA
Objetivo
El objetivo de la presente práctica informática es familiarizarse con la utilización de
algunas herramientas básicas de Estadística Descriptiva, que ya han sido presentadas
en las clases de teoría. Los análisis se centrarán en los datos de la encuesta realizada
a un grupo de estudiantes de la UPV. La encuesta que tiene 11 preguntas se
encuentra al final de este guión. Los datos de las respuestas están almacenados en el
fichero CURS8990.SF3. Dicho archivo se encuentra en Poliformat
Recursos..Prácticas..ficheros de datos de donde lo podéis descargar para abrirlo
después con File…Open…Open Data Source (en castellano Archivo…Abrir…Abrir
Datos)
1. Variables unidimensionales
1.1 Variables cualitativas y discretas
Opciones: Describe → Categorical Data → Tabulation
En castellano: Describir → Datos Categóricos→ Tabulación
a) Hacer un diagrama de barras y un diagrama de tarta para ver la frecuencia con que se
han presentado las diferentes opciones de la variable PROBLEMA.
SOLUCIÓN:
El diagrama de barras resulta:
Práctica 2 | Estadística Descriptiva Grado en Ingeniería Informática |ETSINF |DEIOAC
Fuente: Romero, R.; Zúnica, L. R. Estadística. I.S.B.N 84-7721-223-6
Y el diagrama de sectores:
Se observa en ambos gráficos que el problema que se ha dado como respuesta
más frecuentemente como respuesta, es terrorismo con una frecuencia relativa de
20,23% y una frecuencia absoluta de 39 respuestas. En segundo lugar ha sido
el problema desigualdad como respuesta, con frecuencias absolutas y relativas igual
a 31 y 24,03% respectivamente. En tercer lugar el paro con frecuencias absolutas y
relativas de 29 y 22,48% de las respuestas. En cuarto lugar droga con frecuencias
absolutas y relativas
Barchart for PROBLEMA
0 10 20 30 40
frequency
desigualdad
droga
paro
terrorismo
valores
Piechart for PROBLEMA
PROBLEMAdesigualdaddrogaparoterrorismovalores
24,03%
14,73%
22,48%
30,23%
8,53%
Práctica 2. Estadística descriptiva 3
iguales a 19 y 14,73%. Y finalmente la respuesta menos frecuente ha sido valores
con frecuencias absoluta y relativa iguales a 11 y 8,53%.
b) Construir la tabla de frecuencias para la variable DIGITO. Constatar la mayor frecuencia con la que aparecen los números impares en relación a los pares.
SOLUCIÓN:
Se observa que la frecuencia de respuestas a dígito al azar iguales a 1, 3, 5, 7 o
9 suman en frecuencia absoluta 6+20+18+38+6=88 respuestas, mientras que los
dígitos pares 2, 4, 6 y 8 suman en frecuencia absoluta 5+9+11+17=42 respuestas,
un valor mucho menor que el de la frecuencia de dígitos impares.
1.2 Variables continuas
Opciones: Describe → Numerical Data → One-Variable Analysis…
En castellano: Describir → Datos Numéricos → Análisis de Una Variable
a) Hacer una tabla de frecuencias para la variable ESTATURA. Cambiar las opciones por defecto propuestas por el ordenador para los límites inferior (150) y superior (200), y pedir 10 clases en vez de las 9 propuestas. Interpretar las diferentes columnas de la tabla resultante.
SOLUCIÓN:
En Tablas y Gráficos seleccionar Frequency Tabulation (Tabla de Frecuencias). Una
vez obtenida la tabla hacer doble click para ampliarla, y con la tecla derecha del ratón
selecciona Pane Options (Opciones de Ventana) para cambiar el número de clases a
10 y los límites inferior a 150 y superior a 200. La tabla resultante es:
Frequency Table for DIGITORelative Cumulative Cum. Rel.
Class Value Frequency Frequency Frequency Frequency1 0 1 0,0076 1 0,00762 1 6 0,0458 7 0,05343 2 5 0,0382 12 0,09164 3 20 0,1527 32 0,24435 4 9 0,0687 41 0,31306 5 18 0,1374 59 0,45047 6 11 0,0840 70 0,53448 7 38 0,2901 108 0,82449 8 17 0,1298 125 0,954210 9 6 0,0458 131 1,0000
Práctica 2 | Estadística Descriptiva Grado en Ingeniería Informática |ETSINF |DEIOAC
Fuente: Romero, R.; Zúnica, L. R. Estadística. I.S.B.N 84-7721-223-6
La primera columna Class (Clase) da el número de intervalo. La siguiente Lower
Limit (Límite Inferior) da el límite inferior de cada intervalo, la tercera Upper Limit
(Límite Superior) el límite superior del intervalo. La cuarta Midpoint (Punto Medio) el
punto medio de cada intervalo. La quinta columna Frequency (Frecuencia) da
las frecuencias absolutas o número de estudiantes con estaturas en cada intervalo.
La sexta columna Relative Frequency (Frecuencia Relativa) da las frecuencias
relativas en cada intervalo, en tanto por uno, y se obtiene dividiendo la columna
anterior por 131 que es el tamaño de muestra. La séptima columna Cumulative
Frequency (Frecuencia Acumulada) da las frecuencias absolutas acumuladas. Y la
última columna Cum.Rel.Frequency (Frecuencia Rel.Acum.) calcula las frecuencias
relativas acumuladas.
b) Construir un histograma para esta misma variable. Utilizar 10 tramos. ¿Qué pone
de manifiesto el histograma obtenido?
SOLUCIÓN:
Para obtener el histograma con el icono que hay en la parte superior izquierda de
la ventana de análisis, Tablas y Gráficos seleccionar Frequency
Histogram (Histograma). El gráfico resultante es:
Frequency Tabulation for ESTATURALower Upper Relative Cumulative Cum. Rel.
Class Limit Limit Midpoint Frequency Frequency Frequency Frequencyat or below 150 0 0,0000 0 0,0000
1 150 155,0 152,5 3 0,0229 3 0,02292 155 160,0 157,5 9 0,0687 12 0,09163 160 165,0 162,5 22 0,1679 34 0,25954 165 170,0 167,5 16 0,1221 50 0,38175 170 175,0 172,5 37 0,2824 87 0,66416 175 180,0 177,5 22 0,1679 109 0,83217 180 185,0 182,5 14 0,1069 123 0,93898 185 190,0 187,5 3 0,0229 126 0,96189 190 195,0 192,5 3 0,0229 129 0,984710 195 200,0 197,5 2 0,0153 131 1,0000
above 200 0 0,0000 131 1,0000Mean = 172,855 Standard deviation = 9,07585
Práctica 2. Estadística descriptiva 5
Se observa que hay dos picos de frecuencias, el primero entre 160 y 165 cm que
corresponde a las estaturas más frecuentes en chicas, el segundo pico de frecuencias
está entre 170 y 175cm, es más alto y corresponde a las estaturas más frecuentes en
chicos. Hay por tanto una mezcla de dos poblaciones.
c)Calcular las medianas de las variables EDAD, ESTATURA, PESO y TIEMPO con los
datos de la encuesta y compararlos con las medias respectivas. Constatar la sensible
diferencia entre ambos parámetros para la variable TIEMPO, y comprobar mediante un
histograma que la distribución de esta variable es muy asimétrica.
SOLUCIÓN:
Para calcular al mismo tiempo las medianas y medias de EDAD, ESTATURA, PESO y
TIEMPO, se puede ir a la opción Describe…Numeric Data…Multiple Variable Analysis
(en castellano Describir…Datos Numéricos…Análisis Multivariado) y en el campo
Data (Datos) poner las 4 variables. Incluir Solamente casos completos. A continuación
en el cuadro de diálogo de Tablas y Gráficos mantener seleccionado Summary
Statistics (Resumen Estadístico). Una vez obtenida esa ventana de análisis con la
tecla derecha del ratón en Pane Options (Opciones de Ventana) seleccionar Average
(Promedio) y Median (Mediana). La tabla resultante es:
Se observa que en EDAD, ESTATURA y PESO la media y mediana están muy próximas.
Sin embargo en TIEMPO media=26,1221minutos es mayor que la mediana=20 minutos.
Histogram
150 160 170 180 190 200
ESTATURA
0
10
20
30
40fr
eq
uen
cy
Summary StatisticsEDAD ESTATURA PESO TIEMPO
Count 131 131 131 131Average 21,0458 172,855 66,2137 26,1221Median 21,0 174,0 66,0 20,0
Práctica 2 | Estadística Descriptiva Grado en Ingeniería Informática |ETSINF |DEIOAC
Fuente: Romero, R.; Zúnica, L. R. Estadística. I.S.B.N 84-7721-223-6
Media y mediana difieren cuando en los datos hay asimetría positiva o negativa, en este
caso como la media es mayor que la mediana está indicando asimetría positiva. Para
comprobarlo se representa el histograma de frecuencias de la variable TIEMPO con la
opción Plot…Exploratory Plots…Frequency Histogram (en castellano
Graficar…Gráficos Exploratorios…Histograma). Se pone en Data (Datos) la variable
TIEMPO y se indica que es Tipo de Datos Continuo, y a continuación en
Tablas y Gráficos se deja seleccionado Frequency Histogram (Histograma). A
continuación se cambia con Pane Options (Opciones de Ventana) el número de
clases a un valor entero cercano a la raíz cuadrada del número de datos N=131, que
es 11,44, por tanto 11 clases sería un valor adecuado, y los límites inferior y
superior a 3 (el mínimo de respuesta es 4 minutos) y 90 (el máximo de respuesta
es 90 minutos), respectivamente. El gráfico resultante es:
Se observa que la variable es asimétrica positiva o por la derecha al tener una cola por la
derecha con decrecimiento más lento que la de la izquierda.
d) Calcula los dos cuartiles y el intervalo intercuartílico de las variables ESTATURA y
PESO con los datos de la encuesta. Repite el cálculo por separado para los chicos y las
chicas, y comenta los resultados obtenidos.
SOLUCIÓN:
Para calcular a la vez los dos cuartiles y el intervalo intercuartílico de las variables
ESTATURA y PESO se utiliza la opción Describe…Numeric Data…Multiple Variable
Analysis, (en castellano Describir…Datos Numéricos…Análisis Multivariado) y en
Data (Datos) se pone el nombre de las dos variables. Incluir Solamente Casos
Completos. En Tablas y Gráficos se deja seleccionado Summary Statistics (Resumen
Estadístico) y en esa ventana, con Pane Options (Opciones de Ventana) se
Histogram
0 20 40 60 80 100
TIEMPO
0
10
20
30
40
freq
uen
cy
Práctica 2. Estadística descriptiva 7
seleccionan Lower Quartile (Cuartil Inferior) (C1) Upper Quartile (Cuartil Superior) (C3)
y Interquartile Range (Rango Intercuartil). La tabla resultante es:
Para obtener los parámetros para chicos y chicas por separado, en la misma opción
se pone en el cuadro de diálogo en Select (Selección) SEXO=”chicos” para calcular
los de chicos lo que da la tabla:
Y para calcular los de las chicas en Select (Selección) SEXO=”chicas”
Se observa que los valores de C1 y C3 tanto de PESO como de ESTATURA son más
pequeños en las chicas que en chicos, indicando menor posición en el valor de estas
variables. Por otro lado el rango intercuartílico es mayor con todos los datos que en cada
uno de los grupos por separado. Finalmente el rango intercuartílico de PESO y
ESTATURA es ligeramente inferior en chicas que en chicos, indicando un poso menos
de dispersión.
e) En los datos de ESTATURA de las chicas calcula la media, desviación típica, mediana e intervalo intercuartílico. Modifica un valor de ESTATURA de una chica, poniéndolo en metros en vez de en centímetros. Repite el cálculo de los parámetros descriptivos antes mencionados, y compara los valores obtenidos con y sin dicha modificación. ¿Qué se observa?
SOLUCIÓN:
Para calcular la media, desviación típica, mediana e intervalo o rango intercuartílico de
ESTATURA de las chicas, se va a la opción Describe…Numeric Data…One Variable
Analysis (en castellano Describir…Datos Numéricos…Análisis de una Variable) y
en Data se pone la variable ESTATURA y en Select (Seleccionar)
SEXO=”chicas”. En Tablas y Gráficos se deja seleccionado Summary Statistics
(Resumen Estadístico) y en dicha ventana con Pane Options (Opciones de
Ventana) se seleccionan:
Summary StatisticsESTATURA PESO
Count 131 131Lower quartile 165,0 57,0Upper quartile 179,0 74,0Interquartile range 14,0 17,0
Summary StatisticsESTATURA PESO
Count 89 89Lower quartile 173,0 66,0Upper quartile 180,0 76,0Interquartile range 7,0 10,0
Summary StatisticsESTATURA PESO
Count 42 42Lower quartile 160,0 51,0Upper quartile 165,0 60,0Interquartile range 5,0 9,0
Práctica 2 | Estadística Descriptiva Grado en Ingeniería Informática |ETSINF |DEIOAC
Fuente: Romero, R.; Zúnica, L. R. Estadística. I.S.B.N 84-7721-223-6
Average (Promedio), Median (Mediana), Standard Deviation (Desviación estándar) e
Interquartile Range (Rango intercuartil). La tabla resultante es:
Para modificar un dato de ESTATURA de una chica se va al editor de datos, y se busca
por ejemplo, la fila número 8 que corresponde a respuestas de una chica, y se modifica la
ESTATURA de 159 a 1,59. En la opción seleccionada antes se actualizan los datos
automáticamente y los parámetros dan ahora:
Se observa que la media con el dato modificado artificialmente da menor, sin embargo la
mediana no cambia, no se ve afectada por esa anomalía. También aumenta con la
anomalía la desviación típica de 5,67 a 25,61, pero el rango intercuartílico no se ve
afectado por la anomalía vale lo mismo con los datos bien y con el dato erróneo.
Volver al editor y cambiar el dato que se había modificado a su valor correcto 159.
Summary Statistics for ESTATURACount 42Average 163,429Median 163,0Standard deviation 5,67469Interquartile range 5,0
Summary Statistics for ESTATURACount 42Average 159,681Median 163,0Standard deviation 25,6156Interquartile range 5,0
Práctica 2. Estadística descriptiva 9
2. Variables bidimensionales
2.1 Tablas de frecuencias bidimensionales para variables
cualitativas
Opciones: Describe → Categorical Data → Crosstabulation
En castellano: Describir → Datos Categóricos → Tabulación Cruzada
Construir una tabla de frecuencias cruzada para la variable aleatoria
BIDIMENSIONAL (POLITICA, TRANSPORTE). Poner en filas la variable
POLITICA y en columnas TRANSPORTE. Estudiar la relación entre la opción
política y el medio de transporte pidiéndole al programa las frecuencias relativas de
TRANSPORTE condicionadas a POLITICA (Seleccionar en Pane Options…Row
Percentages en castellano Opciones de Ventana…Porcentajes por Fila)
SOLUCIÓN:
La tabla resultante es:
Se observa que el 45,83% de los de centro vienen a pie, y el 20,83% de ellos en
coche, y un 20,83% de ellos en transporte público. Sin embargo los de derechas
un 63,64% vienen en coche y sólo un 15,15% vienen a pie, o un 9,09% en
transporte público. Estas frecuencias relativas de transporte condicionadas
a política cambian en las otras opciones políticas: Un 41,38% de los de
izquierdas vienen a pie, un 20,69% de ellos utiliza coche propio y un 21,05% de
ellos utiliza el transporte público.
2.2 Box&Whisker Multiple
Opciones: Plot → Exploratory Plots → Box and Whisker
Plots…Multiple Samples
Frequency Table for POLITICA by TRANSPORTEa pie coche compañero moto/bici t publico Row Total
centro 11 5 1 2 5 2445,83% 20,83% 4,17% 8,33% 20,83% 19,35%
derecha 5 21 3 1 3 3315,15% 63,64% 9,09% 3,03% 9,09% 26,61%
izquierda 12 6 0 2 9 2941,38% 20,69% 0,00% 6,90% 31,03% 23,39%
pasan 16 8 1 5 8 3842,11% 21,05% 2,63% 13,16% 21,05% 30,65%
Column Total 44 40 5 10 25 12435,48% 32,26% 4,03% 8,06% 20,16% 100,00%
Cell contents: Observed frequency Percentage of row
Práctica 2 | Estadística Descriptiva Grado en Ingeniería Informática |ETSINF |DEIOAC
Fuente: Romero, R.; Zúnica, L. R. Estadística. I.S.B.N 84-7721-223-6
En castellano: Graficar → Gráficos Exploratorios → Gráfico de
Caja y Bigotes → Varias Muestras
Compara la distribución de la ESTATURA entre chicos y chicas mediante los
diagramas Box&Whisker correspondientes.
SOLUCIÓN:
En Data (Datos) poner la variable ESTATURA y en Level Codes (Códigos por
Nivel) la variable SEXO. El gráfico resultante es:
Se observa que la posición de ESTATURA es mayor en los chicos que
en las chicas, y que también los chicos presentan más dispersión en la ESTATURA que las chicas. En ambos casos la distribución de ESTATURA
es asimétrica positiva ya que la distancia entre mínimo y media es menor que
la que hay entre mediana y máximo. Tanto en chicas como en chicos se observan datos anómalos de esta variable.
chicas
chicos
Box-and-Whisker Plot
150 160 170 180 190 200
ESTATURA
SE
XO
Práctica 2. Estadística descriptiva 11
ENCUESTA
Cada respuesta se realizará escribiendo el dígito o número correspondiente en
el espacio previsto a la derecha.
1-SEXO (1-Varón 2-Mujer)
2-EDAD (en años)
3-MES DE NACIMIENTO (1 a 12)
4-ESTATURA (en centímetros)
5-PESO (en kgs)
6-POLITICAMENTE TE CONSIDERAS UNA PERSONA DE:
1-Derechas
2-Centro
3-Izquierda
4-Pasas del tema
7-ESCRIBE UN DIGITO AL AZAR DE 0 A 9
8-LUGAR DE RESIDENCIA DURANTE EL CURSO:
1-Hogar familiar
2-Colegio Mayor o residencia
3-Piso con compañero
4-Pensión
5-Otra solución
Práctica 2 | Estadística Descriptiva Grado en Ingeniería Informática |ETSINF |DEIOAC
Fuente: Romero, R.; Zúnica, L. R. Estadística. I.S.B.N 84-7721-223-6
9-¿COMO VIENES HABITUALMENTE A LA UNIVERSIDAD?
1-En tu coche
2-En tu moto o bici
4- Andando
3- En un coche de un compañero
5-Transporte público
10-¿CUANTOS MINUTOS HAS TARDADO HOY EN VENIR A LA UPV?
11-¿CUAL DE LOS SIGUIENTES PROBLEMAS CONSIDERAS MAS
IMPORTANTE EN LA ESPAÑA ACTUAL?
1-Drogas
2-Paro juvenil
3-Terrorismo
4-Desigualdad social
5-Perdida de valores morales