14
SEMINARIO 6: Análisis exploratorio de datos Tablas de frecuencias, resúmenes numéricos y gráficos.

Seminario 6: Análisis exploratorio de datos, tablas de frecuencias, resúmenes numéricos y gráfica

Embed Size (px)

Citation preview

SEMINARIO 6: Análisis exploratorio de datos Tablas de frecuencias, resúmenes numéricos y gráficos.

EJERCICIO 1: • Selecciona dos variables cualitativas-factor del fichero

“activossalud.RData”, descríbelas en tablas de frecuencias e interpreta al menos 3 aspectos en relación a la distribución de las mismas. • En primer lugar, importamos el conjunto de datos “activossalud” a R.

• Posteriormente, seleccionamos dos variables cualitativas: “botellón” y “tabaco”, de las cuales obtendremos las tablas de distribución de frecuencias para poder compararlas.

-Tabaco:

-Botellón:

*** Las comparaciones que vamos a realizar se van a hacer teniendo en cuenta los porcentajes obtenidos.

• Conclusiones: -El porcentaje de encuestados que a hecho botellón alguna vez es del 21,75%, mientras que en el caso del tabaco es del 19,03% .

-El 43,63% de la muestra estudiada no ha fumado tabaco nunca, mientras que tan solo el 17,89% no ha hecho botellón en ninguna ocasión. -El consumo de tabaco a diario es realizado por el 17,30% de los encuestados, con una diferencia clara con respecto al botellón el cual se realiza a diario por un 1,05% de la muestra. • Se puede concluir, que la realización de botellón está más generalizado que el consumo de tabaco, pero este sin embargo se consume más de forma diaria que el alcohol, el cual tiene su máximo durante los fines de semana.

EJERCICIO 2: • Selecciona dos variables numéricas del fichero

“activossalud.RData”, y mediante resúmenes numéricos describe e interpreta la distribución de las mismas. • Seleccionamos dos variables cuantitativas (peso y altura) y las

comparamos según las medidas de tendencia central, dispersión y posición.

ALTURA

PESO

• ALTURA: • • La media de la altura de la muestra es de 1,667 metros. • • La desviación típica es de 0,0807 , lo que indica que los datos están bastante

dispersos. • • Cuartiles:

- El primer cuartil es de 1,6 es decir, el 25% de la muestra miden 1,6m o menos. - El segundo cuartil es de 1,655, lo que indica que la mitad de la muestra miden

1,665m o menos. - El tercer cuartil es de 1,72, por lo que el 75% de los encuestados miden 1,72m o

menos. - El cuarto cuartil, es de 2, es decir, todos los encuestados miden igual o menos de

este valor.

Podemos decir que los límites entre los que se encuentra la altura de la muestra están entre 1,46m y 2m. • Hay 1 persona que no ha respondido a esta pregunta (NA), de una muestra constituida por 290 individuos.

• PESO: • • La media del peso de la muestra es de 62,75 kilos. • • La desviación típica es de 12,65 , lo que indica que los datos están

bastante dispersos. • • Cuartiles:

- El primer cuartil es de 54kg, es decir, el 25% de la muestra pesa 54kg o menos.

- El segundo cuartil es de 60kg, lo que indica que la mitad de la muestra pesa 60 kg o menos.

- El tercer cuartil es de 68kg, por lo que el 75% de los encuestados pesa 68kg o menos.

- El cuarto cuartil, es de 130kg, es decir, todos los encuestados pesan igual o menos de este valor.

Podemos decir que los límites entre los que se encuentra el peso de la muestra están entre 38 y 130 kg

• Hay 16 personas que no han respondido a esta pregunta (NA), en una muestra constituida por 275 individuos.

EJERCICIO 3:

• Realizar al menos un gráfico de cada tipo con variables adecuadamente seleccionadas del fichero “activossalud.RData”, describe e interpreta la distribución los mismos.

Histograma (V. Numéricas):

-Los valores más abundantes se encuentran entre 50 kg y 70 kg. -El número de personas con peso inferior a 40kg y un peso superior a 120 kg es muy bajo. -Ningún encuestado tiene un peso entre 110 y 120kg.

Gráfica de sectores (V. Cualitativas): -Hay el prácticamente casi el mismo número de personas que realizan deporte y que no. Siendo un poco mayor la cantidad de los que sí lo hacen.

Diagrama de caja o Box-plot (V. Numéricas):

Altura

-Los bigotes establecen los valores máximos (1,90m) y mínimos (1,45m aprox.). -El 50% de los casos miden entre 1,60m y 1,72m . -La mediana es de 1,65m -El 75% de la muestra mide 1,72m o menos.

Gráfico de barras (V. Cualitativas): En el análisis de uso de la píldora del día después, observamos , que la gran mayoría de la muestra nunca la ha utilizado o solo la ha usado en alguna ocasión. Y que una minoría la usa siempre o nunca ha mantenido relaciones por lo que no la ha tenido que usar.