Estadıstica Aplicada I (ESMA3101)Prof. Pedro A. Torres Saavedra
February 24, 2014
Leccion 6-7: Organizando Datos Cuantitativos
En esta leccion vamos a utilizar la misma base de datos del estudio observacional sobre dietacon n = 315 individuos (ver notas de la Leccion 5).
El primer paso es importar la base de datos a R usando RStudio. Esta base de datos hasido compartida en formato .csv en una direccion de internet (recuerde que puede importarla base de datos munualmente usando la opcion Tools->Import Dataset).
# Lee la base de datos
install.packages("RCurl", repos="http://cran.us.r-project.org")
library(RCurl)
tt = getForm("https://docs.google.com/spreadsheet/pub",
hl ="en_US",
key = "0AhpzM-gDQ-UcdHB2TnVwakd4ZHJQVU4yMDdoWDdVWEE",
output = "csv",
.opts = list(followlocation = TRUE, verbose = TRUE,
ssl.verifypeer = FALSE))
dieta <- read.csv(textConnection(tt))
View(dieta)
attach(dieta)
Distribuciones de Frecuencias e Histogramas
Una distribucion de frecuencias es una lista que muestra los valores de la variable en formaindividual o en intervalos con las respectivas frecuencias (numero de individuos en cada valoro intervalo de valores).
Distribuciones de Frecuencias No Agrupadas
El primer tipo de distribuciones de frecuencias se conoce como no agrupadas ya que losvalores originales de la variable son listados con su respectiva frecuencia.
Vamos a estudiar la distribucion del numero de bebidas alcoholicas consumidas porsemana (variable ALCOHOL) para los individuos en el estudio.
Ejemplo
§
1
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
# Construye una tabla de distribucion de frecuencias
myvariable = ALCOHOL
cbind(Frecuencia = table(myvariable),
Frec.Acumulada = cumsum(table(myvariable)),
Frec.Relativa = prop.table(table(myvariable)),
Frec.Rel.Acumulada = cumsum(prop.table(table(myvariable))))
Frecuencia Frec.Acumulada Frec.Relativa Frec.Rel.Acumulada
0 161 161 0.511111 0.5111
1 49 210 0.155556 0.6667
2 16 226 0.050794 0.7175
3 13 239 0.041270 0.7587
4 10 249 0.031746 0.7905
5 10 259 0.031746 0.8222
6 6 265 0.019048 0.8413
7 17 282 0.053968 0.8952
8 5 287 0.015873 0.9111
9 2 289 0.006349 0.9175
10 2 291 0.006349 0.9238
11 5 296 0.015873 0.9397
14 6 302 0.019048 0.9587
15 2 304 0.006349 0.9651
16 1 305 0.003175 0.9683
17 1 306 0.003175 0.9714
18 3 309 0.009524 0.9810
20 2 311 0.006349 0.9873
21 1 312 0.003175 0.9905
22 1 313 0.003175 0.9937
35 2 315 0.006349 1.0000
• La columna Frecuencia contiene el numero de individuos que toma un numero dadode bebidas alcoholicas a la semana. Por lo tanto, la Frecuencia siempre es un numeroentre 0 y el total de datos (n = 315). Por ejemplo, hay 161 individuos que no consumenbebidas alcoholicas a la semana.
• La columna Frec.Acumulada contiene el numero de individuos que toma un numerodado o menos de bebidas alcoholicas a la semana. Note que la ultima Frecuencia
Acumulada es igual al total de datos (n = 315). Por ejemplo, 239 individuos tomantres o menos bebidas alcoholicas a la semana.
• La columna Frec.Relativa contiene la proporcion de individuos que toma un numerodado de bebidas alcoholicas a la semana. Es decir, es la division entre Frecuencia y eltotal de individuos (n = 315). La Frecuencia Relativa siempre es un numero entre0 y 1. Recuerde que para pasar una proporcion a porciento debemos multiplicar por
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 2 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
100 (Ejemplo: 0.05 es el 5%). Por ejemplo, el 51.1% de los individuos no consumenbebidas alcoholicas.
• La columna Frec.Rel.Acumulada contiene la proporcion de de individuos que toma unnumero dado o menos de bebidas alcoholicas a la semana. Es decir, es la division entreFrecuencia Acumulada y el total de estudiantes (n = 315). La ultima Frecuencia
Relativa Acumulada es igual a 1. Ejemplo: 79.05% de los individuos consumen 4 omenos bebidas alcoholicas a la semana.
¿Que mas podemos concluir con base en los resultados de la tabla de dis-tribucion de frecuencias?
Note que en los comandos anteriores, lo unico que debemos cambiar si deseamos crear unadistribucion de frecuencias para otra variable es el comando myvariable=ALCOHOL. Por ejem-plo, si estamos interesados en la variable edad, debemos cambiar esa lınea por myvariable
= AGE; lo demas permanece igual.
Datos discretos se pueden representar usando graficas de barras. Por ejemplo,supongamos que queremos estudiar la distribucion del numero de bebidas al-coholicas consumidas por semana (variable ALCOHOL).
Ejemplo
§
# Construye una tabla de distribucion de frecuencias relativas en porcientos
abs.frec = table(ALCOHOL)
rel.frec = prop.table(abs.frec)*100
rel.frec = round(rel.frec, 2)
# Grafica de barras con frecuencias relativas en porcientos
barplot(rel.frec, main="Numero de Bebidas Alcoholicas por Semana",
xlab = "Numero de Bebidas", ylab = "Porciento (%)")
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 3 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
0 1 2 3 4 5 6 7 8 9 11 15 17 20 22
Número de Bebidas Alcohólicas por Semana
Número de Bebidas
Por
cien
to (
%)
010
2030
4050
Construya a mano la distribucion de frecuencias de los siguientes datos:{10, 12, 13, 12, 10, 15, 17, 15, 14, 15}.
Repita el ejercicio usando R. Recuerde que debe ingresar los datos en R us-ando el comando: mydata = c(10,12,13,12,10,15,17,15,14,15). Luego usamydata como la variable que quiere analizar.
Ejercicio
B
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 4 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Distribuciones de Frecuencias Agrupadas
Para construir una distribucion de frecuencias agrupadas necesitamos un poco mas detrabajo ya que tenemos que dividir el rango de la variable en clases y luego contar cuantoselementos pertenecen a cada clase o intervalo. Este tipo de analisis se acostumbra a hacerpara variables cuantitativas continuas pero tambien aplica a variables cuantitativas discretas.
Procedimiento Para Construir una Distribucion de Frecuencias
Vamos a utilizar los datos de las notas de un examen.
notas = c(76, 74, 82, 96, 66, 76, 78, 72, 52, 68, 86,
84, 62, 70, 78, 92, 82, 74, 88, 60)
Pasos a seguir:
1. Identifique el mınimo y maximo valor en los datos. Calcule la amplitud de los datos,es decir, amplitud = maximo−minimo. Usando R:
amplitud = max(notas) - min(notas)
amplitud
[1] 44
2. Seleccione un numero de clases m y el ancho de las clases c tal que m ·c sea ligeramentemayor que la amplitud 44. Por ejemplo, escojamos m = 5 y c = 10 (note que m · c =5 · 10 = 50 > 44). En general, se sugiere usar entre 6 y 12 clases, dependiendo deltamano de muestra.
3. Seleccione un valor inicial, el cual debe ser menor que el mınimo valor en los datos.Por ejemplo, un valor inicial podrıa ser 50 (el mınimo valor es 52). Lo que queremoshacer es dividir la amplitud de la variable en m = 5 clases. Ası que los lımites de esasclases serıan 50, 60, 70, 80, 90, 100. El maximo valor en los datos es 96, ası que todoslos datos quedan dentro de las clases conformadas.
Las clases quedan conformadas de la siguiente manera:
• Clase 1 [50, 60): Personas con 50 puntos pero menos de 60 puntos.
• Clase 2 [60, 70): . . .
• Clase 3 [70, 80): . . .
• Clase 4 [80, 90): . . .
• Clase 5 [90, 100): . . ..
4. El siguiente paso consiste en contar cuantos datos pertenecen a cada clase. Para realizareste procedimiento manualmente, una buena estrategia es ordenar los datos de menora mayor.
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 5 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Figure 1: Clases para la distribucion de frecuencias
sort(notas)
[1] 52 60 62 66 68 70 72 74 74 76 76 78 78 82 82 84 86 88 92 96
Con esta informacion vamos construyendo la tabla de distribucion de frecuencias de lamisma manera que lo hicimos con los datos discretos.
Clase (Nota/Puntaje) Frec. Absoluta[50, 60) 1[60, 70) 4[70, 80) 8[80, 90) 5[90, 100) 2
5. El siguiente paso consiste en agregar otros valores a la tabla: Frecuencia Acumu-lada, Frecuencia Relativa y Frecuencia Relativa Acumulada.
Nota Frec. Absoluta Frec. Absoluta Acum. Frec. Relativa Frec. Relativa Acum.[50, 60) 1 1 0.05 0.05[60, 70) 4 5 0.20 0.25[70, 80) 8 13 0.40 0.65[80, 90) 5 18 0.25 0.90[90, 100) 2 20 0.10 1.00
Con base en esta distribucion de frecuencias podemos concluir que la mayorıa de estu-diantes sacaron notas entre 60 y 90 puntos. Mas especificamente, el 40% de los estudiantessacaron entre 70 y 80 puntos en el examen. De otro lado, el 95% de los estudiantes aproboel examen (D, C, B o A).
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 6 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Histogramas
La distribucion de frecuencias de una variable numerica puede ser representada graficamenteusando un histograma. Un histograma es un grafico de barras con las siguientes carac-terısticas:
• Un tıtulo para identificar la poblacion o muestra de interes.
• Una escala vertical (eje Y) para identificar las frecuencias (o frecuencias relativas) delas clases.
• Una escala horizontal para identificar la clases de la variable de interes. Las barras enel histograma debe estar unidas (no deben haber espacios entre las barras).
Usando la tabla anterior podemos construir los histogramas manualmente. Note que tantola Frecuencia como la Frec.Relativa pueden ser usadas para construir los histogramas.La conclusion sera la misma en ambos casos.
Una forma simple de construir histogramas en R/RStudio es usando el siguiente comando:
hist(notas)
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 7 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Histogram of notas
notas
Fre
quen
cy
50 60 70 80 90 100
01
23
45
67
En este caso el histograma es construido usando las frecuencias. Note que el histogramano tiene tıtulos en la grafica ni en los ejes. Una forma de agregar tıtulos al histograma esusando los siguientes comandos:
hist(notas, main = "Histograma de Notas Usando Frecuencias Absolutas",
ylab = "Frecuencia (Numero de estudiantes)",
col="green")
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 8 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Histograma de Notas Usando Frecuencias Absolutas
notas
Fre
cuen
cia
(Núm
ero
de e
stud
iant
es)
50 60 70 80 90 100
01
23
45
67
Ahora, si queremos hacer el histograma con las frecuencias relativas tenemos que agregarel comando freq=FALSE:
hist(notas, main = "Histograma de Notas Usando Frecuencias Relativas",
ylab = "Frecuencia Relativa (Proporcion de estudiantes)",
col="green", freq = FALSE)
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 9 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Histograma de Notas Usando Frecuencias Relativas
notas
Fre
cuen
cia
Rel
ativ
a (P
ropo
rció
n de
est
udia
ntes
)
50 60 70 80 90 100
0.00
00.
005
0.01
00.
015
0.02
00.
025
0.03
00.
035
Distribucion de Frecuencias en R/RStudio
Tal como hemos podido experimentar en el ejercicio anterior, construir una distribucionde frecuencias manualmente puede llegar a ser tedioso, especialmente si tenemos muchosdatos. Por lo tanto, nosotros usaremos R/RStudio para calcular una tabla de distribucionde frecuencias. Por ejemplo, construyamos la distribucion de frecuencias para las notas.Vamos a usar seis (6) clases.
# Construye una tabla de distribucion de frecuencias con 6 clases
myvariable = notas
puntaje <- factor(cut(myvariable, right = FALSE, breaks = 6))
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 10 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Freq <- table(puntaje)
dist.frec <- transform(Freq, Frec.Acumulada = cumsum(Freq),
Frec.Relativa = prop.table(Freq),
Frec.Rel.Acumulada = cumsum(prop.table(Freq)))
dist.frec
puntaje Freq Frec.Acumulada Frec.Relativa Frec.Rel.Acumulada
1 [52,59.3) 1 1 0.05 0.05
2 [59.3,66.7) 3 4 0.15 0.20
3 [66.7,74) 3 7 0.15 0.35
4 [74,81.3) 6 13 0.30 0.65
5 [81.3,88.7) 5 18 0.25 0.90
6 [88.7,96) 2 20 0.10 1.00
La construccion de histogramas en R es relativamente facil usando los siguientes comandos(note que le estamos diciendo a R que queremos un histograma con seis clases para quegrafique lo mismo que obtuvimos en la tabla de distribucion de frecuencias):
# Construye un histograma con 6 clases
# Los lımites de las clases son definidos previamente usando la opcion "breaks="
myvariable = notas
hist(myvariable, breaks = c(52, 59.3, 66.7, 74, 81.3, 88.7, 96),
main = "Histograma de Notas",
xlab = "Nota", ylab = "Frecuencia (Numero de estudiantes)",
col="green",
right = FALSE, freq=T)
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 11 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Histograma de Notas
Nota
Fre
cuen
cia
(Núm
ero
de e
stud
iant
es)
60 70 80 90
01
23
45
6
Tanto en la tabla como en el histograma podemos decirle a R/RStudio cuantas clases usary como construirlas. Por ejemplo, vamos a reproducir la tabla de distribucion de frecuenciasque construimos manualmente. Los lımites de clases son 50, 60, 70, 80, 90, 100.
# Construye una tabla de distribucion de frecuencias con 6 clases
myvariable = notas
puntaje <- factor(cut(myvariable, right = FALSE, breaks = c(50,60,70,80,90,100)))
Freq <- table(puntaje)
dist.frec <- transform(Freq, Frec.Acumulada = cumsum(Freq),
Frec.Relativa = prop.table(Freq),
Frec.Rel.Acumulada = cumsum(prop.table(Freq)))
dist.frec
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 12 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
puntaje Freq Frec.Acumulada Frec.Relativa Frec.Rel.Acumulada
1 [50,60) 1 1 0.05 0.05
2 [60,70) 4 5 0.20 0.25
3 [70,80) 8 13 0.40 0.65
4 [80,90) 5 18 0.25 0.90
5 [90,100) 2 20 0.10 1.00
# Construye un histograma con 6 clases
# Los lımites de las clases son definidos previamente usando la opcion "breaks="
myvariable = notas
hist(myvariable, breaks = c(50,60,70,80,90,100),
main = "Histograma de Notas",
xlab = "Nota", ylab = "Frecuencia (Numero de estudiantes)",
col="green",
right = FALSE, freq=T)
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 13 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Histograma de Notas
Nota
Fre
cuen
cia
(Núm
ero
de e
stud
iant
es)
50 60 70 80 90 100
02
46
8
Construya un histograma para las siguientes variables:
• Edad (AGE)
• Consumo de grasa (FAT)
• Consumo de fibra (FIBER)
Discuta brevemente como es la distribucion de los individuos en la muestra paracada variable.
Ejercicio
B
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 14 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Tipos de Histogramas
Existen varios tipos de histogramas dependiendo de la distribucion de la variable de in-teres. Estos son algunas de las posibles formas de histogramas. ¿Como se interpretan loshistogramas si estuvieramos hablando de las edades de un grupo de individuos?
Simétrico, Normal
Variable
Fre
quen
cy
050
100
150
Simétrico, Uniforme
Variable
Fre
quen
cy
020
4060
8010
0
Sesgado a la derecha (Skewed to right)
Variable
Fre
quen
cy
050
100
150
200
Sesgado a la izquierda (Skewed to right)
Variable
Fre
quen
cy
020
4060
8010
012
0
En forma de J (J−shaped)
Variable
Fre
quen
cy
010
020
030
0
Bimodal
Variable
Fre
quen
cy
050
100
150
200
250
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 15 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Construya un histograma para las variables Beta-Caroteno en la dieta (BE-TADIET) y Beta-Caroteno en la sangre (BETAPLASMA). ¿Que me dicen los his-togramas con respecto al consumo de beta-caroteno medido a traves de los alimentosy de la sangre?. Use los siguientes comandos:
Ejercicio 1
B
par(mfrow = c(1, 2))
hist(BETADIET, col = "green", xlab = "Betacaroteno en Dieta (mcg/dıa)")
hist(BETAPLASMA, col = "red", xlab = "Betacaroteno en Sangre (mcg/dıa)")
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 16 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Histogram of BETADIET
Betacaroteno en Dieta (mcg/día)
Fre
quen
cy
0 2000 6000 10000
020
4060
8010
0
Histogram of BETAPLASMA
Betacaroteno en Sangre (mcg/día)
Fre
quen
cy
0 500 1000 1500
050
100
150
200
Compare el consumo de beta-caroteno medido a traves de la sangre para hombresy mujeres. Use los siguiente comandos:
Ejercicio 2
B
betadiet.males = BETADIET[SEX==1]
betadiet.females = BETADIET[SEX==2]
par(mfrow=c(1,2))
hist(betadiet.males, col="blue", xlim=range(BETADIET),
main="Hombres", xlab="Beta-Caroteno (Dieta, mcg/dıa)")
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 17 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
hist(betadiet.females, col="red", xlim=range(BETADIET),
main="Mujeres", xlab="Beta-Caroteno (Dieta, mcg/dıa)")
Hombres
Beta−Caroteno (Dieta, mcg/día)
Fre
quen
cy
0 2000 6000 10000
02
46
8
Mujeres
Beta−Caroteno (Dieta, mcg/día)
Fre
quen
cy
0 2000 6000 10000
020
4060
8010
0
Curva Acumulada de Frecuencia Relativa (O’give)
Usando los datos de la Frecuencia Relativa Acumulada de la tabla de distribucion de fre-cuencias de las notas, podemos construir una curva llamada ojiva. Una ojiva es una curvamostrando las frecuencias relativas acumuladas para las diferentes clases.
Lamentablemente no existe un solo comando para generar esta curva en R usando losdatos originales. Sin embargo, los siguientes comandos generan la ojiva usando las frecuenciasrelativas acumuladas.
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 18 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
# Construye una ojiva para notas
myvariable = notas
limites = c(50, 60, 70, 80, 90, 100)
puntaje <- factor(cut(myvariable, right = FALSE, breaks = limites))
Freq <- table(puntaje)
Frec.Rel.Acumulada = cumsum(prop.table(Freq))
plot(limites[-1], Frec.Rel.Acumulada, col="red", lwd=2,
type="b", ylab="Frecuencia Relativa Acumulada",
main="Ojiva",
xlab="Nota")
text(limites[-1], Frec.Rel.Acumulada,
round(Frec.Rel.Acumulada,2), pos=4, cex=0.7)
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 19 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
60 70 80 90 100
0.2
0.4
0.6
0.8
1.0
Ojiva
Nota
Fre
cuen
cia
Rel
ativ
a A
cum
ulad
a
0.05
0.25
0.65
0.9
1
El siguiente ejemplo construye la ojiva para la variable edad (AGE).
# Construye una ojiva para AGE
myvariable = AGE
limites = c(10,20,30,40,50,60,70,80,90)
puntaje <- factor(cut(myvariable, right = FALSE, breaks = limites))
Freq <- table(puntaje)
Frec.Rel.Acumulada = cumsum(prop.table(Freq))
plot(limites[-1], Frec.Rel.Acumulada, col="red", lwd=2, type="b",
ylab="Frecuencia Relativa Acumulada", main="Ojiva", xlab="Edad")
text(limites[-1], Frec.Rel.Acumulada,
round(Frec.Rel.Acumulada,2), pos=4, cex=0.7)
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 20 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
20 30 40 50 60 70 80 90
0.0
0.2
0.4
0.6
0.8
1.0
Ojiva
Edad
Fre
cuen
cia
Rel
ativ
a A
cum
ulad
a
0
0.05
0.27
0.56
0.71
0.86
0.99 1
Analisis de Series Temporales
Supongamos que tenemos los datos de las tasas de desempleo (%) en Puerto Rico desde1970 hasta 2013 segun el Departamento del Trabajo y Recursos Humanos de PR (Fuente:http://www.estadisticas.gobierno.pr). Una grafica de lıneas puede ser usada en estoscasos para representar los datos.
Esta base de datos ha sido compartida en formato .csv en una direccion de internet (re-cuerde que puede importar la base de datos munualmente usando la opcion Tools->Import
Dataset).
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 21 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
# Lee la base de datos
install.packages("RCurl", repos="http://cran.us.r-project.org")
library(RCurl)
tt = getForm("https://docs.google.com/spreadsheet/pub",
hl ="en_US",
key = "0AhpzM-gDQ-UcdDhzV0dpaGF0YU54ZDZGVTM3QzlLNEE",
output = "csv",
.opts = list(followlocation = TRUE, verbose = TRUE,
ssl.verifypeer = FALSE))
tasas = read.csv(textConnection(tt))
View(tasas)
attach(tasas)
# Grafica de lıneas para una serie temporal
plot(Year, Desempleo, main="Tasa de Desempleo (%) en PR",
type="b",
xlab="A~no",
ylab="Tasa de Desempleo (%)",
col="blue",
sub="Fuente: Departamento del Trabajo y Recursos Humanos de PR",
ylim=c(0,30))
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 22 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
1970 1980 1990 2000 2010
05
1015
2025
30
Tasa de Desempleo (%) en PR
Fuente: Departamento del Trabajo y Recursos Humanos de PRAño
Tasa
de
Des
empl
eo (
%)
Veamos que sucede si creamos la misma grafica usando diferentes escalas en el eje Y. Porejemplo, si le decimos al programa que la escala del eje Y es de 0 a 100 entonces los cambiosen la tasa de desempleo son menos drasticos, lo cual puede llevar a conclusiones erroneas (eneconomıa cambios relativamente pequenos en la tasa de desempleo suelen indicar cambiosimportantes en la economıa de un paıs).
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 23 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
1970 1980 1990 2000 2010
05
1015
2025
30Tasa de Desempleo (%) en PR
Fuente: Departamento del Trabajo y Recursos Humanos de PRAño
Tasa
de
Des
empl
eo (
%)
1970 1980 1990 2000 2010
1012
1416
1820
22
Tasa de Desempleo (%) en PR
Fuente: Departamento del Trabajo y Recursos Humanos de PRAño
Tasa
de
Des
empl
eo (
%)
1970 1980 1990 2000 2010
020
4060
8010
0
Tasa de Desempleo (%) en PR
Fuente: Departamento del Trabajo y Recursos Humanos de PRAño
Tasa
de
Des
empl
eo (
%)
Diagramas de Hoja y Tallo (Stem-and-Leaf )
Existe otros tipos de graficos para analizar datos cuantitativos tales como el diagrama detallo y hojas y el diagrama de puntos.
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 24 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Vamos a hacer un diagrama de tallo y hojas para la variable BETADIET usando el comandostem().
# Diagrama de tallo y hojas
stem(BETADIET)
The decimal point is 3 digit(s) to the right of the |
0 | 223344
0 | 55555666666666666677777778888888888899999999999
1 | 0000000000001111111111111111222222222222222333333333444444444444444
1 | 55555555555556666677777777777777777788889999999
2 | 0000000011111111111112222222233333333444444444
2 | 555555566666677777778889999999999
3 | 01111122333333444444
3 | 555566666777889
4 | 0001333444
4 | 5578899
5 | 0134
5 | 689
6 | 013
6 | 699
7 | 04
7 |
8 | 0
8 |
9 |
9 | 6
El tallo del diagrama es creado usando las unidades de miles (el mensaje al comienzo dela salida indica como leer los numeros en el diagrama). Por ejemplo, el elemento 9|6 en laultima fila del diagrama corresponde a un valor de alrededor de 9600 mcg de betacaroteno(el valor original es 9642). El elemento 0|2 al comienzo del diagrama indica que hay undato alrededor de 200 mcg por dıa (el mınino consumo es 214 mcg/dıa). Al igual que elhistograma, este diagrama busca describir la forma de la distribucion de los datos, al igualque la tendencia central y variabilidad de los datos.
Material Opcional (Mas Avanzado)
Si tiene tiempo libre y la curiosidad por la estadıstica es inevitable, puede intentar generarhistogramas sobrepuestos para dos grupos usando la librerıa o paquete ggplot2 de R. Elprimer paso es instalar dicha librerıa ejecutando los siguientes comandos:
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 25 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
# Instala la librerıa ggplot2
install.packages("ggplot2")
Luego use los siguientes comandos para graficar los histogramas de BETADIET parahombres y mujeres:
library(ggplot2)
# Histogramas superpuestos
ggplot(dieta, aes(BETADIET, fill = factor(SEX, labels=c("M", "F"))))+
geom_histogram(alpha = 0.5, aes(y = ..density..),
position = 'identity',binwidth = 500)+
labs(title="Dotplot de Consumo de Beta-Caroteno en Dieta",
y="Numero de Individuos",
x="Betacaroteno en Dieta (mcg/dıa)")+
scale_fill_discrete("Sexo")
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 26 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
0e+00
1e−04
2e−04
3e−04
4e−04
0 2500 5000 7500 10000Betacaroteno en Dieta (mcg/día)
Núm
ero
de In
divi
duos
Sexo
M
F
Dotplot de Consumo de Beta−Caroteno en Dieta
Estos son solo algunos ejemplos del potencial y de la calidad de R/RStudio para hacergraficos estadısticos. Tanto los tıtulos como las etiquetas de la leyenda se pueden cambiarpara personalizar las graficas.
Por ejemplo, podemos hacer un diagrama de puntos de la variable BETADIET con coloresen los puntos indicando el sexo.
# Dotplot de BETADIET con colores por SEX
ggplot(dieta, aes(x = BETADIET,
fill = factor(SEX, labels=c("M", "F"))))+
geom_dotplot(method="histodot", stackgroups = TRUE,
binwidth = 100,
binpositions = "all", dotsize=3)+
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 27 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
scale_fill_discrete("Sexo")+
scale_y_continuous(name = "", breaks = NULL)+
labs(title="Dotplot de Consumo de Beta-Caroteno en Dieta",
y="Numero de Individuos",
x="Betacaroteno en Dieta (mcg/dıa)")
0 2500 5000 7500 10000Betacaroteno en Dieta (mcg/día)
Sexo
M
F
Dotplot de Consumo de Beta−Caroteno en Dieta
Tambien podemos hacer un histograma de la variable BETADIET donde podamos verla la participacion de hombres y mujeres en cada clase.
# Histograma de BETADIET con colores por SEX
qplot(BETADIET, data=dieta, geom="histogram",binwidth=1000,
fill=factor(SEX, labels=c("M", "F"))) +
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 28 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
labs(title="Histograma de BETADIET",
y="Numero de Individuos", x="Betacaroteno en Dieta (mcg/dıa)")+
scale_fill_discrete("Sexo")
0
30
60
90
0 4000 8000Betacaroteno en Dieta (mcg/día)
Núm
ero
de In
divi
duos
Sexo
M
F
Histograma de BETADIET
Las librerıas ggplot2 y lattice son excelentes recursos para generar graficos estadısticosde calidad.
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 29 of 30
Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)
Recursos Adicionales
• Seccion 2.2 del libro de texto.
• Java applets que muestran diferentes tipos de histogramas. El efecto de cambiar elnumero de clases y amplitud de las clases tambien se puede visualizar: http://www.
shodor.org/interactivate/activities/Histogram/
c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 30 of 30