View
241
Download
0
Category
Preview:
DESCRIPTION
Estadistica
Citation preview
UNIDADES I, II Y III
MODULO DE ESTADISTICA DESCRIPTIVA
INGENIERIA INDUSTRIAL Y DE SISTEMAS
Mg. Aníbal José Verbel Castellar
15/01/2015
Introducción
Estadística:
Desde épocas prehistóricas el hombre se ha enfrentado a diversos fenómenos de orden económico, político,
social, cultural, ambiental, biológico, etc. y a medida que el mundo es absorbido por la tecnología y las
comunicaciones, aparecen cantidades de datos que al ser analizados pueden revelar explicaciones de lo que
ha sucedido, sucede o pueda suceder respecto a un fenómeno cualquiera. Es ahí donde entra la estadística a
aportar sus herramientas, reglas y métodos que permitan ordenar, cuantificar y analizar dichos fenómenos.
En general el término estadística tiene tres acepciones gramaticales claramente definidas:
1. La definición más común es un procedimiento de recolección de datos numéricos ordenados y
clasificados bajo un criterio determinado. Esta definición se refiere a datos asociados con producción,
ventas, cotizaciones bursátiles, demografías, características de poblaciones: vivienda, educación, empleo,
costo de vida, pobreza, actividad económica etc.
2. Una segunda acepción, es la ciencia que, utilizando como instrumento las matemáticas y el cálculo de
probabilidades, estudia las leyes de comportamiento de aquellos fenómenos que no están sometidos a las
leyes físicas y con base en ellas predice e infiere resultados. En este caso se la denomina Estadística
Matemática.
3. Finalmente, significa técnica o método científico usado para recolectar, organizar, resumir, presentar,
analizar, interpretar, generalizar y contrastar los resultados de las observaciones de los fenómenos reales.
Cabe anotar que la estadística se aplica en cualquier área del conocimiento: Computación, ingenierías (todas),
finanzas, medicina, sociología, biología, astronomía, periodismo, sicología, odontología, genética y pruebas
de ADN, contaduría, economía, seguridad social, etc.
Tarea: Investigue una aplicación o ejemplo de la estadística en cada una de las áreas mencionadas.
Terminología usada frecuentemente en estadística:
Población:
En estadística el concepto de población se refiere al conjunto universo o colección completa de los elementos
o resultados de la información buscada. Los elementos, pueden ser de cualquier índole: personas, animales,
objetos, características, etc. Es importante anotar que los elementos también se conocen en estadística como
objetos, observaciones o individuos.
Una población puede ser finita o infinita:
Población finita: Aquella donde el número de elementos que la conforman es relativamente pequeño,
“fácil de contar”. Algunos expertos consideran que una población es finita cuando alcanza un máximo
de 10000 elementos. Ejemplos: El numero de hospitales de una ciudad, el número de escuelas de
secundaria, el número de estaciones de gasolina, el número de alumnos en un colegio, etc.
Población infinita: Aquella donde el número de elementos que la conforman es grande, “no es fácil de
contar”. Ejemplos: El numero de habitantes en una ciudad, la cantidad de cervezas producidas por una
empresa en una semana, el numero de aspirinas producidas por Bayer en un día, el numero de bacterias
en un lago rio o manantial de agua, etc.
El tamaño de la población se representara por la letra mayúscula N
Muestra: Una muestra es un subconjunto o una parte representativa de una población. El tamaño de la
muestra se representara por la letra minúscula n
Datos u observaciones son números o denominaciones que se pueden asignar a un individuo o elemento
de una población
Parámetro: Es cualquier característica medible de una población. Ejemplo, el promedio del peso en
kilogramos de todos los estudiantes de la universidad.
Estadística: Una estadística, es cualquier característica medible de una muestra. Ejemplo el promedio
del peso en kilogramos de una muestra de 100 estudiantes de la USB.
Censo: Es la enumeración completa de una población
ESCALAS DE MEDICIÓN
1. NOMINAL
Son variables numéricas cuyos valores representan una categoría o identifican un grupo de pertenencia. Este
tipo de variables sólo nos permite establecer relaciones de igualdad/desigualdad entre los elementos de la
variable. La asignación de los valores se realiza en forma aleatoria por lo que NO cuenta con un orden lógico.
Un ejemplo de este tipo de variables es el Género ya que nosotros podemos asignarles un valor a los hombres
y otro diferente a las mujeres y por más machistas o feministas que seamos no podríamos establecer que uno
es mayor que el otro.
Otro ejemplo es de los números asignados a los futbolistas en un partido. El 9 no significa que sea más que el
4, (Un delantero no es más que un defensa y viceversa, simplemente son jugadores diferentes), los números
telefónicos, la raza, la religión (un cristiano no es mayor que un católico), el estado civil (un casado no es
menor que un soltero), son ejemplos de este tipo de escala
2. ORDINAL
Son variables numéricas cuyos valores representan una categoría o identifican un grupo de pertenencia
contando con un orden lógico. Este tipo de variables nos permite establecer relaciones de
igualdad/desigualdad y a su vez, podemos identificar si una categoría es mayor o menor que otra. Un
ejemplo de variable ordinal es el nivel de educación:
1. Primaria
2. Secundaria
3. Profesional
4. Especialista
5. Magister
6. Doctor
Como puede verse, se puede establecer que una persona con título de Postgrado tiene un nivel de educación
superior al de una persona con título de bachiller. En las variables ordinales no se puede determinar la
distancia entre sus categorías, ya que no es cuantificable o medible.
3. INTERVALO
Son variables numéricas cuyos valores representan magnitudes y la distancia entre los números de su escala
es igual. Con este tipo de variables podemos realizar comparaciones de igualdad/desigualdad, establecer un
orden dentro de sus valores y medir la distancia existente entre cada valor de la escala. Las variables de
intervalo carecen de un cero absoluto, por lo que operaciones como la multiplicación y la división no son
realizables. Un ejemplo de este tipo de variables es la temperatura, ya que podemos decir que la distancia
entre 10 y 12 grados es la misma que la existente entre 15 y 17 grados. Lo que no podemos establecer es que
una temperatura de 10 grados equivale a la mitad de una temperatura de 20 grados.
En los puntajes del icfes la distancia entre un puntaje de 45 y 50 equivale a la distancia entre un puntaje de 90
y uno de 95, lo que no se puede decir es que un puntaje de 80 equivale a afirmar que el alumno sabe el doble
de lo que sabe un alumno con un puntaje de 40.
4. RAZÓN
Las variables de razón poseen las mismas características de las variables de intervalo, con la diferencia que
cuentan con un cero absoluto; es decir, el valor cero (0) representa la ausencia total de medida, por lo que se
puede realizar cualquier operación Aritmética (Suma, Resta, Multiplicación y División) y Lógica
(Comparación y ordenamiento).
Este tipo de variables permiten el nivel más alto de medición. Las variables altura, peso, distancia o el salario,
son algunos ejemplos de este tipo de escala de medida.
Ej. El salario, si A gana 500.000 y B gana 1000.000, entonces podemos decir perfectamente que B gana el
doble de A.
Debido a la similitud existente entre las escalas de intervalo y de razón, SPSS las ha reunido en un nuevo tipo
de medida exclusivo del programa, al cual denomina Escala. Las variables de escala son para SPSS todas
aquellas variables cuyos valores representan magnitudes, ya sea que cuenten con un cero (0) absoluto o no.
5. DICOTOMICA
Es aquella escala que presenta tan solo dos opciones para medir la variable, siendo esta variable de tipo
cualitativo ò cuantitativo dependiendo de la información ò resultado que se busque.
Por ejemplo:
Variable: Hábitos de fumarEscala de medición: Fuma y No fuma
Variable: Condición de calidad de un productoEscala de medición: Conforme y no conforme (bueno y defectuoso)
Es frecuente convertir una característica medible en una variable dicotómica, por ejemplo el peso al nacer de
los neonatos se clasifica así:
BPN (Bajo Peso al Nacer): Cuando el peso es ≤2500 gramos
Peso normal PN: Cuando el peso es > 2500 gramos
En este caso BPN=0 Cuando el peso es ≤2500 gramos
BPN= 1 Cuando el peso es > 2500 gramos
6. CRONOLOGICA
Es un tipo de escala cuantitativa continua, se la utiliza para estudiar algunos fenómenos en función del tiempo, algunos autores la tratan como si fuera una escala de variable independiente, permite conocer un determinado fenómeno a través del tiempo, es decir permite un seguimiento temporalizado (en el pasado, en el presente ò en el futuro). De uso frecuente en series de tiempo.
Ejemplos:
El comportamiento de la demanda durante semanas, meses, trimestres, semestres, años.
Seguimiento del efecto de una droga en un paciente con una enfermedad específica, o de un tratamiento terapéutico, durante semanas, meses o años.
TIPOS DE DATOS:
Existen dos tipos de datos: Categóricos o cualitativos y numéricos o cuantitativos.
Categóricos o cualitativos: Son aquellos datos cuyas características no son medibles, representan
atributos o cualidades, por ejemplo el sexo, la raza, la nacionalidad, el estado civil etc.
Numéricos o cuantitativos: Son aquellos cuyas características son medibles, producen respuestas
numéricas, por ejemplo: la edad, la estatura, la temperatura, el diámetro de un buje, etc.
Los datos numéricos a su vez se clasifican en dos tipos: Discretos y continuos:
Discretos: Aquellos que se producen a partir de un conteo, por ejemplo el número de municipios del
departamento del Atlántico, el número de hijos por familia, el número de autos en un parqueadero, etc.
Puede observarse que este tipo de conteo produce un número entero.
Continuos: Aquellos que se producen a partir de un proceso de medición, donde la característica que se
mide puede tomar cualquier valor en un intervalo, por ejemplo, la estatura de los estudiantes de la
universidad, la presión diastólica de un grupo de personas, el tiempo que usted tarda de su casa a la
universidad, etc. Puede observarse que para cada uno de los ejemplos mencionados, necesariamente los
valores se encuentran en un intervalo dado, por ejemplo la estatura estará por decir algo entre 1 metro y
2.5 metros, al menos que haya un súper enano de 5 cms. y un gigante de tres metros.
Variables latentes: El paisaje, el grado de inteligencia
UNIDAD II
ORGANIZACIÓN, TABULACION Y GRAFICOS DE UN CONJUNTO DE DATOS.
Cuando se tiene un conjunto de datos tomados de un trabajo de campo o de una investigación, es necesario
organizarlos de tal manera que se puedan interpretar y analizar sus tendencias y finalmente generar
conclusiones.
El análisis descriptivo de datos se puede clasificar de la siguiente manera:
Individuales
Distribución de frecuencias
TABLAS Agrupados
Agrupados con dos criterios
Asociación > 2 criterios
Matriz de datos
2.1 Distribución de frecuencia para datos individuales.
Ejemplo de distribución de frecuencias individuales: los siguientes datos corresponden a una muestra de
50 trabajadores y el número de hijos.
2 3 5 4 3 2 3 2 0 2
4 2 1 0 2 2 2 2 4 2
1 2 2 3 3 4 3 2 1 2
1 2 5 2 4 2 4 2 4 4
4 3 2 3 2 5 0 4 3 1
X(N° de hijos) ni Ni fi(%) Fi(%)
0 3 3 6 6
1 5 8 10 16
2 20 28 40 56
3 9 37 18 74
4 10 47 20 94
5 3 50 6 100
Totales 50 100
1 2 3 4 5 60
5
10
15
20
25
35
20
9 10
3
0 1 2 3 4 5
OperariosN° de hijos
Ejercicio: Los siguientes datos corresponden a La cantidad de DSH (Deshechos Solidos Hospitalarios) en
toneladas por año en toneladas por nivel de edificio y salas especializadas.
NIVELES Toneladas/año1º nivel 182º nivel 423º nivel 11,54º nivel 8,55º nivel 76º nivel 9,5Maternidad 1Pediatría 5,5Totales 103
Elabore un gráfico de barras, de tortas etc..
17%
41%11%
8%
7%
9%
1%5%
Toneladas/año1º nivel2º nivel3º nivel4º nivel5º nivel6º nivelMaternidadPediatria
1º nive
l
2º nive
l
3º nive
l
4º nive
l
5º nive
l
6º nive
l
Matern
idad
Pediat
ria
Total
es0
20
40
60
80
100
120
18
42
11.5 8.5 7 9.51 5.5
103
Toneladas/año
Toneladas/año
2.2 Distribución de frecuencia para datos agrupados.
2.2.1 Ejemplo 1 de distribución de frecuencias para datos agrupados cuando la
variable de estudio es discreta.
Con el fin de estudiar la densidad de la población estudiantil infantil en el sector rural del
Departamento de Sucre, se obtuvo una muestra de 150 escuelas. Los resultados del número de
estudiantes por escuela se muestran a continuación:
101 151 181 204 222 233 250 359
102 152 181 205 223 234 253 365
106 153 187 205 224 234 271 368
106 153 189 206 224 234 272 372
107 155 191 206 225 236 280 378
108 156 194 208 226 237 283 383
112 156 195 209 226 240 285 388
114 159 196 210 226 241 285 389
114 160 199 212 227 242 286 395
116 160 200 214 228 242 306 400
116 163 201 217 228 244 310
121 166 201 217 229 245 310
121 170 202 218 229 246 315
125 170 202 218 229 246 315
125 172 202 218 230 246 318
126 173 202 220 231 247 321
130 173 202 220 231 247 325
132 173 203 220 231 248 335
139 174 204 220 232 248 338
150 180 204 220 232 250 343
1. Defina la variable aleatoria2. De qué tipo es3. Elabore una tabla de frecuencias
1. V.A. Nº de estudiantes
2. Tipo: Discreta
3. Tabla de frecuencias:
a) Ordenar los datos
b) Numero de intervalos o clases k:
Una buena guía para el cálculo de k es aplicar la regla de Sturges:
K=1+3.33log n
Otras expresiones como guía para calcular k son las siguientes:
k= ln nln 2
k=√n
La norma ISO 9001 recomienda el usar como guía la siguiente tabla para determinar el número de
intervalos:
N° de datos N° de intervalos
40 a 80 5 a 7
81 a 150 7 a 10
151 a 250 10 a 12
251 o mas 12 a 20
Para este curso usaremos la regla de Sturges: k= 1+3.33log 150= 8.24≈8
Amplitud A: Es el ancho de cada intervalo. Se calcula como el cociente entre el rango R y el número de
intervalos k, donde:
R=Xmaximo-Xminimo, en este caso, Xmax = 400 y Xmin = 101, es decir R=299
Luego A = R/k = 299/8 = 37.375≈37
Seleccionamos 8 intervalos:
LI--LS Xi ni Ni fi (%) Fi(%)
1 101--138 119,5 18 18 12 12
2 139--176 157,5 21 39 14 26
3 177--214 195,5 31 70 20,67 46,67
4 215--252 233,5 51 121 34 80,67
5 253--290 271,5 8 129 5,33 86
6 291--328 309,5 8 137 5,33 91,33
7 329--366 347,5 5 142 3,33 94,67
8 367--404 385,5 8 150 5,33 100
Totales 150 100
Se observa que más del 50% de las escuelas están por encima de los 214 alumnos.
Xi: se conoce como marcas de clase y se obtiene sumando los límites de cada intervalo y dividiendo
entre dos. Este valor refleja el promedio de cada intervalo.
ni : Se conoce como frecuencias absolutas, es el número de observaciones o individuos en cada
intervalo.
Ni: Se conoce como frecuencias absolutas acumuladas.
fi: Se conoce como frecuencia relativa, se obtiene de la relación entre la frecuencia absoluta y el
número total de datos, es decir, es la misma columna de la frecuencia absoluta pero expresada en
porcentaje
Fi: Es la misma frecuencia absoluta acumulada pero expresada en porcentaje, se conoce como
frecuencia relativa acumulada.
Interpretación de la fila N° 4: Interprete cada uno de los valores correspondiente al intervalo 4
Ejercicio en clase:
Con el fin de implementar un plan de manejo de residuos sólidos en el Hospital San Juan de Dios de la ciudad de Villavicencio, se tomó una muestra de la cantidad de bolsas rojas producidas durante 140 días. Los resultados se muestran a continuación:
5 12 21 26 33 38 465 12 21 27 34 38 466 13 22 28 34 39 467 13 22 28 34 39 477 13 23 28 34 39 477 15 23 29 35 40 477 15 23 29 36 41 477 16 23 30 36 41 477 16 23 30 36 41 478 16 24 30 36 41 478 17 24 31 37 41 488 17 24 31 37 42 489 17 24 31 37 42 489 17 25 31 37 42 489 17 25 32 37 44 49
10 18 25 32 37 44 4910 18 26 32 38 44 4911 19 26 32 38 45 4911 19 26 32 38 45 5011 20 26 33 38 46 50
a) Defina la variable aleatoria, de que tipo es, elabore una tabla de frecuenciasb) Interprete los datos de una fila cualquiera.
2.2.2 Ejemplo 2 de distribución de frecuencias para datos agrupados cuando la
variable de estudio es continua.
Los siguientes datos corresponden a una muestra de los pesos en kilogramos de 80 sacos de café bajo
recolección manual, tomadas de un emporio cafetero.
91 88,7 90,5 92,2 89,3 87,8
83,4 88,9 90,6 92,3 89,6 89,9
83,5 89 90,7 92,6 89,7 91,1
88,5 88,6 88,6 92,7 83,9 93,4
90,4 90,4 90,4 92,7 84 83,7
91,8 92,2 92,2 92,7 84,1
96,1 98,8 100,3 93 89,8
91 88,3 88,3 88,5 91,1
90,8 90,1 90,3 90,3 93,3
90,9 91,6 91,6 91,8 83,6
83,8 94,4 95 95,6 84,2
87,9 88,2 88,3 83,3 89,8
89,9 90 90,1 91 91,1
91,2 91,2 91,5 89,2 93,3
93,7 94,2 94,2 89,3 93,2
Elabore una tabla de frecuencias
Ordenar los datos de menor a mayor
83,3 88,7 90,5 92,2
83,4 88,9 90,6 92,3
83,5 89 90,7 92,6
83,6 89,2 90,8 92,7
83,7 89,3 90,9 92,7
83,8 89,3 91 92,7
83,9 89,6 91 93
84 89,7 91 93,2
84,1 89,8 91,1 93,3
84,2 89,8 91,1 93,3
87,8 89,9 91,1 93,4
87,9 89,9 91,2 93,7
88,2 90 91,2 94,2
88,3 90,1 91,5 94,2
88,3 90,1 91,6 94,4
88,3 90,3 91,6 95
88,5 90,3 91,8 95,6
88,5 90,4 91,8 96,1
88,6 90,4 92,2 98,8
88,6 90,4 92,2 100,3
Con la regla de Sturges:
k= 1+3.33log 80= 7.337≈7
Amplitud A:
Se calcula como el cociente entre el rango R y el numero de intervalos k, donde
R=Xmaximo-Xminimo, en este caso, Xmax = 100.3 y Xmin = 83.3, es decir R=17
Luego A=17/7=2.428571429, A=2 o A=3
Para que el cociente R/k=3 es necesario modificar R o k o ambos. Asi si R=18 y k=6 se obtiene: A=18/6=3
Otras opciones son: A=21/7=3, A=20/5=4, etc. pero la más razonable es 18/6 = 3.
Aumentar o disminuir el valor de k en una unidad no afecta el propósito de agrupación, es por ello que al
modificar R y k debe hacerse de una manera razonable.
Determinar el Xmin y el Xmax.
La asignación del valor mínimo para el primer intervalo se hace buscando la comodidad para la interpretación
de la tabla y de los gráficos. Así por ejemplo el valor mínimo es 83.3, el cual como tiene una cifra decimal se
puede aproximar por debajo: a 83. Tenga mucho cuidado en no redondear este primer valor por encima,
comete un error, cual es?
Finalmente estamos ya en disposición de armar la tabla de frecuencias con k=6, R=18, Xmin=83
Intervalos xi ni Ni fi (%) Fi (%)
1 83 – 86 84.5 10 10 12.5 12.5
2 86 – 89 87.5 13 23 16.25 28.75
3 89 – 92 90.5 35 58 43.75 72.5
4 92 – 95 93.5 18 76 22.5 95
5 95 – 98 96.5 2 78 2.5 97.5
6 98 – 101 99.5 2 80 2.5 100
Totales 80 100%
Límite inferior y superior de cada intervalo:
El intervalo pude expresarse de una de las dos formas siguientes:
1. Abierto a la izquierda y cerrado a la derecha ( ] ; LI < X ≤ LS
2. Cerrado a la izquierda y abierto a la derecha [ ) ; LI ≤ X < LS
Para este modulo se usara la primera forma
Tenga en cuenta que cada dato debe quedar exactamente en un intervalo, no en dos al mismo tiempo, por
ejemplo el 89 está solo en el intervalo 2. El 95 estará en el intervalo 4
Interpretación y análisis:
Análisis e interpretación de la fila Nº 4:
Xi = 93.5, significa que “hay 18 sacos con un peso promedio de 93.5 Kg.”.
ni = 18, “ hay 18 sacos cuyos pesos oscilan entre 92 y 95 kilogramos”
Ni = 76, “hay 76 sacos cuyo peso máximo es de 95 kilogramos” o “hay 76 sacos cuyos pesos oscilan entre 83
y 95 kilogramos”
fi = 22.5%, “hay un 22.5% de los sacos cuyo peso están entre 92 y 95 kilogramos”
Fi = 95%, “El 95% (76/80) de los sacos tienen un peso máximo de 95 kilogramos”
Nota: Existen diversos procedimientos que a la larga todos confluyen a lo mismo: Obtener el agrupamiento de
los datos.
GRAFICOS
Los siguientes gráficos son los más usados cuando de datos numéricos se trata:
a) Histograma de frecuencias absolutas: En el eje X se ubican los intervalos y en el eje Y la frecuencia
absoluta ni
b) Polígono de frecuencias absolutas: En el eje X se ubican las marcas de clase y en el eje Y la
frecuencia absoluta ni
c) Histograma de frecuencias absolutas acumuladas: En el eje X se ubican los intervalos y en el eje Y
la frecuencia absoluta acumulada Ni
d) Polígono de frecuencias absolutas acumuladas: En el eje X se ubican los intervalos y en el eje Y la
frecuencia absoluta acumulada Ni
e) Curva de frecuencias absolutas: Es una línea continua del polígono de frecuencias absolutas
f) Diagrama de tallos y hojas: Este diagrama propuesto por el estadístico John Tukey ofrece una forma
novedosa de presentar toda la información de los n datos, de manera que se puede apreciar el
comportamiento mucho mas real que una tabla de frecuencias. Un Tallo es el primer digito o parte
del numeral, mientras que una hoja está formada por el o los dígitos restantes. Por ejemplo el
numero 456 se puede descomponer de dos formas:
4 | 56
↑ ↑
Tallo Hoja, o también:
4 5 | 6
↑ ↑
Tallo Hoja
Para nuestro ejercicio:
Histograma de frecuencias absolutas
Intervalos
Fre
c. a
bs.
83 86 89 92 95 98 1010
10
20
30
40
Poligono de frecuencias absolutas
Marcas de clase
Fre
c.
abs.
83 86 89 92 95 98 1010
10
20
30
40
Histograma de frec. abs.acumuladas
Intervalos
Fre
c.
abs.a
cum
.
83 86 89 92 95 98 1010
20
40
60
80
Histograma de frec. abs.acumuladas
Intervalos
Fre
c.
abs.a
cum
.
83 86 89 92 95 98 1010
20
40
60
80
Poligono de frec. abs.acum.
Intervalos
Fre
c. a
bs.
acu
m.
83 86 89 92 95 98 1010
20
40
60
80
Curva de frec abs.
Marcas de clase83 86 89 92 95 98 101
0
0,02
0,04
0,06
0,08
0,1
0,12
Diagrama de tallos y hojas:
83 3 4 5 6 7 8 9
84 0 1 2
87 8 9
88 2 3 5 5 6 6 7 9
89 0 2 3 3 6 7 8 8 9 9
90 0 1 1 3 3 4 4 4 5 6 7 8 9
91 0 0 0 1 1 1 2 2 5 6 6 8 8
92 2 2 2 3 6 7 7 7
93 0 2 3 3 4 7
94 2 2 4 7
95 6
96 1
98 8
100 3
Se observa que hay una gran concentración de observaciones entre 88 y 93 kilogramos.
Ejemplo de tabla de asociación con dos criterios:
La siguiente tabla muestra el número de personas expuestas a un determinado riesgo y los años de exposición:
Años de trabajo Expuestos No expuestos
0--3 1 25
4--7 4 15
8--11 15 20
11--15 7 18
15--18 8 26
18--21 10 22
21--24 5 24
Totales 50 150
POBLACION ESTIMADA PARA EL AÑO 2000 1
Grupos de Edad Hombres Mujeres TOTAL
Menores de 1 año 500.428 480.232 980.660
0-4 1.940.686 1.862.363 3.803.049
5-14 4.619.174 4.447.671 9.066.845
15-44 10.226.708 10.457.260 20.683.968
45-59 2.327.119 2.558.979 4.886.098
60 y más 1.300.408 1.600.358 2.900.766
TOTAL 20.914.523 21.406.863 42.321.386
Ejercicio en clase:
Se tomó una muestra aleatoria del diámetro (en m.m) de 200 bujes de bronce en una empresa metalmecánica.
Los resultados fueron:
5,001 5,063 5,101 5,151 5,216 5,265 5,316 5,382 5,443 5,4835,002 5,064 5,104 5,153 5,222 5,266 5,318 5,384 5,444 5,4855,005 5,065 5,105 5,154 5,225 5,270 5,319 5,391 5,448 5,4865,007 5,066 5,106 5,157 5,225 5,270 5,324 5,393 5,449 5,4915,007 5,067 5,106 5,161 5,226 5,277 5,330 5,393 5,450 5,4945,009 5,069 5,109 5,162 5,232 5,277 5,330 5,396 5,459 5,4955,010 5,070 5,111 5,165 5,232 5,282 5,331 5,398 5,460 5,4975,012 5,070 5,117 5,167 5,236 5,282 5,335 5,398 5,461 5,4985,015 5,070 5,121 5,171 5,237 5,283 5,336 5,398 5,461 5,5025,018 5,071 5,121 5,171 5,239 5,286 5,338 5,401 5,464 5,5035,019 5,072 5,124 5,174 5,246 5,287 5,341 5,410 5,464 5,5125,026 5,074 5,125 5,176 5,249 5,288 5,346 5,412 5,465 5,5125,028 5,080 5,127 5,177 5,250 5,290 5,346 5,412 5,466 5,5195,029 5,086 5,130 5,190 5,250 5,295 5,348 5,416 5,468 5,5195,036 5,089 5,131 5,195 5,252 5,299 5,351 5,418 5,471 5,5195,037 5,089 5,133 5,197 5,254 5,306 5,363 5,423 5,474 5,5375,045 5,090 5,143 5,208 5,256 5,306 5,363 5,423 5,475 5,540
1Fuentes de información1 DANE. Proyecciones de población Censo de 1993. Modificadas por Oficina Epidemiología-Minsalud.
5,051 5,092 5,146 5,208 5,259 5,309 5,369 5,425 5,477 5,5455,061 5,095 5,148 5,209 5,262 5,310 5,369 5,425 5,479 5,5465,062 5,100 5,151 5,209 5,265 5,311 5,375 5,440 5,479 5,555
c) Defina la variable aleatoria, de que tipo es, elabore una tabla de frecuencias
d) Interprete los datos de una fila cualquiera.
e) Elabore todos los gráficos
Ejercicio para entregar.
Los siguientes datos corresponden al consumo de agua en litros/min. de una muestra de 129 casas
4,6 7,5 13,8 18,9 10,4 15 4,5
12,3 7,5 6,2 7,2 9,7 9,6 6,2
7,1 6,2 5,4 5,4 5,1 7,8 8,3
7 5,8 4,8 5,5 6,7 7 3,2
4 2,3 7,5 4,3 10,2 6,9 4,9
9,2 3,4 6 9 6,2 4,1 5
6,7 10,4 6,9 12,7 8,4 3,6 6
6,9 9,8 10,8 11,3 7 11,9 8,2
11,5 6,6 7,5 7,4 4,8 3,7 6,3
5,1 3,7 6,6 5 5,6 5,7
3,8 6,4 5 3,5 10,5 6,8
11,2 6 3,3 8,2 14,6 11,3
10,5 8,3 7,6 8,4 10,8 9,3
14,3 6,5 3,9 7,3 15,5 9,6
8 7,6 11,9 10,3 7,5 10,4
8,8 9,3 2,2 11,9 6,4 9,3
6,4 9,2 15 6 3,4 6,9
5,1 7,3 7,2 5,6 5,5 9,8
5,6 5 6,1 9,5 6,6 9,1
9,6 6,3 15,3 9,3 5,9 10,6
a) Defina la variable aleatoria, de que tipo es, Elabore una tabla de frecuencias
b) Elabore todos los gráficos
c) Interprete los datos de la fila 4
d) Cuantas casas consumen un volumen máximo de 14 L / m
e) Cuantas casas consumen un volumen máximo de 6,5 L / m (Interpole)
f) Media, mediana moda mg ma, var, desv, rango
g) Percentiles 10,25,,75,90 interprete
h) Coef de asimetría y de curtosis
2. Si tienes una muestra de 500000 datos para agrupar cuantos intervalos de clase serían necesarios. Pueden
concebirse investigaciones en donde una muestra tenga 500000 o más datos? Dé ejemplos.
3. Se conocía la tabla de distribución de los salarios por semana en dólares de 50 obreros de una empresa,
desafortunadamente solo queda de ella lo siguiente:
LI ≤ Xi ≤ LS Xi ni Ni fi * 100 (%) Fi *100(%)
165 - 5
7
27
8
40
-1005 4
Totales
a) Complete la tabla
b) Una vez llene la tabla, interprete la información dada en la fila 4.
4. Se tomó una muestra sobre el consumo semanal de arroz en libra por familia en 44 hogares y los
resultados fueron.
3 8 13 16 214 8 13 16 214 8 14 17 214 9 14 17 224 9 14 17 224 9 14 18 225 9 14 18 235 10 15 18 235 10 15 19 235 10 16 19 236 10 16 19 246 11 16 20 24
7 11 16 20 247 11 16 20 247 12 16 21 257 12 16 21 257 13 16 21 25
Construya una tabla de frecuencias para estos datos y responda las siguientes preguntas:
a) Cuáles datos representan el 25% menor de la muestra?
b) Cuántas familias consumen 7 libras o menos semanalmente?
c) Qué porcentaje de las familias consumen más de 9 libras por semana?
d) La mitad de la gente consume menos de ____ libras por semana?
e) Qué tipo de distribución (modelo de curva) siguen estos datos?
4. Para comprobar la eficacia de las maquinas de llenado de bolsas de leche las cuales tienen un
contenido nominal de 946 mililitros. Para ello se realiza un muestreo de 80 bolsas elegidas al azar.
Los resultados se muestran en la siguiente tabla:
953 966 948 928 940 941 965 963
945 966 937 937 933 933 962 967
972 937 955 975 965 960 940 969
945 946 927 970 973 968 962 981
985 954 958 959 934 959 963 950
973 935 955 971 937 956 943 970
955 959 947 940 946 963 950 933
950 939 941 936 952 973 938 960
949 948 952 948 935 949 938 934
941 958 931 957 941 942 945 927
a) Construya una tabla de distribución de frecuencias y responda las siguientes preguntas:
Qué porcentaje de bolsas tuvo un exceso de 946 ml?
Construir el histograma y el polígono de frecuencias absolutas.
Construir el polígono de frecuencias acumuladas u ojiva
Que tipo de curva de frecuencias siguen estos datos?
7. Con el fin de conocer la tendencia de consumo de las marcas de aceite para tracto mulas se realizó una
encuesta a 100 conductores y los resultados fueron los siguientes:
MARCA Nº CONDUCTORESBEG 15
HAVOLINE 20RIMULA 60SHELL 3ESSO 4
OTRAS 8
Defina la variable aleatoria.
Por EXCEL elabore diez tipos de grafico.
En los dos ejercicios siguientes (7 y 8) determine:
a) La variable aleatoria y de qué tipo es.
b) Cuál es la población y cuál es la muestra.
c) Construya una tabla de frecuencias e interprete la fila 4
d) Construya todos los gráficos correspondientes
e) Calcule la media , la mediana y la desviación estándar
f) Determine el rango intercuartil y el rango interdecil
g) Calcule e interprete el percentil 35 y el percentil 80
h) Por encima de que valor se encuentra el 70 % de los valores mas altos
i) Por debajo de que valor se encuentra el 70 % de los valores mas pequeños
7. El Departamento de Seguridad Industrial de la compañía X inició un estudio para conocer el índice de
contaminación que producen los gramos de ceniza de carbón bituminoso que se extrae de la mina A.
Se tomaron 60 observaciones y los resultados fueron:
23.1 25.1 21.6 28.7 21.5 9.4
23.4 22.6 22.7 20.1 13.5 21.5
18.9 18.5 24.1 18.4 31.2 21.3
16.1 16.8 26.2 19.6 28.5 17.2.
30.5 14.6 14.6 25.2 16.7 13.5
28.5 23.8 9.4 18.0 27.2 15.1
22.7 16.6 29.6 26.8 23.4 23.2
26.7 11.6 21.8 26.2 8.5 21.2
31.0 11.6 11.3 28.7 27.5 20.6
22.9 31.4 23.0 12.5 22.6 19.6
8. Con el fin de controlar el diámetro medio de los cojinetes que se producen en una empresa
metalmecánica, el departamento de control de calidad tomó 60 muestras extraídas al azar Los diámetros
están en pulgadas y los resultados fueron:
0.738 0.737 0.743 0.740 0.741 0.735
0.728 0.736 0.736 0.735 0.733 0.742
0.745 0.730 0.742 0.740 0.738 0.725
0.743 0.732 0.732 0.730 0.734 0.738
0.735 0.729 0.735 0.727 0.732 0.736
0.732 0.737 0.731 0.746 0.735 0.729
0.731 0.741 0.734 0.737 0.744 0.738
0.736 0.734 0.727 0.735 0.740 0.734
0.733 0.726 0.736 0.732 0.741 0.732
0.739 0.739 0.730 0.735 0.733 0.735
9. En una empresa de producción de pinturas de aceite se presentó un problema: "los clientes se quejaban del
grado de impurezas en los galones de aceite" El departamento de control de calidad decidió tomar 80
muestras (u 80 galones) y la cantidad de impurezas en gramos por galón fueron los siguientes:
29.5 45.538 38.8 39.0 27.5 32.3 42.6 35.5
27.3 32.0 42.6 44.5 26.9 45.6 36.7 38.8
40.5 20.4 28.5 21.5 28.8 36.7 36.6 43.2
22.9 45.8 31.5 32.1 31.8 23.9 29.5 39.6
23.8 30.6 25.5 41.2 35.5 39.6 31.7 26.1
31.6 35.4 31.7 35.2 28.7 30.5 2104 43.1
32.7 45.1 31.6 37.1 34.4 46.0 40.2 31.1
35.1 31.6 21.1 31.3 34.2 25.5 36.6 28.8
39.5 23.0 42.2 34.2 41.6 31.7 30.6 34.6
37.2 45.2 30.7 33.3 44.5 27.2 41.2 30.5
a) La variable aleatoria y de qué tipo es.
b) Cuál es la población y cuál es la muestra.
c) Construya una tabla de frecuencias e interprete la fila 4
d) Construya todos los gráficos correspondientes
e) Utilice el polígono de frecuencias acumuladas y determine (por interpolación) cuantos galones
aproximadamente tienen un contenido por debajo de los 33.5 gramos de impurezas.
f) Calcule la media , la mediana y la desviación estándar
g) Determine el rango intercuartil y el rango interdecil
h) Calcule e interprete el percentil 35 y el percentil 80
i) Por encima de que valor se encuentra el 70 % de los valores mas altos
j) Por debajo de que valor se encuentra el 70 % de los valores mas pequeños
UNIDAD III
MEDICION DE DATOS
1. MEDIDAS DE TENDENCIA CENTRAL
2. MEDIDAS DE DISPERSION
3. MEDIDAS DE FORMA
4. MEDIDAS DE LOCALIZACION
1. MEDIDAS DE TENDENCIA CENTRAL
Propósito de las medidas de tendencia central:
Supóngase que Pedro obtiene 32 puntos en una prueba de lectura. La calificación por sí misma tiene muy
poco significado a menos que usted conozca cuál es el total de puntos que obtiene una persona promedio al
participar en esa prueba, cuál es la calificación menor y mayor que se obtiene, y cuán variadas son esas
calificaciones. Es decir que para que una calificación tenga significado hay que contar con elementos de
referencia generalmente relacionados con ciertos criterios estadísticos.
Las medidas de tendencia central, sirven como puntos de referencia para interpretar las calificaciones que se
obtienen en una prueba. Digamos por ejemplo que la calificación promedio en la prueba es de 20 puntos, de
ser así podemos decir que la calificación de Pedro se ubica notablemente sobre el promedio por lo tanto le fue
muy bien. Pero si la calificación promedio fue de 60 puntos, entonces la conclusión sería muy diferente, dado
que se ubicaría muy por debajo del promedio de la clase.
En resumen, el propósito de las medidas de tendencia central son:
Mostrar en qué lugar se ubica la persona promedio o típica del grupo.
Sirve como un método para comparar o interpretar cualquier puntaje en relación con el puntaje central o
típico.
Sirve como un método para comparar el puntaje obtenido por una misma persona en dos diferentes ocasiones.
Sirve como un método para comparar los resultados medios obtenidos por dos o más grupos.
Enumeración de las medidas de tendencia central.
Las medidas de tendencia central más comunes son:
1.1 La media aritmética:
Comúnmente conocida como media o promedio.
Para diferenciar datos muestrales de datos poblacionales, la media aritmética se representa con un
símbolo para cada uno de ellos: si trabajamos con la población, este indicador será μ; en el caso de que
estemos trabajando con una muestra, el símbolo será X
Media poblacional:
μ= 1N∑i=1
N
X i
Para la muestra:
X=1n∑i=1
n
X i
1.2 La media aritmética ponderada
Cuando los datos tienen un peso o porcentaje diferente de la unidad, entonces a cada dato hay que
asignarle su respectivo peso, el ejemplo más común es el de la nota promedio final de una asignatura:
4.0 en el 25%
1.0 en el 35%
3.5 en el 40%
Calcule el promedio
R/2.75
1.3 La Mediana Me:
Es el dato que está en la posición central de la serie, en este ejemplo:
1.4 La Moda MO:
Es aquel dato que más se repite en la serie.
Otras medidas de tendencia central de menor uso son:
1.5 La Media Geométrica
G= n√X 1 . X2 ………………. Xn
1.6 La media Armónica
Es la inversa de la media aritmética de las xis invertidas:
n
∑ 1X i
Los siguientes datos corresponden al peso en Kg de una muestra de 9 personas
80, 70, 65, 75, 71,75, 68, 69,75
Calcule media, mediana, moda, media geométrica, media armónica.
2. MEDIDAS DE DISPERSIÓN:
Estas medidas son muy útiles en estadística ya que proporcionan una medición de la variabilidad de los
datos alrededor de la media, es decir que tan regados o dispersos están los datos con respecto a la
media, que tan homogéneos o compactos están los datos.
Las medidas más comunes de dispersión son:
2.1 El Rango: R= Xmax - Xmin
2.2 La Varianza
Para la población:
σ 2= 1N∑i=1
N
( X i−μ )2
σ 2=N ∑ X i
2−(∑ X i )2
N 2
Para la muestra:
S2= 1n−1
∑i=1
n
( X i−X )2
S2=n∑ X i
2−(∑ X i)2
n(n−1)
2.3 La Desviación Estándar o Desviación Típica
Es la raíz cuadrada de la varianza:
Para la población: σ
Para la muestra: S
2.4 Coeficiente de variación: Es una medida para diagnosticar la homogeneidad de los datos.
CV = SX
∗100
Empíricamente, se considera que si el CV
Es menor que el 15% el grupo de datos es homogéneo
15% < CV ≤ 30% Homogeneidad moderada
CV > 30% Hay indicios de no homogeneidad
2.5 FRACCIÓN DE MUESTREO
Fracción de muestreo: Es el porcentaje que representa la muestra sobre el total de la población (n/N)
*100.
2.6 COEFICIENTE DE ELEVACIÓN: Es el número de veces que el tamaño de la población contiene
al tamaño de la muestra (N/n).
Cálculo aproximado y rápido de la varianza
Cuando los datos siguen una distribución normal, (es decir los datos giran alrededor del promedio), una
forma de diagnosticar rápidamente el valor de la varianza es:
Rango=6S, de aquí: S=R/6
Ejemplo
Los siguientes datos corresponden al llenado de tres maquinas en la empresa industrial COOLECHERA de
leche saborizada en empaque de bolsas de 250 cc.
Maq. 1 Maq. 2 Maq. 3
253,921 241,582 250,562
252,737 242,684 244,039
247,741 243,876 258,582
243,375 35,456 244,508
246,965 250,114 251,109
243,089 232,618 254,782
252,151 247,59 249,155
244,049 252,354 250,902
244,555 56,456 247,375
260,236 246,303 242,79
255,823 222,456 241,24
252.,224 210,231 246,965
245,397 257,707 256,807
256,565 242.,563 247,886
247,419 249,912 253,94
249,012 109,563 243,46
246,681 258,316 256,192
257,847 258,524 255,222
246,312 245,88 245,628
245,487 150,456 249,258
248,718 252,147 237,561
249,692 254,727 245,52
241,718 246,1 245,928
248,471 253,857 245,952
241,121 236,83 248,476
244,064 235,224 249,289
253,887 95,321 252,086
254,071 240,288 241,348
253,921 241,582 265,27
251,873 242,191 241,489
252,379 20,568 250,341
255,878 256,35 251,287
252,878 112,567 248,397
254,043 252,632 250,978
248,449 259,057 252,761
246,526 250,969 254,266
255,066 350,456 253,71
256,671 256,205 251,392
252,548 252,551 251,179
257,596 321,741 251,981
257,191 252,157 253,879
248,627 249,927 247,703
250,816 65,891 251,694
249,61 251,172 245,111
247,764 250,221 252,652
251,545 246,699 250,188
249,809 289,655 252,397
246,753 250,865 247,172
247,904 15,568 248,428
253,124 249,739 247,519
248,401 130,896 251,055
253,837 248,448 245,242
Calcule la media, rango y la desviación estándar para cada máquina. Que puede usted concluir al comparar los
tres resultados?
3. MEDIDAS DE FORMA DE LA CURVA DE FRECUENCIAS
Cuando la curva de frecuencias absolutas tiene forma de campana, se puede medir que tan achatada es y que
tan puntiaguda es.
Las medidas que proporcionan información al respecto se conocen como medidas de forma, las cuales se
clasifican en medidas de asimetría y medidas de curtosis
3.1 MEDIDAS DE ASIMETRIA:
Estas medidas evalúan la forma HORIZONTAL de la curva de frecuencias.
3.1.1 Coeficiente de asimetría de Pearson: Ap
Ap=3 ( X−M e )
S
Donde Xes la media, M ees la mediana y S es la desviación estándar.
Interpretación:
Si Ap ¿ 0 la curva puede considerarse simétrica
Si Ap < 0 la curva es sesgada o asimétrica a la izquierda
Si Ap > 0 la curva es sesgada o asimétrica a la derecha.
3.1.2 Coeficiente de asimetría de Fisher:
g1=1
S3
∑ ( X i−X )3
n
Interpretación:
Si g1 > 0 la curva es asimétrica o sesgada a la derecha
Si g1 < 0 la curva es asimétrica o sesgada a la izquierda.
Si g1 = 0 la curva es simétrica o normal
Gráficamente se tiene que:
Ap>0: Curva sesgada a la derecha o asimétrica a la derecha
Ap < 0: Curva sesgada a la izquierda o asimétrica a la izquierda
Ap≈0: Curva simétrica
3.2 MEDIDAS DE APUNTAMIENTO:
Estas medidas coeficiente evalúan la forma VERTICAL de la curva de frecuencias, es decir, mide cuan
'puntiaguda' es una distribución respecto de un estándar. Este estándar es una forma acampanada denominada
'normal', y corresponde a una curva de gran importancia en estadística.
3.2.1 Medidas basadas en percentiles.
k=Q3−Q1
2 ( P90−P10)
Interpretación:
Si k < 0,263 la distribución es platicúrtica
Si k ≈ 0,263 la distribución es normal o mesocúrtica
Si k > 0,263 la distribución es leptocúrtica
3.2.2 Coeficiente de curtosis de Fisher:
g2=1
S4
∑n
( X i−X )4
n−3
Interpretación:
Si g2 > 0 entonces la curva es leptocurtica (una curva puntiaguda)
Si g2 < 0 entonces la curva es platicurtica (una curva aplanada)
Si g2 = 0, entonces la curva es mesocurtica, simétrica o normal
Las siguientes figuras muestran gráficamente los tres tipos de curvas de acuerdo a la definición anterior:
Leptocurtica
Platicurtica
Mesocurtica o simétrica.
Calcule para el ejercicio de LOS PESOS DE LAS CAJAS los coeficientes de curtosis y asimetría e
interprételos, compare con la forma de la curva obtenida en el grafico curva de frecuencias y obtenga
conclusiones.
Para el ejercicio de LOS PESOS DE LAS CAJAS los coeficientes son:
COEFICIENTE DE ASIMETRIA = -0,53036
COEFICIENTE DE CURTOSIS = 1,73416
Interpretación:
1. Dado que Ap <0 entonces la curva de frecuencias es levemente sesgada o asimétrica a la izquierda
2. Dado que K>0 entonces la curva de frecuencias es levemente leptocurtica
4. MEDIDAS DE LOCALIZACION
Para determinar la localización o ubicación de cualquier dato en una serie de valores, es necesario,
inicialmente organizar los datos para aplicarle algunas técnicas y formulas que permitan ubicarlos.
Por ejemplo la serie 2, 4, 8, 10,12 a simple vista el 8 ocupa la mitad de la serie. El 2 ocupa la primera posición
y el 12 la ultima. Si dividimos la serie en 5 partes entonces la 5a ava parte la ocupa el 2. Las dos 5a avas
partes la ocupa el 4, la cuarta ava parte la ocupa el 10.
Cuando se disponen de muchos datos, se aplica ciertos términos y formulas para ubicar esos datos, los cuales
se estudiaran a continuación:
DECIL: Dp
Se habla de decil cuando la serie se divide en 10 partes, así pues p = 1,2,…….10 donde:
D1 = primer decil D2 = segundo decil… etc.
D10 = será el último numero de la serie o decimo decil.
QUARTIL: Qp
Se habla de cuartil cuando la serie se divide en 4 partes, asi pues p = 1, 2,3 y 4 donde
Q1 = primer cuartil
Q2 = segundo cuartil
Q3 = tercer cuartil
Q 4 = cuarto cuartil o ultimo de la serie.
PERCENTIL: Xp
Cuando la serie se divide en 100 partes, se habla de percentiles así pues p = 1, 2,3…..100 donde
X7 = percentil de orden 7 o séptimo percentil
X20 = percentil de orden 20 o vigésimo percentil
X91 = percentil de orden 91
Si se analiza con detenimiento la relación entre percentiles deciles y cuartiles se puede por ejemplo decir que:
X50 = Me = Q2
X25 = Q1
X90 = D9; X70 = D7; X75 = Q3
Cualquier percentil de orden p esta dado por:
X p=LI+ A ( np100
−N a
nx)
donde:
Li: Limite inferior del intervalo que contiene el percentil P
A: Es la amplitud
np: Porcentaje del número total de datos
Na: Frecuencia acumulada anterior a la del intervalo que contiene al percentil p
nx: Frecuencia absoluta del intervalo que contiene a Xp
RANGO INTERCUARTIL: (Q)
Es una medida de dispersión entre el primer y tercer cuartil, o sea:
Q = Q3 – Q1
RANGO INTERDECIL: D
Es también una medida de dispersión entre el primer y noveno decil, o sea:
D = D9 – D1
Estas medidas de desviación son importantes porque tienden a excluir los valores extremos, dando Como
resultado una buena medida de dispersión, es decir estos rangos no son afectados por la presencia de datos
con los valores externos.
Ejercicio:
La siguiente tabla muestra los tiempos de operación de un puesto de trabajo constituido por un operario y una
maquina donde se elabora el corte y doblado de un maletín de cuero, en una muestra de 100 observaciones de
medidas en minutos.
Li¿ X1¿ LS Xi ni Ni fi Fi fi*100% Fi*100%
5.7 - 6.1 5.9 5 5 0.05 0.05 5 5
6.1 - 6.5 6.3 18 23 0.18 0.23 18 23
6.5 - 6.9 6.7 42 65 0.42 0.65 42 65
6.9 - 7.3 7.1 20 85 0.20 0.85 20 85
7.3 - 7.7 7.5 10 95 0.10 0.95 10 95
7.7 - 8.1 7.9 5 100 0.05 1.00 5 100
a) Por encima de que valor se encuentra el 30% de los valores más altos
b) Por debajo de que valor se encuentra el 60% de los valores mas pequeños
c) Determine el valor que ocupa la posición 38, 72 y 92
d) Determine el rango intercuartil, el interdecil e interprete su resultados
a) X38 es el percentil 38 el calculado es el siguiente:
X38 = Li +
A (nP/100−Na )nx
P = 38; n = 100
nP100
=100 x38100
=38
El 38 está contenido en Ni = 65, de aquí se deduce que:
Li = 6.5 (INTERVALO Nº 3)
A = 0.4
Na = 23
nx = 42
X38 = 6.5 +
0 .4(38−23)42
=6 . 64
Luego el 6.64 ocupa aproximadamente la posición Nº 38 en la serie
De igual forma para la posición 72
X72 = Li +
A (nP/100−Na )nx
P = 72; n = 100
nP100
=100∗72100
=72
El 72 está contenido en Ni = 85, luego Li = 6.9 (INTERVALO Nº 4) A = 0.4, Na = 65; nx = 20
X38 = 6.9 +
0 .4(72−65)20
=7 . 04
b) Rango INTERCUARTIL: Q3 – Q1
Q3 = X75 Li +
A (nP/100−Na )nx
P = 75; n = 100
nP100
=100∗75100
=75
Li = 6.9 Na= 65
nx = 20 X75 = Q3 = 6.9 +
0 .4(75−65)20
Q3 = 7.1; y Q1 = 6.21
Luego Q3 – Q1 = 7.1 – 6.21 = 0.89
Es decir la variación entre la primera cuarta parte y la tercera cuarta parte de los datos es de 0.89 minutos.
Ahora se calcula el rango interdecil y el resultado debe ser mayor que 0.89 por qué?
RANGO INTERDECIL = D9 – D1
D9 = X90
P = 90
nP100
=(1009(90 )100
=90
El 90 está en Ni = 95 Li =73 Na = 85 nx = 10
X90 = 7.3 +
0 .4(90−85 )10
=7 .5
D10 = X10
P = 10
nP100
=(100)(10 )100
=10
El 10 está contenido en Ni = 23 Li = 6.1 Na= 5; nx = 18
X10 = 6.1 +
0 .4(10−5)18
=6 . 2
Luego D9 – D10 = 7.5 – 6.2 = 1.3
Establezca que tipo de Asimetría y Curtosis tiene la curva de frecuencias utilizando los índices g1 y g2.
Confronte estos resultados con la grafica Curva de frecuencias. Obtenga conclusiones.
Recommended