View
8
Download
0
Category
Preview:
Citation preview
Descripción de datos con medidas numéricas
Estadística
Gamaliel Moreno Chávez
Centro de Crecimiento Humanista
Enero-Julio2021
1 of 1
Generalidades
Las grá�cas pueden ayudar a describir la forma básica de unadistribución de datos pero hay limitaciones
• No siempre es posible presentar grá�cas.
• Son poco precisas.
• No son comparables
Una forma de superar estos problemas es usar medidas numéricas, quese pueden calcular para una muestra o una población de mediciones.
2 of 1
Generalidades
De�niciónLas mediciones descriptivas numéricas asociadas con una población demediciones se llaman parámetros; las calculadas a partir de medicionesmuestrales reciben el nombre de estadísticas.
3 of 1
Medidas de centro
Una de las primeras mediciones numéricas importantes es una medidade centro, es decir, una medida a lo largo del eje horizontal quelocaliza el centro de la distribución.
4 of 1
Media
El promedio aritmético de un conjunto de mediciones es una medidade centro muy común y útil. Se conoce como media aritmética osimplemente media. Para distinguirla usamos el símbolo x̄ (x barra).
De�niciónLa media aritmética o promedio de un conjunto de n mediciones esigual a la suma de las mediciones dividida entre n
5 of 1
Media
n∑i=1
xi que signi�ca x1 + x2 + x3 + · · ·+ xn∑xi que signi�ca �la suma de todas las mediciones de x�
6 of 1
Media
Ejemplo
x̄ =
∑xin
=2 + 9 + 11 + 5 + 6
5= 6.6
7 of 1
Media
Ejercicio. Calcule la media para los siguientes datos
8 of 1
Mediana
Una segunda medida de tendencia central es la mediana, que es elvalor de la posición media en el conjunto de mediciones ordenada demenor a mayor.
De�niciónLa mediana m de un conjunto de n mediciones es el valor de x que caeen la posición media cuando las mediciones son ordenadas de menor amayor.
9 of 1
Mediana
Ejemplo
10 of 1
Mediana
Ejemplo
11 of 1
Mediana
Aunque tanto la media como la mediana son buenas medidas delcentro de una distribución, la mediana es menos sensible a valoresextremos o resultados atípicos. Por ejemplo, el valor x = 27 en elejemplo anterior es mucho mayor que las otras mediciones. Lamediana, m = 7.5, no es afectada por el resultado atípico, en tantoque el promedio muestral,
x̄ =
∑xin
=606
= 10
sí es afectado.
12 of 1
Mediana
Cuando un conjunto de datos tiene valores extremadamente pequeñosu observaciones muy grandes, la media muestral se traza hacia ladirección de las mediciones extremas.
13 of 1
Moda
Otra forma de localizar el centro de una distribución es buscar el valorde x que se presenta con la frecuencia más alta. Esta medida delcentro se denomina moda.
De�niciónLa moda es la categoría que se presenta con más frecuencia o el valorde x que se presenta con más frecuencia. Cuando las mediciones enuna variable continua se han agrupado como histograma de frecuenciao de frecuencia relativa, la clase con el pico más alto o frecuencia sellama clase modal, y el punto medio de esa clase se toma como lamoda.
14 of 1
Moda
15 of 1
Moda
Es posible que una distribución de mediciones tenga más de unamoda. Estas modas aparecerían como �picos locales� en la distribuciónde frecuencia relativa. Por ejemplo, si fuéramos a tabular la longitudde los peces sacados de un lago durante una temporada, podríamosobtener una distribución bimodal, posiblemente re�ejando una mezclade peces jóvenes y viejos en la población. A veces las distribucionesbimodales de tamaños o pesos re�ejan una mezcla de medicionestomadas en machos y hembras. En cualquier caso, un conjunto odistribución de mediciones puede tener más de una moda.
16 of 1
Ejercicio
Tiempo transcurrido entre la toma de pedido y el servicio a la mesa delos restaurantes fueron registrados
¾Cuál restaurante considera usted que presta un mejor servicio y porqué?17 of 1
Ejercicio
Resultados
18 of 1
Medidas de variabilidad
Los conjuntos de datos pueden tener el mismo centro pero con aspectodiferente por la forma en que los números se dispersan desde el centro.Considere las dos distribuciones que se muestran en la � gura 2.6.Ambas distribuciones están centradas en x = 4, pero hay una grandiferencia en la forma en que las mediciones se dispersan o varían.
19 of 1
Rango
De�niciónEl rango, R, de un conjunto de n mediciones se de�ne como ladiferencia entre la medición más grande y la más pequeña.
Para los datos de peso al nacer de la tabla, las mediciones varían de5.6 a 9.4. Por tanto, el rango es 9.4− 5.6 = 3.8.
20 of 1
Rango
El rango es fácil de calcular, fácil de interpretar y es una medidaadecuada de variación para conjuntos pequeños de datos. Pero, paraconjuntos grandes, el rango no es una medida adecuada devariabilidad. Por ejemplo, las dos distribuciones de frecuencia relativade la �gura tienen el mismo rango pero muy diferentes formas yvariabilidad.
21 of 1
Varianza
¾Hay una medida de variabilidad que sea más sensible que el rango?
22 of 1
Varianza
De la suma de desviaciones cuadradas, se calcula una sola medidallamada varianza. Para la varianza de una muestra usamos el símbolos2 y la varianza de una población σ2. La varianza será relativamentegrande para datos muy variables y relativamente pequeña para datosmenos variables.
De�niciónLa varianza de una población de N mediciones es el promedio de loscuadrados de las desviaciones de las mediciones alrededor de su mediaµ. La varianza poblacional se denota con σ2 y está dada por la fórmula
σ2 =
∑(xi − µ)2
N
23 of 1
Varianza
De�niciónLa varianza de una muestra de n mediciones es la suma de lasdesviaciones cuadradas de las mediciones alrededor la media x̄ divididaentre (n − 1). La varianza muestral se denota con s2 y está dada porla fórmula
s2 =
∑(xi − x̄)2
n − 1
24 of 1
Varianza
Para el conjunto de n = 5 mediciones muestrales presentadas en latabla
suma ∑(xi − x̄)2 = 22.80
varianza muestral
s2 =
∑(xi − x̄)2
n − 1=
22.804
= 5.70
25 of 1
Desviación estándar
La varianza se mide en términos del cuadrado de las unidadesoriginales de medición. Tomando la raíz cuadrada de la varianza,obtenemos la desviación estándar, que regresa la medida devariabilidad a las unidades originales de medición.
De�niciónLa desviación estándar de un conjunto de mediciones es igual a laraíz cuadrada positiva de la varianza.
26 of 1
Notación
27 of 1
Resumen
28 of 1
Coe�ciente de variación
El coe�ciente de variación es la relación entre la desviación típica deuna muestra y su media.
CV =(σx̄
)100
El coe�ciente de variación permite comparar las dispersiones de dosdistribuciones distintas, siempre que sus medias sean positivas.Mayor dispersión el valor del coe�ciente de variación será mayor.
29 of 1
Coe�ciente de variación
Una distribución tiene x̄ = 140 y σ = 28.28 y otra x̄ = 150 y σ = 24.¾Cuál de las dos presenta mayor dispersión?
CV1 =28, 28
140· 100 = 20, 2%
CV2 =24
150· 100 = 16%
La primera distribución presenta mayor dispersión.
30 of 1
Sobre la signi�cancia práctica de la desviación estándar
Teorema de Chebyshev
Dado un número k mayor o igual a 1 y un conjunto de n mediciones,al menos [1− (1/k2)] de las mediciones estarán dentro de kdesviaciones estándar de su media.
Se construye un intervalo al medir una distancia kσ a cualquier ladode la media m. El número k puede ser cualquier número mientras seamayor o igual a 1. Entonces el teorema de Chebyshev expresa que almenos [1− (1/k2)] del número total n de mediciones está en elintervalo construido.
31 of 1
Teorema de Chebyshev
Ilustración del teorema de Chebyshev
32 of 1
Teorema de Chebyshev
Ilustración del teorema de Chebyshev
33 of 1
Teorema de Chebyshev
Ejemplo. La media y varianza de una muestra de n = 25 medicionesson 75 y 100, respectivamente. Use el teorema de Chebyshev paradescribir la distribución de mediciones.Solución Nos dan x̄ = 75 y s2 = 100. La desviación estándar ess =√100 = 10. La distribución de mediciones está centrada alrededor
de x = 75, y el teorema de Chebyshev establece que:
• Al menos 3/4 de las 25 mediciones están en el intervalox̄ ± 2s = 75± 2(10), esto es, 55 a 95.
• Al menos 8/9 de las mediciones están en el intervalox̄ ± 3s = 75± 3(10), esto es, 45 a 105.
34 of 1
Regla empírica
Como el teorema de Chebyshev se aplica a cualquier distribución, esmuy conservador. Ésta es la razón por la que hacemos hincapié en �almenos 1− (1/k2)� en este teorema. Otra regla para describir lavariabilidad de un conjunto de datos no funciona para todos losconjuntos de datos, pero funciona muy bien para datos que �se apilan�en la conocida forma de montículo de la �gura
35 of 1
Regla empírica
36 of 1
Regla empírica
EjercicioEn un estudio de tiempo efectuado en una planta manufacturera, eltiempo para completar una operación especi�cada se mide para cadauno de los n = 40 trabajadores. Se encuentra que la media y ladesviación estándar son 12.8 y 1.7, respectivamente. Describa losdatos muestrales usando la Regla empírica.
37 of 1
Regla empírica
De acuerdo con la Regla empírica, se espera que aproximadamente68% de las mediciones caigan en el intervalo de 11.1 a 14.5,aproximadamente 95% caigan en el intervalo de 9.4 a 16.2, yaproximadamente 99.7% caigan en el intervalo de 7.7 a 17.9.
38 of 1
Ejercicio
Los maestros-estudiantes son capacitados para desarrollar planes delecciones, en la suposición de que el plan escrito les ayudará a trabajarde manera satisfactoria en el salón de clases. En un estudio paraevaluar la relación entre planes de lección escritos y su implementaciónen el salón de clases, se cali�caron 25 planes de lección en una escalade 0 a 34 de acuerdo a una Lista de veri�cación de Plan de lección.Las 25 cali�caciones se muestran en la tabla. Use el teorema deChebyshev y la Regla empírica (si es aplicable) para describir ladistribución de estas cali�caciones de evaluación.
39 of 1
Mediciones de posición relativa
A veces es necesario conocer la posición de una observación respecto aotras de un conjunto de datos.
De�niciónEl puntaje z muestral es una medida de posición relativa de�nida por
puntaje z =x − x̄
s
Un puntaje z mide la distancia entre una observación y la media,medidas en unidades de desviación estándar.
40 of 1
Mediciones de posición relativa
Por ejemplo, suponga que la media y desviación estándar de lospuntajes de examen (basados en un total de 35 puntos) son 25 y 4,respectivamente. El puntaje z para una cali�cación de 30 se calculacomo sigue:
puntaje z =x − x̄
s=
30− 254
= 1.25
El puntaje de 30 está a 1.25 desviaciones estándar arriba de la media(30 = x̄ + 1.25s).
41 of 1
Mediciones de posición relativa
42 of 1
Percentil
Un percentil es otra medida de posición relativa y se usa con másfrecuencia para conjuntos grandes de datos. (Los percentiles no sonmuy útiles para conjuntos pequeños de datos).
De�niciónUn conjunto de n mediciones de la variable x se ha reacomodado enorden de magnitud. El p-ésimo percentil es el valor de x que es mayora p % de las mediciones y es menor que el restante (100− p) %.
43 of 1
Percentil
Supongamos que usted ha sido noti�cado que su cali�cación de 610,en el Examen verbal de graduación, lo ha colocado en el 60avopercentil en la distribución de cali�caciones. ¾Dónde está sucali�cación de 610 en relación a las cali�caciones de los otros quetomaron el examen?
Solución Cali�car en el 60avo percentil signi�ca que 60% de todas lascali�caciones de examen fueron más bajas que la cali�cación de ustedy 40% fueron más altas.
44 of 1
Percentil
En general, el 60avo percentil para la variable x es un punto en el ejehorizontal de la distribución de datos que es mayor a 60% de lasmediciones y menor que las otras.
45 of 1
Percentil-Cuartil
• La mediana es igual que el 50avo percentil.
• Los percentiles 25avo y 75avo, llamados cuartiles inferior y superior
• Veinticinco por ciento de las mediciones serán menores que elcuartil inferior (primero).
• 50% serán menores que la mediana (el segundo cuartil).
• 75% serán menores que el cuartil superior (tercero).
46 of 1
Cuartil
47 of 1
Cuartil
De�niciónUn conjunto de n mediciones en la variable x se ha acomodado enorden de magnitud. El cuartil inferior (primer cuartil), Q1 , es elvalor de x que es mayor a un cuarto de las mediciones y es menor quelos restantes tres cuartos. El segundo cuartil es la mediana. Elcuartil superior (tercer cuartil), Q3 , es el valor de x que es mayora tres cuartos de las mediciones y es menor que el restante un cuarto.
48 of 1
Cuartil
49 of 1
Cuartil
50 of 1
Intercuartil
Como la mediana y los cuartiles dividen la distribución de datos encuatro partes, cada una de ellas conteniendo alrededor de 25% de lasmediciones, Q1 y Q3 son las fronteras superior e inferior para el 50%central de la distribución. Podemos medir el rango de este �50%central� de la distribución usando una medida numérica llamada rangointercuartil.
De�niciónEl rango intercuartil (IQR) para un conjunto de mediciones es ladiferencia entre los cuartiles superior e inferior; esto es,IQR = Q3 − Q1 .
51 of 1
El resumen de cinco números y la grá�ca de caja
52 of 1
El resumen de cinco números y la grá�ca de caja
53 of 1
Recommended