72
Estadística descriptiva VARIABLES CUANTITATIVAS

VARIABLES CUANTITATIVASjujodescriptiva.weebly.com/uploads/3/4/3/2/3432880/descritptiva...cuenta todos los valores del conjunto de datos, puede verse afectada por los valores extremos

  • Upload
    ngodien

  • View
    224

  • Download
    0

Embed Size (px)

Citation preview

Estadística descriptiva

VARIABLES CUANTITATIVAS

DESCRIPTIVA

• Medidas de tendencia central• Media • Mediana• Moda

• Medidas de dispersión• Rango• Varianza• Desviación estándar• Coeficiente de variación • Cuantiles ( cuartiles, percentiles)

Media aritmética • Propiedades de la Media aritmética

– En la mayoría de los casos, de todas las medidas utilizadas para calcular la tendencia central, la media es la menos susceptible a la variaciones debidas al muestreo.

– Una desventaja es que a pesar de que es confiable, porque toma en cuenta todos los valores del conjunto de datos, puede verse afectada por los valores extremos que no son representativos del resto de los datos• No nos da información de la variabilidad del conjunto de datos lo que hace difícil

su empleo para la toma de decisiones

Media aritmética • Propiedades de la Media aritmética

– Es el promedio de un conjunto de datos

– Todo conjunto de datos de intervalo o de nivel de razón poseen una media

– La suma de las desviaciones de los valores con respecto a la media es igual a cero , esto es, la ∑ ( x – x media) = 0

valores Media Diferencia

9 9 0

8 9 -1

9 9 0

8 9 -1

7 9 -2

10 9 1

9 9 0

11 9 2

10 9 1

9 9 0

SUMA 90

Media = 9 ∑= 0

Una propiedad

muy importante de

la media es que la

suma algebraica

de las

desviaciones de

los valores

respecto a la

media es igual a

cero

Medidas de tendencia central

• Mediana Md

– Es el valor que se encuentra a la mitad de una serie ordenada de datos

– La mitad de los elementos están por arriba de este punto y la otra mitad está por debajo.

– Una de las ventajas es que los términos extremos no afectan tan intensamente como en el caso de la media

– Una de las desventajas es que no considera a todos los datos de una serie, sino únicamente a los valores centrales empleados para su cálculo

Medidas de tendencia central

• Moda Mo

• La moda es aquel valor que más se repite en el conjunto de datos y normalmente lo podemos observar gráficamente cuando se elabora un histograma o una gráfica de barras

• Se puede definir como el dato más frecuente en una distribución de datos

• Su determinación nos permite conocer la categoría o dato que más se repite y que términos de probabilidad nos puede permitir pronosticar eventos.

Calcular media, mediana y moda

• El director de relaciones humanas de una empresa determino el número de horas extras en el departamento de inspección en el último mes. Una muestra de 15 trabajadores reveló que éstos trabajaron la siguiente cantidad de horas extras.

t Horas

1 13

2 13

3 12

4 15

5 7

6 15

7 5

8 12

9 6

10 7

11 12

12 10

13 9

14 13

15 12

Problema uno• El jefe de producción está interesado en conocer la calidad que se tiene en

la materia prima que recibe de dos proveedores diferentes ya que pronto iniciara la producción de un nuevo medicamento. La tabla siguiente muestra un análisis de los gramos de principio activo en cada una de 10 muestras analizadas

Cepamex 6.6 6.5 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7

Pronal 4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10

1.- Calcule la media , la moda y la mediana para ambos casos2.- Con los datos obtenidos , cuál de los dos proveedores seleccionaría para su

empresa?

Calcular media moda y mediana

37 30 23 46 42

18 40 58 43 39

55 64 42 28 21

57 40 57 59 42

35 26 13 42 38

Tarea Calcular media moda y mediana

142 128 163 108 124

132 135 130 140 128

136 133 146 137 149

136 133 137 129 144

139 137 139 137 146

137 125 156 115 119

Limitantes de las medidas de tendencia central

PISA 2006 PRUEBA DE CIENCIAS

Los valores medios nos sirven para comparar diferentes muestras o

poblaciones , sin embargo no nos indican como se encuentra la distribución

de los datos, no nos dice nada acerca de la forma en que se distribuyen o

dispersan los datos

7.15 7.15

0

1

2

3

4

5

6

7

8

1

CEPAMEX PRONAL

En el caso de las dos compañías, los resultados

nos dieron valores idénticos en media, mediana

y moda.

0

1

2

3

4

5

6

7

4.1 A 5 5.1 A 6 6.1 A 7 7.1 A 8 8.1 A 9 9.1 A 10

CEPAMEX

CEPAMEX

0

0.5

1

1.5

2

2.5

4.1 A 5 5.1 A 6 6.1 A 7 7.1 A 8 8.1 A 9 9.1 A 10

PRONAL

PRONAL

Medidas de dispersión

Medidas de variabilidad o dispersión

• Las medidas de variabilidad de una serie de datos, muestra o población, permiten identificar que tan dispersos o concentrados se encuentran los datos respecto a una medida de tendencia central.

– Una medida de variabilidad pequeña indica que los datos están agrupados muy cerca, digamos, de la media. La media, por lo tanto es considerada bastante representativa de la serie de datos.

– Inversamente, una gran medida de variabilidad indica que la media no es muy representativa de los datos.

Banco 1 Banco 2

9 9

8 12

9 6

8 5

7 13

10 9

9 11

11 7

10 10

9 8

media= 9 Media = 9

S= 1.15 S= 2.58

Por ejemplo si examinamos el

tiempo de atención en cajas en

dos bancos

Nos damos cuenta que ambos

bancos presentan un nivel de

atención promedio por persona

de 9 minutos, pero en el banco

dos se encuentran valores que

van desde los 5 minutos hasta

los 13 minutos

Si consideramos solo el valor

promedio no podríamos tomar

decisiones sobre la eficiencia

en que trabajan los dos

diferentes bancos

Cómo podemos calcular la variación?

• 1.-Rango ( alcance)–Es la diferencia entre el valor

más alto y el valor más pequeño

• R = Vmax – Vmin

• De manera general podemos decir que cuando más grande sea el rango, mayor será la dispersión de los datos de una distribución de datos

• Sólo nos es útil cuando se desea determinar la extensión de las variaciones en los extremos

Banco 1 Banco 2

9 9

8 12

9 6

8 5

7 13

10 9

9 11

11 7

10 10

9 8

R = 4 R= 8

• Desviación media• Es la medida aritmética de los

valores absolutos de las desviaciones de los datos respecto a su media

En este caso los signos de las diferencias no se toman en cuenta, lo cual hace que

el método no sea algebraicamente correcto

valores Media DiferenciaEn valores absolutos

9 9 0

8 9 1

9 9 0

8 9 1

7 9 2

10 9 1

9 9 0

11 9 2

10 9 1

9 9 0

X = 9 DM= 8

Medidas de dispersión

• 3.-¿ Cómo podemos eliminar los signos negativos en una operación?

• Multiplicándolos por si mismos

• Multiplicándolos por otro número negativo

• Desviación estándar valores Media DiferenciaX- µ

Cuadrado de la diferencia(X-µ)2

9 9 0 0

8 9 -1 1

9 9 0 0

8 9 -1 1

7 9 -2 4

10 9 +1 1

9 9 0 0

11 9 +2 4

10 9 +1 1

9 9 0 0

µ = 9 D= 0 ∑ =12

1.09

1.15

Medidas de dispersión

• 3.-Desviación estándar es el promedio de la desviación de las puntaciones con respecto a su valor medio

• La desviación estándar nos permite determinar, dónde están localizados los valores de una distribución de frecuencias con relación a la media

1 2 3 4 5 6 7 8 9 10

banco 1 9 8 9 8 7 10 9 11 10 9

banco 2 9 12 6 5 13 9 11 7 10 8

0

2

4

6

8

10

12

14

min

uto

s

tiempo de atención en cajas

La desviación estándar se interpreta como “cuánto se desvía, en promedio,

de la media un conjunto de puntaciones”

s1 = 1.15 s2 = 2.58

Variancia de la población

La varianza de una población de N mediciones es el promedio de los cuadrados de las desviaciones de las mediciones respecto a su media

Desviación estándar

Varianza de la muestra

Desviación estándar de la muestra

Desviación estándar

Y cuál es su utilidad?1.- La desviación estándar se usa al emplear la media con datos numéricos simétricos

2.- Los percentiles se usan cuando el objetivos es comparar las observaciones individuales con un grupo de valores normales

3.- La variación intercuartil se usa para describir el 50% central de una distribución sin importar su forma

• Obtenga la desviación estándar de los siguientes datos

x2345563

28

x 2

49

16252536

9

124

Problema uno• El jefe de producción está interesado en conocer la calidad que se tiene en

la materia prima que recibe de dos proveedores diferentes ya que pronto iniciara la producción de un nuevo medicamento. La tabla siguiente muestra un análisis de los gramos de principio activo en cada una de 10 muestras analizadas

Cepamex 6.6 6.5 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7

Pronal 4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10

1.- Emplee el rango., la desviación estándar y la varianza para determinar sus conclusiones?

• Una casa de bolsa desea realizar un comparativo entre los rendimientos anuales y los riesgos de los instrumentos financieros que han estado operando durante los últimos años. Los rendimientos anules , expresados en porcentajes son los siguientes

• Calcule rango, varianza y desviación estándar

• Cuál es su interpretación a los resultados ?

A 12 14. 19. 14. 26. 37. 23. 17. 15

B 6 5 4 7 8 9 6 5 6

Utilidad de la desviación estándar

Utilidad de la desviación estándar

• Nos permite medir la variación y la posibilidad de encontrar un valor en términos de probabilidad de un conjunto de datos y para ello podemos emplear tres reglas:

• 1.- La regla práctica del intervalo

• 2.- Teorema de Chebyshev

• 3.- Regla empírica

Utilidad de la desviación estándar

• 1.- La regla práctica del intervalo

– De manera general podemos decir que el 95% de los valores muestrales se ubican dentro de dos desviaciones estándar respecto al valor de la media

– Si continuamos con el ejercicio de los bancos y consideramos los datos del banco uno y la desviación estándar de la muestra

– Entonces podríamos considerar que entre el valor de 6.70 ( media - dos desviaciones estándar) y el valor de 11.30 ( media + dos desviaciones estándar) tendríamos al 95% de los datos

Banco 1

9

8

9

8

7

10

9

11

10

9

media= 9

S= 1.15

Banco 2

9

12

6

5

13

9

11

7

10

8

Media = 9

S= 2.58

• Calcule el intervalo para el 95% de los datos de acuerdo a la regla practica

2.- El Teorema de Chebyshev se aplica a cualquier distribución de un

conjunto de datos, aunque sus resultados son muy aproximados

• “La proporción ( o fracción) de cualquier conjunto de datos que está dentro de k desviaciones estándar de la media es siempre al menos:

• Donde K es cualquier número positivo mayor que 1

• Para calcular porcentaje , la fracción la multiplicamos por 100.

• Por ejemplo cuando se tiene k con un valor de 2, nos indica que es probable encontrar al menos al 75% la proporción de las mediciones en el intervalo de 2 desviaciones estándar por encima y por debajo del valor medio.

• En resumen el teorema de Chebyshev nos dice la proporción de datos que se encuentran en el intervalo de k desviciones estándar de separación respecto a la media

Límites de intervalo

• Valor inferior• µ - kσ población

• x - ks muestra

• Valor superior• µ + kσ población

• x + ks muestra

• Si en una distribución cuya media es 2000 y la desviación estándar de 300, calcula el porcentaje mínimo que se encuentra dentro del rango de 1.2 veces (k veces) la desviación estándar por encima y por debajo de la media, así como sus respectivos valores que delimitan este rango

En la tabla siguiente se expone la participación mensual de la inversión extranjera en el mercado accionario de la Bolsa Mexicana de Valores en el año 2000.

Empleando el teorema de Chebyshev:

Calcula el porcentaje mínimo que se encuentra dentro del rango de 2.5 desviaciones estándar por encima y por debajo de la media

Encuentra los valores superior e inferior que determinan este rango

Repita el punto (1) y (2) empleando valores de K 1.5 y de 3.0

mes

Enero 44.

Febrero 46.5

Marzo 44.8

Abril 47.3

Mayo 45

Junio 46.7

Julio 44

Agosto 45

Septiembre 44.7

Octubre 44.6

Noviembre 43.

Diciembre 41.3

mes % (x) x2

Enero 44 1936

Febrero 46.5 2162.25

Marzo 44.8 2007.04

Abril 47.3 2237.29

Mayo 45 2025

Junio 46.7 2180.89

Julio 44 1936

Agosto 45 2025

Septiembre 44.7 1998.09

Octubre 44.6 1989.16

Noviembre 43 1849

Diciembre 41.3 1705.69536.9 24051.41

S =1.6406

• S = 1.64

• x = 44. 74

• k = z = 2 .5

mes Tipo de cambio

Enero 5.7

Febrero 5.8

Marzo 6.8

Abril 5.8

Mayo 6.2

Junio 6.3

Julio 6.1

Agosto 6.3

Septiembre 6.4

Octubre 7.2

Noviembre 7.7

Diciembre 6.6

Los siguientes son los datos de la

variación del tipo de cambio en 1995

Calcula el porcentaje mínimo que se

encuentra dentro del rango de 2.0

desviaciones estándar por encima y por

debajo de la media

2.-Encuentra los valores superior e inferior

que determinan este INTERVALO

Repita el punto (1) y (2) empleando

valores de k de 1.8 y de 3.0

mes Tipo de cambio x2

Enero 5.7 32.49

Febrero 5.8 33.64

Marzo 6.8 46.24

Abril 5.8 33.64

Mayo 6.2 38.44

Junio 6.3 39.69

Julio 6.1 37.21

Agosto 6.3 39.69

Septiembre 6.4 40.96

Octubre 7.2 51.84

Noviembre 7.7 59.29

Diciembre 6.6 43.56

76.9 496.69

S= 0.59460962

• Los datos de un grupo de piezas de acero muestran que tienen un media de 300 kg. Y una desviación estándar de 40 kg. De acuerdo al teorema de Chebyshev, ¿ por lo menos qué porcentaje de ingresos se encontrará entre 220 y 380 kg?

• Una compañía vende un producto cuya media es 95 unidades y tiene una desviación estándar de 25, de acuerdo al teorema de Chebyshev, ¿ que porcentaje mínimo se encuentra entre 60 y 130 unidades ?

REGLA EMPIRICA

• 3.- Regla empírica para datos con una distribución normal• Nos dice que el 68% de todos los valores están dentro de una

desviación estándar de la media

• El 95% de todos los valores están dentro de 2 desviaciones estándar de la media

• y el 99.7% de todos los valores están dentro de 3 desviaciones estándar de la media

• Una muestra de tarifas de renta de departamentos se asemeja a una distribución simétrica en forma de campana. La media de la muestra es de 5000 y la desviación estándar es de $200. De acuerdo a la regla empírica :• Entre qué intervalo ( limite inferior y límite superior) se encuentran:

• EL 68% de los datos

• El 95% de los datos

• El 99.7% de los datos

• La distribución de pesos ( en toneladas) de una muestra de 1400 contenedores de carga es simétrica y tiene una forma de campana. De acuerdo a la regla empírica, ¿ qué porcentaje de pesos se encontrará entre:• χ - 2s y x + 2s

• x -1s y x +2s

• x y x +2s

• debajo de x -2s

• Pipe Company es uno de los fabricantes nacionales de tubos de PVC. El departamento de control de calidad tomó una muestra de 600 tubos y encontró que el promedio del diámetro externo es de 14.0 pulgadas y una desviación de 0.1 pulgadas• Si no se conoce la distribución, ¿ ´por lo menos que porcentaje de las

observaciones se encontrarán entre 13.85 y 14. 15 pulgadas?

• Si se supone que la distribución de los diámetros es simétrica y tiene forma de campana¿ entre qué dos valores se encontrará aproximadamente 95 % de las observaciones?

• Un estudio sobre el ingreso medio de un jardinero mostro que los datos tienen una media de 500 pesos diarios y una desviación estándar de 40 pesos. De acuerdo con el teorema de Chebyshev, ¿ por lo menos qué porcentaje de ingresos se encontrará entre 400 y 600 pesos?• Y entre 625 pesos y 375 pesos?

Puntuación z

En una recta podemos colocar los diferentes valores que nos da sumar o restar ciertos valores de la desviación

estándar a la media de los datos

Asimismo podemos calcular el porcentaje de los datos que se encuentran en un determinado intervalo en términos

de probabilidad

Puntuación estándar (z)

• Puntuación estándar ( z) :• Nos indica a qué distancia se encuentra un valor alejado de la media en

términos de desviación estándar

Si el valor de Z es

negativo, no dice que

se encuentra debajo de

la media, por otro lado

si es positivo nos dice

que se encuentra por

encima del valor media

EJERCICIO

• Si tenemos una población cuya media es 300 y su desviación estándar es de 100 y se desea conocer a qué distancia de la media se encuentra el valor de Z si los valores de x son:• 450

• 500

• 250

Puntuación estándar (z) • Michel Jordan mide 78 pulgadas, mientras que la

jugadora de la WNBA Rebeca Lobo mide 76 pulgadas. ¿Cuál de los dos jugadores es relativamente más alto? ¿ la estatura de Jordan, entre los hombres, excede la estatura de Lobo entre las mujeres?• La estatura promedio de los hombre es de 69.o pulgadas

con una desviación estándar de 2.8

• La estatura promedio de las mujeres es de 63.6 pulgadas con una desviación estándar de 2.5

• Las calificaciones de un grupo en la prueba de psicología tienen una media de 90 y una desviación estándar de 10

• Las calificaciones de un grupo en la prueba de economía tienen una media de 70 y una desviación estándar de 5• ¿ Respecto al grupo en cuál salió mejor evaluado

• una calificación de 85 en una prueba de psicología o una calificación de 63 en una prueba de economía?

Coeficiente de variación

• Esta medida de dispersión nos dice que tan grande es la magnitud de la desviación estándar respecto a la media del conjunto de datos que se está examinando

• CV = ( σ/ µ) 100% para la población

• CV= ( s/ xmedia ) 100% para la muestra

Coeficiente de variaciónEs muy útil al comparar dos o más conjuntos de datos medidos con unidades distintas

mes 2000 % xEnero 44Febrero 46.5Marzo 44.8Abril 47.3Mayo 45Junio 46.7Julio 44Agosto 45Septiembre 44.7Octubre 44.6Noviembre 43Diciembre 41.3

2000

MES

Tipo de cambio

Enero 9.5Febrero 9.5Marzo 9.3Abril 9.4Mayo 9.5Junio 9.8Julio 9.5Agosto 9.3Septiembre 9.3Octubre 9.5Noviembre 9.5Diciembre 9.4

mes 2000 % x x2

Enero 44 1936

Febrero 46.5 2162.25

Marzo 44.8 2007.04

Abril 47.3 2237.29

Mayo 45 2025

Junio 46.7 2180.89

Julio 44 1936

Agosto 45 2025

Septiembre

44.71998.09

Octubre 44.6 1989.16

Noviembre 43 1849

Diciembre 41.3 1705.69536.9 24051.41

2000

MES

Tipo de cambio

Enero 9.5 90.25

Febrero 9.5 90.25

Marzo 9.3 86.49

Abril 9.4 88.36

Mayo 9.5 90.25

Junio 9.8 96.04

Julio 9.5 90.25

Agosto 9.3 86.49

Septiembre 9.3 86.49

Octubre 9.5 90.25

Noviembre 9.5 90.25

Diciembre 9.4 88.36

113.5 1073.73

0.137895441.64065305

Ejercicios

• Calcular • Media, mediana

• Desviación estándar, varianza, rango, coeficiente de variación

• Primer cuartil, tercer cuartil, Decil 7, p40, P84

• ¿Existe un valor atípico?

• Entre que valores se encuentra el 80% de los datos ( de acuerdo a Chebyshev)• ¿ qué porcentaje de la población se encuentra 180 entre y 580

de contenido de CALORIAS?

PRODUCTO CALORÍAS GRASA

Batido Dunkin Donuts 240 8

Capuchino Starbucks 260 3.5

Café Coolata Donuts 350 22

Café moka exprésStarbucks

350 20

Café normal Starbucks 420 16

Café Brrownie Starbucks 510 22

Crema de chocolate 530 19

• Calcular • Media, mediana

• Desviación estándar, varianza, rango, coeficiente de variación

• Primer cuartil, tercer cuartil, Decil 3, p60, P64

• ¿Existe un valor atípico?

• Entre que valores se encuentra el 75% de los datos ( de acuerdo a Chebyshev)

•• ¿ qué porcentaje de la población se encuentra entre 250 y 650 en

el costo del automóvil?

• Qué valores se encuentran en los extremos ( por arriba y debajo) de 2 desviaciones estándar• Interprete los resultados

• en términos de desviación estándar a qué distancia se encuentra el valor de 500 respecto a su media?

ciudad hotel Auto Ciudad Hotel auto

1 2050 470 11 2050 500

2 1790 410 12 1280 320

3 1850 490 13 1650 340

4 2100 380 14 1800 460

5 1280 320 15 1980 410

6 1450 480 16 1580 400

7 1770 490 17 1320 390

8 1170 410 18 2830 670

9 2210 560 19 2690 690

10 1590 410 20 2040 400