Transcript
Page 1: Estadística descriptiva e inferencial

1

ESTADÍSTICAESTADÍSTICADESCRIPTIVADESCRIPTIVA

E INFERENCIALE INFERENCIAL

ESTADÍSTICAESTADÍSTICADESCRIPTIVADESCRIPTIVA

E INFERENCIALE INFERENCIAL Ing. Pedro López Eiroá

soportedelconocimiento.blogspot.mxorigensobrehumano.blogspot.mxciudadanosdelreinodeloscielos.blogspot.mx

Page 2: Estadística descriptiva e inferencial

2

“ La estadística se ocupa de los métodos científicos para : recolectar , organizar , resumir , presentar y analizar datos ; así como de sacar conclusiones válidas y tomar decisiones con base a este análisis “

Murray R. Spiegel & Larry J. Stephens

¿ Qué es la estadística ?

Page 3: Estadística descriptiva e inferencial

3

No existe actividad humana donde no se involucre :

Uso de la estadística

Personalmente : comparación de alternativas , evaluación de servicios , ingresos vs. Pagos, etc.

Cotidianamente : Censos , indices de precios , ajustes de tarifas , frecuencia de enfermedades, preferencia de candidatos políticos.

Empresarialmente : control de proceso y calidad , evaluación de productividad, estudios de costos, nivel de satisfacción de clientes , proyectos de inversión,etc.

Page 4: Estadística descriptiva e inferencial

4

Importancia de la estadística

• ¿De qué sirve tener datos si no son representativos?

• ¿Qué pasa si tomo decisiones con información incorrecta?

• ¿Es bueno suponer información para su análisis?

• ¿Hay una forma objetiva de mejorar una situación o proceso?

• ¿Hay una forma clara de reducir riesgos y tener certidumbre ?

• ¿Puedo controlar variables sin tener su medición? Si podemos observar y recolectar información precisa y relevante , para organizarla de la mejor forma y analizarla de tal forma que nos permita tener un panorama completo de la situación u objeto de estudio … estamos entonces haciendo Estadística .

Page 5: Estadística descriptiva e inferencial

5

El empleo correcto de la estadística nos permite :

Ventajas de la estadística

• Visualización de los datos• Medición de las variables• Apoyo en las decisiones• Reducción de riesgos• Organización de información• Certeza• Reconocimiento de alternativas• Aceptación de soluciones

• Eliminación de incertidumbre• Integración de comunicación• Optimización de uso de tiempo• Mejora de la elección• Eficacia de manejo de información• Estímulo enfocado a resultados• Documentación de procesos y

decisiones• Visualización y control de tendencias• Toma de decisiones racional y

objetiva

Page 6: Estadística descriptiva e inferencial

6

Definiciones básicas

• Habitantes de una ciudad.• Televisores fabricados en una factoría.• Alumnos de primero de bachillerato.

• Color del pelo: negro, castaño, rubio o pelirrojo• Sexo: hombre o mujer• Miembros asalariados de una familia: 0, 1 , 2 , 3 ,4 , • Alturas de alumnos:178, 169, 172, 183, …

Variable estadística : Cada uno de los rasgos o características que se quiere estudiar de los elementos de la población, susceptible o no de medida.

Población: Conjunto de elementos que se quiere estudiar.

Muestra: Cualquier subconjunto de una población. El número de elementos de una muestra se llama tamaño.

Page 7: Estadística descriptiva e inferencial

7

Definiciones básicas

• Es sinónimo de unidad básica o última del muestreo

• Ingreso promedio de los trabajadores• Frecuencia de venta de productos

Estadístico : Es una medida descriptiva de una muestra

Individuo: Cada uno de los elementos que componen una población y/o muestra .

Carácter : Propiedad o cualidad que presentan los elementos de una población que se desea estudiar .• Cualitativo cuando no puede medirse numéricamente

• Cuantitativo cuando puede medirse numéricamente (Variable)

Page 8: Estadística descriptiva e inferencial

8

Tipos de Estadística

– Trata del recuento, ordenación y clasificación de los datos obtenidos de las observaciones:•Construcción de tablas, gráficos y cálculo de

parámetros.

• La Estadística descriptiva o deductiva:

• La Estadística inferencial o inductiva:

– Utiliza los resultados de la estadística descriptiva y se apoya en el cálculo de probabilidades para la obtención de conclusiones sobre una población a partir de los resultados obtenidos de una muestra.

Page 9: Estadística descriptiva e inferencial

9

Variables cualitativas y cuantitativas

vasCuantitati

asCualitativ

Variables

Continuas

Discretas

(Cualidades , categorías o atributos)

(Aquellas medibles numéricamente)

• Número de hijos• Páginas de un libro

• Edad• Peso• Talla• Tiempo

(Unidades completas )

(Cualquier valor en un rango)

Ordinales

Nominales

• Escalas• Etapas

• Colores• Lugares• Profesiones

Page 10: Estadística descriptiva e inferencial

10

• Dicotómicas: Sólo hay dos categoría, que son excluyentes una de la otra

Ejemplo: enfermo-sano, muerto-vivo, mujer-hombre

• Nominal: tiene mas de dos categorías y no hay orden entre ellas.

Ejemplo: color de los ojos, grupo sanguíneo

• Ordinal: tiene varias categorías y hay orden entre ellas.

Ejemplo: grado tumoral, calificación del riesgo en

anestesia.

Tipos de Variables Cualitativas

Page 11: Estadística descriptiva e inferencial

11

• Continuas: números infinito no numerables de elementos. Tiene asociado el concepto de medida, en unidades a veces fraccionarias.

Ejemplo: Presión arterial, Edad, peso.

• Discretas: números finitos o infinitos numerables de elementos. Se asocia con el concepto de conteo.

Ejemplo: N° de hijos, N° de casos de tuberculosis por estado.

Tipos de Variables Cuantitativas

Page 12: Estadística descriptiva e inferencial

12

Presentaciones estadísticas y representaciones gráficas

•Forma sencilla y clara de agrupar la información

•Pueden ser sencillas o complejas según la cantidad de datos

•Es importante el manejo lógico de la disposición

• Tablas:

• Gráficos:

Son los métodos empleados para organizar y presentar las observaciones , con el objeto de mostrar la máxima información con una rápida visualización , manejo de estética y sencilléz operativa . Pueden ser de dos tipos:

•Permiten visualizar la información y sus relaciones

•Es una forma ilustrativa y clara de los datos

•Es una forma creativa y artística de presentación

Page 13: Estadística descriptiva e inferencial

13

Variables : Representación Tabular

VENTAS MENSUALES POR ZONA

Fecha de Venta

Volumen Ventas Norte

Volúmen Ventas Centro

Volúmen Ventas Sur

Volúmen Ventas

ForáneoTotal

% Mensual

Enero $8,691.89 $19,156.00 $57,793.83 $28,688.78 $114,330.50 18.7%

Febrero $1,617.88 $1,076.03 $19,437.13 $19,321.98 $41,453.02 6.8%

Marzo $1,223.00 $6,677.00 $33,278.32 $20,249.31 $61,427.63 10.1%

Abril $9,645.62 $0.00 $21,343.71 $14,846.76 $45,836.09 7.5%

Mayo $1,051.57 $4,354.00 $19,174.22 $16,886.01 $41,465.80 6.8%

Junio $4,387.45 $0.00 $20,529.59 $22,709.82 $47,626.86 7.8%

Julio $3,362.64 $8,899.00 $26,405.06 $21,065.89 $59,732.59 9.8%

Agosto $0.00 $0.00 $0.00 $0.00 $0.00 0.0%

Septiembre $1,681.32 $1,036.16 $26,598.83 $30,541.29 $59,857.60 9.8%

Octubre $7,132.00 $0.00 $25,738.73 $21,813.00 $54,683.73 9.0%

Noviembre $1,051.57 $2,345.00 $18,477.38 $22,846.24 $44,720.19 7.3%

Diciembre $2,334.00 $6,487.00 $14,802.09 $15,639.72 $39,262.81 6.4%

Total $42,178.94 $50,030.19 $283,578.89 $234,608.80 $610,396.82

% por Zona 6.9% 8.2% 46.5% 38.4%

Page 14: Estadística descriptiva e inferencial

14

Variables cualitativas: Representación gráfica

Sabores de refrescos preferidos por 50 personas

Clases Frecuencias FrecuenciasRefrescos absolutas: fi relativas: hi

Naranja 18 0,36Limón 12 0,24Piña 10 0,20Manzana 10 0,20Sumas 50 1

Sabores de refescos

0

2

4

6

8

10

12

14

16

18

20

Naranja Limón Piña Manzana

Fre

cuen

cias

Naranja36%

Limón24%

Piña20%

Manzana20%

Naranja

Limón

Piña

Manzana

Page 15: Estadística descriptiva e inferencial

15

Variables cuantitativas: Representación gráfica

Frecuencia por Volúmen de Ventas

$-$10,000$20,000$30,000$40,000$50,000$60,000$70,000$80,000

1,00

0 a

1,

999

2,00

0 a

2,

999

3,00

0 a

3,

999

4,00

0 a

4,9

99

5,00

0 a

5,

999

6,00

0 a

6,

999

7,00

0 a

7,

999

8,00

0 a

8,

999

9,00

0 a

9,

999

10,0

00 a

10,

999

Volúmen de Ventas

Ven

ta T

ota

l

$0.00

$20,000.00

$40,000.00

$60,000.00

$80,000.00

$100,000.00

$120,000.00

Venta

Enero

Febre

ro

Mar

zoAbr

il

May

oJu

nio Julio

Agosto

Septie

mbr

e

Octubr

e

Noviem

bre

Diciem

bre

Mes

Ventas Mensuales por Zona

Norte Centro Sur Foráneo

Comparativo ventas Josefina vs. Juan

$0$10,000$20,000$30,000$40,000$50,000$60,000

Enero

Febre

ro

Mar

zoAbr

il

May

oJu

nio

Julio

Agosto

Septie

mbr

e

Octu

bre

Noviem

bre

Diciem

bre

Mes

Ven

ta

Josefina Romero García Juan Rodríguez Maldonado

Page 16: Estadística descriptiva e inferencial

16

• Las descripciones numéricas de datos son importantes. Dado un conjunto de n observaciones :

• La estadística descriptiva nos ayuda mediante el manejo de medidas de tendencia central relativas a la posición de los datos y medidas de dispersión relativas a la variabilidad de los datos.

nxxx ,.....,, 21

Diferentes tipos de medidas

Page 17: Estadística descriptiva e inferencial

17

• Las medidas descriptivas más comunes de tendencia central o posición son: la media aritmética y la mediana

• Existen otras medidas de tendencia central que en ocasiones pueden resultar de interés tales como : la moda, los cuartiles, los deciles, los percentiles, la media armónica, la media geométrica y la media ponderada.

Medidas de Tendencia Central

Page 18: Estadística descriptiva e inferencial

18

Media Aritmética

• La media aritmética es simplemente el promedio (también llamada media muestral ya que generalmente se calcula en relación a una muestra).

• Se calcula de la siguiente forma: si las observaciones de una muestra de tamaño n son x1, x2,…,xn entonces:

n

x

n

xxxX

n

ii

n

121 ...

Page 19: Estadística descriptiva e inferencial

19

Ventajas :• Fácil de calcular e interpretar.• En su cálculo intervienen todos los datos disponibles.• Su valor es único para una serie de datos.• Es el punto de equilibrio de la información.

Desventajas :• No es representativa con pocos datos • Se ve afectada por el grado de dispersión• Es poco útil con datos muy heterogéneos• No todos los valores contribuyen de igual forma ,los

mayores tienen más peso

Características de la media

Page 20: Estadística descriptiva e inferencial

20

• La mediana se suele definir como el valor “más intermedio o central ” una vez que los datos han sido ordenados en forma creciente. Se suele denotar por Me. La forma más general de calcular la mediana es la siguiente:

1 2

2 ( 2) 1

2

n

n n

x si n es impar

Me x xsi n es par

Mediana

Page 21: Estadística descriptiva e inferencial

21

Ventajas :• Valor único que no se ve afectado por los extremos por ser

equidistante de ellos.• Se localiza a la mitad de los datos , dejando el 50 % por

arriba y el 50 % por debajo de su valor.• Es menos sensible a las variaciones de los datos.• No se ve afectada por la dispersión de los datos.

Desventajas :• No se emplea para hacer cálculos • Utiliza muy poca información de los datos• Cuanto más grande es la serie de datos , más complicado

se vuelve su determinación.

Características de la mediana

Page 22: Estadística descriptiva e inferencial

22

• La moda de un conjunto de observaciones es el valor que más se repite, aquel cuya frecuencia absoluta es máxima.

• Puede ser única, que haya más de una, o que no exista.

• Cuando hay más de una , la distribución de los datos se denomina acorde : bimodal , trimodal, polimodal, etc.

Moda

Page 23: Estadística descriptiva e inferencial

23

Nos brindan una idea muy clara de la “posición” de los parámetros dentro de una distribución de datos.

Uso de : Media , Mediana y Moda

• La media tiene el uso más frecuente y sencillo , tales como : talla media del mexicano, temperatura histórica promedio , etc.

• La mediana es representativa en poblaciones heterogéneas , tales como : distribución de salarios , peso medio, etc.

• La moda literalmente tiene que ver con “estar de moda” o lo que más se lleva , tal como: número de individuos por casa en México, cantidad de

usuarios de ciertos equipos celulares , etc.

Page 24: Estadística descriptiva e inferencial

24

La forma de distribución de las observaciones puede variar , causando desviaciones de estas mediciones centrales , por eso es conveniente el empleo conjunto de la media y la mediana en una población o muestra.

Relación entre : Media,Mediana y Moda

La media se usa para distribuciones simétricas que no tienen sesgo , mientras que la mediana es más representativa cuando se tienen datos de distribución sesgada.

Page 25: Estadística descriptiva e inferencial

25

• Las medidas descriptivas más comunes de dispersión son: el rango, la varianza y la desviación estándar .

• Existen otras medidas de dispersión que en ocasiones pueden resultar de interés tales como : rango semi-intercuartilar , rango percentilar y coeficiente de variación.

Medidas de Dispersión

Page 26: Estadística descriptiva e inferencial

26

Rango• El rango de la muestra es la medida de variabilidad más sencilla entre todas las mencionadas • Como valor se define como la diferencia entre la observación más grande y la más pequeña :

• Indica el ancho, recorrido o amplitud de valores . Tiene como sus límites el valor mayor y el menor en la distribución de datos.

minmax xxr

Page 27: Estadística descriptiva e inferencial

27

Ventajas :• Fácil de determinar e interpretar.• Nos indica los límites de nuestra información.• Nos permite visualizar la amplitud de

dispersión de los valores de forma sencilla.

Desventajas :• Ignora toda la información de la muestra • No mide el grado de dispersión , solo su ancho• No nos da una idea detallada de la información

de las observaciones.

Características del rango

Page 28: Estadística descriptiva e inferencial

28

Varianza

• Es una medida significativa de la dispersión de las observaciones alrededor de la media.

• Se define como el promedio de las desviaciones respecto a su media , elevadas al cuadrado :

n

xxs

n

ii

1

2

2

)(

n

xxs

n

ii

1

2

2

)(

Page 29: Estadística descriptiva e inferencial

29

Ventajas :• Fácil de calcular mediante su fórmula.• Indica el grado y forma de dispersión de los

datos con respecto a la media.• Depende de todas las mediciones.

Desventajas :• Es impráctica por ser un término cuadrático

de poco sentido en la realidad. • Es un número muy grande de referencia

matemática , pero sin valor concreto y de difícil manejo comparativo.

Características de la Varianza

Page 30: Estadística descriptiva e inferencial

30

Desviación estándar

• Es una medida significativa de la dispersión de las observaciones alrededor de la media.

• Se define como la raíz cuadrada del promedio de las desviaciones respecto a su media , elevadas al cuadrado ; es decir la raíz cuadrada de la varianza :

n

xxn

ii

1

2)(

Page 31: Estadística descriptiva e inferencial

31

Ventajas :• Fácil de calcular mediante su fórmula y

particularmente en hojas de cálculo como Excel que lo hacen de forma automática.

• Indica el grado y forma de dispersión de los datos con respecto a la media.

• Depende de todas las mediciones.• Muy práctica por usar los mismos valores de las

unidades que se analizan.• Un valor grande indica que los datos se alejan mucho

de la media y un valor pequeño indica que se acercan a la media.

Desventajas :• Si hacemos el cálculo manual , es complicado.

Características de la Desviación Estándar

Page 32: Estadística descriptiva e inferencial

32

• Las medidas centrales solo nos indican el valor medio alrededor del cual se agrupan nuestros datos , pero las de dispersión nos detallan la variación de las observaciones en cuanto a forma y extensión.

• Nos muestran claramente la distancia entre los datos y la media aritmética, además de que dependen de todas las observaciones.

• Son únicas de una serie de datos y por eso se denominan absolutas , pero pierden sentido de comparación , para lo cual hay que usar el coeficiente de variación (desviación estándar sobre

la media en porcentaje) .

Utilidad de las medidas de dispersión

Page 33: Estadística descriptiva e inferencial

33

• Las medidas de distribución nos permiten identificar la forma en que se separan o aglomeran los valores de acuerdo a su representación gráfica. Son : la simetría y la curtosis.

• Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen dentro de la información.

• Su utilidad radica en la posibilidad de identificar las características de la distribución sin necesidad de generar el gráfico.

Medidas de Distribución

Page 34: Estadística descriptiva e inferencial

34

• Si los valores de la serie de datos presentan la misma tendencia (forma) a izquierda y derecha de un valor central como la media aritmética, se dice que es simétrica de lo contrario será asimétrica.

• Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría de Fisher, que viene definido:

31

3

1

)()(/1(

s

xxng

n

ii

Simetría y Asimetría

Page 35: Estadística descriptiva e inferencial

35

• g1 < 0 (distribución asimétrica negativa; existe mayor concentración de valores a la izquierda de la media que a su derecha)

• g1 = 0 (distribución simétrica; existe la misma concentración de valores a la derecha y a la izquierda de la media)

• g1 > 0 (distribución asimétrica positiva; existe mayor concentración de valores a la derecha de la media que a su izquierda)

Simetría y Asimetría Los resultados pueden ser los siguientes:

Page 36: Estadística descriptiva e inferencial

36

• El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución.

• Se calcula con la siguiente fórmula :

• Los resultados pueden ser : g2 = 0 (distribución mesocúrtica). g2 > 0 (distribución leptocúrtica). g2 < 0 (distribución platicúrtica).

Curtosis

3)()(/1(

41

4

2

s

xxng

n

ii

Page 37: Estadística descriptiva e inferencial

37

• Existen 3 tipos de distribuciones según su grado de curtosis se observar de la siguiente forma :

Curtosis

Page 38: Estadística descriptiva e inferencial

38

• Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).

• Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable.

• Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.

Tipos de Curtosis

Page 39: Estadística descriptiva e inferencial

39

Ejemplo práctico de Alfredo Casas

Se tiene información del consumo promedio de agua de los huéspedes de un hotel según la temporada :

MESCONSUMO($)

PROMEDIO POR HUESPED

ENERO 30

FEBRERO 45

MARZO 50

ABRIL 58

MAYO 65

JUNIO 110

JULIO 100

AGOSTO 120

SEPTIEMBRE 50

OCTUBRE 60

NOVIEMBRE 45

DICIEMBRE 35

TOTAL 768

Page 40: Estadística descriptiva e inferencial

40

Ejemplo práctico de Alfredo Casas

Ordenando los datos y con base a las fórmulas y funciones de la hoja de Excel obtenemos los siguientes resultados de las medidas centrales y de dispersión :

CONSUMO PROMEDIO POR HUESPED MES

30 ENERO

35 DICIEMBRE

45 FEBRERO

45 NOVIEMBRE

50 MARZO

50 SEPTIEMBRE

58 ABRIL

60 OCTUBRE

65 MAYO

100 JULIO

110 JUNIO

120 AGOSTO

768 TOTAL

Media : 64Mediana : 54Moda : 45Rango : 30 – 120Varianza : 809.33Desviación Estándar : 28.45Simetría : 0.98Curtosis : -0.32

Page 41: Estadística descriptiva e inferencial

41

Ejemplo práctico de Alfredo Casas

Interpretación :• Cada huesped consume $ 64 en promedio por mes• Los datos NO son simétricos , se desplazan ligeramente

hacia la derecha con un sesgo positivo , solo con ver que la mediana es inferior a la media.

• Aunque la fórmula solo indica un dato de moda, tenemos dos números que se repiten dos veces : 45 y 50 , por lo que la distribución es de tipo bimodal.

• El rango de consumo es de 90 unidades , entre el límite inferior de 30 y el superior de 120

• La desviación estándar no es grande comparativamente , lo que indica que los datos no se alejan tanto de la media.

• El valor de simetría g1 > 0 , nos indica una distribución asimétrica positiva porque existe mayor concentración de valores a la derecha de la media que a su izquierda.

• En cuanto a la curtosis con valor de de -0.32 (g2 < 0 ) nos confirma una distribución platicúrtica porque presenta un

reducido grado de concentración alrededor de los valores centrales de la variable.

Page 42: Estadística descriptiva e inferencial

42

Gráfico del ejemplo de Alfredo

D IS P E R S ION D E C ON S U MO

0

20

40

60

80

100

120

140

1 2 3 4 5 6 7 8 9 10 11 12

ME S

MO

NT

O

CO

NS

UM

IDO

C ONS UMO P ROME D IO P OR  HUE S P E D

P olinómica (C ONS UMO P ROME D IO P OR  HUE S P E D )

MediaMediana

ModaRang

o Desvia

ci

ón

Está

nd

ar

Page 43: Estadística descriptiva e inferencial

43

BIBLIOGRAFÍA

1) Spiegel, Murray R. y Stephens, Larry J. (2001). Estadística serie Schaum. México: McGraw-Hill, pp. 1 – 124

2) Domínguez, Jorge. (2009). Estadística y probabilidad. El Mundo de los datos y el azar. México: Oxford University Press. Unidad 3: Resumen y organización de datos, pp. 76 a 129.


Recommended