Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
SEGUNDO PARCIAL
PROBABILIDAD Y ESTADÍSTICA
FERNANDO BASURTO
ESTADÍSTICA DESCRIPTIVA
Tablas de distribución de frecuencias. También se conoce como representación tabular (si se menciona la organización tabular de datos, significa ordenar datos en una tabla).
Datos en bruto: Son los valores observados.
Dónde viven los alumnos de CECYTEQ de quinto:
Hacienda Montenegro 28
Montenegro 19
Pie de Gallo 8
Santa Rosa 64
Pintillo 9
Pinto 8
Puerto de Aguirre 10
San Miguelito 9
Otros 28 Fuente: Encuesta realizada por alumnos CECYTEQ Mn (nov 2019).
Los valores han sido ordenados de mayor a menor, lo que facilita analizar los datos.
Santa Rosa 64
Hacienda Montenegro 28
Montenegro 19
Puerto de Aguirre 10
Pintillo 9
San Miguelito 9
Pie de Gallo 8
Pinto 8
Otros 28
TOTAL 183
Tabla de distribución de frecuencias. La frecuencia de una variable la podemos entender como “qué tan frecuente es” dicha variable.
Lugar de Residencia Frecuencia Porcentaje % Acumulado
Santa Rosa 64 35.0% 35.0%
Hacienda Montenegro 28 15.3% 50.3%
Montenegro 19 10.4% 60.7%
Puerto de Aguirre 10 5.5% 66.1%
Pintillo 9 4.9% 71.0%
San Miguelito 9 4.9% 76.0%
Pie de Gallo 8 4.4% 80.3%
Pinto 8 4.4% 84.7%
Otros 28 15.3% 100.0%
TOTAL 183 100.0%
El porcentaje fue calculado considerando el total de alumnos encuestados en ese año. Podemos concluir que solo tres localidades representan el 60% del total.
Gráficas elaboradas a partir de las tablas: Gráfica de barras con las localidades
donde viven los alumnos de quinto de Cecyteq Montenegro según encuesta
realizada en noviembre de 2019.
Gráfica basada en la frecuencia:
0
10
20
30
40
50
60
70
Gráfica basada en el porcentaje acumulado:
Gráfica de pastel: las primeras cinco localidades que comprenden el 71% del total.
El porcentaje cambia ya que está calculado solo con los datos de la gráfica de pastel: las primeras cinco.
0.0%
20.0%
40.0%
60.0%
80.0%
100.0%
120.0%
Santa Rosa49%
Hacienda Montenegro
21%
Montenegro15%
Puerto de Aguirre
8%
Pintillo7%
Otra gráfica con el porcentaje acumulado (gráfica lineal).
Series de tiempo. Evolución de CO2 desde 1984 a 2018.
Fuente: http://www.diariosigloxxi.com/texto-ep/mostrar/20191125154925/compromisos-actuales-
contra-co2-no-permiten-ver-ano-techo-expansion-gei-segun-experto-aemet
Desafortunadamente, el CO2 va aumentando lenta pero inexorablemente.
35.0%
50.3%60.7%
66.1%71.0%
76.0%80.3%
84.7%
100.0%
0.0%
20.0%
40.0%
60.0%
80.0%
100.0%
120.0%
Gráficas básicas de estadística. Existen cinco tipos básicos para presentar en una gráfica los datos de una tabla, de acuerdo con Ernesto Sánchez.
Diagrama de sectores o gráfica de pastel.
Es útil cuando la variable es nominal u ordinal, con seis o menos valores diferentes. Los datos deben cubrir el 100%.
Es importante tomar en cuenta el porcentaje que representa cada dato, para dibujar la gráfica. Por ejemplo 25% debe cubrir una cuarta parte del círculo, 50% la mitad, etc. Se tiene que hacer un cálculo con 360° y el porcentaje deseado.
Ejemplo: 38% = 0.38x360° = 136.8 = 137°.
Se dibuja con transportador.
Fuente: https://ekuatio.com/wp-content/uploads/diagrama-de-sectores-17.png
Diagrama de barras horizontales.
También se usa cuando la variable es nominal, y es útil cuando hay una gran cantidad de datos (más de seis, aunque el ejemplo solo muestra dos).
Fuente: https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcSXUHUb5Hdv-3QMQA6jl-dVbp-8vb2zR0cJcNYtm8dWdPxeH4tB
Diagrama de columnas.
Se usa cuando la variable es ordinal (orden: primero, segundo, tercero). Sin embargo, normalmente no se ordenan los datos, ya que estos tienen su propio orden.
Fuente: https://encrypted-
tbn0.gstatic.com/images?q=tbn%3AANd9GcThqDscrmYdUvedkKMT_OIIGlYaRxqD9r2RY8KJXV9n2vA2sqeA
Histograma.
Esta gráfica es usada cuando la información tiene valores sobre una escala de intervalo (tema de la tarea 7). El histograma se elabora a partir de rectángulos, cuya base tiene un intervalo de clase (por ejemplo, rango de estatura 1.60 a 1.65 m). La altura de los rectángulos puede representar la frecuencia (15 alumnos con dicho rango de estatura) o el porcentaje.
Fuente: https://encrypted-
tbn0.gstatic.com/images?q=tbn%3AANd9GcT8fg2bFETghk8SivpmYfUAzXPeCdhb_67FY0lY7_CcW8zmL3tq
También es común representar una línea sobre los rectángulos, la cual permite visualizar la evolución de la variable analizada.
https://encrypted-
tbn0.gstatic.com/images?q=tbn%3AANd9GcQ8sQvTD9dsZqqdU3KX0rsyZ3VcNeQh2nVjPjv44n8wa3G-R3WE
Fuente: https://cdn.pixabay.com/photo/2016/08/02/18/27/statistic-1564428__340.png
TAREA 6
DISTRIBUCIÓN DE FRECUENCIAS
1. Principales causas de mortalidad en 2018 en el estado de Querétaro (México). Grupo de edad de 15 a 24 años.
CAUSAS Defunciones Accidentes 112
Agresiones 50 Enfermedades del corazón 17
Enfermedad del hígado 4
Enfermedad por VIH 5 Influenza y neumonía 7 Insuficiencia renal 11
Lesiones autoinflinguidas 51 Malformaciones genéticas 11 Pnacreatitis agduda 4
Parálisis cerebral 6
Trastornos sistémicos tejido conjuntivo 6 Tumores malignos 30 Otras 16
Fuente: INEGI, Dirección General de Estadísticas sociodemográficas. https://www.inegi.org.mx/sistemas/olap/registros/vitales/mortalidad/tabulados/ConsultaMortalidad.asp Con calculadora, ordena los datos y elabora una tabla de distribución de frecuencias. Una vez terminada la tabla prepara un histograma.
CAUSAS Frecuencia Porcentaje % Acumulado
Elabora un análisis con los resultados; por ejemplo: ¿de qué se tienen que cuidar más los jóvenes en Querétaro? ¿Existe riesgo de contraer el sida? ¿El exceso de alcohol puede provocar la muerte?
2. Una facultad de la UNAM tienen una población de 5,025 estudiantes de primer
ingreso: 64% mujeres y 36% hombres. a) Calcula cuántos hombres y cuántas mujeres son.
b) Elabora una gráfica de pastel considerando los porcentajes. c) Elabora un histograma basado en porcentajes.
3. En una entrevista a empleadas de una fábrica se les aplicó un cuestionario sobre el número de hijos: 18 mujeres no eran madres todavía, 14 tenían un hijo, 20 tenían 2, 26 con 3, 19 con 4, 9 con 5 y sólo 2 mujeres tenían 6 hijos.
Elabora una tabla de distribución de frecuencias, una gráfica de barras por
porcentaje, y una de pastel. Interpreta los datos.
4. En 1970 fueron entrevistadas 29,697 personas sobre su estado civil: 40.45% eran solteros, 45.39% casados, 8.17% vivían en unión libre, 4.16% habían enviudado, 0.46% estaban divorciados y sólo 1.37% estaban separados.
Elabora una tabla de distribución de frecuencias y una gráfica de barras por porcentaje. Interpreta los datos. ¿Consideras que los porcentajes serían similares ahora?
5. Selecciona el género y el grupo de edad al que perteneces, y elabora una tabla de distribución de frecuencias. Comparen la tabla de mujeres y hombres. ¿Qué puedes concluir a partir de las tablas?
Fuente: INEGI, Mujeres y hombre en México, 2016 (p. 124).
Tabla de distribución por intervalos.
Otra forma para organizar la frecuencia de los datos se conoce como Distribución
por Intervalos.
Si queremos analizar la estatura de los estudiantes de quinto semestre de Cecyteq
Montenegro, la encuesta –aplicada a cinco grupos- arrojó 26 estaturas diferentes;
por ejemplo: 1.45 (dato menor), 1.5, 1.51, 1.52, 1.53, 1.54, 1.57, 1.6, 1.62, … 1.85
(dato mayor).
Una tabla de distribución de frecuencias con 26 renglones resulta muy larga,
engorrosa y complicada para elaborar análisis. Por lo tanto, cuando tenemos una
gran variabilidad de datos (estaturas de los alumnos) se prefiere elaborar una tabla
de distribución de frecuencias por intervalos.
El intervalo se selecciona dependiendo del tipo de datos; si seleccionamos pocos
intervalos será difícil hacer análisis, pero si seleccionamos muchos será difícil
elaborar la tabla. En el caso de las estaturas, por ejemplo, podemos tomar cada
intervalo de 50 cm.
Tabla de estaturas alumnos quinto (cinco grupos) CECYTEQ Montenegro.
Intervalo Frecuencia Porcentaje Acumulado
1.45 - 1.49 1 0.72% 0.72%
1.50 - 1.54 15 10.87% 11.59%
1.55 - 1.59 10 7.25% 18.84%
1.60 - 1.64 38 27.54% 46.38%
1.65 - 1.69 18 13.04% 59.42%
1.70 - 1.74 30 21.74% 81.16%
1.75 - 1.79 17 12.32% 93.48%
1.80 - 1.84 6 4.35% 97.83%
1.85 - 1.89 3 2.17% 100.00%
138 100.00%
Fuente: Encuesta realizada por alumnos CECYTEQ Mn (nov 2019).
Histograma basado en la frecuencia:
Una curva de distribución basada en la frecuencia:
0
5
10
15
20
25
30
35
40
1.45 -1.49
1.50 -1.54
1.55 -1.59
1.60 -1.64
1.65 -1.69
1.70 -1.74
1.75 -1.79
1.80 -1.84
1.85 -1.89
1
15
10
38
18
30
17
6
3
0
5
10
15
20
25
30
35
40
1.45 -1.49
1.50 -1.54
1.55 -1.59
1.60 -1.64
1.65 -1.69
1.70 -1.74
1.75 -1.79
1.80 -1.84
1.85 -1.89
TAREA 7
DISTRIBUCIÓN DE POR INTERVALOS
1. La tabla tiene el peso de 35 estudiantes medido en kilos.
50 52 61 64 67 70 82
65 73 66 79 65 73 75
51 63 75 80 62 68 84
58 67 70 85 64 66 80
91 89 73 65 66 67 79
Elabora una tabla de distribución de frecuencias y un histograma. Piensa cuál es el intervalo más adecuado: si queda muy grande será muy rápido elaborar la tabla pero no podrás hacer un buen análisis de los datos, y si queda muy pequeño será más trabajo; es necesario encontrar un punto óptimo.
2. Los siguientes datos corresponden al número de glóbulos rojos por mililitro de sangre en estudiantes de medicina.
Glóbulos rojos Número de alumnos
Porcentaje Porcentaje Acumulado
5.5 – 6.4 5
6.5 – 7.4 20
7.5 – 8.4 23
8.5 – 9.4 26
9.5 – 10.4 20
10.5 – 11.4 6
Totales
Completa la tabla y elabora un histograma.
3. Los siguientes datos corresponden a la estatura de un grupo de estudiantes de medicina.
Estatura (cm) Número de alumnos
Porcentaje Porcentaje Acumulado
155 – 159 3
160 – 164 24
165 – 169 20
170 – 174 25
175 – 179 21
180 – 184 3
185 – 189 4
Totales
Completa la tabla y elabora un histograma.
4. En una escuela localizada en una zona marginal un equipo médico interesado en el
cambio de dientes en los niños obtuvo los siguientes datos:
Dientes perdidos Número de niños
0 30 1 42 2 51 3 38 4 25 5 16 6 9 7 5 8 3 9 2
+10 6
Qué pudiéramos hacer para ayudarlos a interpretar los datos. Organiza la información y elabora un análisis.
5. En una pequeña comunidad rural se realizó un censo. Organiza la información e interpreta los datos.
EDAD Hombres Mujeres
15 – 19 4 19
20 – 24 18 28
25 – 29 32 18
30 – 34 21 13
35 – 39 18 7
40 – 44 3 2 45 – 49 4 1
6. Elabora una tabla de distribución de frecuencias con el IDH para las entidades federativas (estados) de México. Los datos se pueden obtener a partir del archivo titulado PNUD_boletinIDH México 2015, que ya está disponible para descargar. Los datos están en la página 6, gráfica 1, del informe. Una vez elaborada la tabla responde las preguntas:
Qué mide el IDH
Qué estado tiene el menor y qué estado el mayor IDH
Cuál es el IDH del estado de Qro.
Cuál es el IDH nacional
Qué podemos concluir sobre el estado de Qro. comparado con otros estados
ESTADÍSTICA INFERENCIAL
MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central buscan establecer un promedio que me permita hacer comparaciones para buscar información estadística relevante: un dato cualquiera (una calificación) para compararlo y determinar si está por encima o por debajo del promedio.
Mediana (Me): Es el valor que parte una distribución por la mitad, el punto medio. Los datos tienen que estar ordenados de menor a mayor. Tomemos, por ejemplo, una muestra de 5 números:
M: 3, 3, 4, 6, 8. La mediana es Me = 4; hay dos números a la izquierda y
dos números a la derecha. Pero si tuviéramos 6 números en lugar de 5.
M: 2, 3, 3, 4, 6, 8. La mediana tiene que estar entre el 3 y 4. Por lo tanto, la mediana es Me = 3.5, valor que se calculó de esta forma: (3 + 4) / 2.
Moda (Mo): Es el valor más común o que ocurre con más frecuencia. Por ejemplo, la talla 24 es el valor modal en zapatos para mujer. En la muestra de 6 números la moda es Mo = 3 porque se repite dos veces.
_ Media aritmética (X, μ): Representa un promedio aritmético, y se calcula sumando todos los valores y dividiendo esta suma por el número total de datos.
Es importante recordar que la “media aritmética”, también se conoce sólo como “media” o “promedio”; en los tres casos representan lo mismo.
Muestra: Población: _
X = xi μ = xi n N
Estadígrafos Parámetros
Fuente: https://cdn.pixabay.com/photo/2016/11/30/15/23/apple-1873078__340.jpg
Los valores de la Muestra se representan con el alfabeto romano y se llaman Estadígrafos, mientras que los valores reales de la Población se representan con letras griegas y se llaman Parámetros.
La media aritmética para la muestra de 6 números es:
x1 = 2
x2 = 3
x3 = 3
x4 = 4
x5 = 6
x6 = 8
_ X = x1 + x2 + x3 + x4 + x5 + x6 = 2 + 3 + 3 + 4 + 6 + 8 = 4.33
n 6 _ X = 4.33
¿Qué haríamos si tuviéramos tres muestras con sus respectivas medias aritméticas? ¿Cuál sería el promedio total o “promedio de promedios”? Tomemos tres muestras de números:
_
M1: (2, 3, 3, 3, 4, 7, 7, 8, 8); n = 9, Mo = 3, Me = 4 y X = 5.
_ M2: (1, 1, 4, 6, 6, 6, 8, 8); n = 8, Mo = 6, Me = 6 y X = 5.
_
M3: (2, 2, 2, 7, 8, 8, 13); n = 7, Mo = 2, Me = 7 y X = 6.
¿Cómo calculamos el promedio de las tres muestras? Con la siguiente fórmula:
_ _ _ _ X1,2,3 = n1X1 + n2X2 + n3X3
n1 + n2 + n3 _ X1,2,3 = (9)(5) + (8)(5) + (7)(6) = 5.29
9 + 8 + 7 _ X1,2,3 = 5.29 Este dato se conoce como media ponderada.
¿Qué tipo de medida de tendencia central usaríamos con la mortalidad: Mediana, Moda o Media Aritmética?
Principales causas de mortalidad nacional en 2003.
TOTAL 472,140
Enfermedades del sistema circulatorio 107,909
Enfermedades endocrinas (diabetes) 73,101
Tumores (neoplasias) 63,067
Causas externas de morbilidad 52,325
Enfermedades del sistema digestivo 45,605 Enfermedades del sistema respiratorio 40,222
Ciertas enfermedades infecciosas 18,728
Ciertas afecciones del periodo perinatal 17,077
Enfermedades del sistema genitourinario 12,854
Síntomas, signos y hallazgos 9,976
La Moda, enfermedades del sistema circulatorio, es la más apropiada para este caso. La media o el promedio, es un representante de los datos.
Todo conjunto de datos tiene un promedio
Para calcular el promedio se toman todos los valores (incluyendo ceros)
Un conjunto de datos tiene solo un promedio, el cual debe estar comprendido entre los extremos de los datos (hay que ordenarlos)
El promedio es útil para comparar dos o más poblaciones
El promedio no tiene que ser igual a uno de los datos
El promedio puede ser un número con decimales: en Qro el promedio de hijos por mujer es 2.2 (INEGI, Mujeres y hombre en México, 2016, p. 37).
Fuente. https://cdn.pixabay.com/photo/2018/09/27/09/22/web-3706562__340.jpg
TAREA 8 TENDENCIA CENTRAL
_ 1. Calcula el número de datos (n), moda (Mo), mediana (Me) y el promedio (X) de los siguientes conjuntos de números.
272, 574, 776, 104, 327, 123.
7, 3, 10, 14, 7, 17, 3, 13, 6, 10, 12, 7, 12, 3, 8, 5.
23, 29, 30, 53, 62, 18, 48, 85, 50, 62, 28, 39.
2. Calcula el promedio de promedios para los números anteriores.
3. La tabla tiene el peso de 35 estudiantes medido en kilos. Calcula la moda y el promedio.
50 52 61 64 67 70 82
65 73 66 79 65 73 75
51 63 75 80 62 68 84
58 67 70 85 64 66 80
91 89 73 65 66 67 79
4. La tabla contiene el número de hijos en las empleadas de una fábrica. Calcula la moda y el promedio: ¿son iguales estos dos indicadores?
Número de hijos Frecuencia
0 18
1 14
2 20
3 26
4 19
5 9
6 2
TOTALES 108
5. Los siguientes datos representan las calificaciones de dos grupos del curso de física. Analiza los datos y determina qué grupo tuvo el mejor desempeño.
Grupo A Grupo B
7 8
9 6
7 10
5 8
10 7
6 7
5 6
7 6
10 7
7 5
10 10
6 6
6 6
6 5
10 6
10 9
7 6
7 7
7 5
5 7
9 6
5
7
8
5
8
7
6. Los datos representan las toneladas de piezas de acero producidas en diferentes plantas de una empresa. Calcula el promedio, la moda y la mediana.
3066 2742 2483 3435 3608
7402 5192 1061 1928 3439
1344 1656 1043 1172 2967