Upload
david-brown
View
60
Download
1
Embed Size (px)
Citation preview
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 1
ESTADÍSTICA DESCRIPTIVA
Introducción
Qué es la Estadística: La estadística es una ciencia que tiene como finalidad
facilitar la solución de problemas en los cuales es necesario conocer algunas
características sobre el comportamiento de algún suceso o evento.
∙ conocer o mejorar el conocimiento de ese suceso ∙ predecir el comportamiento de sucesos iguales o similares sin que estos
ocurran La Estadística posee un conjunto de técnicas que se emplean para la recopilación, organización, presentación, análisis e interpretación de los datos para tomar decisiones y resolver problemas.
¿Por qué hay que estudiar Estadística?
Si se revisan las mallas curriculares de las distintas carreras profesionales, veremos que en la mayoría existe por lo menos una asignatura de Estadística. Básicamente los contenidos de un primer curso de Estadística en diferentes carreras son los mimos, la mayor diferencia radica en los ejemplos utilizados.
La principal razón es que el rol más destacado de la Estadística es la recopilación, presentación, análisis de un conjunto de datos, a partir de los cuales se obtienen conclusiones y se toman decisiones.
Saber Estadística es de gran utilidad en cualquier área del conocimiento y en particular en Ingeniería.
Ejemplos: - Diseño y desarrollo y mejora en los proceso productivos como control de
calidad, control de la variabilidad del proceso, …
- Estudios de materiales en cuanto a duración, dureza, elasticidad, ….
- Control de inventarios, con la estadística se analiza la tendencia de flujo de ciertos materiales y ciertos productos.
- Comparar los tiempos de ejecución de 3 algoritmos de ordenación (algoritmo de la burbuja, de selección, de inserción, quicksort, treesort)…
- … … …
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 2
La mayor contribución de la Estadística en la resolución de problemas en ingeniería es su utilización como herramienta de aprendizaje. El aprendizaje que se obtiene mediante la estadística forma parte del denominado “Método Científico” El método científico es la estrategia de la investigación científica: afecta a todo ciclo completo de investigación y es independiente del tema en estudio. Al ser la Ingeniería la aplicación del conocimiento científico, todo proyecto en ingeniería debe contener los rasgos del método científico.
La estadística se puede clasificar como:
Estadística descriptiva
Tiene como objetivo caracterizar, describir y extraer conclusiones sobre una muestra de datos o de la población de interés.
Probabilidad
Mide la incertidumbre, deduce las leyes que rigen a los fenómenos que se investigan. Es la herramienta a partir de la que se desarrolla la inferencia estadística
Estadística Inferencial
Implica realizar inferencias acerca de la de la población a partir de datos muestrales y requiere cálculo de probabilidades. La inferencia de conclusiones generales a partir de datos de muestrales
es siempre incierta Uno de los objetivos principales de la
estadística es medir esa incertidumbre
Conocer los conceptos fundamentales
La Estadística Descriptiva utiliza, tablas, gráficos y resúmenes numéricos
Para realizar cualquier estudio estadístico, hay que tener en cuenta:
Cómo y de donde se recolectó la información
Qué se midió ¿atributos o cantidades?
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 3
CONCEPTOS FUNDAMENTALES
Población: Conjunto de elementos a los que se les estudia una característica” Tamaño población: N
- Los estudiantes de nuestra universidad - Las personas activa en Chile (población activa) - La flota de aviones de aviones de una compañía aérea
Censo: estudio completo de la población
A las medidas de resúmenes poblacionales como la media poblacional μ,
desviación estándar poblacional σ, …, se les denominan parámetros.
Muestra: subconjunto de elementos de la población sobre el cual se va a llevar el estudio). Tamaño muestra: n
Debería ser “representativo”
Está formado por miembros “seleccionados” de la población (individuos,
unidades de estudio, unidades de obseservación, unidades
experimentales).
A las medidas de resúmenes muestrales como la media de la muestra
“ x ”, desviación estándar de la muestra “s”…, se les denomina
estadísticos.
¡De una población existen muchas muestras posibles, pero sólo observamos una!
Nota: A la hora de decidir sobre la forma de recoger la información de la muestra se utilizan distintos criterios, originando distintos tipos de muestreos. (Anexo 2)
Encuesta: Técnica de investigación para obtener información de grupos de
personas mediante el uso de instrumentos como cuestionarios diseñados en
forma previa.
Diseño de experimentos: Metodología estadística que permite identificar y
cuantificar las causas de un efecto en un estudio experimental. El objetivo del
diseño de experimento es estudiar si utilizar un determinado tratamiento produce
mejora en el proceso o no.
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 4
Variable: una variable es una característica observable que varía entre los
diferentes individuos de una población. La información que disponemos de cada
individuo es resumida en variables.
En la población de alumnos de Ingeniería de una universidad, es variable:
- El género: {Femenino, Masculino} ← var. cualitativa dicotómica
- Especialidad :{Informática, Industrial, Obras Civiles, …} ← var. cualitativa – politómica
- El número de asignatura aprobadas: {0,1,2,3,...} ← var. cuantitativa discreta
- Nivel de Educ. del padre: {Básica, Media Superior} ←var. cualitativa ordinal
- La altura (en cm.): {162 , 156, 170 ...} ← var. cuantitativa continua
- Edad (años): {17, 18, 19, …} ← var. cuantitativa continua
.
.
.
Obs.: Se acostumbra denotar a las variables con letras mayúsculas. X, Y, Z
Dato: valor de la variable asociado a un elemento de la población o muestra. (los valores de las variables se denotan con letras minúsculas)
Ejemplo: (archivo de datos)
Sujeto Sexo Edad Especialidad ……… (X1) (X2) (X3)
01 M 21 IND observación 1
02 M 22 INF
03 F 31 OC
. . . .
. . . . . . . .
HAY QUE CONOCER EL TIPO DE
VARIABLE PARA UTILIZAR LA
HERRAMIENTA ESTADÍSTICA
ADECUADA
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 5
La primera observación indica que el sujeto es de sexo masculino, tiene 21 años y
estudia Ingeniería Industrial. Cada una de estas tres mediciones es un dato para
cada una de las variables medidas para el sujeto 1.
El alumno de Ingeniería es la unidad de observación
Datos primarios
Son aquellos que el investigador obtiene directamente de la realidad,
recolectándolos con sus propios instrumentos.
Datos secundarios
Son registros escritos que proceden también de un contacto con la práctica,
pero que ya han sido elegidos y procesados por otros investigadores.
Las fuentes son información de datos secundarios deben ser fidedignas.
Los datos primarios y secundarios no son dos clases esencialmente diferentes
de información, sino partes de una misma secuencia: todo dato secundario ha
sido primario en sus orígenes, y todo dato primario, a partir del momento en
que el investigador concluye su trabajo, se convierte en dato secundario para
los demás.
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 6
Clasificación de variables
Para realizar un análisis de datos, es indispensable saber cómo es la variable
que consideramos, pues ello determina el tipo de método estadístico que se
debe utilizar. Las variables se clasifican como:
Según su naturaleza
Cualitativas o atributos
No toman valores numéricos
(modalidades) y describen
cualidades. (no se pueden hacer
operaciones algebraicas con ellos).
Ejemplos: Estado Civil Profesión
Cuantitativas
Sus valores son numéricos (tiene
sentido hacer operaciones
algebraicas con ellos).
Ejemplos: Estatura
Número de errores
Según tamaño del recorrido
Dicotómicas
Toman uno de
dos valores.
Ejem.: Sexo
Discretas Corresponden en general a
contar el número de veces
que ocurre un suceso.
Tienen un recorrido finito o
infinito numerable.
Ejem.: Número de cargas familiares.
.
Continuas Entre dos valores,
son posibles infinitos
valores intermedios
Ejemplo: Altura (cm)
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 7
Según el nivel de medición
La medición es el proceso mediante el cual se les asignan valores numéricos
a objetos siguiendo unas determinadas reglas. Los instrumentos que se
utilizan para llevar a cabo tal medición se les denominan escalas de medición.
El criterio utilizado convencionalmente para clasificar las escalas de medida es
el propuesto por Stevens (1946), quien establece cuatro tipos de escala:
nominal, ordinal, de intervalo y de razón.
ORDINAL
INTERVALAR
RAZÓN
Únicamente permiten establecer relaciones de igualdad/desigualdad entre los objetos que se están midiendo.
NO INDICA ORDEN O JERARQUÍA
Ejemplos
SEXO:
Masculino (1) Femenino (2) PROFESIÓN:
Ingeniero (1) Profesor (2) Médico (3)
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 8
NOMINAL
INTERVALAR
RAZÓN
Además de permitir relaciones de igualdad /desigualdad, permite establecer relaciones de orden (mayor o menor que) entre los objetos que se están midiendo.
EXISTE UN ORDEN O JERARQUÍA
Ejemplo
NIVEL EDUCACIONAL:
Univ. con doctorado (5) Univ. con Magister (4) Superior (3) Media (2) Básica (1)
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 9
NOMINAL
ORDINAL
RAZÓN
Al igual que los dos tipos de escalas anteriores (nominal u ordinal), esta escala
permite establecer relaciones de igualdad /desigualdad y de orden entre los objetos
que se miden. Los intervalos entre los números de la escala son iguales, por lo
tanto se puede realizar las operaciones suma y resta. Este tipo de escala carece de
un cero absoluto, por lo que no están permitidas ni la multiplicación ni la división
entre los números de la escala. Una escala de intervalo es, por ejemplo, la utilizada
para medir la temperatura. Como los intervalos de la escala son iguales, se puede
afirmar que la diferencia de temperatura que existe entre 25 y 28 grados es la
misma que existe entre 30 y 33 grados. Sin embargo, dado que el punto 0 de la
escala es arbitrario -no existe ausencia de temperatura- no se puede afirmar,
por ejemplo, que 20 grados es exactamente la mitad de 40 grados.
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 10
NOMINAL
ORDINAL
INTERVALAR
Es la escala que permite el nivel más alto de medición.
Además de las operaciones que permiten las escalas
anteriores, en una escala de razón existe el cero (0)
empírico, por lo cual se puede efectuar cualquier operación
aritmética con los números de la escala. El tiempo de
reacción, por ejemplo es una variable medida en escala
de razón. No sólo se puede afirmar que la diferencia entre
3 y 6 segundos es la misma que entre 6 y 9 segundos
(afirmación válida también en la escala de intervalos), sino,
además, que 6 s es el doble de 3 s Afirmación que es
posible establecer gracias a que en la escala de tiempo de
reacción existe el cero absoluto: cero significa ausencia de
tiempo de reacción.
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 11
Clasificación de variables según su función
Ejemplo: Los hábitos de estudios influyen en el rendimiento académico de los
Estudiantes
VI = hábitos de estudio
VD = Rendimiento académico
V interv. = Aptitud personal
Nivel nutricional
… … …. … …
Ejercicios I
Ejercicio I-1 Determine en cada caso, si se trata o no de una variable.
- La edad mínima para poder votar por primera vez en Chile. - Número de errores diarios en una central telefónica. - Tiempo (en años) de experiencia laboral. - Profesión de los clientes de un banco. - Sueldo de los Ingenieros.
VI Independiente
Introduce o manipula el investigador
VD Dependiente
Se observa y se miden los cambios
Interviniente Es la que puede mediar en la relación entre VI y VD y que
puede influir en los resultados
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 12
Ejercicio I-2
Se quiere analizar el número de horas de estudio semanal que dedican los alumnos postgrado del área Ingeniería de esta Universidad. Para ello se selecciona a 35 alumnos que están participando en postgrado.
Indique cual es la:
Población: Variable: Muestra:
Ejercicio I-3
El coeficiente intelectual (CI) promedio en la población adulta chilena es 100 puntos. Un investigador educacional está interesado en probar que las personas adultas que hablan más de un idioma tienen un CI superior a la media poblacional. En una muestra de 250 personas que hablan más de un idioma se obtuvo un promedio (CI medio) de 102.
Complete: Variable de interés (nombre)
X
Clasificación de la variable
Naturaleza Recorrido Medición
Promedio poblacional
μ
Promedio muestral
x
Ejercicio I-4
¿Qué situaciones se representan estadísticamente con una variable discreta y cuáles con una variable continua?
a. El número de defectuosos en la fabricación b. Los tipos de defectos encontrados c. El tiempo de vida de las unidades que se fabrican d. El costo de fabricación e. El nivel de satisfacción de los clientes f. Nº de pedidos que se hacen al mes g. El tiempo que transcurre desde que llega un pedido hasta que llega el
siguiente
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 13
Ejercicio I-5
En el departamento de personal de una empresa con 10.000 trabajadores se quiere estimar los gastos familiares en salud de sus empleados para determinar la posibilidad de proporcionarles un plan de seguro médico.
Si el gasto mensual ($) en salud de 10 empleados elegidos al azar fue:
71.060 233.852 158.916 54.910 329.460 134.368 111.758 274.550 204.136 115.634
Indique: Población: _______________________ Tamaño N =
Unidad de observación:
Variable: X =
Muestra: _________________________ Tamaño: n =
Interprete 1
n
i
i
x
Calcule 2
1i
n
i
x
FMS
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 14
Ejemplo 1 .Estadística descriptiva
Ejemplo 1 (ArmadoA12.xls): El reporte de la inspección final de defectos de 150 productos para la línea de armado A12 se muestra en la tabla siguiente:
Producto Defecto Producto Defecto Producto Defecto Producto Defecto Producto Defecto
1 Rayado 31 Manchado 61 Manchado 91 Manchado 121 Manchado
2 Abollado 32 Rayado 62 Astillado 92 Doblado 122 Manchado
3 Astillado 33 Rayado 63 Rayado 93 Manchado 123 Rayado
4 Astillado 34 Manchado 64 Astillado 94 Manchado 124 Manchado
5 Otros 35 Manchado 65 Astillado 95 Astillado 125 Abollado
6 Manchado 36 Doblado 66 Manchado 96 Rayado 126 Astillado
7 Rayado 37 Manchado 67 Rayado 97 Manchado 127 Manchado
8 Astillado 38 Manchado 68 Rayado 98 Abollado 128 Manchado
9 Doblado 39 Manchado 69 Manchado 99 Manchado 129 Astillado
10 Rayado 40 Rayado 70 Manchado 100 Manchado 130 Doblado
11 Rayado 41 Astillado 71 Manchado 101 Doblado 131 Abollado
12 Manchado 42 Rayado 72 Manchado 102 Astillado 132 Manchado
13 Manchado 43 Otros 73 Manchado 103 Astillado 133 Rayado
14 Otros 44 Astillado 74 Otros 104 Rayado 134 Doblado
15 Abollado 45 Rayado 75 Rayado 105 Manchado 135 Astillado
16 Manchado 46 Rayado 76 Manchado 106 Astillado 136 Manchado
17 Rayado 47 Rayado 77 Manchado 107 Rayado 137 Rayado
18 Manchado 48 Doblado 78 Rayado 108 Manchado 138 Rayado
19 Otros 49 Manchado 79 Astillado 109 Manchado 139 Astillado
20 Rayado 50 Manchado 80 Rayado 110 Abollado 140 Manchado
21 Doblado 51 Manchado 81 Astillado 111 Manchado 141 Rayado
22 Doblado 52 Rayado 82 Manchado 112 Abollado 142 Rayado
23 Rayado 53 Otros 83 Manchado 113 Rayado 143 Rayado
24 Manchado 54 Rayado 84 Doblado 114 Manchado 144 Rayado
25 Manchado 55 Doblado 85 Manchado 115 Manchado 145 Manchado
26 Rayado 56 Manchado 86 Astillado 116 Astillado 146 Rayado
27 Abollado 57 Rayado 87 Manchado 117 Rayado 147 Manchado
28 Manchado 58 Rayado 88 Manchado 118 Rayado 148 Rayado
29 Rayado 59 Doblado 89 Manchado 119 Manchado 149 Rayado
30 Rayado 60 Rayado 90 Astillado 120 Astillado 150 Astillado
Identifique
Unidad de estudio: ______________
Variable de Interés: ___________________ y clasifíquela según:
Naturaleza:____________ T Recorrido:___________ N Medición:_________
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 15
Defectos en línea de armado A12 (150 productos examinados)
Fre
cu
en
cia
60
50
40
30
20
10
0
6
45
56
12
23
8
Defecto del producto
OtroRayadoManchadoDobladoAstilladoAbollado
Reporte de la inspección final de defectos de 150 productos para la línea de armado A12.
Rayado Manchado Manchado Manchado
Abollado Astillado Doblado Manchado
Astillado Rayado Manchado Rayado
Astillado Astillado Manchado Manchado
Otros Astillado Astillado Abollado
Manchado Manchado Rayado Astillado
Rayado Rayado Manchado Manchado
Astillado Rayado Abollado Manchado
Doblado Manchado Manchado Astillado
Rayado Manchado Manchado Doblado
Rayado Manchado Doblado Abollado
Manchado Manchado Astillado Manchado
Manchado Manchado Astillado Rayado
Otros Otros Rayado Doblado
Abollado Rayado Manchado Astillado
Manchado Manchado Astillado Manchado
Rayado Manchado Rayado Rayado
Manchado Rayado Manchado Rayado
Otros Astillado Manchado Astillado
Rayado Rayado Abollado Manchado
Doblado Astillado Manchado Rayado
Doblado Manchado Abollado Rayado
Rayado Manchado Rayado Rayado
Manchado Doblado Manchado Rayado
Manchado Manchado Manchado Manchado
Rayado Astillado Astillado Rayado
Abollado Manchado Rayado Manchado
Manchado Manchado Rayado Rayado
Rayado Manchado Manchado Rayado
Rayado Astillado Astillado Astillado
Defectos en línea de armado A12 (150 productos examinados)
Defecto del producto Frecuencia Porcentaje
Abollado 8 5,3
Astillado 23 15,3
Doblado 12 8,0
Manchado 56 37,3
Otros 6 4,0
Rayado 45 30,0
Total 150 100,0
El defecto más frecuente en la línea de armado es Manchado
Moda = manchado
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 16
Ejemplo 2: : Datos sobre el números de averías en Febrero.2012 de 40 centrales eléctricas.
0 1 0 0 2 0 0 1 1 0
2 1 3 1 1 3 1 1 1 0
0 1 1 3 1 0 2 3 4 2
2 0 0 0 1 2 0 3 2 2
Identifique Unidad de estudio: ______________ Variable de Interés: ___________________ y clasifíquela según: Naturaleza:____________ T Recorrido:___________ N Medición:_________
Números de averías en Febrero.2012 de 40 centrales Eléctricas.
0 1 0 0 2
2 1 3 1 1
0 1 1 3 1
2 0 0 0 1
0 0 1 1 0
3 1 1 1 0
0 2 3 4 2
2 0 3 2 2
Tabla de frecuencias
N° de averías Frecuencia Porcentaje
Porcentaje acumulado
0 13 32,5 32,5
1 13 32,5 65,0
2 8 20,0 85,0
3 5 12,5 97,5
4 1 2,5 100,0
Total 40 100,0
Centrales eléctricas (40). Febrero 2012
Gráfico
Centrales eléctricas (40). Febrero 2012
N° de averías
43210
Recu
en
to
14
12
10
8
6
4
2
0
1
5
8
1313
Centrales eléctricas (40). Febrero 2012
Estadísticos (Medidas de resumen)
N° de averías
40
0
1,20
1,00
0a
1,114
,637
,374
-,445
,733
0
4
,00
1,00
2,00
Válidos
Perdidos
n
Media
Mediana
Moda
Desv. típ.
As imetría
Error típ. de as imetría
Curtos is
Error típ. de curtosis
Mínimo
Máximo
25
50
75
Percentiles
Existen varias modas. Se mostrará el menor de los
valores .
a.
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 17
Gráficos Nota de Estadística
Semestre 2 - 2011
Nota
7,06,05,04,03,02,01,0
Fre
cu
en
cia
100
80
60
40
20
0
61
86
96
74
53
30
Histograma
Ejemplo 3
Nota de Estadística 400 alumnos
Semestre 2 - 2011
Tabla de frecuencias
Semestre 2 - 2012
Nota de Estadística
30 7,5 7,5
53 13,3 20,8
74 18,5 39,3
96 24,0 63,3
86 21,5 84,8
61 15,3 100,0
400 100,0
1 - 2
2 - 3
3 - 4
4 - 5
5 - 6
6 - 7
Total
Válidos
Frecuencia Porcentaje
Porcentaje
acumulado
Medidas de resumen
Nota de Estadística
Semestre 2 - 2011
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 18
Identifique (ejemplo 3) Unidad de estudio: ______________
Variable de Interés: ___________________ y clasifíquela según: Naturaleza:____________ T Recorrido:___________ N Medición:_________
Ejemplo 4: Grafico de tendencia
Consumo humano de leche de cabra en España. (millones de litro)
Año 1990 1991 1992 1993 1994 1995 1996 1997 1998
Consumo 62,5 29,9 31,3 25,2 20,8 16,1 15,8 15,9 16,6
Año 1999 2000 2001 2002 2003 2004 2005 2006
Consumo 16,2 17,1 15,5 17,6 11,9 11,8 12,3 13,1
- El consumo anual de leche de cabra en el año 1991 disminuyó en 52,16% con respecto al consumo del año 1990 (variación porcentual)
- Determine la variación porcentual entre los años 2001 y 2002.
Variación porcentual = Final
- 1 100Inicial
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 19
1Estadística Descriptiva Univariada
Organización de los datos
La estadística descriptiva, entrega las técnicas que permiten condensar grandes
grupos de datos mediante el uso de tablas de frecuencias, gráficos y medidas
de resumen como media, desviación estándar, correlación.
Nota: Para resumir los datos siempre hay que tener en cuenta de que tipo es la variable que queremos analizar
Datos “en bruto” o directos
Cuando la información es recolectada, sea de una muestra o de una población,
esta se organiza en la secuencia en que fue obtenida. Esta secuencia de datos
registrados se encuentra desorganizada, lo que no permite extraer información
fácilmente, siendo difícil detectar cualquier patrón de variabilidad o estructura de
los datos.
Datos en bruto: Datos registrados en la secuencia en que fueron
recolectados, antes de ser procesados u ordenados.
Ejemplo pág. 15: (ArmadoA12.xls): El reporte de la inspección final de defectos de 150 productos para la línea de armado A12 se muestra en la tabla siguiente:
Ejemplo 2 pág. 17: : Datos sobre el números de averías en Febrero.2012 de 40 centrales Eléctricas.
0 1 0 0 2 0 0 1 1 0
2 1 3 1 1 3 1 1 1 0
0 1 1 3 1 0 2 3 4 2
2 0 0 0 1 2 0 3 2 2
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 20
Ejemplo 3: En abril. 2012 se recolectó información sobre la edad (en años) de 50 estudiantes diurnos seleccionados de una universidad. El valor de los datos, en el orden en que fueron recolectados se presenta a continuación.
21 24 29 26 36
18 19 19 25 25
25 31 23 23 23
22 21 22 21 19
25 18 27 21 21
19 25 34 27 33
20 22 19 22 23
19 19 18 19 26
28 20 22 20 21
23 36 23 25 24
Tabla o distribución de La presentación gráfica frecuencias puede revelar de un Es una tabla que constituye vistazo las el resumen básico de principales los datos características de un conjunto de datos
Descripción estadística de una variable cualitativa
Gráficos
- Sectorial - Barras Separadas
- Diagrama
de Pareto
- Pictograma
Medida de resumen
Moda: es el dato o
modalidad de mayor
frecuencia ≡ dato
más representativo
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 21
Ejemplo 1: (p 15) El reporte de la inspección final de defectos para la línea de armado A12
se muestra en la tabla siguiente: Defectos_Linea A12
Defectos del producto
Frecuencia absoluta ni
Frecuencia Relativa
fi = in
n
Porcentaje %
Abollado 8 0,05 5,33
Astillado 23 0,15 15,33
Doblado 12
Manchado 56 37,33
Rayado 45
Otros
Total 150 1,00 100%
Complete la tabla de frecuencias
Frecuencia absoluta (ni): Número de veces que ocurre la modalidad i. i = 1,2, …,k
Frecuencia relativa (fi): Es la proporción de la categoría o modalidad respecto del total de datos. 0 < fi < 1 ; i = 1,2, …,k
Gráfico sectorial:
Círculo dividido en porciones que
representan las frecuencias relativas o
porcentajes de una población o muestra
perteneciente a diferentes categorías.
Como sabemos, un círculo contiene 360 grados. Para
construir un gráfico sectorial, se multiplica por 360 la
frecuencia relativa de cada categoría, para obtener la
medida del ángulo correspondiente
Defectos en línea de armado A12 (150 productos examinados)
Defectos del producto
¿Cuál es Defecto más frecuente? ¿Cuánto mide el ángulo de sector Defecto Manchado?
Abollado 5,33%
Astillado 15,33%
Doblado 8,00%
Manchado 37,33%
Rayado 30,00%
Otros 4,00%
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 22
Gráfico de Barras Separadas
Defectos en línea de armado A12 (150 productos examinados)
Diagrama de Pareto
Herramienta básica de la mejora de calidad. Muy útil para priorizar los problemas o las causas que los generan.
Su fundamento parte de considerar que un pequeño porcentaje de las causas producen la mayoría de los efectos. Se tratar de identificar ese pequeño porcentaje de causas “vitales” para actuar prioritariamente sobre él.
Centrales eléctricas (40). Febrero 2011
Fre
cuen
cia
60
50
40
30
20
10
0
6
45
56
12
23
8
Defecto del producto
OtroRayadoManchadoDobladoAstilladoAbollado
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 23
Defecto frecuencia % frec. Acum. % acumulado
Manchado 56 37,33 56 37,33
Rayado 45 30,00 101 67,33
Astillado 23 15,33 124 82,67
Doblado 12 8,00 136 90,67
Abollado 8 5,33 144 96,00
Otros 6 4,00 150 100
TOTAL 150 100,0%
Se calculan solamente para el diagrama Pareto (en este tipo de variable)
Descripción estadística de una variable cuantitativa
TABLAS Y GRÁFICOS
Si las observaciones en un conjunto de datos cuantitativos son discretos
(contables) o si los valores de la variable asumen sólo unos pocos valores
distintos, puede ser apropiado armar tablas de frecuencia con valores únicos.
La distribución de frecuencias (tabla)
- La distribución de frecuencias para variables cuantitativas discretas es
similar a la de variables cualitativas. Los valores que toma la variable se
ordenan de de menor a mayor lo que permite registrar en la tabla las
frecuencias acumuladas. La representación gráfica que se utiliza para este
tipo de variables es “barras separadas”
Distribución de frecuencias de la variable X
Nombre de la variable
X
Frec. Absoluta
ni
Frec. Relativa
ii
nf =
n
Frec. Abs. Acumulada
Ni
Frec. Relat. Acumulada
ii
NF=
n
x1 n1 f1 N1 = n1 F1
x2 n2 f2 N2 = n1 + n2 F2
x3 n3 f3 N3 = n1 + n2 + n3 F3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
xk nk fk Nk = n Fk = 1
Total n 1
xi= valor que toma la variable. i= 1,2, …,k
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 24
Variable X =
Unidad de observación =
¿Cuántas centrales tienen menos de 2 averías?
¿Qué porcentajes de centrales tienen 3 o menos averías?
Qué porcentaje de centrales tienen más de 3 averías?
Interprete:
n2 ≡
f3 ≡
N4 ≡
F4 ≡
N° de averías
43210
1
5
8
1313
N°
de centrales12
10
8
5
2
0
Ejemplo 2: (p 18) Datos sobre el número de averías de 40 centrales eléctricas en Feb.2012 se resumen en la tabla siguiente:
N° de averías Frec.
Absoluta ni
Frec. Relativa
fi
Frec. Abs. Acumulada Ni
Frec. Relat. Acumulada
Fi
0 13 13 0,325
1 13 26
2
3 5
4 1 40
Total 40 1,000
GRÁFICO DE BARRAS SEPARADA
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 25
Cuando la variable es continua o el número de valores posibles de una variable discreta sea grande, para construir la tabla de frecuencias, conviene agrupar los datos intervalos reales. Éstos agrupan todos aquellos casos contenidos entre dos valores, conocidos como el límite superior e inferior.
Ejemplo: (p 21) En abril. 2012 se recolectó información sobre la edad (en años) de 50
estudiantes seleccionados de una casa de estudio superior. El valor de los datos, en el orden en que fueron recolectados se presenta a continuación. (Este es un ejemplo de datos cuantitativos en bruto)
21 24 29 26 36
18 19 19 25 25
25 31 23 23 23
22 21 22 21 19
25 18 27 21 21
19 25 34 27 33
20 22 19 22 23
19 19 18 19 26
28 20 22 20 21
23 36 23 25 24
Construyendo tablas de frecuencias
Al construir tablas de frecuencias es necesario tomar las siguientes 3 decisiones:
i) Número de clases (intervalos) Usualmente el número de intervalos de una distribución de frecuencias varía entre 5 y 20, dependiendo principalmente del número de casos con los cuales se cuente. La decisión del número de clases es decidida arbitrariamente por quien organiza la información. Reglas que puede ayudar a decidir el número de clases o intervalos:
- Número de intervalos = n ; n = número de datos, o - Número de intervalos = [1 + 3,3· log n] (fórmula de Sturge) ii) Amplitud de intervalo: Aunque no es común tener clases o intervalos
de diferentes tamaños o amplitud, la mayoría del tiempo es preferible tener la misma amplitud de intervalo en todos ellos.
Para determinar esta amplitud cuando las clases o intervalos tienen el mismo tamaño, primero se debe encontrar la diferencia entre el mayor y el menor de los
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 26
datos en los datos. Luego, la amplitud aproximada es obtenida dividiendo esta diferencia por el número deseado de clases o intervalos.
valor máximo - valor mínimoAmplitud del intervalo =
número de intervalos
iii) Límite inferior de la primera clase o punto de partida
Cualquier número que sea igual o menor que el más bajo de los valores del conjunto de datos será conveniente para ser usado como el límite inferior del primer intervalo.
En el ejemplo (Edad): n = 50 máx = 36 mín = 18
Si utilizamos número de intervalos = [1 + 3,3· log (50)] = 6
Amplitud = 36 18
= 36
Se lee
Edad
n° de alumnos
14 alumnos con edades entre 18 y menos de 21 años 18 – 21 14 17 alumnos con edades entre 21 y menos de 24 años 21 – 24 17
24 – 27 10 27 – 30 4 30 – 33 1
4 alumnos con edades entre 33 y 36 años 33 – 36 4
Total = 50
Frecuencias relativas y porcentaje
Es posible calcular la frecuencia relativa y el porcentaje de las distribuciones cuantitativas del la misma forma que en las distribuciones cualitativas o discretas.
Edad Marca de clase
xi
Frec. Absoluta
ni
Frec. Relativa
fi
Porcentaje
18 – 21 19,5 14 0,28 28
21 – 24 22,5 17 0,34 34
24 – 27 25,5 10 0,20 20
27 – 30
30 – 33
33 – 36
Total = 50 1,00 100% También se pueden registrar las frecuencias acumuladas
limite inferior + limite superiormarca de clase =
2
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 27
Representación gráfica de distribuciones de frecuencias con datos en intervalos
Las representaciones gráficas más frecuentes de una tabla de frecuencias donde los datos han sido agrupados en intervalos son el histograma o el polígono de frecuencias.
Edad en años
Muestra de 50 estudiantes de una universidad (abril 2012)
Donde cada rectángulo corresponde con una clase y la altura es proporcional a la frecuencia de dicha clase o intervalo.
Formas de histogramas
Un histograma puede asumir diferentes formas. Las más comunes son: simétricos, asimétricos y uniforme o rectangular.
Simétrico Asimetría Positiva Asimetría Negativa
Interprete los tres histogramas
Edad
393633302724211815
N°
estudiantes
20
15
10
5
0
4
1
4
10
17
14
Histograma
x
32.527.522.517.512.57.52.5
Simétrica10
8
6
4
2
0
X
32.527.522.517.512.57.52.5
10
8
6
4
2
0
X
32.527.522.517.512.57.52.5
10
8
6
4
2
0
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 28
Observación: Describir datos utilizando gráficos puede ayudar a iluminarnos acerca de las características principales de la información. Desafortunadamente, también pueden ser utilizados, casual o intencionadamente, para distorsionar información y desorientar a quien la recibe. Las siguientes son dos formas de hacerlo: 1. Cambiar la escala en uno o en ambos ejes (esto es alargando o acortando los ejes) 2. Truncando las frecuencias, es decir, comenzando el eje en un número mayor que
cero.
Polígono de frecuencias
Gráfico alternativo al histograma Los polígonos de frecuencias se realizan trazando los puntos formados por las marcas
de clase y las frecuencias, y uniéndolos mediante segmentos.
Polígono de frecuencias (Edad en años)
Muestra de 50 estudiantes de una universidad (abril 2012)
Ejercicios II
En cada uno de los siguientes ejercicios debe indicar cuál es: unidad de observación, la variable de interés y clasificarla según naturaleza, T_recorrido y N_medición.
Ejercicio II-1
El Ingeniero a cargo del control de calidad del agua de una ciudad, es responsable del nivel de cloración del agua. Dicho nivel debe acercarse bastante al que exige el Departamento de Sanidad. Para vigilar el cloro, sin necesidad de verificar cada galón de agua que sale de la planta, el Ingeniero muestrea diariamente algunos galones, mide el contenido de cloro y saca una conclusión sobre el nivel promedio de cloración que tiene el agua tratada ese día. La tabla anexa exhibe las concentraciones de cloro correspondiente a 30 galones seleccionados como muestra de un día. A partir de esta muestra diaria el Ingeniero obtiene sus conclusiones respecto a la población total a la que se le aplicó la cloración.
Edad
39,037,536,034,533,031,530,028,527,025,524,022,521,019,518,016,515,0
N° alumnos
20
15
10
5
00
4
1
4
10
17
14
0
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 29
Diagrama de “tallo-hojas”
Tabla de Concentraciones de Cloro
en partes por millón (ppm) 16.2 15.7 16.4 15.4 16.4 15.8 16.0 15.2 15.7 16.6 15.8 16.2 15.9 15.9 15.6 15.8 16.1 15.9 16.0 15.6 16.3 16.8 15.9 16.3 16.9 15.6 16.0 16.8 16.0 16.3
(Utilice una amplitud de 0.3 ppm).
Construya una tabla de distribución de frecuencias y un gráfico adecuado.
Ejercicio II-2
En un centro de computación, el número de veces que el computador se detiene, por error de máquina, diariamente, fue recolectado por un período de 70 días. Los datos obtenidos fueron los siguientes.
Nº de detenciones del computador por día. 0 1 0 2 0
0 8 3 2 1
2 5 1 0 6
0 0 1 0 4
0 0 0 0 3
0 4 1 1 3
3 3 0 2 1
3 0 1 1 2
0 6 1 2 4
0 2 0 0 0
1 0 2 0 2
0 2 2 5 0
0 3 1 2 0
0 0 0 1 4
- Tabule y grafique los datos adecuadamente. - ¿Cuál es la proporción de días en que ocurren más de 3 detenciones? -
Ejercicio II-3
Un fabricante de envases de plástico desea analizar cuáles son las causas que generan los envases defectuosos que se producen. Se observan 248 envases defectuosos obteniendo:
Stem-and-Leaf Plot
Frequency Stem & Leaf
,00 15 .
1,00 15 . 2
1,00 15 . 4
5,00 15 . 66677
7,00 15 . 8889999
5,00 16 . 00001
5,00 16 . 22333
2,00 16 . 44
1,00 16 . 6
3,00 16 . 889
Stem width: 1,0
Each leaf: 1 case(s)
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 30
Coloque los ni en las barras. Interprete el gráfico
Ejercicio II-4
En un proceso de fabricación de circuitos integrados las causas más comunes de fallas son: la contaminación (1), óxido(2), metalización (3), la corrosión(4), doping (5) ,los defectos del silicio (6) y varios (7). En un proceso de control de calidad de estos circuitos las causas de falla de 31 de ellos han resultado las siguientes:
corrosión óxido contaminación óxido
óxido varios óxido contaminación
metalización óxido contaminación contaminación
óxido contaminación contaminación contaminación
corrosión silicio varios contaminación
contaminación contaminación varios contaminación,
contaminación doping óxido óxido
metalización contaminación contaminación
Se pide: Construir una distribución de frecuencias y confeccione dos gráficos adecuados.
Defectos
ColorFuera de medida
RoscaRoturaDesbalanceoAplastamiento
Frec
uenc
ia
100
80
60
40
20
0
Porcentaje
100%
80%
60%
40%
20%
0%
100,00%99,60%97,18%
92,34%
76,61%
60,48%
Diagrama de Pareto
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 31
Ejercicio II-5
Al responsable en control de industrial de una empresa, debe analizar información entregada en un histograma de la duración (tiempo hasta fallo en horas) de un test de fiabilidad 150 dispositivos electrónicos idénticos.
a. Construya la tabla de frecuencias (absolutas, relativas, absolutas acumulada y relativas
acumulada)
b. Aproximadamente, ¿cuál es la duración más frecuente? c. ¿Qué porcentaje de dispositivos duraron entre 600 y menos de 1400 horas? d. ¿Qué porcentaje de dispositivos duraron menos de 900 horas? (aprox.) e. ¿Qué porcentaje de dispositivos duraron entre 400 y 1500 horas? (aprox.) f. Determine entre que intervalo se encuentra el 50% de los dispositivos con mayor
duración.
| 50% | 50% | Duración (hrs) 0 1600
Mín Máx
g. Complete la tabla siguiente y realice un gráfico adecuado:
Duración Frecuencia Porcentaje
Poca ( < 400 h)
Media (400 y menos de 1000 h)
Bastante ( > 1000 h)
Total 150 100
Duracion
2000180016001400120010008006004002000
N°
de dispositivos
60
50
40
30
20
10
0
33
6
18
2121
27
51
Histograma
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 32
Ejercicio II-6 Se seleccionaron de un proceso de fabricación, aleatoriamente 270 ladrillos y se llevó a cabo una prueba para determinar la resistencia transversal de éstos. Se obtuvieron los siguientes datos:
Resistencia (MN/m2) X
ni
1.5 – 3.5 3.5 – 4.5 4.5 – 5.5 5.5 – 6.5 6.5 – 7.5 7.5 – 8.5 8.5 – 9.5 9.5 – 10.5 10.5 – 11.5 11.5 – 14.5
2 4 24 81 78 51 18 9 2 1
Construya un gráfico adecuado
El histograma es especialmente adecuado para representar tablas de frecuencias en el caso de variables de de nivel por lo menos intervalar (o discretas con un gran número de valores observados distintos). Este gráfico consiste en una serie de barras adyacentes cuyas superficies son proporcionales a la frecuencia del intervalo sobre el cual se levantan. Si los intervalos son de igual amplitud, los rectángulos serán de altura proporcional a la frecuencia correspondiente. Es decir, si la amplitud del i-ésimo intervalo es ai y su frecuencia ni la barra deberá tener una altura hi que satisfaga:
i i i
ii
i
a ·h = k·n
n h = k
a
donde k es cualquier constante, aunque la misma para cada intervalo. ni ≡ frecuencia absoluta del intervalo i; hi ≡ frecuencia absoluta corregida
Se corrige la frecuencia solamente para graficar el histograma, cuando existen intervalos de distinta amplitud (no es usual intervalos de distinta amplitud)
Determine el porcentaje de ladrillos con resistencia inferior a 8,5 MN/m2
Determine el porcentaje de ladrillos con resistencia superior a 5 MN/m2
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 33
Ejercicio II-7 En un estudio sobre el nivel de ruido en un concierto de rock se toma una muestra de 60 valores, medidos en decibelios y en distintos momentos del concierto. Los datos obtenidos se encuentran el el diagrama tallo-hojas siguiente
NIVEL DE RUIDO
Frequency Stem & Leaf
1,00 8 . 3
3,00 8 . 789
22,00 9 . 0000111123333334444444
21,00 9 . 555566677777777889999
11,00 10 . 00001122234
2,00 10 . 57
Encuentre:
Valor mínimo
Valor máximo
El % de mediciones inferior a 91 db.
El % de mediciones superior a 100 db.
Ejercicio II-8
Con el propósito de mejorar el tiempo de entrega desde una embotelladora de refrescos a máquinas vendedoras de una universidad, se ha obtenido 40 datos.
X:Tiempo de entrega en minutos
9,45 24,45 31,75 35,00 25,02 16,86 14,38 9,60 24,35 37,50
17,08 37,00 41,95 11,66 21,65 17,89 69,45 10,30 34,93 46,59
44,88 54,12 56,63 22,13 21,15 10,02 14,88 16,97 17,73 21,84
24,45 33,66 37,10 39,73 44,29 55,12 56,63 29,41 24,45 9,45
Organice los datos en una tabla de frecuencias con igual amplitud y confecciones un gráfico adecuado
Tiempo de entrega (min)
xi
Frecuencia Absoluta
ni
Porcentaje
9,45 - 19,45 14,45 13 32,5
59,45 - 69,45 64,45 1 2,5
Total 40 100,0
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 34
Ejercicio II-9
En el departamento de montaje de una industria se producen diariamente cierta
cantidad de productos defectuosos. Para estudiar ese fenómeno se decidió realizar
un análisis de Pareto.
Durante cuatro meses de observación se recogieron datos sobre el tipo de defectos de los productos y se contabilizaron un total de 350 defectos.
a. ¿Qué representa el 84% (polígono)?
b. Complete la tabla de frecuencias siguiente:
Tipo de defectos N° de defectos porcentaje
Piezas erróneas Revestimiento arañado Montaje defectuoso Pieza faltante Rugosidad superficial Otras causas
Total
N°
de d
efectos
100
80
60
40
20
0
Po
rcentaje
100%
80%
60%
40%
20%
0%
100%98%
92%
84%
74%
42%
Tipos de defectos
Otras causasRugosidad superficial
Pieza faltanteMontaje defectuoso
Revestimiento arañado
Piezas erróneas
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 35
Estadística Descriptiva (2 variables) Tablas y Gráficos
Los datos que tratamos de analizar pueden incluir valores de dos variables relacionadas entre sí, por lo que es interesante su estudio conjunto. Los elementos de una muestra o de una población pueden clasificarse con dos criterios o variables diferentes. Observación: Se pueden analizar en forma conjunta más de dos variables.
Caso 1: Descripción conjunta de dos variables cualitativas - Tabla de doble entrada o tabla de contingencia
Existen dos tipos de tablas de contingencia: i) Cuando el objetivo es analizar la posible relación entre dos
variables cualitativas ii) Comparar dos o más grupos en una variable cualitativa
- Gráficos adecuados: Barras agrupadas, Sectorial, Barras divididas. - Medidas de resumen: Asociación (se estudiarán en la unidad de Inferencia) -
Ejemplo i) La información que se presenta a continuación en la tabla y gráfico, corresponde a una parte de un estudio realizado con una muestra de 400 trabajadores de una industria metalúrgica con el objeto de investigar si el “desempeño en el programa de capacitación” y el “rendimiento en el trabajo” están relacionados.
Tabla 1
Calificación en el trabajo
Desempeño en el programa de capacitación
Total Bajo Medio Alto
Deficiente 23 60 29 112
Promedio 28 79 60 167
Muy buena 9 49 63 121
Total 60 188 152 400
- De los trabajadores que obtuvieron bajo desempeño en el programa de capacitación, ¿qué porcentaje tiene calificación deficiente en el trabajo?
- De los trabajadores que obtuvieron un desempeño alto en el programa de capacitación, ¿qué porcentaje tiene calificación muy buena en el trabajo?
- De los trabajadores que obtuvieron un desempeño alto en el programa de capacitación, ¿qué porcentaje tiene calificación deficiente en el trabajo?
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 36
Ejemplo ii) Se desarrollan dos métodos para fabricar discos de un material superconductor. Se elaboran 50 discos con cada método y se comprueba su superconductividad al enfriarlos con nitrógeno líquido.
Superconductores (Sin fallas)
Fallas Total
Método 1 31 19 50
Método 2 42 8 50
Total 73 27 100
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 37
Caso 2: Una variable cuantitativa y una variable cualitativa (grupo) Tabla de de distribución de frecuencias (si n es grande) Gráficos adecuados:
- Diagrama de puntos paralelos (muestras pequeñas) - Polígonos de frecuencias en un mismo gráfico (hay que tener los datos
tabulados en intervalos, para comparar los grupos es conveniente utilizar porcentaje)
- Diagramas de cajas paralelas (datos directos, es un gráfico basado en los cuartíles)
Medidas de resumen: Tendencia central, Percentiles, Dispersión
Ejemplo: Los datos que se muestran a continuación son los grados de dureza Brinell obtenidos para muestras de dos aleaciones de magnesio:
Y = grado de dureza Brinell
Aleación 1 66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2
Aleación 2 71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2
Ejemplo: Comparación de resistencia de un tipo de alambre de dos fabricantes
Caso 3: Dos variables cuantitativas, gráfico adecuado “diagrama de dispersión”
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 38
Medidas de Resumen
Entre las medidas que permiten resumir información proveniente de una
población o muestra, podemos considerar: medidas de posición, de dispersión o
variabilidad, de forma y de asociación
Medidas de posición: Tendencia Central - Percentiles
Tendencia Central: Moda - Promedio - Mediana
Son índices de localización central, empleados en la descripción de las
distribuciones de frecuencias. Las más usadas son la moda, la mediana y el
promedio.
Moda (Mo) : Es el valor de la variable que ocurre más frecuentemente
Ejemplo (variable cualitativa): En una empresa se ha medido la satisfacción
laboral de una muestra de empleados.
Satisfacción Laboral Nº de empleados
Muy satisfechos 20
Satisfechos 25
Moderadamente satisfechos 22
Insatisfechos 18
Muy insatisfechos 10
En este caso la moda corresponde a la categoría “satisfechos”. Mo = satisfechos
Si la variable se encuentra es cuantitativa, la moda será la magnitud más frecuente.
Ejemplo (variable cuantitativa) : En la medición de responsabilidad en un grupo de
postulante a un cargo de ejecutivo, se han encontrado los siguientes puntajes : 81, 83,
83, 85, 86, 86, 87, 88, 90, 91, 92, 94, 95, 95, 95, 95, 96, 96, 97, 99, 101, 105, 107, 108,
109, 110, 115, 118, 120.
En este caso, la moda corresponde al puntaje 95.
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 39
Y si los datos están agrupados en intervalos de clase, la moda será el punto medio del
intervalo más frecuente. La moda para datos agrupados en intervalos en tablas de
frecuencia, no es un valor exacto porque varía con las diferentes maneras de agrupar
una distribución.
Ejemplo: El sueldo mensual de un grupo de trabajadores textiles se distribuye como
indica la tabla a continuación.
Sueldo Marca de clase xi
Nº de trabajadores ni
300.000 – 350.000 325.000 13
350.000 – 400.000 375.000 18
400.000 – 450.000 425.000 24
450.000 – 500.000 475.000 20
500.000 – 550.000 525.000 15
En este caso la moda es 425.000 pesos, por ser el punto medio del intervalo más
frecuente.
A menudo encontramos distribuciones bimodales (con dos modas).
Limitación de la moda: no sabemos qué ocurre con el resto de la distribución de
datos.
Promedio Aritmético (o media Aritmética)
La media aritmética o promedio aritmético:
En general se utiliza letras mayúsculas para denotar a las variables, y
letras minúsculas para los valores que toma las variables (datos).
Sea X la variable cuantitativa de interés y sea x1, x2, …, xn los n valores
que posee dicha variable. El promedio aritmético se obtiene sumando los
valores de X y dividiendo luego por el número de datos.
n
i
1 2 3 n i =1
xx +x +x ...+x total
x = = n n n
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 40
Ejemplo: Los siguientes valores indican el tiempo necesario en minutos para
llegar a su trabajo de un grupo (muestra) de 15 empleados de un ministerio
público.
25 30 50 60 35 65 48 90 75 50 22 45 25 35 50
X = Tiempo necesario en min. para llegar al trabajo
n = 15 Sumatoria =
n
1i
ix = 705 705
x = 15
= 47 min
Observación: La media de la población se define de la misma forma que
la media muestral pero se utiliza el símbolo para denotarla:
N
i
1 2 3 Ni 1
xx +x +x ...+x
N N
total
N
Si los datos se encuentran en una distribución de frecuencias, es
necesario modificar la fórmula: n
nx
x
k
1i
ii donde xi representa el
valor de la variable si es discreta o la marca de clase si los datos
están tabulados en k intervalos.
Ejemplo: En un estudio de consumo de frutas, se entrevistó a 250 personas, una de las preguntas realizadas fue ¿aproximadamente, cuantas frutas consumes diariamente? La información obtenida a esa pregunta se muestra a continuación:
n = 250
i i
i
xn
x =
= 2,184 frutas
Cantidad de frutas
Xi
nº de personas ni
i ix n
0 1 2 3 4 5
22 50 90 49 26 13
0 50
180 147 104 65
Total n = 250
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 41
Ejemplo: Datos agrupados en intervalos (datos secundarios)
Sueldo mensual (X) de un grupo de trabajadores textiles.
Sueldo (miles de $)
Marca de clase xi
Nº de trabajadores
ni
xini
300 – 350 325 13 4225
350 – 400 375 18
400 – 450 425 24
450 – 500 475 20
500 – 550 525 15 7875
Total 90 38550
X = Sueldo mensual
n Total = i i
i
x n x
90 38550 38550 = 428,33
90 ≡ $428.333
Propiedades de la media aritmética o promedio aritmético:
i. mínimo < x < máximo
ii. El promedio de una constante es la constante. (demostración tarea)
iii. Si a los valores de una variable se les suma una constante, el promedio aumenta en esa misma magnitud. (demostración tarea)
iv. Si los valores de una variable son multiplicados por una constante, el promedio se amplificarán en la misma magnitud constante.
a, b ctesY = a + bX Y = a + bX ; . (Demostración tarea)
Del ejemplo anterior: Si a los trabajadores de la empresa textil le aumentan el sueldo en:
Complete
(Caso 1) $50.000,0 (Caos 2) 15% (caso 3) 7% + un bono fijo de $30.000
Sueldo actual
Y(1) = X + 50
(1) = Y
Y(2) = 1,15X
(3) = Y
Y(3) = 1,07X + 30
(3) = Y
(m $)x = 428,333
Y = Sueldo aumentado
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 42
Mediana (Me)
Mediana: es un valor tal que, ordenados en magnitud los n datos de una
variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.
Para el cálculo de la mediana la variable debe ser por lo menos ordinal
En datos no agrupados (directos), con n impar, el valor central es la mediana.
Ejemplo: 3, 5, 7, 8, 9, 12, 13, 15, 20. n = 9 datos. La mediana es el valor 9.
Se puede observar que la mediana es el valor que ocupa el lugar 1+ n
2
En datos no agrupados con n par, el valor de la mediana será el punto medio
entre los dos valores centrales.
Ejemplo: 5, 7, 9, 10, 14, 16, 17, 18. n = 8 datos; la mediana es el valor 12.
Es preciso ordenar los datos de menor a mayor para hacer el cálculo.
Ejemplo: Datos tabulados. Variable discreta
"X: Número de avería diarias en un taller
X
Frec. abs.
ni
Frec. abs. acum.
Ni
0 1 2 3 4 5 6
40 26 14 6 3 0 1
40 66
Total n = 90
El valor de la mediana en datos tabulados (agrupados) en intervalos
se analizará junto con el tema PERCENTILES. El cálculo de la Me es
aproximado y se determina a través de una fórmula que se obtiene de
la tabla de distribución de frecuencias acumuladas.
Me es el valor que ocupa el
lugar 1+ n
= 45,52
Mediana = 1 avería.
Interpretación:
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 43
Comparación entre x , Me y Mo
Desde un punto de vista descriptivo las tres medidas proporcionan
información complementaria, sus propiedades son distintas:
Estadísticos de tendencia central Observaciones
Media aritmética
x
n
i
i =1
xtotal
x = = n n
- El nivel de medición de la variable X sea por lo menos en escala de intervalos.
- La media es muy sensible cuando existen datos atípicos o extremos.
- Es preferible utilizar el promedio aritmético como medida de resumen si los datos son homogéneos.
Mediana Me
Es un valor tal que, ordenados en magnitud los n datos de una variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.
- La mediana utiliza menos información que la media, ya que solo tiene en cuenta el orden de los datos y no su magnitud, por lo tanto, para poder calcular la mediana el nivel de medición de la variable X debe ser por lo menos en escala ordinal.
- La mediana se ve menos alterada por los datos atípicos o extremos.
Moda Mo
Es el valor de la variable que ocurre más frecuentemente
- Para el cálculo de la moda la variable puede tener cualquier nivel de medición, luego es la única medida de tendencia central que se puede calcular si el nivel de medición de la variable X es en escala nominal.
X Mediana asimetría, lo que sugiere heterogeneidad en los datos.
en este caso la Mediana es la medida de tendencia central adecuada para resumir los datos.
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 44
Simétrica
X = Me = Mo
Asimetría positiva
Mo < Me < X
Asimetría Negativa
X < Me < Mo
Ejercicios III
Ejercicio III-1
Un fabricante de un dispositivo para cierto artículo electrónico informa en su propaganda que la vida útil de su producto es superior a 5 años. Una muestra aleatoria de 90 unidades vendidas hace 10 años, reveló la siguiente distribución de las duraciones:
Duración Frecuencia
0 - 2 10
2 – 4 20
4 – 6 25
6 – 8 22
8 – 10 13
a. Determine la duración promedio b. ¿Qué porcentaje de unidades duraron más de 5 años? Aprox.
Ejercicio III-2 En la fabricación de semiconductores, a menudo se utiliza una sustancia química para quitar el silicio de la parte trasera de las obleas antes de la metalización. En este proceso es importante la rapidez con la que actúa la sustancia. Se han comparado dos soluciones químicas, utilizando para ello dos muestras de obleas para cada solución. La rapidez de acción observada es la siguiente
Solución 1: 9,9 9,4 9,3 9,6 10,2 10,6 10,3 10,0 10,3 10,1
Solución 2: 10,2 10,6 10,7 10,4 10,5 10,0 10,2 10,7 10,4 10,3
a. Indique cuales son las variables involucradas en el problema y clasifíquelas.
b. Complete el cuadro siguiente (realice comentarios):
Solución n Promedio Mediana 1 2
aaaaaaa
x
32.5 27.5 22.5 17.5 12.5 7.5 2.5
Simétrica
10
8
6
4
2
0
X 32.5 27.5 22.5 17.5 12.5 7.5 2.5
10
8
6
4
2
0
X
32.527.522.517.512.57.52.5
10
8
6
4
2
0
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 45
Ejercicio III-3
Media Ponderada o Promedio Ponderado
Sean x1 ,x2,....,xn , n datos y sea los número w1 ,w2,....,wn, los pesos correspondiente a cada xi i = 1,2,....n; con a lo menos un wi > 0. Entonces el promedio ponderado de los
datos, está dado por:
Si cada observación tiene la misma ponderación, entonces el promedio y el promedio ponderado son iguales.
Ejemplo: Las notas parciales de Estadística I de un alumno son:
P1 (25%) P2 (35%) P3 (40%)
4,2 5,7 2,1
Promedio =
Ejercicio III-4
Promedio estratificado
X = Sueldo mensual (miles de $)
Planta Santiago (1) Concepción (2) Antofagasta (3)
Promedio 1
x = 568,320 2
x = 665,210 3
x = 480,715
N° de trabajadores n1 = 215 n2 = 180 n3 = 96
n = n1 + n2+ n3
(suponga que se observó una muestra representativa de cada planta)
k
i i
i=1estr
n x
X = = n
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 46
Cuartiles – Quintiles – Deciles - PERCENTILES
Son medidas estadísticas que dividen una serie ordenada de observaciones en 4, 5, 10, 100 partes iguales. Si dividimos en 4 partes iguales, tenemos los cuartiles (Qk) 1, 2 y 3. Cada parte le corresponde un 25%. | 25% | 25% | 25% | 25% | Mín Q1 Q2 Q3 Máx
Si dividimos en 5 partes iguales, tenemos los quintiles (qk) 1, 2, 3 y 4. Cada parte le corresponde un 20%. | 20% | 20% | 20% | 20% | 20% | Mín q1 q2 q3 q4 Máx
Si dividimos en 10 partes iguales tenemos los deciles (Dk) Los Percentiles Pp son los valores que dividen un conjunto de datos ordenados de menor a mayor en 100 partes con igual (aproximadamente) número de datos.
p% (100 - p)% | | |
x(1) Pp x(n) Mín Máx
Si dividimos en 10 partes iguales tenemos los deciles (D) y en 100 partes
iguales, los percentiles (Pp).
p% (100 - p)%
| | |
x(1) Pp x(n)
Mín. Máx.
Entre mín y Pp se encuentra el p% de los datos o entre Pp y máx se
encuentra el (100 – p)% de los datos.
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 47
Recordemos se dividimos la serie de datos ordenada en dos partes iguales, tenemos
la mediana (Me)
Tenemos: Q1 = P25 Me = Q2 = D5 = P50 Q3 = P75
q1 = D2 = P20
q2 =
q3 =
q4 =
Cálculo de Percentiles (datos directos)
Ejemplo: Los siguientes datos corresponden a los puntajes obtenidos por 14 alumnos en un examen de Física II. (0 – 100 puntos)
84 52 85 61 74 77 65 63 57 64 72 55 68 76
Diagrama de puntos
Puntaje
Cálculo percentiles Pp
En la definición de percentil en un conjunto de datos “es el valor tal que el p% de los datos es menor o igual que él y el (100 – p)% de los datos es superior o igual a él”, puede que ningún valor cumpla exactamente la definición. Existen diversas formas de interpolar para el cálculo del Pp, en este curso vamos a utilizar el método AEMPIRAL explicado en la página 22 de texto “Probabilidad y Estadística”. Douglas C. Montgomery y George C. Runger (1996)
1ro) Se ordenan los n datos de menor a mayor
2do) Pp es el valor que ocupa el lugar j = np
100 . El método AEMPIRAL asigna la media
de x(j) y x(j+1) cuando j es un número entero, y asigna el valor que ocupa la
posición siguiente a la parte entera de j cuando j = np
100 es un número decimal
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 48
Del ejemplo: P50 n = 14 p = 50 → percentil 50 está se encuentra en el
lugar j= 14 50
= 7100
→ P50 =
65 68
2
= 66,5 = Me ≡ “el 50% de los estudiante
obtuvieron puntaje entre 52 y 66,5 puntos” - ¿Entre qué valores e encuentra el 25% de los mejores puntajes?
- Determine el percentil 75 e interprete. (Resp: P75 = 76 AEMPIRAL)
Cálculo de percentiles datos tabulados en intervalos:
Los valores que toman los percentiles cuando tenemos la información agrupada
(intervalos reales) en una tabla de frecuencias de una variable cuantitativa son
aproximados.
Mediante interpolación lineal en el gráfico de frecuencias acumulada (ojiva) se
llega a la fórmula del percentil Pp.
j-1
p inf j
j
np
100 - NP = lim +amplitud
nj
Ejemplo: cálculo percentil 50 (mediana)
Puntaje en un test de aptitud
Puntaje X
N° de sujetos
ni
Frecuencias acumuladas
Ni
(absoluta)
Fi (relativa)
15 – 20 8 8 0,200
20 – 25 7 15 0,375
25 - 30 14 29 0,725
30 – 35 6 35 0,875
35 – 40 3 38 0,950
40 – 45 2 40 1,000
n = 40
n = 40
lugar np
100=
n 5020
100
el percentil 50 o mediana aproximadamente se encuentra en el lugar 20, observando la columna Ni de frec. acumuladas o el gráfico ojiva, el valor que ocupa el lugar 20 se encuentra en el tercer intervalo.
P50 = Me [25, 30)
Pp se encuentra en el intervalo j → lugar np/100
liminfj = valor inferior de intervalo j Nj-1 frec. Abs. acumulada anterior al intervalo j nj= frecuencia abs. del intervalo j
Intervalo j
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 49
DISTRIBUCIÓN DE FRECUENCIA ACUMULADA
Puntaje X
Frec. Abs. Acumulada Ni
< 15 0
< 20 8
< 25 15
< 30 29
< 35 35
< 40 38
< 45 40
OJIVA (POLÍGONO DE FRECUENCIAS ACUMULADAS)
Puntaje
P50 [25, 30) ← 25 es el límite inferior del intervalo j
30 – 25 = 5 es la amplitud del intervalo j
intervalo j Hay 14 sujetos (frec, abs.) con puntaje en el intervalo j
frec. abs. acumulada anterior al intervalo j es 15
La fórmula que entrega la interpolación lineal para el cálculo de percentiles con datos agrupados en intervalos reales es:
j-1
p inf j
j
np
100 - NP = lim +amplitud
nj
Interpolando Linealmente
Se utiliza cuando no se
tienen los datos de
cada unidad de
observación
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 50
Aplicando la fórmula de percentil para datos agrupados
50
20 15P 25 5 26,79
14puntos
Interpretación …………………………….
- Suponga que al 15% de los puntajes más altos pasan a una segunda etapa, ¿a partir de qué puntaje se va a realizar el corte para seleccionar a dichos sujetos?.
- Determine e interprete el valor del percentil 10.
Ejercicios IV
Ejercicio IV-1
El responsable en control de industrial de una empresa somete a un test de fiabilidad 150 dispositivos electrónicos idénticos y anota su duración (tiempo hasta fallo en horas).
La recogida de datos lleva al histograma siguiente:
Duracion
2000180016001400120010008006004002000
N°
de d
isp
ositiv
os
60
50
40
30
20
10
0
33
6
18
2121
27
51
Histograma
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 51
a. Indique la variable de interés y clasifíquela según naturaleza, tamaño del recorrido y nivel de medición.
b. ¿Entre qué valores se encuentra el 30% de los dispositivos de mayor duración? c. ¿Qué porcentaje de dispositivos tienen duración entre 200 y menos de 1000
horas? d. ¿Qué porcentaje de dispositivos tienen duración entre 600 y 950 horas? e. Dibuje en el histograma el tiempo medio de fallo, la mediana y la moda. f. ¿El promedio es una medida adecuada para resumir la duración de los
dispositivos? Justifique su respuesta.
Ejercicio IV-2
En una industria, se realizan periódicamente un análisis de la medición del trabajo con el fin de determinar el tiempo requerido para generar una unidad de producción. En una planta de procesamiento se registró durante 20 días el número de horas-trabajador totales requeridas para realizar cierta tarea. Los datos recogidos son:
128 119 95 97 113 109 124 132 146 128 103 135 124 131 133 131 100 112 111 150
a) Determine las medidas de tendencia central. Interpreta resultados. b) ¿Cuánto tiempo (horas-trabajador) requieren como máximo el 25% de los días que
demoraron menos en realizar la tarea?. ¿Cuánto tiempo (horas-trabajador) requieren como mínimo el 25% de los días con mayor demora en realizar la tarea?
c) Indique qué medida de tendencia central puede ser representativa d) Determine el valor de (cuartil 3 – cuartil 1). ¿Cómo puede interpretar esa diferencia? e) Construya un diagrama de caja (gráfico basado en los cuartiles)
Gráfico de cajas (Tukey fue su creador)
Es un gráfico que suministra información sobre los valores mínimo y máximo, los
cuartiles de Tukey Q1, Q2 o mediana Q3, la existencia de valores atípicos y la
simetría de la distribución.
Se sabe que un dato es atípico, si su valor no se encuentra en el intervalo
(Q1 – 1,5RI , Q3 + 1,5RI)
RI = Q3 – Q1
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 52
Es necesario tener datos directos (sin agrupar en intervalos) para realizar el gráfico de cajas.
Este gráfico es útil para hacer comparaciones rápidas entre 2 o más conjuntos de datos.
La primera bisagra de Tukey (similar al cuartil 1) es el valor que ocupa la posición intermedia entre la mediana el valor más pequeño de la distribución; la segunda bisagra es la mediana; la tercera bisagra (similar al cuartil 3) es el valor que ocupa la posición intermedia entre la mediana y el valor más grande de la distribución.
MEDIDAS DE DISPERSIÓN ( O VARIABILIDAD)
Las medidas de tendencia central (promedio, mediana, moda) y los percentiles, dan información incompleta, acerca de las observaciones. Ejemplo: Los puntajes (X) obtenidos en una Test que mide capacidad de abstracción por 2 grupos de alumnos son los siguientes:
Grupo 1 4 3 5 6 4 5 5 7 5 6
Grupo 2 1 4 3 5 6 8 2 7 5 9
En ambos casos el promedio aritmético o media aritmética es 5 (x = 5) , pero sus
gráficos son distintos
Diagramas de puntos
Los diagramas de ambos grupos muestran que los puntajes se distribuyen simétricamente respecto al 5, pero en el grupo 1 existe una menor dispersión que en el grupo 2, es decir, los grupos tienen igual promedio pero la variabilidad de los puntajes respecto a la media es distinta.
Las medidas de variabilidad indican la dispersión de los datos obtenidos por los sujetos o las unidades de medición. Cuando los datos están con baja dispersión se dice que es homogéneo. Cuando están altamente dispersos se dice que es heterogéneo. Las medidas de dispersión más utilizadas son las siguientes:
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 53
Amplitud o rango o recorrido, rango intercuartílico, desviación estándar, varianza y coeficiente de variación.
Rango o recorrido: Es la distancia en la escala de medidas entre los valores mayor y menor. Rango = valor máximo – valor mínimo
En el grupo 1: rango es 7 – 3 = 4 y en el grupo 2 rango es 9 – 1 = 8 lo que implica que el segundo grupo tiene puntajes más dispersos. El rango utiliza poco debido a marcada inestabilidad. Si hay un valor extremo en la distribución se tendrá la impresión de que la dispersión es grande, cuando en realidad si omitiésemos ese valor podríamos concluir que es una distribución compacta.
Rango Intercuatílico (RI): se define como la diferencia entre el tercer y el primer cuartel, RI = Q3 – Q1, es la longitud del 50% central de la distribución de datos
Q3 = P75 Q1 = P25
RI se usa con mayor frecuencia acompañando a la mediana cuando la presencia de valores extremos hace poco recomendable el uso del promedio.
Defectos. No permite hacer una interpretación precisa de un valor dentro de una distribución. No interviene en relaciones matemáticas importantes en la inferencia estadística.
Desviación estándar o desviación típica (medida de dispersión asociada al promedio aritmético)
Es la raíz cuadrada de la media de las desviaciones al cuadrado.
Dado un conjunto (o muestra) de datos x1, x2, …,xn de una variable X con nivel de medición en escala de intervalos o de razón, se define la desviación estándar o desviación típica como el promedio de las desviaciones di de los valores xi respecto a su promedio aritmético.
Desviación estándar:
n2
i
i =1
(x - x)
s = n
La desviación estándar toma valores no negativos y mide la dispersión: a mayor desviación estándar mayor dispersión.
El cuadrado de la desviación estándar s2, se denomina varianza.
Las desviaciones
di = (xi - x ) se elevan al cuadrado para convertirlas en positivas, además recuerde que
n
i
i =1
(x - x) = 0
y se extrae la raíz cuadrada para que la medida resultante tenga la misma unidad de medición de la variable.
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 54
n2
i2 i 1s
(x x)
n
Observaciones:
Notación de la varianza poblacional
N2
i2 i 1
(x μ)
σN
= media de la población N = tamaño de la población
- En algunos textos de Estadística la fórmula de la varianza (S2)
de la muestra viene dada por:
2
2
i
n
i=1=
(x -x)
n -1s
Del ejemplo Puntaje de un Test:
Grupo 1 Grupo 2
x x - x 2(x - x) x x - x 2
(x - x)
3 -2 4 1 -4 16
4 -1 1 2 -3 9
4 -1 1 3 -2 4
5 0 0 4 -1 1
5 0 0 5 0 0
5 0 0 5 0 0
5 0 0 6 1 1
6 1 1 7 2 4
6 1 1 8 3 9
7 2 4 9 4 16
Total 50 0 12 50 0 60
llamada varianza corregida o cuasivarianza y se utiliza en Inferencia Estadística como la
estimación de la varianza poblacional 2, es la fórmula que vamos a utilizar en este
curso como varianza muestral
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 55
i=1
2n
in2 i=1
i2
2n
i=1i
x
x - n
= n-1
(x -x)
n -1 s
Grupo
n
Promedio
Desviación estándar
Varianza
1 10 50
5 ptos10
12 = 1,1547 ptos
9
(1,1547)2
2 10 50
5 ptos10
60 = 2,5820 ptos
9
(2,5820)2
Se observa que ambos grupos tienen igual promedio pero los datos del grupo dos tienen mayor dispersión o variabilidad.
Ventajas de la desviación estándar - Permite una interpretación precisa de los valores dentro de una distribución. - La desviación como el promedio pertenece a un sistema matemático que
permite su uso en métodos estadísticos más avanzados.
Propiedades de la desviación estándar (demostración tarea) - Si se suman a todos los valores de la variable un valor constante, el
promedio queda aumentado en ese valor, pero la desviación estándar permanece igual.
- Si se multiplica cada valor original por una constante, tanto el promedio como la desviación estándar queda amplificados por ese valor.
- La desviación estándar de una constante es cero.
Si los datos se encuentran tabulados las fórmulas de la varianza y desviación estándar son:
Varianza
k2
i i2 i 1x
(x x) n
n - 1s ;
k2
i i
i 1Desviación estándar: s
(x -x) n
n - 1
xi es el valor de la variable discreta en una tabla o la marca de clase en el intervalo i (datos agrupados en intervalos reales)
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 56
Si los datos se encuentran tabulados las fórmulas de la varianza y desviación estándar son:
Varianza
k2
i i2 i 1x
(x x) n
n - 1s
k2
i i
i 1Desviación estándar: s
(x -x) n
n - 1
xi es el valor de la variable discreta en una tabla o la marca de clase en el intervalo i (datos agrupados en intervalos reales)
Ejemplo: Cierto tipo de resistencias de película de óxido metálico son agrupadas en paquetes de 50 unidades. Se seleccionaron 60 paquetes y se contó el número de resistencias que no cumplían con las especificaciones, resultando la siguiente tabla
X = N° de resistencia defectuosas en cada paquete
X ni i ix n 2
i i(x - x) n
0 5 0 31,25
1 10 10 22,50
2 16 32 4,00
3 15 45 3,75
4 9 36 20,25
5 3 15 18,75
6 2 12 24,50
Total n = 60 150
150x =
60
125,00
2 125s =
59 = 2,119 ← varianza
Desviación estándar s = varianza
= 2,119 1,456
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 57
2k
i ik2 i=1
i ii i=1
2k
i=1i
x n
x n - nn
= = n -1
(x -x)
n -1
Desviación est andar: Datos tabulados
s
Coeficiente de variación (CV): Es una medida relativa de variabilidad
XXCV =
|x|
s Se utiliza para comparar la dispersión de variables que
aparecen en unidades distintas de medición o que toman valores de magnitudes muy diferentes, ya que no depende de la unidad de medición de las variables.
Ejemplo: La tabla siguiente muestra el peso en kg y la estatura en cm de 10 sujetos
sujeto 1 2 3 4 5 6 7 8 9 10
Estatura (X) 172 175 168 178 159 166 176 180 179 171
Peso (Y) 78 75 70 68 44 66 72 95 70 74
Del ejemplo de resistencia de película de óxido metálico: i
2
i iixn = 150 ; x n = 500
2(150)500
60 1,45659
s
2k
i ik2 i=1
i ii2 i=1
2k
i=1i
x n
x n - nn
= = n-1
(x -x)
n -1
Varianz a: Datos tabulados
s
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 58
Para analizar cuál distribución de datos es más homogénea, se debe determinar los coeficientes de variación de cada variable
Variable Media Desv. típ. CV 100*CV
(% de variabilidad)
Estatura (X) 172,40 6,620 0,038 3,840%
Peso (Y) 71,20 12,541 0,176 17,614%
Interpretación: La variable estatura es más homogénea (menor % de variabilidad)
Ejercicios V
Ejercicio V-1
En un banco se realizó un estudio para medir el tiempo de atención necesario para que un cliente realice una transacción entre las 12:00 y 14:00 horas. Durante una semana se tomaron los tiempos de atención de 10 clientes diariamente, obteniéndose los siguientes datos:
Tiempo de atención (min)
0 – 2 2 – 4 4 – 6 6– 8 8 – 10 10 – 12 12 -14
Cantidad de clientes
17 11 7 7 4 2 2
a. Complete el siguiente cuadro interprete los resultados
Cuartil 1 Mediana Cuartil 3 RI Moda
b. Determine (aprox.) qué porcentaje de clientes demoraron a lo más tres min en su atención.
50 p- 17
100 p = 45%11
Resp.: 3 = 2 +
c. Grafique adecuadamente la tabla de frec, y muestre la ubicación del la mediana y
promedio (realice comentarios)
Ejercicio V-2
Si a es constante, demuestre que: 2n
i=1x es mínimo para a = x
ia
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 59
Ejercicio V-3
Se ha hecho un seguimiento durante una serie de días del número de mensajes spam al día que un cierto usuario recibe en su correo electrónico. Los datos obtenidos se muestran a continuación:
N° de spam diario 0 1 2 3 4 5 6
Frecuencia observada 35 42 55 40 15 10 3
a. n = (interprete)
b. Determine e interprete las medidas de tendencia central
c. Determine una medida de dispersión adecuada
d. Realice un gráfico adecuado
Ejercicio V-4
Se realizó un estudio sobre los costos operacionales (Y), en millones de dólares anuales, en empresas de dos rubros distintos( A ; B ). Se tomaron muestras de 25 empresas de cada rubro, obteniéndose:
Rubro Y = Costo operacional i
i
y i
2
i
y
A 5,3 4,4
4,4 8,2
2,8 1,5
7,5 6,2
8,5 4,8
4,2 7,2
3,9 6,4
5,3 5,4
2,7 7,1
8,2 5,9
3,9 6,4
4,2 7,5
5,2
137,1 833,9
B 3,5 6,1
4,5 4,0
4,1 4,8
3,6 5,4
5,2 3,5
4,6 5,4
2,9 4,3
4,0 4,8
4,7 2,6
5,5 5,4
2,9 3,5
5,9 3,8
4,9 109,9 505,4
Rubro A Frecuencia Tallo & Hoja 1,00 1 . 5 2,00 2 . 78 2,00 3 . 99 5,00 4 . 22448 5,00 5 . 23349 3,00 6 . 244 4,00 7 . 1255 3,00 8 . 225 Multiplicar por 10
-1
Rubro B Frecuencia Tallo & Hoja 3,00 2 . 699 0,00 3 . 5,00 3 . 55568 4,00 4 . 0013 6,00 4 . 567889 4,00 5 . 2444 2,00 5 . 59 1,00 6 . 1 Multiplicar por 10
-1
a. Compare la dispersión de los costos de operación, entre los dos rubros.
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 60
Rubro n y s CV % de variabilidad
A
B
Comentarios: b. ¿Entre qué costos operacionales se ubica el 50% central de las empresas del rubro B? c. Según estimaciones, realizadas en las empresas del rubro A, los costos operacionales
aumentarán en un 3%. Determine e interprete la nueva mediana y la nueva desviación estándar.
Ejercicio V-5
Se toman muestras, de barras planas de dos tipos de acero, de tamaño 80 y 100 respectivamente, para analizar la resistencia a la ruptura. Los siguientes gráficos muestran los tiempos máximos (Y), en minutos que soportan dichas barras antes de fragmentarse, cuando son sometidos a la tensión:
Muestra 1 Muestra 2
minutos
minutos
a. En base a la información contenida en los gráficos, determine que distribución es más homogénea y que tipo de acero resistió en mejor forma la tensión aplicada. Justifique utilizando medidas de resumen adecuadas.
b. Si las barras de acero tipo 1, se clasifican de acuerdo a su resistencia en {RB, RM, RA}
Baja resistencia (RB) : si soportan un tiempo máximo inferior a 5,5 minutos Alta resistencia (RA) : si soportan un tiempo máximo de por lo menos 14 minutos Resistencia media (RM) : en otro caso.
Muestre gráficamente la distribución de las barras de acuerdo a la nueva clasificación.
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 61
Ejercicio V-6
Una industria metalúrgica compra grandes cantidades de alambre de acero en rollos de 150 metros, hasta la fecha esta compra la realiza en la empresa Alfha, otra empresa llamada Delta quiere también vender sus productos y hace una oferta bastante interesante porque el precio de cada rollo es muy inferior. Sin embargo es importante considerar la resistencia a la tracción (Y). Por ello se toman muestras al azar de rollos de acero provenientes de ambas empresas.
Los resultados se presentan en la tabla siguiente:
Resistencia (en Newton)
yi
Empresa
Alfha Delta
10,00 – 10,25 10,125 2 0
10,25 – 10,50 10,375 12 17
10,50 – 10,75 10,625 14 25
10,75 – 11,00 10,875 11 11
11,00 – 11,25 11,125 5 9
11,25 – 11,50 11,375 4 9
11,50 – 11,75 11,625 0 3
- Si la variabilidad de la resistencia del alambre de la empresa Delta no es superior a la de la empresa Alfha y además la resistencia promedio es superior en al menos 1,5 Newton sería aconsejable cambiar de proveedor.
¿Qué decisión se debería tomar en base a la información obtenida? Fundamente con cálculo de medidas adecuadas.
EMPRESA Media
(promedio) n
Desv. estandar
C.V. % de variabilidad
Alfha 10,71354 48 0,32815 0,03063 3,063%
Delta
Respuesta: _______________
- ¿Qué porcentaje de los rollos de alambre de acero de la empresa Delta supera la resistencia media de los rollos de alambre de acero de la empresa Alfha
- ¿Cuál es la representación gráfica adecuada para este caso?
Y = resistencia a la tracción del alambre
Empresa n i i
i
y n i
2
i
i
y n
Alfha 48 514,25 5514,5 Delta 74 799,00 8636,90625
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 62
Ejercicio V-7
Un Gerente de producción de una gran industria automovilística norteamericana cree que los trabajadores de la planta A hacen un promedio salarial por hora menor con una mayor variabilidad que los trabajadores de la planta B. Muestras de 12 trabajadores de la planta A y 10 trabajadores de la planta B dieron los siguientes valores:
Salario (um ) por hora de un trabajador (Y) Planta A (1) 12.2 18.2 19.4 15.3 18.6 16.4 15.5 18.7 17.1 18.3 14.5 15.8
Planta B (2) 15.1 14.8 16.9 17.2 18.2 18.5 18.7 19.3 19.2 19.8
a. ¿Apoyan los datos al Gerente de producción? (utilice medidas de resumen)
n Promedio Desv. Estandar C.V.
b. Corrobore la conclusión de (a) con Box-Plots paralelos (diagrama de caja)
c. Si a los trabajadores se les aumenta el sueldo hora de la siguiente forma:
Planta
Aumento
Determine (después del aumento):
Promedio aritmético
Desviación estándar (sn-1)
C.V
A
5% + 0.8 um
B
1,5 um
Ejercicio V-8
Se están estudiando dos tipos de tubos para la utilización en cierta aplicación industrial. Se
seleccionaron 12 ejemplares de cada tipo y se anotó su duración en semanas.
Tubo Semanas de duración
Tipo 1 26,3 32,7 29,6 25,6 34,6 40,3 39,1 32,3 28,2 36,7 32,6 38,8
Tipo 2 38,9 27,6 23,6 25,0 33,7 31,4 29,5 32,5 30,6 20,0 31,8 29,3
Analice en forma descriptiva ambos tipos de tubos e indique cuál debería seleccionarse para la
aplicación industrial (Justifique con medidas de tendencia central y de dispersión) Ejercicio V-9
En una empresa constructora se debe decidir por una de dos mezclas, para preparar concreto. Se tiene una mezcla estándar que es la que se ha utilizado en los últimos cuatro años, pero debido a nuevas exigencias para que las construcciones sean más resistentes, por ejemplo a los terremotos, es que los ingenieros a cargo experimentan con distintas mezclas y después de meses de experimentación, al parecer logran una mezcla que cumple con los estándares exigidos. Por otro lado, la mezcla estándar tiene costos de producción muy inferiores a la nueva mezcla, razón por la
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 63
cual utilizarán la nueva mezcla solo si cumple de mejor manera con las exigencias mínimas requeridas, las cuales son:
i. La resistencia mínima a la compresión debe ser de 17,2 MN/m2. Esta resistencia mínima a considerar debe ser superada por el 96% o más de las muestras de prueba.
ii. La variabilidad de la resistencia debe ser inferior al 18%.
Se probaron 50 probetas con muestras de cada tipo de mezcla, las resistencias obtenidas se presentan en la tabla siguiente.
Resistencia MN/m2
N° de probetas
Mezcla Estándar Mezcla Nueva
14 – 17 17 – 20 20 – 23 23 – 26 26 – 29 29 – 32
1 9 13 18 7 2
2 8 19 14 5 2
a. Utilizando medidas estadísticas adecuadas pruebe si se cumplen las condiciones i) y ii) adecuadas y en base a los resultados decida cuál de las dos mezclas es más adecuada.
b. Construya un gráfico adecuado que permita comparar la resistencia del concreto para estos dos tipos de mezclas.
Ejercicio V-10
Se está investigando la resistencia (en miles ohms) de cierto tipo de resistor. Para ello se probaron 80 resistores con el siguiente resultado:
Resistencia (miles ohms)
N° de resisteros
5,0 – 5,5 5,5 – 6,0 6,0 – 6,5 6,5 – 7,0 7,0 – 7,5 7,5 – 8,0 8,0 – 8,5
14 36 14 6 4 3 3
80
Con la información de la tabla de frecuencias, determine el porcentaje de resistores con resistencia atípica (outlier).
P75 = 6,36 (miles ohms)
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 64
Ejercicio V-11
Se analizan dos catalizadores para determinar la forma en que afecta el rendimiento de un proceso químico. El catalizador 1 es el que se viene empleando en la fábrica y se quiere averiguar si se puede sustituir por el catalizador 2, más barato, pero que, según el fabricante provoca un descenso del rendimiento. Se llevan a cabo 24 reacciones obteniendo para cada catalizador los rendimientos en porcentaje:
Catalizador
Y = rendimiento (%)
i
i
y i
2
i
y
1
93,1 91,7 99,9 90,3 96,2 92,7 92,7 89,0
2237,6 208924,80 92,0 94,0 98,2 96,1 97,9 87,0 89,4 92,6
93,8 90,3 92,8 91,1 91,1 89,4 94,2 102,1
2
91,5 89,2 92,8 95,3 95,1 96,4 87,0 91,7
2196,3 201164,17 87,2 90,9 91,3 92,6 91,4 91,5 91,4 95,5
90,6 88,2 87,8 89,9 90,4 90,6 91,0 97,0
a. Se aceptaría el cambio de catalizador, si los resultados de la pruebas arrojan una
diferencia promedio de ambos catalizadores inferior a 4 (%) y el catalizador alternativo debe tener rendimiento más homogéneo del que se utiliza actualmente. Con los resultados muestrales, ¿es aconsejable realizar el cambio?
b. Sabiendo que el 75% de las reacciones obtenidas con el Catalizador 2 tienen un rendimiento igual o superior a 90,15. Determine si existe algún resultado (reacción) atípica. Utilice regla de Tukey.
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 65
Ejercicio VI-6
En una planta embotelladora de bebidas de fantasía, utilizan envases fabricados con 2 tipos de plástico, de similares condiciones. ( A y B ). Con muestras de 25 botellas fabricadas con cada tipo de plástico se midió la resistencia (en psi). Algunos resultados parciales se encuentran a continuación:
X = Resistencia x
2x
Plástico A 5087 1038093
Plástico A 4898 963332
a. Se estima que las botellas fabricadas con el plástico B presentan una resistencia
más homogénea, que las fabricadas con el plástico A. Utilizando una medida
estadística adecuada, ¿qué puede comentar de esta estimación?
b. Determine para cada tipo de envase entre que valores (psi) se encuentran el 50%
de las botellas con mayor resistencia
Resist_A Stem-and-Leaf Plot Freq Stem & Leaf 1,00 18 . 2 2,00 18 . 59 1,00 19 . 0 4,00 19 . 5679 7,00 20 . 1222234 4,00 20 . 5689 2,00 21 . 01 1,00 21 . 9 2,00 22 . 14 1,00 22 . 5 Stem width: 10 Each leaf: 1 case(s)
Resist_B Stem-and-Leaf Plot Freq Stem & Leaf 1,00 Extremes (=<171) 2,00 17 . 38 3,00 18 . 349 11,00 19 . 22344556679 5,00 20 . 35668 2,00 21 . 05 1,00 22 . 4 Stem width: 10 Each leaf: 1 case(s)
Atípico = 171