17
M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 1 UNIDAD 1: ESTADÍSTICA DESCRIPTIVA INTRODUCCION. El curso de Probabilidad y Estadística ubicado en el tronco común de las ciencias de la ingeniería, corresponde al área de las ciencias básicas de la ingeniería; y está orientado al estudio de los fundamentos matemáticos y metodologías de la probabilidad, estadística descriptiva e inferencial; para el estudio y caracterización de sistemas y procesos, apoyándose en el uso de tecnología y herramientas computacionales, para el cálculo e interpretación de indicadores que sustentan la toma de decisiones y optimización de los mismos. En esta unidad de aprendizaje se desarrollan habilidades en las técnicas de muestreo, representación y análisis de información, así como actitudes que favorecen el trabajo en equipo; y proporciona las bases fundamentales para incursionar de manera competente en el estudio de las metodologías para la optimización de sistemas y procesos de las ciencias de la ingeniería. 1.0 CONCEPTOS Estadística : Es una colección de métodos para planear experimentos, obtener datos y después organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones basadas en los datos. Datos : Son las observaciones recolectadas (como mediciones, géneros, respuestas de encuestas). Población : Es la colección completa de todos los elementos (puntuaciones, personas, mediciones, etc.) a estudiar. Se dice que la colección es completa pues incluye a todos los sujetos que se estudiaran. Censo : Es la colección de datos de cada uno de los miembros seleccionados de una población. Muestra : Es un subconjunto de miembros seleccionados de una población. Variabilidad : Por variabilidad se entiende por observaciones sucesivas de un sistema o fenómeno que no producen el mismo resultado. Parámetro : Es una medición numérica que describe alguna característica de una población. Estadístico : Es una medición numérica que describe alguna característica de una muestra. Datos Cuantitativos : consisten en números que representan conteos o mediciones. Datos cualitativos : Se les llama también categóricos o de atributo, se distinguen en alguna característica no numérica. Datos Discretos : Resultan cuando el número de posibles valores es un número finito o bien un número que puede contarse. Es decir el número de posibles valores 0, 1, 2, 3, etc. Datos Continuos (numéricos ): Resultan de un infinito de posibles valores que pueden asociarse a puntos de alguna escala continua, cubriendo un rango de valores sin huecos ni interrupciones. 1.1 Población y muestra. En el proceso de toma de decisiones, éstas deberán basarse en datos que describan el fenómeno estudiado, sin embargo, el recolectar datos sobre las características de todo un grupo de personas u objetos puede resultar impráctico o antieconómico. En vez de examinar todo el grupo, al que se le conoce como población o universo, se examina sólo una pequeña parte del grupo, al que se le llama muestra. Por ejemplo, si quisiéramos saber la estatura promedio de los estudiantes varones de la Facultad de Ingeniería Ensenada (FIE), todos los estudiantes varones serían la población o universo de estudio, si solo tomamos un grupo de 50 estudiantes varones de la FIE, este grupo sería la muestra. Las poblaciones pueden ser finitas e infinitas. Por ejemplo la manufactura de tablillas de circuitos en una empresa en determinado día (es finito) o el resultado de aventar una moneda al aire (águila o sello) que se pueden obtener lanzando una y otra vez una moneda (es infinita) 1.2 Inferencia estadística. Si la muestra es representativa de la población, el análisis de la muestra permite inferir conclusiones válidas acerca de la población. A la parte de la estadística que se encarga de las condiciones bajo las Universo Muestra

Texto Unidad I Estadistica Descriptiva

Embed Size (px)

Citation preview

Page 1: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 1

UNIDAD 1: ESTADÍSTICA DESCRIPTIVA

INTRODUCCION.

El curso de Probabilidad y Estadística ubicado en el tronco común de las ciencias de la ingeniería, corresponde al área de las ciencias básicas de la ingeniería; y está orientado al estudio de los fundamentos matemáticos y metodologías de la probabilidad, estadística descriptiva e inferencial; para el estudio y caracterización de sistemas y procesos, apoyándose en el uso de tecnología y herramientas computacionales, para el cálculo e interpretación de indicadores que sustentan la toma de decisiones y optimización de los mismos. En esta unidad de aprendizaje se desarrollan habilidades en las técnicas de muestreo, representación y análisis de información, así como actitudes que favorecen el trabajo en equipo; y proporciona las bases fundamentales para incursionar de manera competente en el estudio de las metodologías para la optimización de sistemas y procesos de las ciencias de la ingeniería.

1.0 CONCEPTOS Estadística: Es una colección de métodos para planear experimentos, obtener datos y después organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones basadas en los datos. Datos: Son las observaciones recolectadas (como mediciones, géneros, respuestas de encuestas). Población: Es la colección completa de todos los elementos (puntuaciones, personas, mediciones, etc.) a estudiar. Se dice que la colección es completa pues incluye a todos los sujetos que se estudiaran. Censo: Es la colección de datos de cada uno de los miembros seleccionados de una población. Muestra: Es un subconjunto de miembros seleccionados de una población. Variabilidad: Por variabilidad se entiende por observaciones sucesivas de un sistema o fenómeno que no producen el mismo resultado. Parámetro: Es una medición numérica que describe alguna característica de una población. Estadístico: Es una medición numérica que describe alguna característica de una muestra. Datos Cuantitativos: consisten en números que representan conteos o mediciones. Datos cualitativos: Se les llama también categóricos o de atributo, se distinguen en alguna característica no numérica. Datos Discretos: Resultan cuando el número de posibles valores es un número finito o bien un número que puede contarse. Es decir el número de posibles valores 0, 1, 2, 3, etc. Datos Continuos (numéricos): Resultan de un infinito de posibles valores que pueden asociarse a puntos de alguna escala continua, cubriendo un rango de valores sin huecos ni interrupciones.

1.1 Población y muestra. En el proceso de toma de decisiones, éstas deberán basarse en datos que describan el fenómeno estudiado, sin embargo, el recolectar datos sobre las características de todo un grupo de personas u objetos puede resultar impráctico o antieconómico. En vez de examinar todo el grupo, al que se le conoce como población o universo, se examina sólo una pequeña parte del grupo, al que se le llama muestra. Por ejemplo, si quisiéramos saber la estatura promedio de los estudiantes varones de la Facultad de Ingeniería Ensenada (FIE), todos los estudiantes varones serían la población o universo de estudio, si solo tomamos un grupo de 50 estudiantes varones de la FIE, este grupo sería la muestra. Las poblaciones pueden ser finitas e infinitas. Por ejemplo la manufactura de tablillas de circuitos en una empresa en determinado día (es finito) o el resultado de aventar una moneda al aire (águila o sello) que se pueden obtener lanzando una y otra vez una moneda (es infinita)

1.2 Inferencia estadística.

Si la muestra es representativa de la población, el análisis de la muestra permite inferir conclusiones válidas acerca de la población. A la parte de la estadística que se encarga de las condiciones bajo las

Universo

Muestra

Page 2: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 2

cuales dichas inferencias son validas se le conoce como estadística inferencial o inductiva. Sin embargo, como estas inferencias no pueden ser absolutamente ciertas, dado que no representan el 100% de los datos, se utilizan términos de probabilidad para relacionar las inferencias dadas. A la parte de la estadística que solamente trata de describir y analizar un grupo de datos, sin sacar conclusiones ni hacer inferencia acerca de la población donde fueron tomados, se les conoce como estadística descriptiva o deductiva.

1.3 Técnicas de muestreo.

Para que las conclusiones que se obtienen mediante la inferencia estadística sean validas, las muestras deben elegirse de manera que sean representativas de la población. Al estudio de los métodos de muestreo se le conoce como diseño de experimentos. Una manera de obtener una muestra representativa es mediante el muestreo aleatorio, en el que cualquier miembro de la población tiene la misma posibilidad de ser incluido en la muestra. Para realizar muestreo aleatorio, se pueden utilizar los números aleatorios de las calculadoras, tablas aleatorias o realizar sorteos, asignando números a los miembros y sacando los números de una urna sin que se sepa cuál es. Dentro del muestreo, si se extrae un número de una urna y antes de sacar otro número, este se vuelve a introducir a la urna, este tipo de muestreo se llama muestreo con reposición. Si no se vuelve a introducir se llama muestreo sin reposición.

1.4 Niveles de medición.

En el área de ingeniería, la mayoría de las veces se trabaja con muestras que han sido seleccionadas de una población, en general estos datos se recolectan de dos formas:

a) Estudio observacional implica que el procesos o sistema que se está estudiando solo puede ser observado y los datos solo se capturan conforme se van presentando o en su caso vienen de análisis de datos históricos (capturados anteriormente).

b) Experimento diseñado implica cambios deliberados o intencionados en las variables controlables del sistema, es decir, se diseña de tal forma que se obtienen datos en las condiciones deseadas del sistema o proceso analizado. Por ejemplo al elaborar un pastel, se experimenta el tiempo de horneado utilizando 5 diferentes tipos de harina, para cada tipo de harina, habrá un tiempo de horneado.

Experimento aleatorio es aquel que puede producir resultados diferentes, aun cuando se repita de la misma manera.

1.5 Distribución de frecuencias.

Al organizar una gran cantidad de datos, suele ser útil distribuirlos en clases o categorías y determinar la cantidad de datos que pertenecen a cada clase; esta cantidad se conoce como la frecuencia de clase y a la disposición (orden) de los datos en clases con sus respectivas frecuencias de clases se le conoce como distribución de frecuencia o tabla de frecuencia, es decir una tabla de que clasifica los datos por magnitud, en base al número de veces que ocurre un suceso individual o el número de sucesos que entran en un intervalo dado. A su vez el histograma es la representación gráfica de la tabla de frecuencias por medio de un diagrama de barras donde la altura de cada barra indica el número de veces que el número dado aparece en la serie, o el número de valores que caen dentro de un intervalo. En el caso de datos discretos, la tabla de frecuencias se elabora ordenando las observaciones en una columna, mientras que en una segunda columna se indica la frecuencia de clase o el número de veces que ocurrió ese suceso. En una tercera columna se indican la frecuencia acumulada, que es la suma de la frecuencia relativa a una clase y las que le anteceden. Ejemplo 1 Un edificio tiene 45 apartamentos con el siguiente número de inquilinos;

2 1 3 5 2 2 2 1 4 2 6 2 4 3 1 2 4 3 1 4 4 2 4 4 2 2 3 1 4 2

Page 3: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 3

3 1 5 2 4 1 3 2 4 4 2 5 1 3 4

Tabla de frecuencias sencilla

Número de personas Frecuencia de clase Frecuencia acumulada

1 8 8 2 14 22 3 7 29 4 12 41 5 3 44 6 1 45

Total: 45

Procedimiento para construir una tabla de frecuencias

1.- Localizar el dato menor y el dato mayor del grupo de datos. 2.- Calcular el rango (diferencia del dato mayor y el dato menor)

3.- Determinar el número de intervalos de clase a utilizar un número aproximado a .n

4.- Determinar el ancho de clase dividiendo el rango entre el número de intervalos calculado en el paso 3. Nota: si el ancho de clase no es un número entero, aumentar el rango a un número que se pueda dividir

entre el número de intervalos de clase .n

5.- Determinar los intervalos de clase, indicando los límites o fronteras de cada uno. 6.- Calcular la marca de clase o punto medio, sumando los límites de clase de cada intervalo y dividiendo esta suma entre 2. 7.- Localizar en el grupo de datos el número de valores que caen dentro de cada intervalo, el cual será su frecuencia. La suma de las frecuencias deberá ser igual a n. 8.- Calcular la frecuencia acumulada, sumando para cada intervalo su frecuencia con todas las frecuencias de los intervalos que lo anteceden. La frecuencia acumulada de la última clase deberá ser igual a n. 9.- Calcular la frecuencia relativa de cada clase, dividiendo su frecuencia entre el número de datos (n), es decir el porcentaje. 10.- Calcular la frecuencia relativa acumulada, es decir, el porcentaje de cada clase se suma y debe ser igual a 1. Ejemplo 2 Los siguientes son datos de la resistencia a la comprensión de 80 ejemplares de prueba de una aleación aluminio – litio, que se desea probar para la fabricación de partes de avión.

Resultados (en Psi)

105 221 183 186 121 181 180 143

97 154 153 174 120 168 167 141

245 228 174 199 181 158 176 110

163 131 154 115 160 208 158 133

207 180 190 193 194 133 156 123

134 178 76 167 184 135 229 146

218 157 101 171 165 172 158 169

199 151 142 163 145 171 148 158

160 175 149 87 160 237 150 135

196 201 200 176 150 170 118 149

Se elabora la tabla de frecuencias.

1.- 245max X 76min X

Page 4: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 4

2.- Rango= 16976245minmax XX

Nuevo Rango = 250-70=180

3.- # de intervalos = n=80 = 80 9

4.- Ancho de clase = 180/9 = 20 Tabla de frecuencias.

5.Intervalo de clase (Psi)

6.Marca de clase

7.Frecuencia 8.Frecuencia Acumulada

9.Frecuencia Relativa

10. Frec. Relativa Acumulada

70 X <90 80 2 2 0.0250 0.0250

90 X <110 100 3 5 0.0375 0.0625

110 X <130 120 6 11 0.0750 0.1375

130 X <150 140 14 25 0.1750 0.3125

150 X <170 160 22 47 0.2750 0.5875

170 X <190 180 17 64 0.2125 0.80

190 X <210 200 10 74 0.1250 0.925

210 X <230 220 4 78 0.0500 0.975

230 X <250 240 2 80 0.0250 1.0

1.6 Presentación gráfica de datos.

1.6.1 Gráfica de tallo y hoja

Es una forma adecuada de obtener una representación visual informativa de un grupo de datos

,,..., 21 nXXX donde cada número iX tiene al menos dos dígitos. Para construir un diagrama de tallo y

hoja, cada número iX se divide en dos partes: un tallo compuesto por uno o más de los primeros dígitos

y una hoja compuesta por los dígitos restantes. En general deberán elegirse relativamente pocos tallos en comparación con el número de observaciones. La mejor elección suele ser entre 5 y 20 tallos. Una vez que se ha elegido un conjunto de tallos, se enlistan en el margen izquierdo del diagrama. Enseguida de cada tallo se enlistan todas las hojas correspondientes a los valores de los datos observados en el orden en que se van encontrando en el conjunto de datos. En algunas ocasiones se ordenan las hojas de menor a mayor en cada tallo. A esta forma de presentación suele llamarse representación ordenada de tallo y hoja, la cual hace relativamente sencillo determinar características de los datos tales como los percentiles, los cuartiles y la mediana. Ejemplo 3 Utilizar los datos de la resistencia a la comprensión (ejemplo 1.5.2) para construir un diagrama de tallo y hoja.

Tallo Hoja Frecuencia

7 6 1

8 7 1

9 7 1

10 51 2

11 580 3

12 103 3

13 413535 6

14 29583169 8

15 471340886808 12

16 3073050879 10

17 8544162106 10

18 0361410 7

19 960934 6

20 7108 4

21 8 1

Page 5: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 5

22 189 3

23 7 1

24 5 1

1.6.2 Histograma El histograma es una gráfica de barras que se utiliza para representar datos del tipo numérico con un número muy grande de valores diferentes, es decir cuando los posibles valores que se miden pueden tomar un valor cualesquiera dentro de un intervalo dado, por ejemplo, la longitud de pernos o tornillos, el diámetro de los pistones para motor, etc., en esta clasificación interviene un número de casos donde se miden características físicas como peso, volumen, longitud, etc. En el caso de datos categóricos o discretos como el número de inquilinos del edificio (ejemplo 1.5.1), la base del histograma son precisamente la cantidad de inquilinos y en el eje Y se indica la frecuencia de cada clase como se muestra a continuación. Ejemplo 4

C1

Frec

uenc

ia

654321

14

12

10

8

6

4

2

0

Histograma para el número de inquilinos por departamento

Histograma de número de inquilinos En el caso de datos continuos como el ejemplo de la resistencia a la compresión del aluminio (psi), el ancho de la base de la barra es importante y ésta representa el ancho de la clase, mientras que la altura representa la frecuencia de clase; se debe mantener una escala tanto en el eje vertical como el horizontal, a diferencia de la gráfica de barras común donde lo que se cuida es la escala del eje vertical y el ancho de barras es en forma arbitraria, cuidando únicamente la estética de la misma. Al igual que la gráfica de barras, se recomienda que la altura del histograma sea 3/4 de la base de todo el histograma. Procedimiento Para Hacer los Histogramas: 1. Seleccionar la escala para hacer la gráfica, se recomienda que la altura sea 3/4 de la base

aproximadamente y dibujar los ejes x-y. 2. Seleccionar la escala de la base, de tal forma que se pueda ajustar todas las clases más una extra de

cada lado, en este caso la base de cada barra representa el ancho de la clase. 3. Seleccionar una escala en el eje de las y, el cual representa la frecuencia o frecuencia relativa, esta

escala debe ser ajustada para representar la frecuencia de clase mayor. 4. Dibujar la primera barra, la cual representa la primera clase, la altura representa la frecuencia de

ocurrencia o frecuencia relativa. 5. Repetir el paso 4 hasta tener todas las barras como se ha mencionado anteriormente.

Page 6: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 6

Ejemplo 1.6.2.2

Histograma de los datos de la compresión del aluminio (del ejemplo 1.5.2) 1.6.3 Polígono de frecuencias. El polígono de frecuencias, a diferencia del histograma, es una gráfica de líneas y como su nombre lo dice, es un área delimitada por varias líneas, las cuales representan los lados. Los vértices son compuestos de las marcas de clase y las frecuencias, tomando en cuenta una clase anterior a la primera y otra posterior a la última con frecuencia cero, la razón de utilizar estas dos clases con frecuencia cero, es para cerrar el polígono con el eje horizontal. Ejemplo 1.6.3

Polígono de frecuencia de la compresión del aluminio 1.6.4 Ojivas Las ojivas porcentuales, son las gráficas de polígono de frecuencias, solo que en lugar de utilizar las frecuencias de cada clase, se utiliza las frecuencias acumuladas relativas en cada clase, a la respectiva distribución se le conoce como distribución de frecuencias acumuladas relativas. A continuación se muestra la ojiva porcentual de los datos de la compresión del aluminio.

Ancho de Clase

Fre

cuencia

de c

lase

Page 7: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 7

Ejemplo 1.6.4

Ojiva Porcentual de la compresión del aluminio. 1.6.5 Diagrama Pareto

El diagrama de Pareto es de gran importancia debido a sus aplicaciones en diferentes disciplinas del conocimiento, originalmente, éste fue utilizado para representar el principio del economista Wilfredo Pareto, de donde salió el nombre y quien estableció que aproximadamente el 80% de las riquezas, las poseían el 20% de las personas, mientras que el 20% de éstas las poseían el otro 80% de las personas, este principio describe muy bien la forma en que los bienes están distribuidos dentro de la población y ha sido extrapolado a otros campos como el control de la calidad donde se estableció el “Principio Pareto”, “Pocos vitales, muchos Triviales” o “Regla 80-20” y que establece que el 80% del efecto observado en un sistema o proceso son producidos por el 20% de las causas, mientras que el otro 20% de efecto, es ocasionado por el 80% de las causas restantes, por lo tanto se utiliza para detectar las causas de efectos más importantes en un sistema o proceso. La elaboración es parecida a la gráfica de barras común, solo que en el diagrama Pareto se ordenan de izquierda a derecha, los datos con mayor frecuencia de clase y además se indica por la parte superior mediante una línea, la frecuencia relativa acumulada, esto último para poder ver cuales clases o grupo de datos son los más representativos del fenómeno estudiado. Ejemplo 1.6.5.1

Fre

cue

nci

a

Pe

rce

nt

Compresión

Count

Percent 27.5 21.3 17.5 12.5 7.5 5.0 3.8 5.0

Cum %

22

27.5 48.8 66.3 78.8 86.3 91.3 95.0 100.0

17 14 10 6 4 3 4

Other

90≤X<

110

210≤

X<230

110≤

X<130

190≤

X<210

130≤

X<150

170≤

X<190

150≤X<

170

90

80

70

60

50

40

30

20

10

0

100

80

60

40

20

0

Diagrama Pareto

Diagrama Pareto de los datos de la compresión del aluminio (del ejemplo 1.5.2)

1.7 Medidas de tendencia central

Fre

cuencia

de c

lase

Page 8: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 8

Media: Es el valor promedio de todos las observaciones del conjunto de datos que puede ser una muestra o una población. Por lo general, estos datos son una muestra de observaciones que se ha seleccionado de una población de observaciones más grande. Media muestral. Si se trata de datos de una muestra, la cantidad total de observaciones de esa muestra se denota con

“n”. Si las “n” observaciones de una muestra se denotan por 1x , 2x … nx , entonces la media muestral es:

n

xxxX n

...21=

n

xn

i

i1

Media poblacional. Si se trata de datos de una población, la cantidad total de observaciones de esa población se denota “N”.

Si las “N” observaciones de una población se denotan por 1x , 2x … Nx , entonces la media poblacional

es:

N

xN

i

i 1

Mediana: Es una medida de tendencia central que divide los datos ordenados de menor a mayor, en dos partes iguales, una mitad queda debajo de la mediana y la otra mitad queda arriba de ella. Si el número de observaciones es par, la mediana está a la mitad de dos valores centrales y si el número de observaciones es impar, la mediana es el valor central. Caso 1: Si el número de observaciones es impar:

Mediana 2

1~

nX

Caso 2: Si el número de observaciones es par:

Mediana 2

122~

nyn

X

Moda: Es el valor de los datos que se repite con mayor frecuencia. Comparación entre la media y la mediana Aunque la media y la mediana nos sitúan de alguna forma en el centro, la media es sensible a la magnitud de los valores de cada uno de sus lados mientras que la mediana solo es sensible al número de valores de dichos lados. Ejemplo 1.7.1 El propietario de una pequeña empresa tiene 15 empleados. 5 ganan $25.000 al año, 7 ganan de $30.000 y 3 de $40.000. El sueldo anual del propietario es de $153.000. (a) Hallar la media y la mediana de los sueldos de las 16 personas de la empresa. (b) Hallar la media y la mediana de los sueldos si se incrementa el sueldo del propietario en $80.000.

a) La media del salario es:

16

000.153$000.40$3000.30$7000.25$5 = 000,38

16

000,608

b) La mediana del salario es:

Page 9: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 9

Número par n=16

9,82

12

,2~

nn

X

El valor 8 es 30,000 y el valor 9 es 30,000

000,30

2

000,30000,30~

X

Salarios Frecuencia Frecuencia Acumulada

25.000 5 5 30.000 7 12 40.000 3 15 153.000 1 16

c) Nuevo Salario Medio:

000.4316

000.688

16

000.80000.608

Nota: La Mediana seguirá siendo la misma.

1.8 Medidas de dispersión

Varianza: Es un valor numérico que describe la variabilidad o dispersión de los datos.

Si 1x , 2x … nx es una muestra de n observaciones, entonces la varianza muestral es:

1

1

2

2

n

Xx

S

n

i

i

Si 1x , 2x … Nx es una población de N observaciones, entonces la varianza poblacional es:

N

xN

i

i

1

2

2

Desviación estándar: Es la mediad más usual de la variabilidad y mide qué tan esparcidos están los datos respecto a la media. Es igual a la raíz cuadrada de la varianza. Desviación estándar muestral

1

1

2

n

Xx

S

n

i

i

1

...22

2

2

1

n

XxXxXxS n

Donde x1, x2,…,x n son observaciones numéricas de la muestra, n su tamaño y es la media muestral

Desviación estándar poblacional

N

XN

i

i

1

2

N

xxx N

22

2

2

1 ...

Donde x1, x2,…,x n son observaciones numéricas de la población, N el tamaño y es la media poblacional

Page 10: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 10

Rango: Es la diferencia entre el valor más grande y el más pequeño de un conjunto de datos.

Si las observaciones de una muestra se denotan por 1x , 2x … nx entonces el rango muestral es:

r = max ii XX min

Significado de la desviación estándar en un grupo de datos.

Consideremos las dos muestras con los siguientes valores numéricos

X S

Serie A 12 10 9 9 10 10 1.22 Serie B 5 10 16 15 4 10 5.52

Ejercicio 1. Conteste las siguientes preguntas. ¿Por qué tienen la misma media? ¿Por qué tienen diferente desviación estándar?

Media para datos agrupados:

X =

n

nn

ffff

XfXfXfXf

...

...

321

332211

n

i

i

n

i

ii

f

Xf

1

1

Donde: nXXX ..., 21 son las marcas de clase

Mediana para datos agrupados: Se calcula utilizando la distribución de frecuencias acumuladas. Varianza muestral para una distribución de frecuencias.

2S

1...

...

21

22

22

2

11

n

nn

fff

XXfXXfXXf

11

1

2

n

i

i

n

i

Ii

f

XXf

Donde: nXXX ..., 21 son las marcas de clase.

La media para datos agrupados es:

X =

80

240222042001018017160221401412061003802

X = 80

4808802000306035201960720300160

X = 13080 / 80= 163.5 La mediana para datos agrupados es:

X~

=

2

122

nyn

valores 41,40

X~

=

2

160160= 160

Page 11: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 11

Varianza muestral para una distribución de frecuencias.

222222 5.163160225.163140145.16312065.16310035.163802 S

+ 15.16324025.16322045.163200105.16318017 2222 n

2S = 13944.5+12096.8+11353.5+7731.5+269.5+4628.25+13322.5+12769+11704.5

2S = 79

05.878201111.646

S =33.34

Ejemplo 1.8.1 Supongamos que la temperatura (en grados Fahrenheit) medidas a las 6:00 pm Durante un periodo de 35 días son las siguientes:

72 78 86 93 106 107 98 82 81 77 87 82

91 95 92 83 76 78 73 81 86 92 93 84

107 99 94 86 81 77 73 76 80 88 91

Con estos datos construir una tabla de frecuencias con su histograma correspondiente, además de calcular su media, mediana y desviación estándar.

1.- 107max X 72min X

2.-rango=107-72=35 4070110 rangoN

3.-No. de intervalos= "8"691.535

4.-Ancho de clase= 58

40

5.-Intervalo de clase 6.-Marca de clase 7.-Frecuencia 8.-Frecuencia Acumulada

70 X <75 72.5 3 3

75 X <80 77.5 6 9

80 X <85 82.5 8 17

85 X <90 87.5 5 22

90 X <95 92.5 7 29

95 X <100 97.5 3 32

100 X <105 102.5 0 32

105 X <110 107.5 3 35

Page 12: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 12

1.9 MEDIDAS DE POSICIÓN: CUARTILES Y PERCENTILES

1.9.1 Cuartiles. Cuando un conjunto ordenado de datos se divide en cuatro partes iguales, el valor que marca cada una

de estas divisiones se le conoce como cuartil o cuartil inferior, ,1q es un valor que tiene aproximadamente

una cuarta parte (25%) de las observaciones abajo de él y aproximadamente 75% de las observaciones

arriba. El segundo cuartil, 2q , tiene aproximadamente la mitad (50%) de las observaciones abajo de su

valor es exactamente igual a la mediana. El tercer cuartil, ,3q tiene aproximadamente tres cuartas partes

(75%) de las observaciones debajo de su valor. Percentiles

Supongamos “ n ” valores colocados en orden creciente. El Percentil “ k ” que llamamos kP , es el numero

para el cual el “ k ” por ciento de los valores son menores de kP , y el (100-k) por ciento son superiores.

Los Percentiles más utilizados son el 25P , 50P Y 75P , los cuales se corresponden en el cuartil número 1

1q , el cuartil número 2 2q y el cuartil número 3 3q respectivamente. Concretamente kP se define

como siguiente:

Primero: Calcular 100

kn y partirlo en su parte entera I y su parte decimal D, es decir:

DIkn 100

1IValor Cuando 0D

2

1 IValorValorI Cuando D 0

Ejemplo 1.9.1

Supongamos 50 datos colocados en orden creciente. Hallar 35Pa y 30Pb .

a) Dado 50n y 35k así

I D

0,5.0175.17100

5035100

dadoDkn

Entonces 181 IPk .181835 valorP

b) Dado 50n y 30k

I D

kP

Page 13: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 13

dadokn ,0150.15100

1500100

5030100

0queD

Entonces

2

1615

2

130

valorvalorIvalorvalorIP

Ejercicio encontrar: P25, P50 y P75 para:

a) Los datos para la resistencia a la compresión (ejemplo 1.3) b) Los datos de las temperaturas (ejemplo 1.4)

a)

1442

145143

2

21200.20

1008025

100 25125

PqPkn

5.161

2

163160

2

41400.40

1008050

50250

PqP

181

2

181181

2

61600.60

1008075

75375

PqP

b) 35,,, 755025 nPPP

789175.8100

352525125 valorIvalorPqp

86185.17

1003550

50250 valorPqP

932725.26

1003575

75375 valorPqP

1.9.3 Gráfica de caja. El diagrama de tallo y hoja y el histograma proporcionan una impresión visual acerca de un conjunto de datos, mientras que el promedio y la desviación estándar muéstrales proporcionan información cuantitativa acerca de las características especificas de los datos. El diagrama de caja es una representación gráfica que muestra simultáneamente varias características importantes de los datos, tales la localización o la tendencia central, la dispersión o variabilidad, el apartamiento de la simetría y la identificación de observaciones que se localizan inusualmente lejos del grueso de los datos (a estas observaciones se les conoce como puntos atípicos). Un diagrama de caja muestra los tres cuartiles así como el mínimo y el máximo de los datos, en una caja rectangular alineada sea horizontal o verticalmente. La caja abarca el rango intercuartílico con el lado

izquierdo (o inferior) en el primer cuartil 1q y el lado derecho (o superior) en el tercer cuartil 3q . Se traza

una línea por la caja en el segundo cuartil (que es quincuagésimo percentil o la mediana).Se extiende una línea de ambos extremos hasta los valores más lejanos. Estas líneas suelen llamarse “bigotes”. En algunos programas de computadora los bigotes solo se extienden a lo sumo una distancia de

135.1 qq de los extremos de la caja y las observaciones localizadas después de estos límites se

marcan como puntos atípicos potenciales. Esta variante se conoce como el diagrama de caja modificado. Ejemplo 1.9.2 Construir un diagrama de caja con los datos de la siguiente tabla, los cuales son diámetros (en mm) de las perforaciones en un grupo de 12 sub-ensambles del borde principal de las alas para un avión de transporte comercial.

Tabla de datos para los diámetros: paso 1: Ordenar los datos…

120.5 120.4 120.7

Page 14: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 14

Fórmula: 100

kn

0.3100

12251 q

35.120

24.1203.120

1

q

0.6100

12502 q

60.120

27.1205.120

2

q

0.9100

12753 q

9.120

29.1209.120

3

q

Rango Intercuartílico= 55.035.1209.12013 qq

Límite superior (bigote)= 73.12155.05.19.1205.1 133 qqq

Límite inferior (bigote)= 53.11955.05.135.1205.1 131 qqq

NOTA: No tiene valor atípico Ejercicio: Hacer el diagrama de caja para los datos de la resistencia a la compresión. Ejemplo 1.9.3 Un ingeniero de desarrollo de productos está interesado en maximizar la resistencia o la tención de una nueva fibra sintética que se empleará en la manufactura de tela para camisas de hombre. El ingeniero sabe por experiencia que la resistencia es influida por el porcentaje de algodón presente en la fibra. Además él sospecha que elevar el contenido de algodón incrementará la resistencia, al menos inicialmente entre 10% y 40% para que la tela resultante tenga otras características de calidad que se desean (como capacidad para recibir un tratamiento de planchado permanente). El ingeniero decide probar muestras a cinco niveles de porcentaje de algodón: 15, 20, 25, 30 y 35%. Asimismo, decide ensayar cinco muestras a cada nivel de contenido de algodón. Los resultados se muestran en la siguiente tabla:

Porcentaje de algodón

Observaciones 1 2 3 4 5

15 7 7 15 11 9

20 12 17 12 18 18

25 14 18 18 19 19

30 19 25 22 19 23

35 7 10 11 15 11

Con esta información construir el diagrama de caja para cada porcentaje de algodón y decidir cual porcentaje es el que debe utilizarse. “Ordenar los datos para cada porcentaje “

Porcentaje de algodón

Observaciones 1 2 3 4 5

120.9 120.2 121.1

120.3 120.1 120.9

121.3 120.5 120.8

(1)120.1 (5)120.5 (9)120.9

(2)120.2 (6)120.6 (10)120.9

(3)120.3 (7)120.7 (11)121.1

(4)120.4 (8)120.8 (12)121.3

120.1 120.35 120.9

121.3

120.6

Page 15: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 15

15 7 7 9 11 15

20 12 12 17 18 18

25 14 18 18 19 19

30 19 19 22 23 25

35 7 10 11 11 15

Algodón al 15%

15,7

935.2100

550

min

22

maXX

valorqq

Algodón al 20 %

18,17,12 321 qqq 18,12 maxmin XX

Algodón al 25%

19,18,18 321 qqq 19,14 maxmin XX

Algodón al 30%

23,22,19 321 qqq 25,19 maxmin XX

Algodón al 35%

11,11,10 321 qqq 15,7 maxmin XX

% de Algodón

Re

sist

en

cia

PS

I

3530252015

25

20

15

10

5

% de

30

35

Algodón

15

20

25

11

22

1817

9

Resistencia por porcentaje de Algodón

Gráfica de cajas con valores de las medianas mostrados

11475.3

100575

7225.1100

525

33

11

valorqq

valorqq

Page 16: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 16

% de Algodón

Re

sis

ten

cia

PS

I

3530252015

25

20

15

10

5

% de

30

35

Algodón

15

20

25

11

22

1817

9

Resistencia por porcentaje de Algodón

Gráfica de cajas con valores individuales mostrados

1.10 Sesgo y Curtosis.

El sesgo de una distribución es su grado de asimetría o el grado en el que se aleja de la simetría. Si una curva de frecuencias de una distribución tiene una cola más larga hacia la derecha del máximo central que hacia la izquierda, se dice que la distribución es sesgada a la derecha, o que tiene sesgo positivo. Si ocurre lo contrario, se dice que es sesgada a la izquierda o que tiene un sesgo negativo. Una forma de calcular el sesgo es la siguiente:

La curtosis indica que tan puntiaguda es una distribución; pico relativamente alto (leptocúrtica), o si es relativamente aplastada se dice platicúrtica. Si no es puntiaguda ni muy aplastada se llama mesocúrtica.

Distribución puntiaguda con sesgo a la derecha.

Page 17: Texto Unidad I Estadistica Descriptiva

M.I. Julián Israel Aguilar Duque M. I. Diego Alfredo Tlapa Mendoza M.C. Jorge Limón Romero 17

Distribución mesocúrtica y con sesgo a la izquierda

Tipos de curtosis.