17
GUIA No. 3: Tablas de Distribución de Frecuencias INGENIERIA ELECTROMECÁNICA ESTADISTICA JORGE ERNESTO PRADA NIÑO PRESENTACION Una Tabla de Frecuencias es otro de los formatos que se usan para organizar y resumir los datos. Para comprender la técnica de la Distribución de frecuencias y dominar sus aplicaciones, es necesario manejar algunos conceptos con suficiente claridad, por lo tanto la Guía 3 profundiza en dichos conceptos, los tipos de Tablas de Distribución de Frecuencias y su adecuada utilización. OBJETIVOS Advertir la importancia de las distribuciones de frecuencias para la descripción de datos. Que el estudiante aplique las técnicas y recomendaciones que permiten elaborar cuadros o tablas seleccionando las más adecuadas de acuerdo al estudio. Aplicar los conceptos de frecuencia, marca de clase y distribución de frecuencias a un conjunto de da tos estadísticos. Construir diferentes tipos de distribuciones de frecuencias para conjuntos de datos. CONTENIDOS Tabulacion de la Información Tablas de Distribución de Frecuencias.

GUIA32009-OrganizaciondelaInformacio estadistica

Embed Size (px)

Citation preview

Page 1: GUIA32009-OrganizaciondelaInformacio  estadistica

GUIA No. 3: Tablas de Distribución de FrecuenciasINGENIERIA ELECTROMECÁNICA

ESTADISTICAJORGE ERNESTO PRADA NIÑO

PRESENTACION

Una Tabla de Frecuencias es otro de los formatos que se usan para organizar y resumir los datos. Para comprender la técnica de la Distribución de frecuencias y dominar sus aplicaciones, es necesario manejar algunos conceptos con suficiente claridad, por lo tanto la Guía 3 profundiza en dichos conceptos, los tipos de Tablas de Distribución de Frecuencias y su adecuada utilización.

OBJETIVOS

Advertir la importancia de las distribuciones de frecuencias para la descripción de datos.

Que el estudiante aplique las técnicas y recomendaciones que permiten elaborar cuadros o tablas seleccionando las más adecuadas de acuerdo al estudio.

Aplicar los conceptos de frecuencia, marca de clase y distribución de frecuencias a un conjunto de datos estadísticos.

Construir diferentes tipos de distribuciones de frecuencias para conjuntos de datos.

CONTENIDOS

Tabulacion de la Información Tablas de Distribución de Frecuencias.

DISTRIBUCIONES DE FRECUENCIA

La tabla de frecuencias tiene como finalidad presentar en forma ordenada los valores que toman las diferentes características, de tal manera que permita al lector tener una visión de conjunto, ya sea aclarando el texto del informe o complementándolo. Bajo este principio, los datos se clasifican y ordenan de acuerdo con ciertas características cualitativas y cuantitativas, indicándose el número de veces que se repite el atributo o la variable.

Veamos ahora cómo se elabora una tabla de frecuencias, tanto para la variable discreta como para la variable continua. Pero antes se representará la simbología que se utiliza en la elaboración de estas tablas, necesarias para el cálculo de las diferentes medidas que se aplican en el análisis de los datos.

Page 2: GUIA32009-OrganizaciondelaInformacio  estadistica

N = tamaño poblacional

n = tamaño de muestra

X1 = característica cuantitativa, observada en cada unidad investigada

fi = frecuencia absoluta. Número de veces que se repite cada valor de la variable.

% o hr = fi/n frecuencia porcentual o relativa. (Porcentual si se prefiere trabajar con una base de 100, o relativa si se trabaja con una base de 1) Se obtiene dividiendo cada frecuencia absoluta por el tamaño de la población. (Para indicar el porcentaje al anterior resultado se multiplica por 100%)

Fi = frecuencia absoluta acumulada.

Hi = frecuencia porcentual acumulada o frecuencia relativa acumulada.

m = número de marcas de clase; o número de intervalos.

Xi = variable discreta o marca de clase.

X’i - 1 - X’i = los intervalos en que se divide la variable continua siendo

X’i - 1 el limite inferior y X’i el limite superior del intervalo.

C = amplitud del intervalo entre X’i - 1 -- X’i

La elaboración de una tabla de frecuencias la explicaremos mediante un ejemplo:

Supongamos que se tienen 300 cajas de madera, en la bodega de un almacén, y cada una de ellas contiene platos de porcelana.

Se desea examinar las cajas con el fin de saber el número de platos que han sufrido desperfectos en el transporte, desde la fábrica hasta la bodega. Por motivos de tiempo, espacio físico y personal disponible, se toma la decisión de revisar un 10% de las cajas; por tal razón se tendrá 30 cajas de un total de 300.

N = 300 (tamaño de la población objetivo)

n = 30   (tamaño de la muestra)

Cada caja seleccionada, en forma aleatoria, se simboliza por xi (minúscula en la muestra, mayúscula en la población), donde el subíndice i toma valores desde uno hasta n, siendo x1 la primera caja seleccionada, x2 la segunda, y así sucesivamente. Cada xi tendrá como valor el correspondiente a la característica examinada; en este ejercicio le corresponderá el número de platos de porcelana desperfectos.

x1 = 2 x2 = 1 x3 = 1 x4 = 0 x5 = 3

Page 3: GUIA32009-OrganizaciondelaInformacio  estadistica

x6 = 3

x11 = 0

x16 = 2

x21 = 2

x26 = 2

x7 = 2

x12 = 2

x17 = 3

x22 = 2

x27 = 3

x8 = 1

x13 = 3

x18 = 0

x23 = 1

x28 = 2

x9 = 2

x14 = 1

x19 = 3

x 24 = 4

x29 = 1

x10 = 4

x15 = 2

x20 = 2

x25 = 3

x30 = 2

Tabla 4

La anterior tabulación la denominaremos, de ahora en adelante, datos sin agrupar.

Tabulación

En este proceso se requiere, en primer lugar, determinar los valores que toma la variable. Con los datos de la tabla anterior, correspondientes al número de platos desperfectos por caja examinada, encontramos que los valores son 0, 1, 2, 3, 4 tal como puede verse en la siguiente tabla:

# de platos

desperfectos

TABULACIÓN # de cajas fi hi

1a. Forma 2a. Forma

0 /// 3 0,10

1 /// // 6 0,20

2 /// /// ///   12 0,40

3 /// /// 7 0,23

4 // 2 0,07

TOTAL       30 1,00

Tabla 5

En las columnas de tabulación se presentan dos formas de realizar el conteo manual sobre el número de veces que se presenta cada valor que toma la variable, cada raya corresponde a una observación, evitando hacer acumulados de rayas, de esta manera /////, que luego al ser contados pueden dar lugar a equivocaciones, de ahí que sea preferible formar grupos de cuatro rayas (/// ó ) con lo cual disminuye la posibilidad de error que se puede presentar al hacer el recuento en grupos grandes.

Para la presentación de un informe se había anotado que todo cuadro requiere enumeración si hay varios, además del título completo que indique su contenido.

Page 4: GUIA32009-OrganizaciondelaInformacio  estadistica

Prescindiéndose de las columnas que utilizamos para la tabulación de la tabla 4 las que son reemplazadas por la frecuencia absoluta, con la posibilidad de agregar otra columna, correspondiente a la frecuencia relativa, la que nos indicará la distribución porcentual. En el mismo cuadro, por ejemplo: se tendrá que el 10% de las cajas no tienen platos defectuosos, porcentaje que se obtiene de dividir la frecuencia absoluta (tres) por el tamaño de la muestra (treinta) y luego multiplicar por 100 así:

Es importante destacar, en el caso de variables cualitativas, pueden ser analizadas, en parte, mediante el cálculo de porcentajes, y, al igual que las variables cuantitativas, se pueden representar gráficamente.

A medida que se incrementa el número de observaciones, se hace necesario condensar los datos en tablas apropiadas de resumen. Para ello, se acomodan los datos en grupos (intervalos) de clases (es decir, categorías) dividiendo en forma conveniente las observaciones. A este arreglo de datos en forma tabular se le denomina distribución de frecuencia.

Una distribución de frecuencia es una tabla-resumen en la que se disponen los datos divididos en grupos ordenados numéricamente, y que se denominan clases o categorías.

Cuando se "agrupan" o se les condensa en tablas de distribución de frecuencia es más manejable y significativo el proceso de análisis e interpretación de datos. En esa forma resumida es muy sencillo aproximar las principales características de los datos y de esta manera se compensa el hecho de que, al agrupar los datos se pierde alguna información inicial referente a las observaciones individuales. Para mejorar el análisis es deseable indicar en la tabla la frecuencia porcentual principalmente cuando se compara un conjunto de datos con otro y en especial si es distinto el número de observaciones de cada conjunto.

Al construir la tabla de distribución de frecuencia se debe prestar atención en:

1. Seleccionar el número adecuado de clases para la tabla1. Obtener un intervalo de "anchura" apropiado

2. Establecer los límites de cada clase para evitar traslapes.

Consideramos nuevamente la población de las cajas (N = 300) y seleccionemos aleatoriamente una muestra de 30 cajas (n = 30), o sea el 10%, a fin de investigar el peso en Kg de cada caja, se da en números enteros con el fin de simplificar el trabajo, sin olvidar que la medida (peso) utilizada admite valores fraccionarios (kilogramos y gramos), por tal motivo se le clasifica como variable continua.

x1 = 48 x7 = 70 x13 = 92 x19 = 85 x25 = 52

x2 = 56 x8 = 63 x14 = 70 x20 = 68 x26 = 58

x3 = 60 x9 = 72 x15 = 69 x21 = 82 x27 = 76

Page 5: GUIA32009-OrganizaciondelaInformacio  estadistica

x4 = 67 x10 = 76 x16 = 61 x22 = 55 x28 = 57

x5 = 47 x11 = 74 x17 = 71 x23 = 65 x29 = 72

x6 = 70 x12 = 67 x18 = 79 x24 = 88 x30 = 67

Tabla 6. Datos sin agrupar

En la elaboración de la tabla o cuadro de frecuencias, se realizan los siguientes pasos:

a. Se determina el valor máximo y mínimo que toma xi:

b. La diferencia que hay entre el valor máximo y el mínimo se denomina rango o recorrido:

c. Se hace necesario determinar el número de intervalos (m) que se utilizará para agrupar los datos:

m = número de intervalos o de clases

Una de las formas de obtener m es aplicando la regla de Sturges, con la cual se obtiene una aproximación aceptable sobre el número de intervalos necesarios.

Aplicando dicha fórmula al ejercicio de las 30 cajas, cuya información aparece en la tabla 6 se tendrá:

El número de intervalos de acuerdo a la regla de Sturges, estará entre 5 y 6.

Utilizaremos en nuestro ejercicio seis intervalos (m = 6).

En la práctica m se determina atendiendo varios factores, tales como: finalidad del estudio, grado de variabilidad de los datos, necesidad de efectuar comparaciones. En todo caso, se recomienda que el valor de m, hasta donde sea posible, no sea menor de 5, ni mayor de 16. Si no existen suficientes clases, o si hay demasiadas, la información que se puede obtener es reducida.

Page 6: GUIA32009-OrganizaciondelaInformacio  estadistica

d. Una vez determinado el número de intervalos, se debe decidir sobre el valor de la amplitud para cada intervalo:

C = amplitud del intervalo

Al determinar el valor de C, no es necesario que sea igual para todos los intervalos, tal como acontece en numerosos casos prácticos. Sin embargo, con fines de simplificaciones y de funcionalidad, se puede considerar el valor de C constante para todos los intervalos. Dicho valor constante se obtiene aplicando la fórmula siguiente:

En nuestro ejercicio se tendrá:

Para facilitar los cálculos se aproximaría C a 8; por lo tanto se altera el valor del rango. Si recordamos que m ya fue hallado y no se desea cambiar se tendrá:

Anteriormente:

Ahora :

El rango se incrementa en tres unidades, de 45 pasó a 48. El incremento debe ser distribuido ojalá proporcionalmente, sumando unas unidades al límite superior y restándole otras al límite inferior. Las situaciones que se pueden presentar al hacer la repartición del incremento se exponen a continuación.

Cualquiera de las situaciones siguientes en la determinación de los límites del nuevo rango son válidas, siendo preferible distribuir dicho incremento en forma proporcional.

Recorrido    

92 47 45 (originalmente) 95 47 48    94 46 48 (nuevo rango) 93 45 48     92 44 48    

Page 7: GUIA32009-OrganizaciondelaInformacio  estadistica

Esta es la razón por la cual se tomará como , a 94 y , a 46.

e. La columna correspondiente a la variable continua se simbolizará por:

(ambas minúsculas para la muestra y en la población deberán ser mayúsculas).

= Límite inferior del intervalo

= Límite superior del intervalo.

f. La tabla 7 sobre frecuencias se basa en la información correspondiente al peso de cada una de las 30 cajas examinadas.

Para la elaboración de los intervalos, se inicia con la determinación del valor , en el nuevo rango, siendo en nuestro caso 46, El cual se toma como límite inferior (X0) del primer intervalo, luego se procede a agregarle el valor de la amplitud para así obtener el límite superior (X1), que será a su vez el límite inferior del segundo intervalo, al cual se le agrega nuevamente el valor de C para obtener el límite superior del segundo intervalo, y así sucesivamente hasta conformar la columna de la variable continua.

Peso (kg)

Intervalos

.X’i - 1 - X’i

Registro de la

frecuencia frecuencia

absoluta

frecuencia

relativa

frecuencia

acumulada

frecuencia relativa

acumulada

Marca de

clase

46,1 -- 54 3 0,10 3 0,10 50

54,1 -- 62 6 0,20 9 0,30 58

62,1 -- 70 10 0,33 19 0,63 66

70,1 -- 78 6 0,20 25 0,83 74

78,1 -- 86 3 0,10 28 0,93 82

86,1 -- 94 2 0,07 30 1,00 90

S ---- 30 1,00 ---- ---- ----

Se observará también que a cada uno de los límites inferiores de los intervalos se les agregó 0,1, con el fin de facilitar la clasificación de cada observación, así por ejemplo X6 = 70 estaría considerada en el intervalo 62,1 -- 70 y no en el intervalo de 70,1 -- 78, procedimiento que evita la dificultad al no saber donde clasificar dicho valor al tener intervalos, tales como (62 -- 70) y (70 -- 78). Debe quedar bien claro que la amplitud del intervalo sigue siendo 8 y que el 0,1 es usado únicamente como ayuda para la clasificación.

Otras formas de clasificar la información de la tabla 7 pueden ser la siguiente:

Page 8: GUIA32009-OrganizaciondelaInformacio  estadistica

Tabla 8 Tabla 9

46 - 53,9 46 - 52

54 - 61,9 53 - 59

62 - 69,9 60 - 66

70 - 77,9 67 - 73

78 - 85,9 74 - 80

86 - 93,9 81 - 87

     88 - 94

En la tabla 8 el valor de X = 70 quedará incluido en el intervalo 70 -- 77,9.

En la tabla 9 se aumentó el número de intervalos a 7 y el tamaño del intervalo pasó a ser 7 porque en este caso, C =(52-46) + 1=7.

En la tabla de frecuencia (tablas 7) la columna simbolizada por se denomina marca de clase, la cual sirve para facilitar el cálculo de algunas medidas de posición y de dispersión, la marca de clase o punto medio se puede obtener de tres formas diferentes:

1. Como promedio de los límites de cada intervalo, (tomando los datos de las tablas 7):

       . . .    .

       . . .    .

       . . .    .

       . . .    .

2.

Page 9: GUIA32009-OrganizaciondelaInformacio  estadistica

3. Si la amplitud (C) del intervalo es constante, basta con determinar la primera marca de clase, de acuerdo con el método anterior, luego se le va sumando el valor de la amplitud, tal como se presenta a continuación:

3. Otro método para hallar las marcas de clase (Xi) consiste en dividir la amplitud de cada intervalo por dos, luego, este resultado se le suma al límite inferior del respectivo intervalo.

Nota:

En una variable, ya sea discreta o continua, cuando las frecuencias absolutas o relativas equidistantes a un valor central son iguales, se dice, que la distribución es simétrica como se puede observar en la tabla 10 y 11.

Artículos adquiridos por persona

(Variable discreta)

Peso de cajas despachadas

(Variable continua)

3 2 0,10 Menos de 30 8 0,10

6 5 0,25 30,1 - 46 12 0,15

9 6 0,30 46,1 - 54 20 0,25

12 5 0,25 54,1 - 70 12 0,25

15 2 0,10 70,1 - 78 20 0,15

20 1,00 78,1 y más 8 0,10

            80 1,00

Page 10: GUIA32009-OrganizaciondelaInformacio  estadistica

Tabla 10 y tabla 11

PROPIEDADES DE LAS FRECUENCIAS

Las frecuencias absolutas son números enteros. Y la suma de las frecuencias absolutas es igual al tamaño de la muestra (n) o al de la población (N):

Observando la tabla 7 se tendrá que:

 2. Las frecuencias relativas son números fraccionarios (mayores que 0 y menores que 1):

Y La suma de las frecuencias relativas es igual a 1:

Con los datos de la tabla 7 se comprobará que la suma de es igual a 1:

3. El último término de las frecuencias absolutas acumuladas es igual a n:

(Datos de la tabla 7)

4. El último término de las frecuencias relativas acumuladas es igual a 1.

(Datos de la tabla 7)

Page 11: GUIA32009-OrganizaciondelaInformacio  estadistica

ACTIVIDADES EXTRATUTORIALES

1. Defina que es una tabla de Distribución de Frecuencias y explique para que sirve.

2. Explique en que se diferencia una Tabla de Distribución de Frecuencias Simple y una Tabla de Distribución de Frecuencias Agrupadas y en que casos se utiliza cada una.

3. Escriba el significado de cada una de las siguientes palabras:

ClaseIntervalo de claseLímites de ClaseMarca de ClaseFrecuencia de claseRango o RecorridoFrecuencia AbsolutaFrecuencia Relativa

4. Enuncie los Pasos que se deben seguir para construir una Tabla de Distribución de Frecuencias.

5. ¿En que consiste la Regla de Sturges y para que sirve?

ACTIVIDADES TUTORIALES

EVALUACION

6. Según la regla de Sturges ¿Cuántas marcas de clase calcularía usted cuando:a) n = 50b) n = 200c) n = 1000d) Conteste Si o No a la siguiente afirmación: La amplitud del intervalo es la

diferencia que hay entre el límite superior e inferior de cada intervalo.

7. En un grupo de familias considerando el numero de hijos, se han obtenido los siguientes valores:

2 0 2 4 4 6 6 4 6 7 4 4 7 4 2 0 4 6 7 7 Construir una tabla de frecuencias simple, con base en los anteriores datos. Debe contener las siguientes columnas: Dato, frecuencia absoluta, frecuencia relativa, frecuencia absoluta acumulada, frecuencia relativa acumulada.

Page 12: GUIA32009-OrganizaciondelaInformacio  estadistica

8. Las estaturas (en centímetros) de los socios de un club de jóvenes, son las siguientes:

153 123 129 132 147 138 137 134 131 147138 128 134 148 125 139 146 145 148 135152 128 146 143 138 138 122 146 137 151145 124 132 138 144 141 137 146 138 146152 136 160 159 157 150 160 142 148 130

Se pide agrupar los datos en una tabla de distribución de frecuencias con 6 intervalos.

9. Los siguientes son los números de venados observados en 72 sectores de tierra en un conteo de vida silvestre. Complete la siguiente tabla de distribución de frecuencias.

18 8 9 22 12 16 20 33 15 21 18 1313 19 0 2 14 17 11 18 16 13 12 68 12 13 21 8 11 19 1 14 4 19 162 16 11 18 10 28 15 24 8 20 6 7

21 0 16 12 20 17 13 20 10 16 5 1015 10 16 14 29 17 4 18 21 10 16 9

Intervalo de Clase

Marca de Clase

Frecuencia Absoluta

Frecuencia Relativa

Frecuencia Absoluta

Acumulada ascendente

Frecuencia Relativa

Acumulada ascendente

0 - 45 - 9

10 - 1415 - 1920 - 2435 - 2930 - 34

BIBLIOGRAFÍA

CHRISTENSEN Howard. Estadística Paso a Paso. México Editorial Trillas

MARTINEZ BENCARDINO CIRO. Estadística y Muestreo. Ediciones Ecoe

SPIEGEL, Murria. Estadística. Serie de Compendios Shaum. México 1991.

LEVIN Richard. Estadística para Administradores. Prentice Hall. Madrid 1981.

Page 13: GUIA32009-OrganizaciondelaInformacio  estadistica

DANIEL WAYNE. Estadística con aplicaciones a las ciencias sociales y a la educación

FREUND, SIMON. Estadística Elemental. Prentice Hall.

CYBERGRAFIA

www.uaq.mx/matematicas/estadisticas/xuni03.html

www.uaq.mx/matematicas/estadisticas/xcurso.html

www.thales.cica.es/rd/Recursos/rd98/Matematicas/01/contenido.html

www.fisterra.com/material/investiga/10descriptiva/10descriptiva.htm#Estadística%20descriptiva

http://www.elosiodelosantos.com/sergiman/div/estadist.html http://www.aulafacil.com/CursoEstadistica/CursoEstadistica.html

http://www.emagister.com/estadistica-descriptiva-cursos-871067.html