24
ESTADISTICA Introducción y conceptos básicos INTRODUCCIÓN Si bien el origen de la estadística es tan lejano como la civilización misma, no alcanzó un desarrollo notable hasta el surgimiento de los Estados ya que fue utilizada en muchos de sus asuntos, acontecimiento bajo el cual se convirtió en un instrumento preciso para describirlos utilizando elementos numéricos, de ahí viene el nombre de esta disciplina. La estadística es un método científico que encuentra aplicación en una gran diversidad de campos del saber humano y cuya utilidad, como quedó demostrado desde el siglo pasado, va más allá de la mera descripción, pues permite el descubrimiento de leyes y tendencias. Dentro de los muchos ejemplos que permiten ilustrar esto, basta con citar el caso del estadístico alemán Ernesto Engel (1821-1896) que adquirió renombre en el terreno de las investigaciones económicas y sociales al descubrir la ley que lleva su nombre y que se anuncia así: “Cuanto menor es el ingreso familiar, mayor es la proporción destinada a la compra de alimentos”. Con datos recabados en 1857, observó que esa proporción era de 62%, 55% y 50% en familias de clase baja, media y alta, respectivamente. Al difundirse esta ley, resultó evidente que cuando mayor es la parte del ingreso familiar que se invierte en alimentos, menor es la que se puede destinar a otros fines (vestido, salud, recreación, comodidades, etc.) y viceversa. Por esta razón, esa parte o proporción ha sido utilizada como unidad de medida del bienestar social. La Estadística se ha extendido ahora a la agricultura, biología, negocios, química, comunicaciones, economía educación, electrónica, medicina, física, ciencias políticas, psicología, sociología y otros muchos campos de la ciencia y la ingeniería. la estadística ha sido objeto de muchísimas definiciones , las cuales han obedecido, evidentemente, a las diferentes concepciones que se han tenido de ella a lo largo del tiempo. Sin embargo, será suficiente por ahora con que nos familiaricemos con una definición que responde a los objetivos de este curso: Estadística. Es un conjunto de procedimientos que sirven para

ESTADISTICA AP

Embed Size (px)

DESCRIPTION

NOTAS DE ESTADISTICA

Citation preview

Page 1: ESTADISTICA AP

ESTADISTICA Introducción y conceptos básicos

INTRODUCCIÓN

Si bien el origen de la estadística es tan lejano como la civilización misma, no alcanzó un desarrollo notable hasta el surgimiento de los Estados ya que fue utilizada en muchos de sus asuntos, acontecimiento bajo el cual se convirtió en un instrumento preciso para describirlos utilizando elementos numéricos, de ahí viene el nombre de esta disciplina.

La estadística es un método científico que encuentra aplicación en una gran diversidad de campos del saber humano y cuya utilidad, como quedó demostrado desde el siglo pasado, va más allá de la mera descripción, pues permite el descubrimiento de leyes y tendencias. Dentro de los muchos ejemplos que permiten ilustrar esto, basta con citar el caso del estadístico alemán Ernesto Engel (1821-1896) que adquirió renombre en el terreno de las investigaciones económicas y sociales al descubrir la ley que lleva su nombre y que se anuncia así: “Cuanto menor es el ingreso familiar, mayor es la proporción destinada a la compra de alimentos”. Con datos recabados en 1857, observó que esa proporción era de 62%, 55% y 50% en familias de clase baja, media y alta, respectivamente. Al difundirse esta ley, resultó evidente que cuando mayor es la parte del ingreso familiar que se invierte en alimentos, menor es la que se puede destinar a otros fines (vestido, salud, recreación, comodidades, etc.) y viceversa. Por esta razón, esa parte o proporción ha sido utilizada como unidad de medida del bienestar social.

La Estadística se ha extendido ahora a la agricultura, biología, negocios, química, comunicaciones, economía educación, electrónica, medicina, física, ciencias políticas, psicología, sociología y otros muchos campos de la ciencia y la ingeniería.

la estadística ha sido objeto de muchísimas definiciones , las cuales han obedecido, evidentemente, a las diferentes concepciones que se han tenido de ella a lo largo del tiempo. Sin embargo, será suficiente por ahora con que nos familiaricemos con una definición que responde a los objetivos de este curso:

Estadística. Es un conjunto de procedimientos que sirven para organizar y resumir datos, hacer inferencias a partir de ellos y transmitir los resultados de manera clara, concisa y significativa.

También podemos entender la estadística como la ciencia que permite responder a ciertas preguntas basándose en datos empíricos, es decir, en datos que se originan de la observación o la experiencia. Entendida así, diremos que es la ciencia que tiene que ver con los métodos que dan respuesta a determinadas cuestiones, mediante la recolección y la interpretación apropiadas de datos empíricos. Las observaciones o las experiencias que constituyen los datos pueden resultar de la investigación científica, de la actividad comercial o de la vida cotidiana. En cualquier caso, la estadística busca dar sentido a los datos; esto implica tanto la recolección como la interpretación de éstos. La recolección abarca el diseño de las investigaciones empíricas, la planeación de lo que se quiere observar, la calidad y suficiencia de la observación y el registro de los datos; la interpretación, el análisis y el resumen de los datos, la extracción de conclusiones a partir de ellos y el reporte y la presentación de los resultados

Para su estudio, la estadística se divide en dos grandes ramas: descriptiva e inferencial.

Page 2: ESTADISTICA AP

Estadística descriptiva. Es un conjunto de procedimientos que sirven, para organizar, describir y sintetizar datos, sin que las conclusiones que se extraigan de éstos rebasen su ámbito específico.

Por ejemplo, si al recolectar las calificaciones de un grupo de estudiantes en una asignatura determinada las resumimos diciendo que la calificación promedio es 7.5, estamos describiendo y sintetizando una característica de los datos; es decir, del total de calificaciones. La validez de esta descripción numérica atañe únicamente al grupo de estudiantes del cual provienen los datos y no encierra incertidumbre.

Estadística inferencial. Es un conjunto de procedimientos que se emplean para hacer inferencias y generalizaciones respecto a una totalidad, partiendo del estudio de un número limitado de casos tomados de esta última.

El medio empleado para el estudio estadístico es la enumeración o recuento. Enumerar es captar las características de los elementos sometidos a estudio y anotarlos o medirlos bajo las condiciones que se presentan. La estadística es, básicamente, un método de inducción basado en los grandes números y sus propiedades,(La Ley de los grandes Números, conocida también como Teorema de Bernoulli) con lo cual se eliminan los errores propios de la observación y se aumenta la validez de los resultados obtenidos.

Población. También llamada universo, es todo conjunto de personas, cosas u objetos con ciertas características comunes.

Por ejemplo: los estudiantes de preparatoria con promedio mínimo de 8 en el Estado de Michoacán en 2002; las fábricas de automóviles existentes en la República Mexicana hasta el 31 de diciembre de 2005; el conjunto de los números primos; el conjunto de las formas imaginables en que se puede repartir la riqueza nacional, etc. De estos ejemplos debe quedar claro que en estadística el concepto de población no se refiere necesariamente a personas ni objetos materiales. Tampoco tiene que estar integrada por un gran número de elementos. Si decimos “los números naturales < 10”, estaremos definiendo con precisión un universo que consta de muy pocos elementos.

Cuando se trata de elementos concretos, por ejemplo, estudiantes, fábricas de automóviles, ejidos, viviendas, etc., su definición rigurosa se alcanza, por regla general, añadiendo a la característica la ubicación o lugar y el periodo, es decir, el espacio de tiempo en el cual se considera válida esa característica. “Ejidos en el municipio de Córdoba hasta el 31 de junio de 1980”; viviendas con más de 3 habitaciones en Yucatán hasta el 30 de marzo de 1993”, etc. Cada uno de los componentes de una población recibe el nombre de elemento o unidad esencial, que puede ser individual o colectivo. En una población formada por estudiantes, el elemento o unidad esencial es “el estudiante”, cuyo carácter es, evidentemente, individual; en una población formada por fábricas de automóviles, el elemento es “la fábrica de automóviles”, de naturaleza colectiva, ya que se trata de un establecimiento en el que hay muchos obreros, empleados, departamentos, etc.

Definida una población cualquiera, se llama muestra a toda porción de elementos sacada de ella.

Page 3: ESTADISTICA AP

Si de una población formada por N elementos, se toma una parte de ellos, esta parte o subconjunto de la totalidad será una muestra. Gráficamente, universo (población), elemento y muestra se representa como en la figura siguiente:

Relatividad de los términos población, elemento y muestra

Consideremos un universo formado por todas las facultades de una universidad: cada facultad será un elemento de ese universo. Si tomásemos unas cuantas facultades, tendríamos una muestra (Fig. 1.2.2). No obstante, el universo objeto de estudio podría ser redefinido en un momento dado. Podríamos estar interesados en estudiar una facultad determinada, que sería un universo cuyos elementos podrían estar dados por sus profesores, alumnos, empleados, etc. (Fig. 1.2.4).

También podemos considerar como universo al conjunto de todas las universidades de un país. En este caso la universidad que inicialmente habíamos considerado pasa a ser un elemento del nuevo universo. Si tomásemos unas cuantas universidades del conjunto, esa porción o subconjunto pasaría a formar una muestra (Fig. 1.2.3).

Page 4: ESTADISTICA AP

Variable. Es toda propiedad o característica que admite variaciones dentro de un conjunto de objetos.

Se dice que algo varía si puede tomar por lo menos dos valores, grados o formas o, incluso, cuando una característica puede estar presente o ausente en una situación específica.

Dicho esto, podríamos estar de acuerdo en que nociones como sexo, número de hijos por familia, color de automóvil, número de huelgas anuales, nivel de estudios, etc., son variables, ya que son características que admiten por lo menos dos valores, grados o formas dentro de un universo determinado.

No obstante, la práctica docente enseña que, al empezar a familiarizarse con este tema, los alumnos suelen confundir la característica que admite variaciones con el universo o con los elementos del mismo. Compárese la lista del párrafo anterior con esta otra: persona, vivienda, lámpara, automóvil. Estos términos se refieren a objetos y no a características de objetos; por lo tanto, no son variables. Variables serían las características que quisiéramos indagar de esos objetos. Por ejemplo, de un universo formado por personas podríamos conocer su edad, lugar de nacimiento, nivel de escolaridad, clase social a que pertenecen, etc. Estas peculiaridades son variables. También son variables, de un universo formado por automóviles, su marca, modelo, color, potencia, etc., ya que son características que van cambiando de auto en auto.

Ejemplo 1.1 La tabla siguiente muestra la producción de azúcar en la zafra 1988/1989, en cuatro ingenios de los más importantes del país (Fuente: Manual Azucarero Mexicano, 1990):

En este caso la producción es una variable, porque se ha indagado en un mismo momento (zafra 88/89) y en diferentes fábricas.

Ingenio Producción (miles de ton.)

El potrero 154.8

Emiliano Zapata 116.9

San Cristóbal 153.3

Tala 115.3

Page 5: ESTADISTICA AP

Ejemplo 1.2. A continuación se muestra la producción de azúcar en el Ingenio El Potrero, durante cuatro zafras consecutivas (Fuente: Idem, p. 373):

También aquí la producción es una variable, porque se registra en una misma fábrica (Ingenio El Potrero) y en diferentes momentos.

TIPOS DE VARIABLES

Desde el punto de vista conceptual, existen tres tipos de variables: nominales, ordinales y cardinales.

Variables nominales. Son las mas simples y abundantes y su Única función es clasificar. Su variable operacional correspondiente es una escala nominal que sirve para clasificar las observaciones en un conjunto de categorías mutuamente excluyentes, cuyo orden de colocación es indistinto. A éstas se les puede asignar cifras u otros símbolos arbitrarios con el fin de distinguirlas; si son cifras, no tienen ningún valor intrínseco ni propiedades numéricas como en la aritmética.

En la tabla 1.3.1 observamos que los símbolos 1, 2, 3 y 4, si bien son los mismos que se emplean para representar números, no representan sino distritos de riego; es decir, carecen de propiedades numéricas. Además, el orden que se les dé en la tabla es indistinto, ya que sólo sirven para distinguir un distrito de otro.

Tabla 1.3.1

Distrito de Riego

Hectáreas sembradas

1 680

2 1200

3 300

4 500

Zafra Producción (miles de ton.)

84/85 138.2

85/86 160.4

86/87 158.0

87/88 146.6

Page 6: ESTADISTICA AP

Veamos ahora el siguiente ejemplo:

Véase que, a nivel de medición, estado civil en este ejemplo es un conjunto de cinco categorías mutuamente excluyentes, cuyo orden de colocación es indistinto, ya que pudimos haber puesto primero viudo o casado y terminar en soltero. Además, si a “soltero” le llamamos 1, a “casado” 2, etc., estas cifras carecen de propiedades numéricas, ya que sólo sirven para distinguir un estado civil de otro. Aprovecharemos esta explicación para señalar que es común también confundir la variable con sus categorías. Suele oírse que en un ejemplo como el anterior hay 5 variables; esto es un error. La variable es sólo una: estado civil, que en este caso tiene cinco categorías o posibilidades de respuesta en un universo determinado. Se debe hablar de las categorías “soltero” o “divorciado”, por citar algunas, pertenecientes a la variable “estado civil”. Otras variables nominales serían: sexo, nacionalidad, color de automóvil, tipo de lámpara, lugar de nacimiento, etc.

Variables ordinales. Clasifican las observaciones en categorías mutuamente excluyentes que exigen ordenación, ya que guardan entre sí relaciones de ‘mayor que”. Su variable operacional es una escala ordinal que va desde la categoría más baja a la más alta o viceversa, de modo que las observaciones queden en el orden apropiado. Estas, categorías tampoco tienen propiedades numéricas, aunque se las represente por cifras.

La expresión mutuamente excluyentes significa que si un elemento del universo es, digamos, soltero, no puede ser casado o cualquier otra modalidad del estado civil al mismo tiempo.

Variables cardinales. Son las más complejas. Su variable operacional es una escala cardinal que se caracteriza porque las diferencias iguales entre dos de sus puntos son iguales entre si. Las cifras asociadas a las categorías son efectivamente cuantitativas y, en consecuencia, se puede efectuar, con ellas operaciones aritméticas.

Las variables cardinales se dividen en continuas o discretas.

Continuas: Son las que pueden tomar cualquier valor dentro de un intervalo (edad, salarios, estatura, producción anual de azúcar, etc.).

Discretas: son las que toman sólo algunos valores dentro de un intervalo (hijos por familia, número de huelgas anuales, producción mensual de automóviles, etc).

Por ejemplo, la edad de los niños de una escuela primaria podría admitir como categorías posibles, las siguientes:

Page 7: ESTADISTICA AP

REDONDEO DE DATOS

El resultado de redondear un número como 72.8 en unidades es 73, pues 72.8 está más próximo de 73 que de 72. Análogamente, 72.8146 se redondea en centésimas (o sea con dos decimales) a 72.81, porque72.8146 está más cerca de 72.81 que de 72.82.

Al redondear 72.465 en centésimas nos hallamos ante un dilema, ya que está equidistante de 72.46 y de 72.47. Se adopta en tales casos la costumbre de redondear al entero par que preceda al 5. Así pues, 72.465 se redondea a 72.46, 183.575 se redondea a 183.58 y 116, 500,000 se redondea en millones a116, 000,000. Esta estrategia es particularmente útil para minimizar los errores de redondeo acumulados cuando se efectúa un gran número de operaciones.

DIGITOS SIGNIFICATIVOS Si una altura se anota con la mejor precisión posible como 65.4 in, eso significa que está entre 65.3 5 y 65.45. Los dígitos empleados, aparte de los ceros necesarios para localizar el punto decimal. Se llaman dígitos significativos o cifras significativas, del número. EJEMPLO 65.4 tiene tres cifras significativas. EJEMPLO 4.5300 tiene cinco cifras significativas. EJEMPLO .0018 — 0.0018 = 1.8 x 10-3 tiene dos cifras significativas.

EJ EM PLO .001800 = 0.001800 = 1.800 x 10-3 tiene cuatro cifras significativas.

Los números asociados a enumeraciones, por contraposición a los obtenidos por mediciones, son exactos y tienen una cantidad ilimitada de cifras significativas. No obstante, en algunos de estos casos puede resultar difícil decidir qué cifras son significativas sin información adicional. Así, el número 186,000,000 puede tener 3, 4, ..., 9 cifras significativas. Si se sabe que tiene cinco, es mejor escribirlo como 186.00

millones o bien 1.8600 x 108.

CALCULOS

Al efectuar cálculos que impliquen productos, divisiones y raíces de números, el resultado final no puede tener más dígitos significativos que el ingrediente con menor cantidad de ellos.

EJEMPLO 73.24 x 4.52 = (73.24)(4.52) = 331. EJEMPLO 1.648/0.023 = 72. EJEMPLO raíz cuadrada de 38.7 = 6.22. EJ EM PLO (8.416)(50) = 420.8 (si 50 es exacto).

Al hacer sumas y restas, el resultado final no puede tener más cifras significativas tras el punto decimal que el ingrediente con menor cantidad de ellas.

EJEMPLO 3.16 + 2.7 = 5.9. EJEMPLO 83.42 — 72 = 11. EJEMPLO 47.816 — 25 = 22.816 (si 25 es exacto).

AGRUPAMIENTO DE DATOS EN INTERVALOS DE CLASE

La práctica constante en el manejo de conjuntos de datos diversos numerosos, nos va haciendo desarrollar algunas técnicas útiles para agruparlos cuando es necesario. Por esta razón, basta que nos familiaricemos con una técnica básica que se ilustra a continuación:

Comprometidos en una investigación sobre los empleados de un supermercado, acopiamos datos sobre diversas variables, una de las cuales es la edad. La información es la siguiente:

Page 8: ESTADISTICA AP

1. Se localiza el menor y el mayor de los datos, y se escribe en columnas toda la serie ordenada de números naturales limitada por ellos. Luego, se van marcando los casos que caen en cada categoría. Terminado el conteo, se verifica que esté correcto y se anota a la derecha de las marcas el número equivalente a ellas; decir, la frecuencia de cada categoría. Esta simple estructura de columnas para la variable, las marcas y la frecuencia es una tabla de conteo.

Tabla 2.9.1

2. Se encuentra el recorrido de la variable, es decir, la diferencia entre el menor y el mayor de los datos y se le añade una unidad con el fin de tener el total de datos potenciales. (45-18)=27 27+1=28 Recorrido de la variable No. de datos potenciales

3. Se elige el número de intervalos que tendrá la tabla o la amplitud conveniente para cada intervalo. La práctica ha enseñado -y así lo sostienen diversos autores- que el número de intervalos no debe ser menor de 5 ni mayor de 20: Si es < 5, se pierden demasiados detalles; si es >20, aparte de no cumplir con el objetivo de presentar los datos de manera sintética, el análisis se toma difícil.

Fijado el número de intervalos -digamos 7 -, se divide el total de datos potenciales entre dicho número. El cociente indicará la anchura real de cada intervalo 28/7= 4 Identificaremos esa anchura por el símbolo j. Así, j = 4.

4. Se toma el menor de los datos recolectados como el límite inferior de la primera clase y se le suma (j-l) para obtener el límite superior. 18 + (j - 1) = 18 + 3 = 21 El límite inferior del segundo intervalo será el entero consecutivo mayor que el límite superior del primer intervalo, 22 en nuestro ejemplo, al cual se le suma (j - 1) para obtener el límite superior. 22 + (j - 1) = 22 + 3 = 25

El límite inferior del intervalo siguiente será 26 y el superior» 29, etc.

32 20 20 24 24 18 18 18 25 26 41 37 37 37 26 26 26 27 27 32 32 32 29 40 40 44 44 18 18 45 34 34 30 30 30 28 28 28 35 28 42 42 30 22 30 24 30 22 24 20 28 20 22 28 35 22 28 35 26 26 28 44 35 45 26 32 40 20 26 32

Page 9: ESTADISTICA AP

5. Establecidas todas las clases, se determina el total de datos que caen en cada clase, es decir, la frecuencia de clase.

FILAS DE DATOS Una fila de datos consiste en datos recogidos que no han sido organizados numéricamente, por ejemplo, las alturas de 100 estudiantes por letra alfabética. ORDENACIONES Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente. La diferencia entre el mayor y el menor se llama rango de ese conjunto de datos.

EJEMPLOS. (a) Disponer los números 17, 45, 38, 27, 6, 48, 11, 57, 34 y 22 en lista ordenada. (b) Determinar el rango de esos números. Solución (a) En orden creciente: 6, 11, 17, 22, 27, 34, 38, 45, 48, 57. En orden decreciente: 57, 48, 45, 38, 34, 27, 22, 17, 11, 6. (b) El menor es 6 y el mayor 57, luego el rango es 57 — 6 = 51.

Las calificaciones finales en Matemáticas de 80 estudiantes figuran en la tabla adjunta. 68 84 75 82 68 90 62 88 76 93 73 79 88 73 60 93 71 59 85 75 61 65 75 87 74 62 95 78 63 72 66 78 82 75 94 77 69 74 68 60 96 78 89 61 75 95 60 79 83 71 79 62 67 97 78 85 76 65 71 75 65 80 73 57 88 78 62 76 53 74 86 67 73 81 72 63 76 75 85 77

Hallar en esa tabla: (e) Las cinco más bajas.

(a) La calificación más alta. (f) La décima de mayor a menor. (b) La más baja. (g) El número de estudiantes con calificaciones de 75 o más.

(c) El rango. (h) Idem por debajo de 85.

(d) Las cinco más altas.

Distribuciones de frecuencias. Al resumir grandes colecciones de datos, es útil distribuirlos en clases o categorías, y determinar el número de individuos que pertenecen a cada clase, llamado frecuencia de clase. Una disposición tabular de los datos por clases junto con las correspondientes frecuencias de clase, se llama distribución de frecuencias (o tabla de frecuencias). La Tabla 2.1 es una distribución de frecuencias de alturas (con precisión de 1 pulgada) de 100 estudiantes varones.

Tabla 2.1. Alturas de 100 estudiantes varones de la Universidad XYZ

Page 10: ESTADISTICA AP

La primera clase (o categoría), por ejemplo, consta de las alturas entre 60 y 62 in, y se indica por el rango 60-62. Como hay 5 estudiantes en esta clase, la correspondiente frecuencia de clase es 5. Los datos así organizados en clases como en la anterior distribución de frecuencias se llaman datos agrupados.

INTERVALOS DE CLASE Y LIMITES DE CLASE

El símbolo que define una clase, como el 60-62 en la Tabla 2.1, se llama un intervalo de clase. Los números extremos, 60 y 62, se llaman límite inferior de clase (60) y límite superior de clase (62).

Un intervalo de clase que, al menos en teoría, carece de límite superior o inferior indicado, se llama intervalo de clase abierto. Por ejemplo, refiriéndonos a edades de personas, la clase «65 años o más» es un intervalo de clase abierto.

FRONTERAS DE CLASE. Si se dan alturas con precisión de 1 pulgada, el intervalo de clase 60-62 incluye teóricamente todas las medidas desde 59.5000 a 62.5000. in. Estos números, indicados más brevemente por los números exactos 59.5 y 62.5, se llaman fronteras de clase o verdaderos límites de clase; el menor (59.5) es la frontera inferior y el mayor (62.5) la frontera superior.

En la práctica, las fronteras de clase se obtienen promediando el límite superior de una clase con el inferior de la siguiente.

TAMAÑO O ANCHURA DE UN INTERVALO DE CLASE. El tamaño o anchura de un intervalo de clase es la diferencia entre las fronteras de clase superior e inferior. Si todos los intervalos de clase de una distribución de frecuencias tienen la misma anchura, la denotaremos por c. Para los datos de la Tabla 2.1, por ejemplo, la anchura del intervalo de clase es c = 62.5 — 59.5 = 3, 65.5 — 62.5 = 3.

MARCA DE CLASE. La marca de clase es el punto medio del intervalo de clase y se obtiene promediando los límites inferior y superior de clase. Así que las marcas de clase del intervalo 60-62 es (60 + 62)/2 = 61. La marca de clase se denomina también punto medio de la clase.

HISTOGRAMAS Y POLIGONOS DE FRECUENCIAS. Los histogramas y los polígonos de frecuencias son dos representaciones gráficas de las distribuciones de frecuencias. 1. Un histograma o histograma de frecuencias, consiste en un conjunto de rectángulos con: (a) bases en el eje X horizontal, centros en las marcas de clase y longitudes iguales a los tamaños de los intervalos de clase y (b) áreas proporcionales a las frecuencias de clase.

Altura

(in)

Número de

estudiantes

60-62

63-65

66-68

69-71

72-74

5 18 42 27 8

TOTAL 100

Page 11: ESTADISTICA AP

Un polígono de frecuencias es un gráfico de trazos de la frecuencia de clase con relación ala marca de clase. Puede obtenerse conectando los puntos medios de las partes superiores de los rectángulos del histograma.

DISTRIBUCIONES DE FRECUENCIAS RELATIVAS

La frecuencia relativa de una clase es su frecuencia dividida por la frecuencia total de todas las clases y se expresa generalmente como un porcentaje. Por ejemplo, la frecuencia relativa de la clase 66-68 en la Tabla 2.1 es 42/100 = 42%. La suma de las frecuencias relativas de todas las clases da obviamente 1, o sea 100 por 100. Si se sustituyen las frecuencias de la Tabla 2.1 por las correspondientes frecuencias relativas, la tabla resultante se llama una distribución de frecuencias relativas, distribución de porcentajes o tablas de frecuencias relativas.

Tabla 2.1. Alturas de 100 estudiantes varones de la Universidad XYZ

DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS Y OJIVAS

La frecuencia total de todos los valores menores que la frontera de clase superior de un intervalo de clase dado se llama frecuencia acumulada hasta ese intervalo de clase inclusive. Por ejemplo, la frecuencia acumulada hasta el intervalo de clase 66-68 en la Tabla 2.1 es 5 + 18 + 42 = 65, lo que significa que 65 estudiantes tienen alturas por debajo de 68.5 in. Una tabla que presente tales frecuencias acumuladas se llama una distribución de frecuencias acumuladas, tabla de frecuencias acumuladas, o brevemente una distribución acumulada, y se muestra en la Tabla 2.2 para la distribución de alturas de la Tabla 2.1.

Tabla 2.2

Altura (in)

Número de

estudiantes

Menor que 59.5

Menor que 62.5

Menor que 65.5

Menor que 68.5

0 5 23 65 92 100

Altura

(in)

Número de

estudiantes 60-62 63-65 66-68 69-71 72-74

5 18 42 27 8

TOTAL 100

Page 12: ESTADISTICA AP

Menor que 71.5

Menor que 74.5

Un gráfico que recoja las frecuencias acumuladas por debajo de cualquiera de las fronteras de clase superiores respecto de dicha frontera se llama un polígono de frecuencias acumuladas u ojiva, y se ilustra en la Figura 2.2 para las alturas de estudiantes de la Tabla 2.1. A ciertos efectos, es deseable considerar una distribución de frecuencias acumuladas de todos los valores mayores o iguales que la frontera de clase inferior de cada intervalo de clase. Como eso hace considerar alturas de 59.5 in o más, de 62.5 in o más, etc., se le suele llamar una distribución acumulada «o más», mientras que la antes considerada es una distribución acumulada «menor que».

MEDIDAS DE TENDENCIA CENTRAL: MEDIA, MEDIANA Y MODA (SERIES DE DATOS SIMPLES, SIN FRECUENCIA ASOCIADA)

Las medidas de tendencia central son categorías o puntos dentro del recorrido de una variable; se les llama de tendencia central porque en torno a ellas parecen agruparse los datos. Sirven para resumir todo un conjunto de valores; por ello bien se les puede considerar como sintetizadores. En general, cualquier medida de tendencia central es un valor medio, ya que éste, por definición, es todo valor que se halla entre dos extremos. Por esta razón a cada indicador de tendencia central se le nombra y define de manera diferente. Aunque existen diversos indicadores de esta índole, estudiaremos los tres de mayor utilidad para fines prácticos. Media aritmética

Es la más conocida de las medidas de tendencia central, aunque no con ese nombre. A ella nos referíamos desde que pasamos por las aulas de la enseñanza elemental, cuando nos preguntábamos, al término de un ciclo escolar, cuál era el “promedio” que habíamos obtenido, dándonos la respuesta con sólo sumar las calificaciones alcanzadas en las diferentes asignaturas y dividir el resultado entre el número de ellas. Se le conoce también con los nombres de valor medio, promedio aritmético o simplemente media. Se le simboliza con cualquiera de las letras convenidas para representar variables, coronada con una barrita. Se le define como la suma de un conjunto de cantidades dividida entre el número de ellas. En símbolos,

Fig. 2.2

Page 13: ESTADISTICA AP

donde X simboliza los datos de una variable y N, el número de ellos.

Si X = 6, 7, 8, 9, 10, su promedio aritmético es

Nótese que la media es un valor tal que si cada término del conjunto se sustituye por ese valor, resulta una suma igual a la de los términos del conjunto.

ΣX =6+7+8+9+10 =40

Σ = 8 +8 +8 +8 +8 = 5(8) = 40 Es decir, resulta evidente que la suma de los datos de una variable es igual al producto de su valor medio por el número de datos. ΣX=N

Mediana

Llamada también valor mediano, es el punto dentro del recorrido de una variable que supera a no más de la mitad de los datos y es superado por no más de la otra mitad. Dicho de otra manera: es un punto dentro de una distribución de datos que tiene la característica de dividirla en dos partes iguales. La identificaremos con el símbolo Me. Tratándose de series de datos sin frecuencia asociada, no se necesita ninguna fórmula para hallarla, pero es preciso ordenarlos de menor a mayor o viceversa.

En el ejemplo de los cinco datos usados para ilustrar el cálculo de la media, la mediana es 8, por que es el dato de la variable que supera a dos datos (6 y 7), que no son más de la mitad, y es superado por dos datos (9 y 10), que tampoco son más de la mitad. Si el número de datos de la variable es par, la mediana es la semisuma de los dos valores intermedios que satisfacen su definición. Supongamos que tenemos seis datos: 5,6,7,8,9,10

Entonces

Obsérvese que tanto 7 como 8 satisfacen la definición de mediana: 7 supera a 2 datos, que no son más de la mitad, y es superado por 3 datos, que tampoco son más de la mitad; 8 supera a 3 datos, que no son más de la mitad, y es superado por 2 datos, que tampoco son más de la mitad. Número de orden de la mediana Una forma rápida de obtención de la mediana, en una serie ordenada de datos, es determinar el número de orden que le corresponde . Para hallarlo basta con sumar una unidad al total de datos (N) y dividir entre dos.

Ejemplo. Determinar el valor mediano de las distribuciones siguientes, hallando primero el número de orden que les corresponde:

X = 12,13,17,21,23,25,30 Y = 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65,

Solución: Para X,

El valor mediano tiene número de orden 4, es decir, es el cuarto del conjunto de datos ordenados de menor a mayor. Me = 21

Page 14: ESTADISTICA AP

Para Y,

Como no puede haber número ordinal fraccionario, 6.5 indica que el valor mediano está comprendido entre los datos que ocupan el sexto y el séptimo lugar, lo cual implica hallar la semisuma de 35 y 40.

Moda También llamada modo o valor modal, es el dato de variable que aparece más veces en una distribución. En otras palabras: es el dato de variable que tiene mayor frecuencia. Se trata, de hecho, del caso más notorio o típico de una distribución de datos.

En la distribución 2,3,2,4,4,2,5 La moda es 2, pues es el dato que tiene mayor frecuencia: aparece 3 veces.

En la distribución 3, 4, 3, 4, 3, 4 No hay moda, porque ningún dato aparece más veces que otro.

Una distribución puede tener más de una moda si 2 ó más datos, o clases de datos, tienen la misma frecuencia y ésta es la más alta de la distribución. Así, según el número de modas que tengan, las distribuciones reciben nombres específicos: con sólo una moda, unimodal; con dos modas, bimodal; con tres modas, trimodal y con más de tres modas, multimodal.

CÁLCULO DE LA MEDIA, LA MEDIANA Y LA MODA (DATOS NO AGRUPADOS)

Una tabla como la 3.6.1 presenta una distribución de datos no agrupados, conocida también como distribución simple de frecuencias.

Tabla 3.6.1

Si preguntáramos ¿cuántos datos tiene esta distribución?, algunos podrían responder: cinco. Esta respuesta errónea tendría como origen el haber olvidado que se trata de una estructura que muestra las distintas categorías de la variable acompañadas de la frecuencia que les corresponde. Obsérvese que la 4 aparece 5 veces; la 6, 22 veces, etc. Podemos afirmar que existen cinco categorías, repetidas unas y otras de tal manera que sumadas dan 72. La distribución consta de 72 datos.

En una distribución de datos no agrupados, la media se obtiene mediante la fórmula

donde X representa cada dato de la variable; f, la frecuencia que le corresponde y Σf el total de datos (N). Para hallar la mediana se siguen dos pasos: se determina el número de orden que le corresponde sumando una unidad al total de datos N y dividiendo entre dos.

Page 15: ESTADISTICA AP

y se construye una distribución de frecuencias acumuladas, ascendente o descendente. La mediana es el dato de la variable cuya frecuencia acumulada contiene o señala su número ordinal. Y la moda es el dato de mayor frecuencia. Conocidos los términos que intervienen para encontrar la media y la mediana, resulta ventajoso, en un caso concreto, llenar primero una estructura donde todos ellos aparezcan claramente y hacer posteriormente las sustituciones y lecturas que se necesiten. La estructura es la siguiente:

Ejemplo. Un estudio sobre ausentismo de los obreros de la fábrica A en cierto mes del año, condujo a la tabla siguiente: Tabla 3.6.2

Solución: Se trata de la variable “número de ausencias” de tipo cardinal discreta. Asignémosle la letra Y y llenemos la estructura propuesta. Y = número de ausencias, en días. Tabla 3.6.3

Calcular e interpretar sus medidas de tendencia central.

Page 16: ESTADISTICA AP

CUARTILES, DECILES Y PERCENTILES Si un conjunto de datos está ordenado por magnitud, el valor central (o la media de los dos centrales) que divide al conjunto en dos mitades iguales, es la mediana. Extendiendo esa idea, podemos pensar en aquellos valores que dividen al conjunto en cuatro partes iguales. Esos valores, denotados Q1, Q2 y Q3, se llaman primer, segundo y tercer cuartiles, respectivamente. El Q2 coincide con la mediana.

Análogamente, los valores que dividen a los datos en 10 partes iguales se llaman deciles, y se denotan D1, D2,…, D9, mientras que los valores que los dividen en 100 partes iguales se llaman percentiles, denotados por P1, P2,…, P99. El 5º. decil y el 50.° percentil coinciden con la mediana. Los 25.° y 75.° percentiles coinciden con el primer y tercer cuartiles.

Tabla 3.3. que muestra una distribución de frecuencia de los salarios semanales de 65 empleados de una empresa.

Page 17: ESTADISTICA AP

Hallar: (a) los cuartiles Q1, Q2 y Q3, y (h) los deciles D1, D2,…, D9 para los salarios de los 65 empleados de la tabla 3.3.Solución

(a) El primer cuartil Q1 es el salario obtenido contando N/4 = 65/4 = 16.25 de los casos, comenzando con la primera clase (la más baja). Como la primera clase contiene 8 casos, debemos tomar 8.25 (16.25 — 8) de los 10 casos de la segunda clase. Por interpolación lineal se tiene

Q1 = $259.995 + ($10.00) = $268.25

El segundo cuartil Q2 se obtiene contando los primeros 2N/4 = N/2 = 65/2 = 32.5 caso Como las dos primeras clases contienen 18 casos, hay que tomar 32.5 — 18 = 14.5 de los 16 caso de la tercera clase, es decir

Q2 = $269.995 + ($10.00) = $279.06

Notemos que Q2 es la mediana.

El tercer cuartil Q3 se obtiene contando los primeros 3N/4 = (65) = 48.75 casos, Ya que 1 cuatro primeras clases contienen 48 casos, hemos de tomar 48.75 — 48 = 0.75 de los 10 casos la quinta; luego

Q3 = $289.995 + ($10.00) = $290.75

Por tanto, el 25% de los empleados ganan $268.25 o menos, el 50% $279.06 o menos, y 75% $290.75 o menos.

(b) Los deciles primero, segundo y noveno se obtienen contando N/10, 2N/10,…, 9N/ 10 casos a partir de la primera clase. Así pues,

D1= $249.995 + ($10.00) = $258.12 D6 = $279.995 + ($10.00) = $283.57

Page 18: ESTADISTICA AP

INTRODUCCION POBLACION Y MUESTRA VARIABLES DISCRETAS Y CONTINUAS REDONDEO DE DATOS NOTACION SISTEMATIZADA CIFRAS SIGNIFICATIVAS CALCULOS

TOMA DE DATOS

Page 19: ESTADISTICA AP

ORDENACION DISTRIBUCIONES DE FRECUENCIAS INTERVALOS DE CLASE LIMITES DE CLASE LIMITES REALES DE CLASE TAMAÑO DEL INTERVALO DE CLASE MARCA DE CLASE HISTOGRAMASY POLIGONOS DE FRECUENCIA DISTRIBUCIONES DE FRECUENCIA DISTRIBUCIONES DE FRECUENCIA ACUMULADA DISTRIBUCIONES DE FRECUENCIA RELATIVAS ACUMULADAS