20
Intervalo El intervalo semiabierto por la derecha [ a, b) es el conjunto de todos los números reales mayores o iguales que a y menores que b. [ a, b) = {x R| a x < b} Sector circular y ángulo central Un sector circular es la porción de círculo comprendido entre dos radios, y queda determinado por el ángulo que forman estos radios. Este ángulo se llama central. Estudio estadístico y variable estadística Se hace un estudio estadístico cuando se quiere obtener información sobre algún tema relacionado con un grupo de elementos similares. La información se obtiene a partir de una pregunta llamada variable estadística. Parámetros estadísticos Son valores que sintetizan la información contenida en una variable estadística. Algunos de ellos son la media, la mediana, la moda, la desviación típica, etcétera. ¿Recuerdas qué es…?

¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

Embed Size (px)

Citation preview

Page 1: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

Intervalo

El intervalo semiabierto por la derecha [a, b) es el conjunto de todos los números reales mayores o iguales que a y menores que b.

[a, b) = {x R| a ≤ x < b}

Sector circular y ángulo central

Un sector circular es la porción de círculo comprendido entre dos radios, y queda determinado por el ángulo que forman estos radios. Este ángulo se llama central.

Estudio estadístico y variable estadística

Se hace un estudio estadístico cuando se quiere obtener información sobre algún tema relacionado con un grupo de elementos similares. La información se obtiene a partir de una pregunta llamada variable estadística.

Parámetros estadísticos

Son valores que sintetizan la información contenida en una variable estadística. Algunos de ellos son la media, la mediana, la moda, la desviación típica, etcétera.

¿Recuerdas qué es…?

Page 2: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

11TÍTULAR (PUEDE SER DE DOS LÍNEAS)

Texto de introducción (ajustar la mancha de color al texto). Un libro de recetas de cocina indica que, para la elaboración de una tarta de manzana para 4 personas se necesitan los siguientes ingredientes: 200 g de masa, 6 manzanas reineta, 150 g de azúcar, 3 cu-charadas de mermelada de albaricoque y 200 g de crema pastelera. Si lo que se desea es hacer una tarta para 8 personas, es lógico suponer que la cantidad necesaria de cada uno de los ingredientes es el doble de la indi-cada para una tarta de 4 personas. Pero si se quiere que la tarta sea de cinco, seis o siete raciones, ¿cuál sería la cantidad necesaria de cada ingrediente?

En esta Unidad, vas a ver cómo puedes cal-cular la cantidad de cada uno de los ingre-dientes para hacer una tarta con las raciones que desees a partir de la receta dada.

(Objetivos o contenidos)Los objetivos de esta Unidad son:

Que aprendas a determinar la constante de proporcionalidad.

00. La Tierra A. Los movimientos de la Tierra

11ESTADÍSTICA

La Estadística, o «ciencia del Estado», se empleó en su origen para la descripción de datos. Resulta lógico que los Estados quieran estudiar distintas características de las poblaciones y sus recursos.

El primer objetivo de la Estadística es hallar procedimientos para representar y sintetizar la información proporcionada por ciertos datos. La rama denominada Estadística descriptiva se encarga de este objetivo.

Posteriormente, la Estadística abordó un objetivo mucho más ambicioso: realizar predicciones fiables sobre la población a partir de una muestra extraída. De ello se encarga la llamada Estadística inferencial.

El desarrollo de las técnicas de análisis de muestras permite relacionar variables físicas y sociales, incluso antes de encontrar el principio que explica su relación.

Los objetivos de esta Unidad son:

• Dominar los conceptos elementales de la Estadística descriptiva.

• Aplicar las técnicas y cálculos estadísticos a un conjunto de datos.

Page 3: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

202

11

En la práctica, los términos carácter y variable se emplean como si fueran equivalentes. Así, hablamos de variables cualitativas y cuantitativas.

Otros aspectos asociados a distintas poblaciones son, por ejemplo, «el número de horas que entrenan unos deportistas» o «la profesión de los integrantes de un club de ajedrez».

Supón, a modo de ejemplo, que deseamos estimar el tiempo que puede so-brevivir una determinada especie vegetal sin ser regada. No parece razonable dejar sin agua a todas las plantas de esa especie, pero sí se puede seleccionar un grupo de éstas y someterlas a esta prueba. Pues bien, el conjunto de todas las plantas de esa especie se denomina población, y el grupo de plantas que se somete a la prueba se denomina muestra. Del estudio de la muestra se pretende obtener conclusiones referidas al total de la población.

1 NOCIONES DE ESTADÍSTICA

Población es un conjunto de elementos que, por un motivo u otro, estamos interesados en estudiar.

Individuo es cada uno de los elementos de la población.

Muestra es una parte de la población.

La Estadística es la ciencia que, mediante el uso de modelos matemáticos, organiza datos asociados a una cierta población y permite obtener conclu-siones a partir de muestras.

En una población determinada se pueden estudiar distintos aspectos. Así, en el ejemplo que abre esta sección, el aspecto que estudiamos es «tiempo de vida de una planta sin ser regada».

Los distintos aspectos o rasgos de una población se llaman caracteres estadísticos, o simplemente caracteres.

Un carácter es cualitativo si toma valores no numéricos. Por ejemplo, el «lugar de nacimiento» es un carácter cualitativo, pues los valores que toma, Madrid, Segovia, Badajoz…, no son numéricos. Los valores que toma un ca-rácter cualitativo reciben el nombre particular de modalidades.

Un carácter es cuantitativo si toma valores numéricos. Así, «la edad de una persona» que toma valores como 5 años, 6 años, 30 años…, es un carácter cuantitativo.

El conjunto de valores que toma un carácter estadístico se denomina va-riable estadística, o, si no hay confusión, variable.

Una variable cuantitativa es discreta si los valores que toma son aislados. Por ejemplo, «el número de hermanos» o «el número de páginas de un libro». Si la variable puede tomar todos los valores de un intervalo, se denomina con-tinua. Son variables continuas «la talla», «el peso» o «el tiempo que tarda un corredor en concluir una maratón».

Pon dos ejemplos de variable discreta, e in-dica los valores aislados que pueden tomar.

Piensa en dos ejemplos de variable continua, e indica los valores que pueden tomar.

Pon dos ejemplos de carácter estadístico cua-litativo y dos de carácter estadístico cuantitativo.

A unos alumnos se les pregunta por el depor-te que practican. ¿Es un carácter cuantitativo?

Ejercicios

1

2

3

4

Reflexiona

Ten en cuenta

http://descartes.cnice.mec.es/materiales_didacticos/iniciacion_estadististica_fjgarcia/01VariablesEstadisticas.htmEn esta página de F. J. García aparecen distintos tipos de variables que hay que identificar, pudiéndose comprobar la respuesta.

WEB

Page 4: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

203

2 TABLAS DE FRECUENCIASEl primer problema de la Estadística es la ordenación y tabulación de los da-tos obtenidos en ciertas observaciones para extraer conclusiones sobre las características de una población. Las tablas de frecuencia de una variable estadística permiten ordenar los datos estadísticos y proporcionar una lectura clara de los mismos. Distinguiremos dos tipos de tablas.

VARIABLES DISCRETASASupongamos una variable discreta que toma los valores x1, x2, ..., xi, ... Asocia-dos a estos datos, definimos:

— Frecuencia absoluta del valor xi: es el número de veces que se repite el valor xi. Se representa como fi.

— Tamaño de la población: es N = f1 + f2 + ... + fn =

n

i = 1

fi .

— Frecuencia relativa hi del valor xi: es el cociente entre la frecuencia

absoluta y el tamaño de la población o de la muestra, esto es, hi = fi

N.

— Porcentaje del valor xi es el tanto por ciento de aparición del valor xi. Se representa como pi, y se calcula con la expresión pi = 100 · hi.

Con lo anterior, se construye la denominada tabla de frecuencias.

El conjunto de datos obtenidos en un estudio estadístico se llama distribución de datos.

Definición

El símbolo , que no es más que la letra griega sigma, en matemáticas se llama sumatorio y sirve para escribir de manera abreviada sumas. Así, la expresión x1 + x2 + ... + xn se

abrevia como n

i = 1

fi .

Definición

En el Ejemplo 1, el dato 0 aparece 2 veces, por lo que su frecuencia es f1 = 2. Igualmente con el resto de datos.

Ten en cuenta

A un grupo de 20 socios de una biblioteca se les ha preguntado sobre el número de libros que han leído el mes pasado. Las respuestas son las siguientes:

4, 2, 1, 0, 3, 1, 4, 2, 0, 2, 1, 1, 2, 1, 2, 4, 3, 4, 1, 2.

El tamaño de la población es N = 20, y la tabla de frecuencias queda así:

xi fi hi pi

0 2 2/20 = 0,1 10%1 6 6/20 = 0,3 30%2 6 6/20 = 0,3 30%3 2 2/20 = 0,1 10%4 4 4/20 = 0,2 20%

Total N = 20 1 100%

Ejemplo 1

Copia en tu cuaderno y com-pleta la tabla de frecuencias de las edades de los miembros de un club de ajedrez:

Construye la tabla de frecuencias de las si-guientes distribuciones de datos, señalando situa-ciones reales a las que se puedan asociar:

a) 4, 3, 2, 2, 0, 1, 4, 1, 1, 3, 0, 0, 0, 4, 5.

b) 18, 23, 22, 19, 23, 23, 24, 21, 23, 19, 18, 23, 23, 24, 23, 22, 23, 21.

Ejercicios

5 6 xi fi hi pi

9 0,1510 911 40 %

Total 20

Page 5: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

204

11 VARIABLES CONTINUASBSi la variable es continua, o el número de valores distintos de la variable es muy elevado, conviene elaborar una tabla de frecuencias agrupando los datos en intervalos o clases.

El punto medio de cada clase se denomina marca de clase y se designa como xi.

Una vez distribuidos los datos en intervalos y calculadas las marcas de clase, el modo de proceder es análogo al de las variables discretas, sustituyendo la totalidad del intervalo por su marca de clase.

Los intervalos suelen ser del mismo tamaño, aunque no siempre es así.

Ten en cuenta

A modo de ejemplo, la marca de clase de [10,15) es:

10+15

2 = 12,5

Ten en cuenta

Copia y completa en tu cuaderno la siguiente tabla de frecuencias:

ClasesMarca

x1f1 h1 pi

[0, 10) 10 0,20[10, 15) 30 %[15, 20) 5[20, 25)[25, 30) 2 4 %Total N = 50

El número de personas que acudieron a un servicio médico a lo largo del último mes es:

24 26 30 29 31

23 35 43 27 35

28 32 27 21 32

41 22 28 40 38

22 25 41 24 43

22 26 34 29 40

Agrupa los datos anteriores en intervalos de am-plitud 5 y elabora la tabla de frecuencias de esta distribución.

Ejercicios

7 8

Una fábrica elabora varillas de hierro de diferentes longitudes. La longitud, en milímetros, de 30 de ellas es la siguiente:

15 12 11 14 24 17 10 6 10 23

10 15 17 18 19 16 12 23 12 19

24 18 12 13 24 8 21 15 11 14

Se trata de una distribución de variable continua. El dato menor es 6 mm y el mayor es 24 mm, por lo que podemos formar estas cuatro clases: [5, 10), [10, 15), [15, 20) y [20, 25). Efectuando el recuento de los datos y agrupándolos en estas clases, se elabora la tabla de frecuencias:

ClasesMarca de

clase x1

fi hi pi

[5, 10) 7,5 2 2/30 6,66 %[10, 15) 12,5 12 12/30 40 %[15, 20) 17,5 10 10/30 33,33 %[20, 25) 22,5 6 6/30 20 %Total N = 30 1 100 %

Ejemplo 2

http://descartes.cnice.mec.es/materiales_didacticos/Recuento_y_agrupacion_datos/organizacion_datos.htmPágina de J.A. González que permite la visualización de la construcción paso a paso de una tabla de frecuencias finalizando con el cálculo de la media.

http://descartes.cnice.mec.es/materiales_didacticos/iniciacion_estadististica_fjgarcia/02TablasDeFrecuencias.htmEsta página de F. J. García permite construir tablas de frecuencia de variable discreta controlando el tamaño de los intervalos.

WEB

Page 6: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

205

3 PARÁMETROS ESTADÍSTICOSLos parámetros estadísticos son un pequeño número de valores que resu-men la información de una variable estadística. Se dividen en parámetros de centralización (los datos se agrupan en torno a éstos) y parámetros de disper-sión (informan sobre la intensidad con que se agrupan los datos en torno a los valores centrales).

MEDIA, VARIANZA Y DESVIACIÓN TÍPICAAConsidera una variable estadística X, de tamaño N, con la tabla de frecuencias del margen. Los valores x1, x2, xi, ... xn son los valores de la variable, si ésta es discreta, o las marcas de clase, si es continua.

La media aritmética de X es:

–x = f1x1 + f2x2 + … + fnxn

f1 + f2 + … + fn

=

n

i = 1

fi xi

n

i = 1

fi

=

n

i = 1

fi xi

N

La media aritmética (o por simplicidad, la media) es un valor en torno al cual se concentra la distribución, y se mide en las mismas unidades que los datos.

La varianza de X es Var = 2 =

n

i = 1

fi (xi – –x)2

N =

n

i = 1

fi xi2

N – –x 2 ≥ 0

La desviación típica de X es = Var ≥ 0.

Parámetros de centralización:Media, moda, mediana, cuartiles, percentiles…

Parámetros de dispersión:Varianza, desviación típica y coeficiente de variación.

Vocabulario

xi fi

x1 f1

x2 f2

· ·· ·

xn fn

Total N

xi fi fi xi

0 2 01 5 52 5 103 1 34 2 8

Total N = 15 26

xi fi fi xi fi xi2

0 2 0 01 5 5 52 5 10 203 1 3 94 2 8 32

Total N = 15 26 66

La varianza se mide en unidades cuadradas, mientras que la desviación típica lo hace en las mismas unidades que los datos.

A partir de la distribución del ejemplo 3, multiplicando la columna xi por la columna fixi obtenemos fi xi

2, lo que nos permite calcular:

Var =

n

i = 1

fi xi2

N – –x 2 =

6615

– 2615

2

1,3955...

= Var = 1,3955... = 1,1813...

Ejemplo 4

En la distribución del margen se ha añadido una columna con los valores de los productos fixi, lo que facilita el cálculo de la

media. Como N = 15 y n

i = 1

fi xi = 26, la media es –x = 2615

1,73...

Ejemplo 3

En la pestaña Actividades/Unidad 11, encontrarás la actividad Relación 2 unidad 11, para calcular la media.

CD

Page 7: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

206

11 COEFICIENTE DE VARIACIÓNBLa desviación típica representa una medida de la dispersión de los datos respecto a la media. Ahora bien, como media y desviación típica tienen uni-dades, el que la desviación sea «grande» o «pequeña» es poco relevante si se desconoce lo «grande» o «pequeña» que es la media. En particular, la des-viación típica por sí sola no permite comparar grados de dispersión de dos distribuciones de datos. Para resolver este problema, se define el coeficiente de variación (o de dispersión).

El coeficiente de variación CV de una variable X es el cociente entre la

desviación típica y la media. Es decir, CV = –x .

El coeficiente de variación es una magnitud sin unidades y representa una medida relativa de la dispersión.

Ten en cuenta

Halla la media, la desviación típica y el coefi-ciente de variación de estas distribuciones:

a) 27, 22, 29, 30, 21, 22, 27, 18, 23, 26, 33, 35, 20, 26, 29.

b) 26, 21, 27, 31, 19, 24, 26, 19, 20, 24, 31, 32, 18, 23, 30.

¿Cuál de las dos distribuciones tiene mayor grado de dispersión?

Calcula la media, la varianza, la desviación típica y el coeficiente de variación de las distribu-ciones asociadas a los ejercicios 7 y 8.

Estudia la variable estadística continua «talla en centímetros», aplicada a dos grupos distintos de tu clase, y calcula la media, la va-rianza, la desviación típica y el coeficiente de variación. Decide en cuál de los dos grupos es mayor la dispersión en la talla.

Ejercicios

9 11

10

Dos vendedores de enciclopedias efectúan, durante la úl-tima semana, las ventas siguientes:

Vendedor A 4, 3, 8, 0, 4, 6, 8

Vendedor B 4, 6, 4, 2, 1, 6, 6

Para decidir cuál de los dos es más regular en las ventas se calculan los respectivos coeficientes de variación. La media, la desviación típica y el coeficiente de variación de A son:

–xA = 337

, A = 205

7 –

337

2

2,66

CVA = A

–xA

2,664,714

0,56 = 56 %

La media, la desviación típica y el coeficiente de variación de B son:

–xB = 297

, B = 145

7 –

297

2

1,88

CVB = B

–xB

1,884,14

0,45 = 45 %

Como el coeficiente de variación CVB es menor que CVA, se puede concluir que el vendedor B es más regular que el vendedor A en la venta de enciclopedias.

Ejemplo 5

Ventasxi

Vendedor Afi fi xi fi xi

2

0 1 0 03 1 3 94 2 8 326 1 6 368 2 16 128

Total N = 7 33 205

Ventasxi

Vendedor Bfi fi xi fi xi

2

1 1 1 12 1 2 44 2 8 326 3 18 108

Total N = 7 29 145

Page 8: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

207

Fn = N

MEDIANA Y MODACEstudiamos en esta sección la mediana y la moda. Para definir y calcular la mediana es necesario el concepto de frecuencia absoluta acumulada.

En una tabla de frecuencias, la frecuencia acumulada asociada a xi, repre-sentada como Fi, es la suma Fi = f1 + f2 + … + fi. El valor de Fi es la suma de las frecuencias absolutas de x1, x2, … y xi.

Halla la media, la mediana y la desviación típica de la distribución: 3, 5, 2, 4, 6, 6, 4, 3, 5, 7, 4.

Calcula la mediana de las distribuciones del ejercicio 11.

Ejercicios

12 13

Ten en cuenta

Para definir la mediana, es imprescindible que los datos de la distribución aparezcan ordenados. Hecho esto, la mediana deja el 50 % de la población antes de ella, y detrás, el otro 50 %.

Reflexiona

xi fi Fi

0 9 91 7 9 + 7 = 162 4 16 + 4 = 203 1 20 + 1 = 214 1 21 + 1 = 22

Consideremos la siguiente tabla de frecuencias a la que se aña-de la columna de frecuencias absolutas acumuladas:

xi fi Fi

0 3 31 2 3 + 2 = 52 3 5 + 3 = 83 1 8 + 1 = 94 1 9 + 1 = 10

Ejemplo 6

La distribución (ordenada) 1, 3, 5, 7, 10 tiene 5 datos. La mediana es el dato que ocupa la posi-ción tercera. Esto es, Me = 5.

La distribución 9, 10, 12, 15, 15, 16, 19, 24, 30, 45 consta de 10 datos. Los datos centrales, en las posiciones quinta y sexta, son 15 y 16. Por tanto, la mediana es:

Me = 15 + 16

2 = 15,5

Ejemplo 7

En la tabla de frecuencias del margen, el número de datos es N = 22, que es un número par. Como la mitad del tamaño de la

población es N2

= 11, las posiciones centrales son la 11.ª y 12.ª, y

como ambas están asociadas al valor xi = 1, la mediana es:

Me = 1 + 1

2 = 1

Ejemplo 8

Podemos abordar ya la definición de mediana de una distribución de datos.

Supongamos que el número de datos es pequeño. Tras ordenar los datos en orden creciente, la mediana Me es el dato que ocupa la posición central. En el caso en que el número de datos sea par, la mediana Me es la media de los dos valores centrales.

Page 9: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

208

11 Supongamos ahora que los datos se agrupan en intervalos. Denominamos clase mediana al primer intervalo cuya frecuencia absoluta acumulada es mayor o igual que la mitad del tamaño de la población. Designamos Fi a esta frecuencia absoluta acumulada, y xi a la marca de la clase mediana. Existen dos posibilidades:

— Si Fi > N2

, entonces la mediana es Me = xi.

— Si Fi = N2

, entonces la mediana es Me = xi + xi + 1

2.

Otro parámetro que puede calcularse es la moda. A la vista de la tabla del ejemplo anterior, se observa que la clase con mayor frecuencia absoluta es [40, 60). Esta clase se denomina clase modal. La marca de la clase modal se denomina moda. Así pues, la moda de esta distribución de alturas es M0 = 50 cm.

Si la distribución de datos no necesita agrupación por intervalos (variables discretas con pocos valores), la moda M0 es el valor (o valores) de la variable con mayor frecuencia absoluta.

Halla la mediana y la moda de las distribucio-nes A y B asociadas al ejemplo 5.

Inventa una distribución de datos con media-na 2 y moda 3.

Halla la mediana y la moda de las distribucio-nes de los ejercicios 7 y 8.

Calcula la media, la mediana y la moda de la distribución: 3, 7, 5, 4, 3, 3, 6, 8, 10, 9.

Ejercicios

14 16

15 17

De este mismo modo, se puede calcular la mediana de una distribución de variable discreta con los datos presentados en una tabla de frecuencias.

Ten en cuenta

Altura xi fi Fi

[0, 20) 10 12 12[20, 40) 30 16 28[40, 60) 50 20 48[60, 80) 70 4 52

xi fi Fi

0 3 31 2 52 3 83 1 94 1 10

N = 10

La tabla del margen proporciona la altura, en centímetros, de las plantas de un invernadero.

La mitad de la población es N2

= 26, por lo que la clase mediana

es [20, 40), con Fi = 28 > N2

.

La mediana es la marca de clase de [20, 40), esto es, Me = 30 cm.

Ejemplo 9

Consideramos la distribución: 0, 1, 3, 0, 2, 1, 0, 2, 4, 2. Al elaborar la tabla de frecuencias, situada al margen, se observa que los va-lores 0 y 2 tienen frecuencia 3, que es la mayor de todas. Por tanto, la distribución tiene dos modas: M0 = 0 y M0 = 2.

Respecto a la mediana, teniendo en cuenta que N2

= 5 coincide

con la frecuencia absoluta acumulada F2 de x2 = 1, se sigue que:

Me = x2 + x3

2 =

1 + 22

= 1,5

Ejemplo 10

Page 10: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

209

CUARTILES Y CENTILESDAnteriormente se ha comentado que, tras ordenar los datos, la mediana divide éstos es dos partes iguales, dejando a su izquierda la mitad de los datos. Si en vez de dividir la distribución en dos partes iguales, lo hacemos en cuatro partes iguales, los tres puntos de separación asociados se denominan cuar-tiles y se representan por Q1, Q2 y Q3.

— El primer cuartil, Q1, deja a su izquierda la cuarta parte de la distribución, es decir, el 25 %.

— El segundo cuartil, Q2, deja a su izquierda la mitad de la distribución y, por tanto, coincide con la mediana, es decir, Q2 = Me.

— El tercer cuartil, Q3, deja a su izquierda tres cuartas partes de la distribución, es decir, el 75 %.

De la misma forma, si deseamos dividir una distribución en 100 partes iguales, aparecen 99 puntos de separación denominados centiles o percentiles. El percentil de orden k, representado como pk, deja a su izquierda k centésimas partes de la distribución.

Se verifica: p25 = Q1, p50 = Q2 = Me y p75 = Q3.

En el caso de las distribuciones con datos agrupados en intervalos, los cuartiles se calculan de modo totalmente análogo a como se hace con la mediana.

Por ejemplo, para calcular Q1 se busca el primer intervalo cuya frecuencia absoluta acumulada supera la cuarta parte de los datos. Hallado éste, se iden-tifica Q1 con su marca de clase. Análogamente, se repite el mismo proceso para Q3.

Halla los percentiles p65 y p93 para la distribu-ción del ejemplo 11.

Halla los cuartiles Q1 y Q3 para las distribucio-nes de los ejercicios 7 y 8.

Ejercicios

18 19

En realidad, los cuartiles y percentiles así calculados son sólo aproximados. El cálculo exacto es algo más complejo.

Ten en cuenta

Clase fi Fi

1 1 12 2 33 5 84 10 185 4 226 6 287 3 31

Total 31

Consideramos la distribución definida por la tabla del margen. Vamos a calcular Q1, Q2, Q3 y P7,

La cuarta parte de los datos es 314

= 7,75.

El primer valor cuya frecuencia absoluta acumulada supera la cuarta parte de los datos es 3. Luego Q1 = 3.

La mitad de los datos es 15,5, de donde se desprende que la mediana es Me = Q2 = 4.

Por último, las tres cuartas partes de los datos son 3 · 314

= 23,25,

por lo que se tiene Q3 = 6.

Veamos ahora cómo calcular, a modo de muestra, el percentil p7. Siete centésimas partes de los datos son 7 % de 31 = 2,17. El primer valor cuya frecuencia absoluta acumulada supera 2,17 es 2. Por tanto, p7 = 2.

Ejemplo 11

http://www.aulademate.com/contentid-255.htmlPágina interactiva, al introducir los valores de la variable y sus frecuencias, el programa construye una tabla y calcula los parámetros estadísticos.

WEB

Page 11: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

210

11Los gráficos son formas sencillas de representar las frecuencias absolutas y relativas de una distribución de datos asociada a cierto estudio estadístico. Según sea la variable que vamos a estudiar, se emplea uno u otro tipo de gráficos.

4 GRÁFICOS ESTADÍSTICOS

DIAGRAMA DE BARRASALos diagramas de barras se emplean, generalmente, para variables cuanti-tativas con pocos valores diferentes. En unos ejes de coordenadas, señalamos los valores de la variable en el eje de abscisas. Tras esto, sobre cada valor de la variable se levanta una barra cuya altura sea la frecuencia (absoluta o relativa, según proceda) correspondiente.

Hemos preguntado a 36 parejas el número de veces que salen a comer o cenar fuera mensualmente. Los datos aparecen re-cogidos en la tabla:

N.º de veces que salen 1 2 3 4 5 6

N.º de parejas 3 9 2 8 10 4

El diagrama de barras asociado a esta distribución es el del margen.

Ejemplo 12

POLÍGONO DE FRECUENCIASBAl igual que los diagramas de barras, los polígonos de frecuencias se asocian a variables de pocos valores. En unos ejes de coordenadas se representa un punto por cada valor de la variable. La abscisa de cada punto representa el valor de la variable, mientras que la ordenada representa la frecuencia. Unien-do estos puntos mediante segmentos rectilíneos se obtiene el denominado polígono de frecuencias.

Es bastante habitual la representación conjunta del diagrama de barras y el polígono de frecuencias.

El gráfico del margen es el polígono de frecuencias de la dis-tribución del ejemplo 12.

Ejemplo 13

Construye en tu cuaderno el diagrama de ba-rras y el polígono de frecuencias de la distribución siguiente:

Valor 1 2 3 4 5

Frecuencia 2 5 9 0 7

La distribución siguiente corresponde al nú-mero de hermanos que tiene cada alumno de una clase. Construye en tu cuaderno el diagrama de barras y el polígono de frecuencias asociados.

Hermanos 0 1 2 3 4

Frecuencia 6 9 7 4 1

Ejercicios

20 21

Valor1 2 3 4 5 60

1

2

3

4

5

6

7

8

9

10

11Frecuencia

1 2 3 4 5 60

1

2

3

4

5

6

7

8

9

10

11Frecuencia

Valor

Page 12: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

211

A un valor xi de frecuencia relativa hi le corresponde un sector circular con ángulo central de i = 360 · hi grados sexagesimales.

Ten en cuentaDIAGRAMA DE SECTORESCEl diagrama de sectores se emplea habitualmente con variables asocia-das a caracteres cualitativos, aunque también es posible su uso con caracte- res cuantitativos. En este gráfico, se descompone un círculo en tantos sectores circulares como valores tome la variable. El ángulo central de cada sector es proporcional a la frecuencia del valor correspondiente. En este tipo de gráficos se suele indicar el porcentaje asociado a cada sector.

Los 500 empleados de una oficina acuden al trabajo en distintos medios de transporte.

Transporte fi hi pi Grados i = 360 · hi

Coche 200 0,40 40 % 144ºMetro 150 0,30 30 % 108ºAutobús 30 0,06 6 % 21,6ºBicicleta 20 0,04 4 % 14,4ºA pie 100 0,20 20 % 72º

Total 500 1 100 % 360º

Ejemplo 14

Coche

Metro

Autobús

Bicicleta

A pie

40 %

30 %

6 %

4 %

20 %

HISTOGRAMADEl histograma se emplea con variables cuantitativas de datos agrupados en intervalos. Asumiendo que éstos son de igual longitud, sobre cada uno se levanta un rectángulo cuya altura es la frecuencia del intervalo correspon-diente.

Pedro ha hecho un recuento del número de personas que viven en cada una de las calles de un barrio de su pueblo. Los resultados aparecen agrupados en la tabla, y el histograma es:

Ejemplo 15

Personas fi

[50, 55) 3[55, 60) 2[60, 65) 5[65, 70) 4Total 14 50 55 60 65 70

0

1

2

3

4

5

6Frecuencia

Número de personas por calle

Construye el histograma asociado a la distribución siguiente:5, 8, 13, 23, 4, 16, 7, 24, 21, 1, 0, 4, 15, 11, 9, 2, 4, 11, 22, 21, 7, 6, 2, 1, 0, 4, 9, 14, 12, 22, 25, 0

Dibuja un diagrama de sectores que represen-te las preferencias literarias de 100 lectores:

Género Policiaco Aventuras Terror

Frecuencia 50 20 30

22 23

Ejercicios

Page 13: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

212

EJERCICIOS RESUELTOS11 Un jardinero revisa los rosales de su invernadero y anota las alturas de los mismos, representando los datos obtenidos en este histograma. Halla la media, la desviación típica, la mediana y la moda de la distribu-ción de alturas.

1

Altura xi fi fi xi fi xi2 Fi

[20, 40) 30 10 300 9 000 10

[40, 60) 50 8 400 20 000 18

[60, 80) 70 12 840 58 800 30

[80, 100) 90 5 450 40 500 35

[100, 120) 110 7 770 84 700 42

Total N = 42 2 760 213 000

La clase modal es [60, 80), con frecuencia fi = 12. Por tanto, la moda, que es la marca de clase de [60, 80), es M0 = 70 cm.

Respecto a la mediana, observa que la mitad de la población es N2

= 21. La

primera clase que supera N2

= 21 es también [60, 80), por lo que Me = 70 cm.

Por último, la media es –x

n

i = 1

fi xi

N =

2 760

42 = 65,71 cm, y la varianza es:

2

n

i = 1

fi xi2

N – –x2 =

213 000

42 –

2 760

42

2

753,623 cm2 , por lo que se tiene que

la desviación típica es:

= 2 753,623 27,452 cm.

20 40 60 80 100 1200

Frecuencia absoluta

Altura de los rosales en cm

123456789

101112

2 7 8 10 9

17 13 5 14 16

12 20 14 9 10

19 4 6 16 1518 12 17 22 022 0 24 13 7

Venta de lavadoras Los datos del margen corresponden a la venta de lavadoras de un establecimiento cada día del último mes.

a) Calcula el número medio de lavadoras vendidas en este periodo.

b) Halla la moda.

c) Halla la mediana, así como el primer y el tercer cuartiles.

2

Para calcular los parámetros estadísticos pedidos, es necesario elaborar la tabla de frecuencias ampliada con las columnas adecuadas.

Page 14: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

213

Lavadorasvendidas por día

xi fi fi xi Fi

[0, 5) 2,5 4 10 4[5, 10) 7,5 7 52,5 11[10, 15) 12,5 8 100 19[15, 20) 17,5 7 122,5 26[20, 25) 22,5 4 90 30Total 375

a) Puesto que los datos varían entre 0 y 24, para elaborar la tabla de frecuencias parece razonable distribuirlos en las clases [0, 5), [5, 10), [10, 15), [15, 20) y [20, 25). A la vista de la tabla de frecuencias, la venta media de lavadoras es:

–x =

n

i = 1

fi xi

N =

375

30 = 12,5

b) La clase modal es [10, 15), con frecuencia 8. Por tanto, la moda esM0 = 12,5.

c) El número de datos es 30, y su mitad es 15. La clase mediana es [10, 15), ya que su frecuencia absoluta acumulada excede por primera vez la mitad de los datos. Tomamos como aproximación de la mediana la marca de esta clase, Me = 12,5.

La cuarta parte de los datos es 7,5. La clase que contiene el primer cuartil es [5, 10), ya que su frecuencia absoluta acumulada excede por vez primera la cuarta parte de los datos. Luego el primer cuartil es la marca de [5, 10), es decir, Q1 = 7,5. Análogamente se halla Q3 = 17,5.

A una proyección cinematográfi ca asisten 50 niños, 75 jóvenes,60 adultos y 40 ancianos. Representa estos datos en un diagrama de sectores.

Primero se elabora la tabla de frecuencias, incluyendo los grados:

Categoría fi pi Grados

Niños 50 22 % 79,2ºJóvenes 75 33 % 118,8ºAdultos 60 27 % 97,2ºAncianos 40 18 % 64,8º

Total 225 100 % 360º

Ancianos

18 %Niños

22 %

Adultos

27 % Jóvenes

33 %

Para calcular los grados se puede emplear una regla de tres.

100 % 360º 22 %

Así, al 22 % se le asocia el ángulo = 7 920

100 = 79,2º, y procedemos de igual

modo con el resto

3

Page 15: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

214

EJERCICIOS PROPUESTOS11Nociones de Estadística

A los empleados de una ofi cina se les pregunta por los aspectos siguientes:

• Estado civil.

• Número de libros que leen al mes.

• Preferencias cinematográfi cas.

• Color de pelo.

• Años de antigüedad en la empresa.

• Distancia entre la ofi cina y su vivienda.

a) Indica si los caracteres anteriores son cualitativos o cuantitativos.

b) Señala modalidades posibles de los caracteres cua-litativos.

c) Señala posibles valores de la variable estadística en el caso de los caracteres cuantitativos.

Determina, para cada uno de los estudios esta-dísticos siguientes, el individuo, la población, la variable estadística, y si ésta es continua o discreta:

a) ¿Cuántos alumnos aprueban matemáticas en tu clase?

b) ¿Cuántos libros lee cada uno de los habitantes del barrio en que vives?

c) ¿Cuál es el gasto mensual en comestibles de cada uno de los vecinos de un bloque de pisos?

Diseña un estudio estadístico relativo al uso de medios de transporte. Describe una variable estadística relacionada con este estudio y la población estudiada.

Inventa una variable estadística discreta y una variable estadística continua, señalando los posibles va-lores que pueden tomar.

Señala un carácter que pueda adoptar una for-ma cualitativa y cuantitativa.

Tablas estadísticas

Construye la tabla de frecuencias para la si-guiente distribución de datos:

0 0 0 1 1 2 3 2 1 4 0

El número de hijos de los empleados de una ofi cina es el siguiente:

0 2 1 1 2 3 2 1 4 0

2 0 3 1 4 2 1 1 2 1

Elabora la tabla de frecuencias de esta distribución de datos.

Las calificaciones de matemáticas de los 20 alumnos de una clase son:

0 2 4 5 5

1 7 5 2 8

7 5 1 1 3

8 4 4 3 0

Construye en tu cuaderno la tabla de frecuencias de esta distribución de datos.

La tabla siguiente corresponde al número de cigarrillos que un grupo de fumadores (que intentan dejar de fumar) consume al día:

N.º de cigarrillos xi fi hi pi

2 13 5 0,24 24 %56 16 %7 2

8 o más 4 0,16Total N = 25

Copia en tu cuaderno completando esta tabla y respon-de a las cuestiones:

a) ¿Cuántos fuman más de 5 cigarrillos?

b) ¿Qué porcentaje de fumadores fuma menos de 6 ci-garrillos?

1

2

3

4

5

6

7

8

9

Page 16: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

215

Copia en tu cuaderno y calcula las marcas de clase asociadas a esta tabla:

Clase Marca de clase

[0, 5)[5, 13)[13, 19)[19, 30)

Al fi nal de una semana, una zapatería hace ba-lance de sus ventas. La tabla siguiente refl eja las ventas según el precio:

Clase Marca de clase

[40, 50) 60[50, 60) 40[60, 70) 65[70, 80) 82[80, 90) 120[90, 100) 95[100, 500) 54

Elabora la tabla de frecuencias, sin olvidar las marcas de clase.

En el estudio de una variable continua X se ha obtenido la siguiente tabla de frecuencias que, por des-gracia, está incompleta. ¿Serías capaz de completarla en tu cuaderno?

En el reconocimiento médico al que se somete a los profesores de un pequeño colegio, se han medido sus alturas. Éstos son los resultados obtenidos (en cen-tímetros):

150 152 153 170 172 168

174 171 172 167 163 155

169 175 178 180 174 181

Agrupa los datos en intervalos y construye la tabla de frecuencias, que debe incluir marcas de clase, frecuen-cias absolutas y relativas, y porcentajes.

Clases Marca xi fi hi pi

[0, 10) 0,20

[10, ) 12,5 30 %

[15, 20)

Total N = 50

Clases Marca xi fi hi pi

[0, 10) 0,20

[10, ) 12,5 30 %

[15, 20)

Total N = 50

El empleado de un videoclub selecciona una muestra de sus clientes y anota el número de películas que cada uno de ellos ha sacado durante el último tri-mestre. Los datos que ha obtenido son:

12 14 11 20 24 19

16 21 17 25 29 28

23 24 29 21 20 13

15 15 24 23 26 24

Agrupa los datos de cinco en cinco y construye la tabla de frecuencias.

Parámetros estadísticos

Calcula la media y la desviación típica de las siguientes distribuciones:

a) 7, 3, 4, 5, 6, 9, 0, 3, 4, 2, 1

b) 2, 1, 8, 6, 5, 3, 3, 2, 10, 3, 7

Decide cuál de las dos distribuciones tiene un mayor grado de dispersión.

Calcula la mediana, los cuartiles y la moda de las distribuciones del ejercicio anterior.

Calcula la media, la desviación típica, el coefi -ciente de variación y los cuartiles de las distribuciones de los ejercicios 6, 7 y 8.

Escribe en tu cuaderno una distribución cuya media sea 5.

Escribe en tu cuaderno una distribución de me-diana 4.

Escribe en tu cuaderno una distribución de me-dia 0 y me diana 3.

Calcula los parámetros estadísticos de la si-guiente distribución:

xi 1 2 3 4 5 6 7

fi 10 5 6 9 4 7 2

10

11

12

13

14

15

16

17

18

19

20

21

Page 17: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

216

EJERCICIOS PROPUESTOS11 Calcula la media, la desviación típica, el coefi -ciente de variación, la mediana, los cuartiles y la moda de las distribuciones de los ejercicios 13 y 14.

El número de faltas de ortografía cometidas por un grupo de alumnos en una redacción aparece refl eja-do en la tabla:

N.º de faltas 0 1 2 3 4 5

N.º de alumnos 3 7 8 7 9 6

a) Halla la media, la desviación típica y el coefi ciente de variación.

b) Halla la mediana y la moda.

c) Halla los cuartiles.

Dada la distribución 2, 4, 5, 8, 2, 1, 0, calcula su media. A continuación, suma un valor constante a todos los datos de la distribución anterior y calcula la media de estos nuevos datos. ¿Qué observas?

Sea –x la media de una distribución de datos. Prueba que si a cada uno de los datos de esta distribu-ción le sumamos una constante k, la media de la nueva distribución es –x + k.

Halla los cuartiles y los percentiles p10 y p30 para la distribución del ejercicio 11.

Copia en tu cuaderno y completa la tabla sa-biendo que –x = 1,75.

xi 0 1 2 3 4

fi 2 3 1 2

Calcula la media, la mediana y la moda de la distribución del ejercicio 11.

Halla la media, la desviación típica, la mediana y la moda de la siguiente distribución:

Intervalos [0 ,2) [2, 4) [4, 6)

Frecuencia 10 5 6

22

23

24

25

26

27

28

29

El tiempo, en minutos, que un grupo de socios de una biblioteca dedica cada día a leer es:

30 45 11 90 123 67

52 56 60 69 29 89

23 145 96 100 126 34

a) Agrupa y construye la tabla de frecuencias.

b) Halla la media, la desviación típica y el coefi ciente de variación.

c) Halla la mediana y la moda.

d) Halla el primer y tercer cuartiles.

e) ¿Cuál es el percentil de una persona que dedica60 minutos a leer?

f) Calcula un percentil que no coincida con ninguno de los cuartiles.

Julio

Verne

El peso medio de los corredores de fondo de un club de atletismo es 55 kg, y su desviación típica es 2,5 kg. Por otra parte, el peso medio de las corredoras es 49 kg y la desviación típica es 2,1 kg. Compara la dis-persión de los pesos de ambos grupos.

30

31

Page 18: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

217

Gráfi cos estadísticos

En una población de 30 familias se ha estudiado el número de móviles de cada una de ellas. Los datos recopilados son los siguientes:

2 3 0 4 1

5 1 2 2 3

3 4 6 3 2

3 2 1 2 5

2 2 0 1 3

6 2 1 2 6

a) Construye en tu cuaderno la tabla de frecuencias de esta distribución.

b) Traza el diagrama de barras.

c) Elabora el polígono de frecuencias.

d) Calcula la media y la desviación típica.

e) Halla la mediana y la moda.

f) Calcula los cuartiles Q1 y Q3.

Hemos preguntado a un grupo de personas cuánto tiempo dedican semanalmente a la práctica de algún tipo de ejercicio físico. Éstos son los resultados obtenidos:

N.º de horas N.º de personas

[0, 1) 6

[1, 2) 13

[2, 3) 20

[3, 4) 18

[4, 5) 120

[5, 8) 9

a) Construye en tu cuaderno la tabla de frecuencias correspondiente.

b) Dibuja el histograma asociado.

c) Halla la media y la desviación típica.

d) Halla la mediana y la moda.

e) ¿Qué porcentaje dedica menos de dos horas al ejer-cicio físico?

Construye en tu cuaderno el histograma aso-ciado a los datos de los ejercicios 29 y 30.

33

34

35 Una clínica médica que ofrece consultas dedistintas especialidades, anota el número de perso -nas que acude a cada una de ellas una mañana concre-ta.

Especialidad N.º de personas

Medicina general 30

Neumología 15

Neurología 14

Ginecología 18

Medicina interna 7

Radiología 20

a) Confecciona un diagrama de sectores para esta dis-tribución.

b) ¿Qué tanto por ciento de personas acuden a Medici-na general o a Radiología?

Representa en tu cuaderno las distribuciones de los ejercicios 13 y 14.

Analiza el histograma siguiente:

10 20 30 40 50 600

2

4

6

8

10

12

14

16

18

20Frecuencia

a) Elabora la tabla de frecuencias asociada a este histo-grama.

b) Calcula la media y la desviación típica. ¿Cuál es el coefi ciente de variación?

c) Halla los cuartiles Q1 y Q3.

37

36

32

Page 19: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

218

PARA REPASAR EN GRUPO11

Elabora con tu grupo de trabajo un esquema con los siguientes conceptos de la Unidad y pon un ejemplo de cada uno de ellos.

CONCEPTO DEFINICIÓN

Población Conjunto de individuos sometidos a estudio.

Muestra Es una parte de la población.

Carácter estadístico Rasgo de una población que nos interesa estudiar.

Variable estadísticaConjunto de valores que toma un carácter. Se dividen en cuantitativas y cualitativas.

Frecuencia absoluta Número de veces que se repite un valor determinado.

Marca de clase Valor central de cada intervalo de valores.

Media aritmética –x =

n

i = 1

fi xi

N

Varianza Var = σ 2 =

n

i = 1

fi (xi – –x )2

N =

n

i = 1

fi xi2

N

– –x 2

Desviación típica σ = Var ≥ 0

Coefi cientede variación

Es el cociente CV = σ–x .

ModaSi la variable es discreta, es el valor con mayor frecuencia. Si la variable es continua, es la marca de clase del intervalo de mayor frecuencia.

MedianaLa mediana es el valor que divide los datos de una distribución en dos partes iguales.

Gráfi cos estadísticos

Son formas sencillas de representar las frecuencias de una variable estadística. Algunos tipos de gráfi cos son los diagramas de barras, los polígonos de frecuencias, los diagramas de sectores y los histogramas.

En la pestaña Actividades/Unidad 11, encontrarás la actividad Relación 1 unidad 11, para repasar los conceptos más importantes de la unidad.

En la pestaña Mapa del CD/Unidad 11, encontrarás el Test de autoevaluación.

En la pestaña Mapa del CD/Juegos matemáticos, encontrarás la Animación de Estadística.

CD

CD

CD

Page 20: ¿Recuerdas qué es…? - spain-s3-mhe-prod.s3 …spain-s3-mhe-prod.s3-website-eu-west-1.amazonaws.com/bcv/guide/... · 202 11 En la práctica, los términos carácter y variable

219

CURIOSIDADES, JUEGOS Y DESAFÍOSEl desconocimiento de la teoría estadística conduce, en muchas ocasiones, a que amplios sectores de la población den por buenas conclusiones que, aunque a simple vista parecen correctas, son erróneas.

Un buen ejemplo lo encontramos en un fenómeno denominado la paradoja de Simpson, también conocido como efecto Yule-Simpson. Este fenómeno apa-rece con frecuencia en estudios estadísticos de la Medicina, la Sociología, etc.

Un caso real, y muy conocido, que ilustra la paradoja de Simpson tuvo lugar cuando una prestigiosa universidad estadounidense fue demandada por discriminación contra las mujeres que solicitaban ingreso. Las cifras sobre admisión en el otoño de 1973 mostraban que el porcentaje de admisión era favorable a los hombres y, siendo la diferencia notable, se juzgó que no se debía al azar.

DESAFÍO MATEMÁTICO

Trata de encontrar una situación real que ponga de manifi esto la paradoja de Simpson. Si lo necesitas, pide ayuda a tu profesor.

Hombres Mujeres

Departamentos Solicitantes % admitidos Solicitantes % admitidos

A 825 62 % 108 82 %

B 560 63 % 25 68 %

C 325 37 % 593 34 %

D 417 33 % 375 35 %

E 191 28 % 393 24 %

F 272 6 % 341 7 %

Sin embargo, al examinar las solicitudes distinguiendo los distintos depar-tamentos, se observaba que ninguno discriminaba signifi cativamente a las mujeres y que, de hecho, la mayor parte de los departamentos favorecía, en todo caso, a las mujeres.

N.º de solicitantes % admitidos

Hombres 8 442 44 %

Mujeres 4 321 35 %

La explicación resulta ser que las mujeres tendían a presentar solicitudes en departamentos con bajos porcentajes de admisión, mientras que la ten-dencia de los hombres era la contraria. Al dividir los datos en especialidades, hemos introducido unas variables (lurking variables, en la literatura científi ca) que, si son omitidas, pueden conducirnos a una conclusión errónea.

La paradoja de Simpson pone de manifi esto que debemos ser precavidos cuando hagamos deducciones basándonos en la asociación de dos varia-bles. Es imprescindible tener en cuenta las lurking variables si se pretende establecer relaciones de causa y efecto.

Edward H. Simpson, Karl Pearson, Udny Yule, además de otros, describieron este fenómeno.

Sabías que...