23
1º BACHILLERATO D – MATEMÁTICAS CC SS – TEMA 5.- ESTADÍSTICA DESCRIPTIVA PROFESOR: RAFAEL NÚÑEZ NOGALES ------------------------------------------------------------------------------------------------------------- 1.- TERMINOLOGÍA ESTADÍSTICA. TABLA DE FRECUENCIAS Estadística descriptiva Es la ciencia que estudia conjuntos de datos obtenidos de la realidad. Estos datos son interpretados mediante tablas, gráficas y otros parámetros como la media, moda, varianza, etc. Población Es el conjunto formado por todos los elementos que queremos estudiar. Por ejemplo, si vamos a estudiar el peso de los jóvenes de 16 años nacidos en España, la población sería precisamente el conjunto formado dichos jóvenes Variable estadística Es la característica que queremos estudiar de la población. Hay distintos tipos de variables estadísticas Cualitativa Si los valores son cualidades. Por ejemplo, partido político preferido, color del pelo, etc. Cuantitativa Si los valores son números. Por ejemplo, nº de hermanos, estatura, peso, edad, temperatura, etc. Discreta Cuando los valores son aislados. Por ejemplo, nº de hermanos, edad, etc. Continua Cuando entre dos valores, aunque estén muy próximos entre sí, siempre es posible tomar otro valor. Por ejemplo, la temperatura, el peso, etc. Tabla de frecuencias Los datos obtenidos en estadística se organizan en una tabla, llamada tabla de frecuencias. Tabla de frecuencias para datos aislados Tabla de frecuencias para datos agrupados Ejemplo: Edades de un grupo de alumnos Ejemplo: Notas en un examen de un grupo de alumnos x i representa los valores que hay en los datos. En el caso de datos agrupados, las clases son los intervalos f i se llama frecuencia absoluta y representa las veces que aparece cada valor en los datos En el caso de datos agrupados, fi representa el nº de datos que hay en el intervalo o clase F i es la frecuencia absoluta acumulada y se calcula sumando uno a uno los valores de la columna f i . h i se llama frecuencia relativa y se calcula dividiendo cada valor fi entre el nº total de datos y se expresa en % H i es la frecuencia relativa acumulada y se calcula sumando uno a uno los valores de la columna h i . Clases f i F i h i H i [2,3) 3 3 15% 15% [3,4) 2 5 10% 25% [4,5) 3 8 15% 40% [5,6) 5 13 25% 65% [6,7) 3 16 15% 80% [7,8) 4 20 20% 100% Total 20 = n - 100% - x i f i F i h i H i 13 6 6 30% 30% 14 5 11 25% 55% 15 7 18 35% 90% 16 1 19 5% 95% 18 1 20 5% 100% Suma total 20 = n - 100% -

1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

Embed Size (px)

Citation preview

Page 1: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

1º BACHILLERATO D – MATEMÁTICAS CC SS – TEMA 5.- ESTADÍSTICA DESCRIPTIVA PROFESOR: RAFAEL NÚÑEZ NOGALES

------------------------------------------------------------------------------------------------------------- 1.- TERMINOLOGÍA ESTADÍSTICA. TABLA DE FRECUENCIAS

Estadística descriptiva Es la ciencia que estudia conjuntos de datos obtenidos de la realidad.

Estos datos son interpretados mediante tablas, gráficas y otros parámetros como la media, moda, varianza, etc.

Población Es el conjunto formado por todos los elementos que queremos estudiar.

Por ejemplo, si vamos a estudiar el peso de los jóvenes de 16 años nacidos en España, la población sería precisamente el conjunto formado dichos jóvenes

Variable estadística Es la característica que queremos estudiar de la población.

Hay distintos tipos de variables estadísticas Cualitativa

Si los valores son cualidades. Por ejemplo, partido político preferido, color del pelo, etc.

Cuantitativa Si los valores son números. Por ejemplo, nº de hermanos, estatura, peso, edad, temperatura, etc.

Discreta Cuando los valores son aislados.

Por ejemplo, nº de hermanos, edad, etc.

Continua Cuando entre dos valores, aunque estén muy

próximos entre sí, siempre es posible tomar otro valor.

Por ejemplo, la temperatura, el peso, etc.

Tabla de frecuencias Los datos obtenidos en estadística se organizan en una tabla, llamada tabla de frecuencias.

Tabla de frecuencias para datos aislados Tabla de frecuencias para datos agrupados Ejemplo: Edades de un grupo de alumnos Ejemplo: Notas en un examen de un grupo de alumnos

xi representa los valores que hay en los datos. En el caso de datos agrupados, las clases son los intervalos

fi se llama frecuencia absoluta y representa las veces que aparece cada valor en los datos En el caso de datos agrupados, fi representa el nº de datos que hay en el intervalo o clase Fi es la frecuencia absoluta acumulada y se calcula sumando uno a uno los valores de la columna fi. hi se llama frecuencia relativa y se calcula dividiendo cada valor fi entre el nº total de datos y se expresa en % Hi es la frecuencia relativa acumulada y se calcula sumando uno a uno los valores de la columna hi.

Clases fi Fi hi Hi [2,3) 3 3 15% 15% [3,4) 2 5 10% 25% [4,5) 3 8 15% 40% [5,6) 5 13 25% 65% [6,7) 3 16 15% 80% [7,8) 4 20 20% 100% Total 20 = n - 100% -

xi fi Fi hi Hi 13 6 6 30% 30% 14 5 11 25% 55% 15 7 18 35% 90% 16 1 19 5% 95% 18 1 20 5% 100%

Suma total 20 = n - 100% -

Page 2: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 2 -

Practica tú: 1 Al preguntar a los profesores del instituto sus edades se han obtenido los siguientes datos:

25 44 31 53 28 47 38 26 32 45 30 25 44 46 50 31 40 41 38 33 32 35 31 39 27 48 26 54 29 54 30 27 37 34 33 40 32 28 47 39

a) Agrupa los datos en intervalos de amplitud 5 y construye la tabla de frecuencias. b) ¿Qué porcentaje de profesores tiene menos de 40 años? c) ¿Cuántos profesores tienen menos de 45 años? d) ¿Qué porcentaje de profesores tiene entre 30 y 49 años (ambas edades incluidas)?

2.- GRÁFICOS ESTADÍSTICOS

Diagrama de barras Se representan los valores xi en un eje horizontal y para cada valor xi se dibuja una barra cuya altura sea la frecuencia de xi que se quiera representar. Las barras deben ser de la misma anchura y debemos dibujarlas separadas. Uniendo los extremos superiores de las barras por su punto medio, se obtiene una línea quebrada llamada polígono de frecuencias

Ejemplo: Número de hijos de un grupo de matrimonios

El diagrama de barras se suele utilizar para variables discretas con “pocos” valores

y para variables cualitativas

Histograma Es similar al diagrama de barras, sólo que la base de cada barra es el intervalo de la tabla de frecuencias y por tanto no hay espacios entre las barras.

Ejemplo: Notas de 20 alumnos en un examen:

Uniendo los extremos superiores de las barras por su punto medio, se obtiene la línea quebrada llamada polígono de frecuencias.

Los histogramas se utilizan cuando los datos los agrupamos en intervalos

xi fi 0 4 1 9 2 12 3 10 4 8 5 4 6 2 7 1

Total 50 = n

Page 3: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 3 -

Diagrama de sectores

Para dibujar el diagrama de sectores se dibuja un círculo y se divide en tantos sectores (quesitos) como valores haya en los datos.

Ejemplo: Deporte preferido por un grupo de 30 alumnos

El diagrama de sectores se suele utilizar para variables discretas con “pocos” valores y para variables cualitativas

Ejercicio 1 A los 200 alumnos y alumnas de 2º y 3º de E.S.O. de un Instituto les preguntamos sobre el nivel máximo de estudios que esperan realizar. El resultado es el reflejado en el siguiente gráfico de sectores:

Pasa esta información a una tabla de frecuencias y a un diagrama de barras

Solución

Practica tú:

2 Al observar la marca de coche de 20 personas se obtuvieron los siguientes resultados: SPSRR PPPRR SPRRR PSSRR, donde S = SEAT , P = Peugeot , R = Renault.

Valores (xi) fi Fi hi Hi

SEAT 5 5 25% 25% PEUGEOT 6 11 30% 55% RENAULT 9 20 45% 100%

Total 20 = n 100%

Dibuja el diagrama de barras y de sectores

Deporte fi hi (en %) Ángulo del sector Baloncesto 12 40 40% de 360º = 144º Natación 3 10 10% de 360º = 36º

Fútbol 9 30 30% de 360º = 108º Ninguno 6 20 20% de 360º = 72º

Total 30 100% 360º

xi fi Fi hi Hi Universidad 60 60 30% 30% Bachillerato 60 120 30% 60%

CFGS 50 170 25% 85% CFGM 20 190 10% 95% ESO 10 200 5% 100%

Suma total 200 = n - 100% -

Page 4: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 4 -

3

4

5 La siguiente grafica da la cantidad de pares de zapatos de mujer vendidos en una tienda a lo largo del día.

0

5

10

15

20

25

30

35

36 37 38 39 40

Nº de zapato

de p

are

s v

en

did

os

Pasa esta información a una tabla de frecuencias y a un diagrama de sectores

3.- PARÁMETROS ESTADÍSTICOS

La media aritmética Es la suma de todos los datos dividida entre el número total de datos, n.

Se calcula por la fórmula ii∑ )

n

(x fx = , donde ∑ significa suma.

Ejemplo:

Notas en un examen de un grupo de amigos

xi fi xi fi 4 1 4 5 2 10 6 4 24 7 3 21

Total 10 = n 59

= = =∑ 59

x 5,910

iin

)(x f

Si los datos están agrupados en intervalos, se toma como xi el punto medio del intervalo. Este valor se llama marca de clase

Ejemplo:

Gasto mensual en €, en teléfono móvil, de un grupo de jóvenes

clases xi fi xi fi [10, 11) 10,5 4 42 [11, 12) 11,5 6 69 [12, 13) 12,5 7 87,5 [13, 14) 13,5 3 40,5

Total 20 = n 239

= = =∑ 239

x 11,95 €20

iin

)(x f

Page 5: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 5 -

La media ponderada

Se calcula cuando los datos tienen distinto peso o importancia Ejemplo:

Tres exámenes tienen distinto peso: el primero vale 1, el segundo 2, y el tercero 3. Un alumno obtiene calificaciones de 9, 4 y 8, respectivamente.

¿Qué nota le debe poner el profesor?

Se multiplica cada nota por su peso y se divide entre la suma de los pesos.

Media ponderada: 9.1 4.2 8.3 41

6,81 2 3 6

+ += =

+ +. Luego, le debe poner un 6,8

La moda (Mo)

Es el valor que más se repite en los datos. La moda es el valor xi que tiene mayor frecuencia absoluta.

Si los datos están agrupados en intervalos se toma el intervalo de mayor frecuencia (intervalo o clase modal).

Puede haber más de una moda o puede que no haya moda porque todos los valores tengan la misma frecuencia absoluta.

Ejemplo:

xi = Equipo de fútbol preferido Nº de personas Madrid 12

Granada 7 Barcelona 12

Málaga 6

Hay dos modas, Madrid y Barcelona.

La mediana (Me) Es el dato que está justamente en medio, cuando tenemos todos los datos ordenados de menor a mayor

Cálculo de la mediana cuando hay “pocos” datos

- Si el nº de datos es impar , la mediana es el dato central Ejemplo:

Edades de 9 personas: 15 , 12 , 17 , 15 , 14 , 14 , 17 , 15 , 15

Ordenando los datos: 12, 14, 14, 15, 15, 15, 15, 17, 17 → Me = 15

- Si el nº de datos es par , la mediana es la media aritmética de los 2 datos centrales Ejemplo:

Notas de 12 alumnos: 7 , 4 , 6 , 5 , 7 , 7 , 8 , 5 , 8 , 4 , 4 , 5

Ordenando los datos: 4, 4, 4, 5, 5, 5, 6, 7, 7, 7, 8, 8 → Me = 5,5

Cálculo de la mediana cuando hay “muchos” datos

En este caso, la mediana es el primer valor xi cuya Hi es mayor que el 50% Ejemplo:

Notas en Inglés de 20 alumnos: Me = 5,5

clases xi Hi [2,3) 2,5 15 [3,4) 3,5 25 [4,5) 4,5 40 [5,6) 5,5 65 [6,7) 6,5 80 [7,8) 7,5 100

Page 6: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 6 -

Los cuartiles Cuando los datos están ordenados de menor a mayor, los cuartiles son tres valores Q1 , Q2 , Q3 que dividen a los datos en 4 partes iguales El primer cuartil, Q1 , es el primer valor xi cuya Hi es mayor que el 25% El segundo cuartil, Q2 , es el primer valor xi cuya Hi es mayor que el 50%. Es decir, Q2 = Me El tercer cuartil, Q3 , es el primer valor xi cuya Hi es mayor que el 75%

El rango intercuartílico (RI) es la distancia entre Q1 y Q

3 → RI: Q

3 – Q

1

Si los datos estuviesen agrupados en intervalos se toma como xi la marca de clase Ejemplo:

Notas en Inglés de 20 alumnos: Q1 = 4,5 Q

2 = Me = 5,5 Q

3 = 6,5 RI = 6,5 – 4,5 = 2

Diagrama de caja

Los cuartiles se suelen representar en un diagrama, llamado diagrama de caja

Para dibujar el diagrama de caja, se calculan los valores mínimo y máximo de xi así como los cuartiles.

Después se dibuja una caja, cuyos extremos son Q1 y Q

3, que indica donde se concentran el 50% de

los datos y una línea central que marca la mediana.

Esta representación nos permite saber qué datos son atípicos y si la distribución de datos es simétrica respecto de la mediana: si la caja está desplazada hacía la izquierda o hacía la derecha respecto de la mediana significa que la distribución de datos es asimétrica.

Ejemplo:

Para las notas en Inglés expuesto anteriormente, el diagrama de caja sería:

Los percentiles

Cuando los datos están ordenados de menor a mayor, los percentiles son 99 valores P

1, P

2, … P

99 que dividen a los datos en 100 partes iguales.

Por ejemplo, P1 es el primer valor x

i cuya H

i supera el 1%, P

2 es el primer valor x

i cuya H

i supera el 2%,

etc. Ejemplos:

P25

es el primer valor xi cuya H

i supera el 25%. Luego P

25 = Q

1

P50

es el primer valor xi cuya H

i supera el 50%. P

50 = Q

2 = Me

P75

es el primer valor xi cuya H

i supera el 75%. Luego P

75 = Q

3

clases xi Hi [2,3) 2,5 15 [3,4) 3,5 25 [4,5) 4,5 40 [5,6) 5,5 65 [6,7) 6,5 80 [7,8) 7,5 100

Page 7: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 7 -

Los deciles

Cuando los datos están ordenados de menor a mayor, los deciles son 9 valores D1, D

2, … D

9 que

dividen a los datos en 10 partes iguales. Por ejemplo, D

1 es el primer valor x

i cuya H

i supera el 10%, D

2 es el primer valor x

i cuya H

i supera el

20%, etc.

Ejemplo:

D5 es el primer valor x

i cuya H

i supera el 50%. Luego D

5 = Q

2 = Me

Ejercicio 2 El siguiente gráfico representa el polígono de frecuencias relativas acumuladas, H

i, de los pesos

de 40 personas

Determina a partir del gráfico, de forma aproximada: a) La mediana b) P20 c) El percentil que corresponde a un peso de 63 kg d) El número de personas que pesan más de 66,5 kg

Parámetros de dispersión

El recorrido o rango, R, es la diferencia entre el mayor y el menor valor de xi

La varianza, s2, se calcula con la fórmula:

2i i2 2x .f

sn

x= −∑

La desviación típica, s, es la raíz cuadrada de la varianza: = 2s s

El coeficiente de variación, CV, se calcula con la fórmula: s

CVx

=

En el intervalo (x – s , x + s) se encuentra, aproximadamente el 68% de todos los datos En el intervalo (x – 2s , x + 2s) se encuentra, aproximadamente el 95% de todos los datos En el intervalo (x – 3s , x + 3s) se encuentra, aproximadamente el 99% de todos los datos

Page 8: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 8 -

Ejemplo: Se han agrupado los hoteles de una región por el número de habitaciones, obteniéndose la siguiente tabla:

Rango: 500 – 0 = 500 52 000

x 260200

= =

2 216 700 000s 260 15 900

200= − = s 15 900 126,0952= ≅

126,0952C.V. 0,485

260= =

Ejercicio 3 Se realiza una estadística en dos centros de enseñanza, uno público y otro privado, referente a la nota global del bachillerato de cada uno de los alumnos que van a acudir a los exámenes de selectividad.

Las distribuciones de frecuencias son las siguientes:

a) Un alumno del centro privado tiene una nota global de un 8,5 y otro del centro público una nota de un 7.

¿Cuál de los dos es mejor alumno comparándolo con la media de su Centro? b) Calcula el coeficiente de variación de las dos distribuciones.

Solución

Habitaciones número de hoteles 0 – 100 20

100 – 200 50 200 – 300 60 300 – 400 30 400 – 500 40

clases xi fi xi fi 2i ix f

[0,100) 50 20 1 000 50 000 [100,200) 150 50 7 500 1 125 000 [200,300) 250 60 15 000 3 750 000 [300,400) 350 30 10 500 3 675 000 [400,500) 450 40 18 000 8 100 000

Total n = 200 52 000 16 700 000

Público Nota Alumnos [5,6) 60 [6,7) 70 [7,8) 40 [8,9) 20 [9,10) 10

Privado Nota Alumnos 5,5 8 6,5 12 7,5 20 8,5 30 9,5 10

Page 9: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 9 -

Practica tú: 6 En las pruebas de acceso a una Universidad la calificación final se obtiene haciendo la media ponderada de la nota de Bachillerato y la de la prueba de Selectividad. La nota de Bachillerato tiene un peso del 60% y la de Selectividad un 40%. ¿Estaría aprobado un alumno que tiene de nota de Bachillerato 5,66 y un 4,01 en la Selectividad? 7 En este gráfico se muestran las calificaciones de un grupo de alumnos

Calificaciones

109876543210

Frecuencia

5

4

3

2

1

0

a) Indica cuál es la moda b) Dibuja el diagrama de caja e indica si la distribución de datos es simétrica c) Calcula el percentil 60 y el decil 8 d) Halla el coeficiente de variación 8 El volumen de ventas anuales de las empresas de telefonía se reparte de la siguiente manera: Dentro de la telefonía móvil la media fue de 6,61 millones de euros y la varianza de 86,5. En el caso de la telefonía fija la media fue 7,2 millones de euros y la varianza de 117,79.

a) Usando los coeficientes de variación explica en cuál de estos dos sectores de telefonía están más dispersas las ventas

b) Una empresa tiene un volumen de ventas anuales de 7,51 millones de euros en telefonía móvil y 8,41 millones de euros en telefonía fija. ¿En cuál de los dos sectores está mejor situado comparándolo con la media?

Page 10: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 10 -

9

10

11

12

4.- DISTRIBUCIONES BIDIMENSIONALES

Concepto de distribución bidimensional

Cuando se quieren estudiar dos características X e Y de una misma población, los datos que se obtienen son parejas de valores (x

i, y

i). El conjunto de datos (x

i,y

i) se llama distribución bidimensional

Diagrama de dispersión o nube de puntos

Es la representación gráfica de los puntos (xi, y

i)

Ejemplo: Notas de 12 alumnos en Matemáticas y Física

Alumno a b c d e f g h i j k l Matemáticas 2 3 4 4 5 6 6 7 7 8 10 10

Física 1 3 2 4 4 4 6 4 6 7 9 10

Page 11: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 11 -

Interpretación del diagrama de dispersión: Correlación

Si la nube de puntos se concentra en torno a una línea se dice que hay correlación entre las dos variables. Se dice que hay correlación lineal si la nube de puntos se concentra en torno a una recta. La correlación será positiva o directa si la línea es creciente y negativa o inversa si es decreciente y será más fuerte cuanto mayor sea la concentración de los puntos entorno a esa línea.

Ejemplos:

Correlación lineal directa

fuerte

Correlación directa

débil

Correlación inversa

fuerte

Correlación lineal inversa

débil

Si los puntos están esparcidos sin concentrarse en torno a ninguna línea, se dice que no hay relación entre las variables o que la correlación es nula.

Correlación nula

Practica tú:

13 En los siguientes casos dibuja el diagrama de dispersión e indica el tipo de correlación que hay entre X e Y. a) Se ha realizado una encuesta preguntando por el número de personas que habitan en el hogar familiar y el número de dormitorios que tiene la casa. La tabla siguiente recoge la información obtenida:

X = número de personas 3 5 4 6 4 Y = número de dormitorios 2 3 4 4 3

b) El número de gérmenes por cm3 en un enfermo que se está curando viene dado por la tabla X = horas 0 1 2 3 4 Y = número de gérmenes 80 60 50 40 20

c) El número de libros vendidos en una librería y la temperatura del día

X = temperatura (ºC) 20 21 22 23 24 25 Y = número de libros 10 70 50 20 90 10

Page 12: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 12 -

5.- PARÁMETROS ESTADÍSTICOS BIDIMENSIONALES

Medias aritméticas de X y de Y

i ix .fx

n

∑= i iy .f

yn

∑=

Centro de gravedad de la distribución: (x , y)

Varianza y desviación típica de X y de Y

∑ = − =

22 2i ix

2x x

x .fvar ianza: s x

n

X

Desviación típica: s s

∑ = −

=

22 2i iy

2y y

y .fvar ianza: s y

n

Y

Desviación típica: s s

Covarianza entre X e Y

∑= −i i i

xyx y f

s x yn

También se puede usar la fórmula (x x)(y y)i isxy

n

∑ − −=

Coeficiente de correlación lineal de Pearson

=xy

x y

srs s

Propiedades del coeficiente de correlación

1) El coeficiente de correlación, r, tiene el mismo signo que la covarianza y nos sirve para medir el grado de relación o dependencia entre las variables X e Y 2) –1 ≤ r ≤ 1 3) Si r = 1 ó r = –1, la nube de puntos se ajusta perfectamente a una recta 4) Si r es positivo, la correlación es positiva y si r es negativo, la correlación es negativa 5) Cuanto más próximo esté r al 0 más débil es la correlación 6) Cuánto más próximo esté | r | al 1, más fuerte es la correlación

Interpretación de la correlación según el valor del coeficiente de correlación

Tablas de doble entrada Cuando las datos (x

i,y

i) se repiten se suele utilizar una tabla de doble entrada para evitar escribir la misma

pareja varias veces. Ejemplo:

A un grupo de padres se les ha preguntado por el número de hijos que tienen y el número de horas que ven diariamente la televisión. Los resultados se han recogido en la siguiente tabla de doble entrada:

X = número de hijos, Y = número de horas que ven la televisión. X Y

0 1 2

0 2 1 0 1 3 4 1 2 0 5 3

Por ejemplo, la pareja de valores (1,1) aparece 4 veces lo que significa que hay 4 padres que tienen 1 hijo y ven la televisión 1 hora Ejercicio 4 En los siguientes casos, halla las medidas bidimensionales e indica el tipo de correlación que hay entre X e Y. a) Las tallas y los pesos de 10 personas vienen recogidos en la siguiente tabla:

X = talla (en metros) 1,60 1,65 1,70 1,80 1,85 1,90 1,92 1,75 1,82 1,72 Y = peso (en kg) 58 61 65 73 80 85 83 68 74 67

Page 13: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 13 -

Solución

b) Se han recogido una serie de datos y se ha hecho la siguiente tabla de doble entrada

X Y

2 4 6

1 1 3 0 2 2 3 1

Page 14: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 14 -

Practica tú:

14 15

16

17 A un grupo de padres se le ha preguntado por el número de hijos que tienen y el número de horas que ven diariamente la televisión. Los resultados se han recogido en la siguiente tabla de doble entrada: X = número de hijos, Y = número de horas que ven la televisión.

X Y

0 1 2

0 2 1 0 1 3 4 1 2 0 5 3

Calcula el coeficiente de correlación e interprétalo

Page 15: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 15 -

6.- RECTAS DE REGRESIÓN

Son las rectas que mejor se ajustan a la nube de puntos de forma que la nube de puntos está muy concentrada en torno a ellas. Hay dos rectas de regresión:

Recta de regresión de Y sobre X

− = −xy

yx 2x

sr : y y (x x)

s

xy2x

s

s es la pendiente de la recta y se llama coeficiente

de regresión de Y sobre X

La recta de regresión de Y sobre X se puede usar para estimar lo que vale “y” para un valor dado de “x”.

La estimación es más fiable cuanto más fuerte sea la correlación entre las variables y más cerca esté el valor

“x” de los valores “xi” de la distribución.

Recta de regresión de X sobre Y

− = −xy

xy 2y

sr : x x (y y)

s

xy

2y

s

s se llama coeficiente de regresión de X sobre Y

La recta de regresión de X sobre Y se puede usar para estimar lo que vale “x” para un valor dado de “y”. La estimación es más fiable cuanto más fuerte sea la

correlación entre las variables y más cerca esté el valor “y” de los valores “y

i” de la distribución.

Propiedades de las rectas de regresión 1) Las dos rectas se cortan en el centro de gravedad (x , y) 2) Cuánto más fuerte es la correlación menor es el ángulo que forman entre sí ambas rectas.

Ejemplos:

Correlación débil Correlación fuerte

Ejercicio 5 En distintos modelos de aspiradores se ha medido el peso, en kilogramos, y la capacidad útil de la bolsa, en litros, obteniendo los siguientes resultados:

a) Halla la recta de regresión de Y sobre X y de X sobre Y.

SOLUCIÓN

Page 16: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 16 -

b) Usando la recta que corresponda haz las siguientes estimaciones e indica si son fiables: b1) La capacidad para un peso de 6,5 kg

b2) El peso para una capacidad de 2 litros

b3) La capacidad para un peso de 10 kg

Ejercicio 6 La media de las estaturas X de los habitantes de una ciudad es 170 cm y la media de sus pesos Y es 65 kg. Las desviaciones típicas son 10 cm y 5 kg y la covarianza de ambas variables es 40. a) Halla el coeficiente de correlación b) Calcula la recta de regresión de Y respecto de X y de X respecto de Y c) Estima el peso de un individuo de 180 cm de estatura y la estatura de un individuo de 60 kg de peso.

¿Será buena la estimación? Razónalo d) Si quisiéramos estimar el peso de un niño de 50 cm mediante la recta de regresión ¿sería buena la predicción?

Practica tú:

18

19

Page 17: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 17 -

20

SOLUCIONES A LAS ACTIVIDADES PROPUESTAS PARA EL ALUMNO

1

) 65% ) 31 ) 67,5%db c

2

3

Page 18: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 18 -

4

5

6

7

Page 19: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 19 -

8

9 10

11 12 clases x

i f

i F

i h

i H

i x

ifi 2

i ix f [0,10) 5 4 4 20% 20% 20 100 [10,20) 15 7 11 35% 55% 105 1575 [20,30) 25 5 16 25% 80% 125 3125 [30,40) 35 2 18 10% 90% 70 2450 [40,50) 45 1 19 5% 95% 45 2025 [50,60) 55 0 19 0% 95% 0 0 [60,70) 65 1 20 5% 100% 65 4225

Total 20 100% 430 13500

=x 21,5 días = = = =1 2 3Q 15 Q 15 Q 25; RI 10 =2s 212,75 ≅s 14,586 ≅C.V. 0,678

13 a)

Page 20: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 20 -

b)

c)

14

Page 21: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 21 -

15

Page 22: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 22 -

16

17

18

Page 23: 1º BACHILLERATO D - iesaricel.orgiesaricel.org/rafanogal/bachillerato/1bach-ccss-16-17/1bach ccss-t5... · 1º BACHILLERATO D – MATEMÁTICAS CC ... Notas en un examen de un grupo

- Página 23 -

19

20