Tema 1Analisis exploratorio de datos
Jose R. Berrendero
Departamento de MatematicasUniversidad Autonoma de Madrid
Informacion de contacto
Jose Ramon Berrendero Dıaz
Correo electronico: [email protected]
Telefono: 91 497 66 90
Despacho: Modulo 08 - Despacho 210
Pagina web:http://matematicas.uam.es/~joser.berrendero
Ejemplo: contaminacion por mercurio en el pescado
I El agua de los rıos contiene pequenas concentraciones demercurio que se pueden ir acumulando en los tejidos de lospeces.
I Se ha realizado un estudio en los rıos Wacamaw y Lumber enCarolina del Norte (EE.UU.), analizando la cantidad demercurio que contenıan 171 ejemplares capturados de unacierta especie de peces.
I Los datos obtenidos se encuentran en el ficheromercurio.omv (la extension .omv corresponde al formato dejamovi).
Variables
Nombre variable Descripcion
RIO Codigo del rıo (0=Lumber, 1=Wacamaw)ESTACION Codigo de la estacion (de 0 a 16)LONG Longitud (en cm) del pezPESO Peso (en g) del pezCONC Concentracion (en ppm) de mercurio
Datos
Problemas de interes relacionados con estos datos
I Resumir la informacion que contienen con unas pocas cifras ograficos.
I ¿Que valores toma cada variable? ¿Cuales son los masfrecuentes? ¿Hay grandes diferencias entre ellos?
I ¿Existe algun modelo que permita saber la proporcion de lapoblacion de peces que tiene una concentracion de mercuriosuperior a 3 ppm?
I ¿Es significativamente mas alta la concentracion de mercurioen un rıo que en otro?
I ¿Existe relacion entre la concentracion de mercurio y lalongitud o el peso del pez?
Temario
1. Analisis exploratorio de datos
2. Nociones elementales de inferencia estadıstica.
3. Contrastes de hipotesis.
4. Regresion lineal simple.
5. Analisis de la varianza.
Bibliografıa
I De La Horra, J. Estadıstica Aplicada (3a ed). Ediciones Dıazde Santos, 2003.
I Moore, D. S. Estadıstica aplicada basica. Antoni Bosch, 1999.
I Milton, S. Estadıstica para Biologıa y Ciencias de la Salud (3a
ed. ampliada). McGraw-Hill, 2007.
I Navarro D.J. y Foxcroft D.R. (2019). Learning statistics withjamovi. Libro electronico de libre descarga (enlace en moodle).
I Samuels, M., Witmer, J. y Schaffner, A. Statistics for the lifesciences. (4a ed.). Pearson, 2011.
I Townend, J. Practical Statistics for Environmental andBiological Scientists. Wiley, 2002.
Estructura del Tema 1
I Tipos de variables.
I Distribucion de una variable.
I Representacion grafica de la distribucion.
I Medidas numericas para resumir la distribucion.
I Covarianza y correlacion.
Introduccion
La estadıstica tiene por objetivo extraer conocimiento a partir deinformacion (principalmente) numerica.
La estadıstica descriptiva tiene por objetivo identificar lasprincipales caracterısticas de un conjunto de datos mediante unnumero reducido de graficos y/o numeros.
Los conjuntos de datos que vamos a considerar proceden de mediruna o mas variables en un conjunto de individuos.
Para describir un conjunto de datos se comienza con un analisisindividual de cada variable y posteriormente se estudian lasrelaciones entre variables.
Se suele comenzar con representaciones graficas y posteriormentese calculan resumenes numericos.
Tipos de variables
1. Variables cualitativas: Describen cualidades o atributos (ej.color del pelo).
2. Variables cuantitativas discretas: Toman un numeropequeno de valores, normalmente enteros (ej. numero dehijos).
3. Variables cuantitativas continuas: Toman valores en unintervalo (ej. tiempo hasta que llega un autobus).
En los datos sobre contenido de mercurio, ¿de que tipo es cadauna de las variables?
En general, la tecnica estadıstica adecuada para analizar unavariable depende de su tipo.
Datos ordenados
Distribucion de una variable
La distribucion de una variable viene determinada por los valoresque toma esa variable y la frecuencia con la que los toma.
La frecuencia absoluta de un valor (o de un intervalo) es el numerode individuos para los que la variable toma ese valor (o pertenece aese intervalo).
La frecuencia relativa es igual a la frecuencia absoluta dividida porel numero de datos n. Siempre es un numero entre 0 y 1.
En ocasiones nos encontraremos con datos agrupados en intervaloso clases A1, . . . ,Ak . Los valores x1, . . . , xk que representan cadaclase (generalmente los puntos medios de los intervalos) se llamanmarcas de clase.
Aspectos interesantes de una distribucion
I Su posicion: en torno a que valor central toma valores lavariable.
I Su dispersion: el grado de concentracion de los valores quetoma la variable alrededor de su posicion central.
I Su forma: por ejemplo, la simetrıa, es decir, si los valores sereparten de la misma forma a uno y otro lado del centro.
Piensa en dos conjuntos de 5 datos que tengan:
(a) La misma posicion y distinta dispersion.
(b) La misma dispersion y distinta posicion.
Sectores o barras (solo variables cualitativas o discretas)
1
0
50
100
150
Número de observaciones en cada río
factor(RIO)
0
1
Histogramas (solo variables continuas)I Se divide el rango de los datos en un numero adecuado de
intervalos.I Sobre cada intervalo se dibuja un rectangulo cuya area es
proporcional a la frecuencia (relativa o absoluta) de datos enel intervalo.
Aspectos a tener en cuenta para interpretar un histograma
I Si la base de todos los rectangulos es la misma la altura esproporcional a la frecuencia.
I ¿Cuantas modas hay?
I ¿Hay algun dato atıpico en relacion al resto?
I ¿Es simetrica la distribucion?
I En caso de asimetrıa, ¿es asimetrica a la izquierda o a laderecha
I ¿En torno a que valor aproximado estan centrados los datos?
I ¿Estan muy dispersos los datos en torno a este centro?
Tipos de simetrıa
0
10
20
30
40
50
Distribución simétrica unimodal0
10
20
30
40
Distribución simétrica bimodal
0
20
40
60
80
100
Distribución asimétrica a la derecha0
20
40
60
80
100
Distribución asimétrica a la izquierda
La forma depende del numero de intervalos
Concentracion
Frec
uenc
ia
0 1 2 3 4
0.0
0.1
0.2
0.3
0.4
Concentracion
Frec
uenc
ia0 1 2 3 4
0.0
0.2
0.4
0.6
Concentracion
Frec
uenc
ia
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
0.0
0.2
0.4
0.6
0.8
Concentracion
Frec
uenc
ia
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
0.0
0.2
0.4
0.6
0.8
1.0
Concentracion
Frec
uenc
ia
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
0.0
0.2
0.4
0.6
0.8
1.0
Concentracion
Frec
uenc
ia0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
0.0
0.2
0.4
0.6
0.8
1.0
1.2
Medidas numericas de posicion: la media aritmetica
x =x1 + · · ·+ xn
n=
1
n
n∑i=1
xi .
Algunas propiedades:
I La suma de las desviaciones a la media siempre es igual a cero:
(x1 − x) + (x2 − x) + · · ·+ (xn − x) = 0.
I Si la distribucion es muy asimetrica, la media puededistorsionar nuestra percepcion de como son los datos.
I La media es muy sensible a la existencia de datos atıpicos enlos datos.
Para datos agrupados, si x1, . . . , xk son las marcas de clase yf1, . . . , fk son las frecuencias relativas
x = x1f1 + · · ·+ xk fk .
Posicion de la media en un histograma
Medidas numericas de posicion: la mediana
Una medida alternativa de posicion es la mediana. Para calcularla mediana:
I Se ordenan los datos de menor a mayor.
I Si el numero de datos es impar, la mediana es el dato queocupa la posicion central.
I Si el numero de datos es par, la mediana es la media de losdos datos centrales.
La mediana es mas robusta que la media pero hace un uso menoseficiente de la informacion contenida en los datos.
Relacion entre la simetrıa de una distribucion y la posicion relativaentre la media y la mediana.
Mediana para datos agrupados.
Media y mediana
Media y mediana
Media y mediana
Medidas de dispersion: rango intercuartılico
Una medida de dispersion muy sencilla es el rango o recorrido delos datos: el valor maximo menos el mınimo.
El rango solo depende de los datos extremos por lo que no es muyconveniente.
Mejores propiedades tienen los cuartiles y el rango intercuartılico:
I El primer cuartil, Q1, es la mediana de los datos menores quela mediana.
I El tercer cuartil, Q3, es la mediana de los datos mayores quela mediana.
I El rango, recorrido o amplitud intercuartılica es ladiferencia entre los dos cuartiles anteriores: Q3 − Q1.
De acuerdo con las anteriores definiciones, responde a lassiguientes cuestiones:
¿Que porcentaje de datos hay...
(a) ... entre Q1 y Q3?
(b) ... a la izquierda de Q1?
(c) ... a la derecha de Q3?
(d) ... entre el mınimo y Q3?
Una descripcion util de un conjunto de datos viene dada por loscinco numeros siguientes:
Mınimo, Q1, Mediana, Q3, Maximo
El cuantil p (o percentil 100p) es el valor que deja a suizquierda una proporcion p (o porcentaje 100p) de los datos.
Ejemplo: salarios en Espana
Cuestiones
I La media y la mediana de los salarios en Espana en 2006fueron ... y ...
I ¿Cual es la forma de la distribucion de salarios?
I ¿Cuanto vale el rango intercuartılico?
I Un 10% de las mujeres ganaba mas de ...
I Un 80% de los hombres ganaba entre ... y ...
I Un ... % de las mujeres ganaba mas de 6258.13 euros.
Medidas de dispersion: la (cuasi)varianza y la(cuasi)desviacion tıpica
Son las medidas de dispersion mas utilizadas.
La varianza es el promedio de las desviaciones al cuadrado de losdatos a su media.
Datos x1, . . . , xnDesviaciones x1 − x , . . . , xn − x
Desviaciones al cuadrado (x1 − x)2, . . . , (xn − x)2
La varianza es el promedio de las desviaciones al cuadrado:
vx =(x1 − x)2 + . . . + (xn − x)2
n
La cuasivarianza
Como(x1 − x) + (x2 − x) + · · ·+ (xn − x) = 0,
dadas n − 1 desviaciones, podemos despejar la restante.
En realidad solo disponemos de n − 1 desviaciones independientes.
Como consecuencia, es mas correcto dividir por n − 1 que por n.
La cuasivarianza muestral es
S2 =(x1 − x)2 + . . . + (xn − x)2
n − 1.
Formulas alternativas
La varianza se puede escribir como la media de los datos alcuadrado, menos el cuadrado de la media de los datos.
Por lo tanto,
vx =x2
1 + · · ·+ x2n
n− x2
S2 =n
n − 1
(x2
1 + · · ·+ x2n
n− x2
)
Estas formulas suelen ser mas rapidas para calcular vx y S2.
Cuasidesviacion tıpica
La cuasidesviacion tıpica es la raız cuadrada de S2:
S =
√(x1 − x)2 + . . . + (xn − x)2
n − 1
S se usa mas que S2 porque mide la dispersion en la misma escalaque los datos originales.
Una medida adimensional relacionada es el coeficiente devariacion:
CV =S
|X |
Cuestiones
1. Siempre S2 ≥ 0. Da un ejemplo de un conjunto de datos tal queS2 = 0.
2. Dado un conjunto de observaciones medidas en kg, supongamos quecambiamos las unidades y las pasamos a gramos (es decir,multiplicamos por mil). Determina si son verdaderas o falsas lassiguientes afirmaciones:
I Tanto la media como la mediana de los nuevos datos semultiplican tambien por mil.
I La varianza se multiplica tambien por mil.
¿Como cambiarıa la desviacion tıpica?
3. Ahora sumamos 100 a todos los datos. Determina si son verdaderaso falsas las siguientes afirmaciones:
I Los cuartiles no cambian.I El rango intercuartılico no cambia.I La desviacion tıpica no cambia.
4. ¿Cual es la formula de la varianza para datos agrupados?
Descripcion numerica
Cuestiones
I Comparando los valores de la media y la mediana, ¿quepodemos decir sobre la simetrıa de las distribuciones?
I Verdadero o falso: Al menos para 100 peces, la concentracionde mercurio es superior a 0.93 ppm.
I Verdadero o falso: La longitud de aproximadamente 42 peceses mayor que 25.20 cm y menor que 33.3 cm.
I ¿Cual es el rango intercuartılico de la variable que mide elpeso de los peces?
Estandarizacion o tipificacion
Consiste en restarle a cada observacion la media de todos los datosy dividir por la desviacion tıpica:
zi =xi − x
S
Representa la distancia de xi a la media expresada en desviacionestıpicas (el signo indica si el dato es mayor o menor que la media).
Utilidad de la tipificacion
I Eliminar los efectos de las unidades de medida.
I Detectar posibles valores atıpicos en los datos.
I Realizar comparaciones de los valores de una variable endiferentes poblaciones.
¿Cuanto vale la media y la desviacion tıpica de los datosestandarizados?
Ejemplo
En un examen la nota media de los alumnos fue de 50 puntos y lacuasidesviacion tıpica fue de 10.
I Estandariza las notas siguientes: 60, 45, 75.
I Si la nota estandarizada de un alumno fue -2, el alumnoobtuvo ... en el examen.
I Una nota de 60 en este examen equivale despues deestandarizar a otra de ... en otro examen cuya media fue 40 ycuya cuasidesviacion tıpica fue 5.
Efecto de estandarizar un conjunto de datos
−4 −2 0 2 4 6 8
Datos originales
−4 −2 0 2 4 6 8
Datos centrados (media cero)
−4 −2 0 2 4 6 8
Datos estandarizados (media cero y varianza uno)
Diagrama de cajas
¿Para que sirven?
Los diagramas de cajas son especialmente utiles para compararvarios conjuntos de datos.
Ademas, proporcionan informacion sobre:
I La posicion (mediana) y la dispersion (rango intercuartılico)de los datos.
I La simetrıa de la distribucion (comparamos el tamano de lascajas).
I La existencia de datos que se desvıan del patron general(datos atıpicos).
Concentracion de mercurio y rıo
Concentracion de mercurio y rıo
Concentracion de mercurio y estacion
0
1
2
3
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
ESTACION
CONC
Relaciona cada histograma con su diagrama de cajas−2
−10
12
●
●
●
●
●
●
34
56
7
●
●
●
01
23
45
Diagrama de dispersion: Concentracion frente a peso
Interpretacion de un diagrama de dispersion
I Es importante fijarse en las unidades de cada eje
I ¿Se observa alguna asociacion entre las variables?
I ¿Como es de estrecha la asociacion entre las variables?
I ¿Cual es la “direccion” de la asociacion entre las variables?
I ¿Hay algun punto o coleccion de puntos que no siga el patrongeneral del resto?
I Si hay una tercera variable cualitativa, resulta convenienteutilizar sımbolos o colores diferentes para cada valor de estatercera variable.
Concentracion frente a peso (color segun rıo)
Matriz de diagramas de dispersion
CONCPESOLONG
CONC
PESO
LONG
1,00,00
RIO
Covarianza
Se dispone de un conjunto de n pares de observaciones
(x1, y1), . . . , (xn, yn).
La covarianza entre x e y es una medida numerica para cuantificarel grado de asociacion lineal entre x e y :
xi yi xi − x yi − y (xi − x)(yi − y)
x1 y1 x1 − x y1 − y (x1 − x)(y1 − y)...
......
......
xn yn xn − x yn − y (xn − x)(yn − y)
Sxy =1
n − 1[(x1 − x)(y1 − y) + · · ·+ (xn − x)(yn − y)]
Interpretacion de la covarianza
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
● ●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
● ●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
−4−2
02
4
Covarianza positiva
y ●●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
● ●
●
●
●
●●
●
●
●
● ●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
● ●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●● ●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
−2 −1 0 1 2
−4−2
02
4
Covarianza negativa
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
● ●
●
●● ●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
● ●
●
●●
●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
● ●
●
●●
−2 −1 0 1 2
−2−1
01
2
Covarianza aprox. cero
y ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●●●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●●
● ●
●
●
●
● ●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●●
●
●
●●
●
●
●●
●●
●
●
● ●●
●●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
−2 −1 0 1 2
−20
24
6
Covarianza aprox. cero
y
●
Covarianza
Formula alternativa:
Sxy =1
n − 1
n∑i=1
(xi − x)(yi − y) =n
n − 1
(1
n
n∑i=1
xiyi − x y
)
Propiedades:
I Sxy = Syx .
I Sxx es la cuasivarianza de x .
I Sxy depende de las unidades en que se midan x e y .
I Tambien a veces se define la covarianza dividiendo por n enlugar de n − 1. En este caso, Sxx = vx .
Coeficiente de correlacion
Resulta conveniente disponer de una medida de relacion lineal queno dependa de las unidades. Para ello, se normaliza Sxy dividiendopor el producto de desviaciones tıpicas, lo que lleva al coeficientede correlacion:
rxy =SxySxSy
.
Propiedades del coeficiente de correlacion:
I No depende de las unidades.
I ¿Cuanto vale rxx?
I Siempre toma valores entre -1 y 1. Solo vale 1 o -1 cuando lospuntos estan perfectamente alineados.
I Su signo se interpreta igual que el de la covarianza.
Ejemplos de correlaciones
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
r = 0.1
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●●
●
r = −0.1
●
●
●
●●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
● ●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
r = 0.3
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
r = −0.3
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
r = 0.7
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
r = −0.7
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
● ●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●● ●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●● ●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
r = 0.9
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
r = −0.9
Covarianzas y correlaciones de los datos
Correlaciones
1 ,900 ,650,000 ,000
12332,114 1141004 716,835
72,542 6711,790 4,217171 171 171,900 1 ,554,000 ,000
1141004 1E+008 62786,546
6711,790 766555,9 369,333171 171 171,650 ,554 1,000 ,000
716,835 62786,546 98,622
4,217 369,333 ,580171 171 171
Correlación de PearsonSig. (bilateral)Suma de cuadrados yproductos cruzadosCovarianzaNCorrelación de PearsonSig. (bilateral)Suma de cuadrados yproductos cruzadosCovarianzaNCorrelación de PearsonSig. (bilateral)Suma de cuadrados yproductos cruzadosCovarianzaN
LONG
PESO
CONC
LONG PESO CONC
Cuestiones
I ¿Cuanto vale la cuasivarianza de la longitud?
I Verdadero o falso: si multiplicamos por -1 una de lasvariables, la correlacion no cambia.
I Verdadero o falso: Si r = 0, no hay relacion entre las dosvariables.
I En los siguientes conjuntos de puntos determina, si es posible,el valor c de forma que r = 1. Si no es posible explica porque:
I Conjunto 1: (1, 1), (2, 3), (2, 3), (4, c).I Conjunto 2: (1, 1), (2, 3), (3, 4), (4, c)
Tomar logaritmos
Si las observaciones xi son positivas, a veces es convenientetrabajar con sus logaritmos log xi en lugar de con las variablesoriginales.
0 1 2 3 4 5
−3
−2
−1
01
x
log
(x)
Efecto del logaritmo en la forma de la distribucion
Efecto del logaritmo en el diagrama de dispersion
Siempre hay que representar graficamente los datos
https://www.autodeskresearch.com/publications/samestats
Calorıas y contenido en sodio en salchichas
I Se ha considerado la cantidad de calorıas y de sodio ensalchichas de varias marcas de cada uno de los tipossiguientes:
I Carne de terneraI Mezcla (hasta 15% de carne de pavo)I Carne de pavo
Nombre variable Descripcion
tipo Tipo de carne (1=ternera, 2=mezcla, 3=pavo)calorias Cantidad de calorıassodio Cantidad de sodio
Medidas descriptivas numericasEstadísticos
54 54
0 0
146,6111 424,8333
3,95691 13,04440
146,0000 405,0000
29,07727 95,85637
845,487 9188,443
86,00 144,00
195,00 645,00
132,0000 359,7500
146,0000 405,0000
173,5000 506,2500
Válidos
Perdidos
N
Media
Error típ. de la media
Mediana
Desv. típ.
Varianza
Mínimo
Máximo
25
50
75
Percentiles
calorias sodio
calorias
321
tipo
200,00
180,00
160,00
140,00
120,00
100,00
80,00
ca
loria
s
sodio
Página 1
Diagramas de cajas
Estadísticos
54 54
0 0
146,6111 424,8333
3,95691 13,04440
146,0000 405,0000
29,07727 95,85637
845,487 9188,443
86,00 144,00
195,00 645,00
132,0000 359,7500
146,0000 405,0000
173,5000 506,2500
Válidos
Perdidos
N
Media
Error típ. de la media
Mediana
Desv. típ.
Varianza
Mínimo
Máximo
25
50
75
Percentiles
calorias sodio
calorias
321
tipo
200,00
180,00
160,00
140,00
120,00
100,00
80,00
calor
ias
sodio
Página 1
321
tipo
700,00
600,00
500,00
400,00
300,00
200,00
100,00
sodio
33
200,00180,00160,00140,00120,00100,0080,00
calorias
4
3
2
1
0
Frecu
encia
4
3
2
1
0
4
3
2
1
0
12
3
tipo
Página 2
Histogramas: cantidad de calorıas
321
tipo
700,00
600,00
500,00
400,00
300,00
200,00
100,00
so
dio
33
200,00180,00160,00140,00120,00100,0080,00
calorias
4
3
2
1
0
Fre
cu
en
cia
4
3
2
1
0
4
3
2
1
0
12
3
tipo
Página 2
Histogramas: cantidad de sodio
700,00600,00500,00400,00300,00200,00100,00
sodio
6
4
2
0
Fre
cu
en
cia
6
4
2
0
6
4
2
0
12
3
tipo
Gráfico
[Conjunto_de_datos1] C:\Documents and Settings\usuario\Mis documentos\joser\docencia\estap\datos\hotdogs.sav
Página 3
Diagrama de dispersion
700,00600,00500,00400,00300,00200,00100,00
sodio
200,00
180,00
160,00
140,00
120,00
100,00
80,00
calo
rias
3
2
1
tipo
Página 4
Covarianzas y correlaciones
700,00600,00500,00400,00300,00200,00100,00
sodio
200,00
180,00
160,00
140,00
120,00
100,00
80,00
ca
lori
as
3
2
1
tipo
Correlaciones
[Conjunto_de_datos1] C:\Documents and Settings\usuario\Mis documentos\joser\docencia\estap\datos\hotdogs.sav
Correlaciones
1 ,516
,000
44810,833 76233,500
845,487 1438,368
54 54
,516 1
,000
76233,500 486987,50
1438,368 9188,443
54 54
Correlación de Pearson
Sig. (bilateral)
Suma de cuadrados yproductos cruzados
Covarianza
N
Correlación de Pearson
Sig. (bilateral)
Suma de cuadrados yproductos cruzados
Covarianza
N
calorias
sodio
calorias sodio
Página 4
Cuestiones
I (V o F) Aproximadamente 27 marcas de salchichas tienenentre 132 y 173 calorıas.
I ¿Cual es el rango intercuartılico de la cantidad de sodio?
I Calcula el coeficiente de variacion de ambas variables.
I (V o F) Aproximadamente 13 marcas de salchichas tienen uncontenido de sodio entre 506.25 y 645.
I (V o F) Con la informacion disponible en la tabla de medidasdescriptivas numericas es posible calcular la correlacion entreambas variables.
I (V o F) Al menos el 75% de las marcas de salchichas demezcla tienen mas sodio que la mediana de las marcas deternera.
I Identifica en el diagrama de dispersion el dato atıpico que seobserva en los diagramas de cajas.