Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
INTRODUCCION A LA ES-TADISTICA
Profesor: Mike Wiper
Despacho: 10.1.33
Telefono: 9852
Email: [email protected]
1
Objetivo
Introduccion a los conceptos fundamentales del
analisis de datos y de la probabilidad.
Es decir:
Como (sacar y) resumir una muestra de
datos.
Como medir la incertidumbre sobre los posi-
bles resultados de algun experimento.
Un libro muy util que da mucha mas teorıa
matematica es Wasserman (2004), All of Statis-
tics, Springer.
Se encuentra mucho mas materia en la bib-
lioteca (seccion 519.2) o en internet.
2
Programa
1. Estadıstica descriptiva
Como resumir las caracterısticas de una
muestra de datos
Tipos de variables. Distribuciones de frecuencias.
Representaciones graficas. Medidas de centralizacion.
Medidas de dispersion. Medidas de asimetrıa y de
apuntamiento. Transformaciones.
2. Descripcion conjunta de varias variables
Como resumir una muestra de dos vari-
ables.
Distribuciones conjuntas de frecuencias. Distribu-
ciones marginales y condicionadas. Representaciones
graficas de dos o mas variables.
3
3. Correlacion y regresion
Relacion lineal entre dos variables.
La covarianza. El coeficiente de correlacion y sus
propiedades. La recta de regresion. Residuos y la
desviacion tıpica residual. Aplicaciones.
4. Probabilidad
Como medir el incertidumbre.
El concepto de probabilidad y sus propiedades, prob-
abilidad condicional, sucesos independientes, el teo-
rema de Bayes.
4
5. Variables aleatorias
Variables discretas y continuas. Funcion de distribu-
cion. Funcion de densidad. Medidas caracterısticas
de centralizacion, dispersion, asimetrıa y apuntamien-
to. Transformaciones de variables aleatorias.
6. Modelos discretas
Variables de Bernouilli. Distribucion binomial. Dis-
tribucion geometrica. Distribucin de Poisson.
7. Modelos continuos
Distribucion exponencial y distribucion gamma. Dis-
tribucion normal. La distribucion normal como aprox-
imacion a otras distribuciones. Distribucion lognor-
mal. Distribucion ji-cuadrado.
8. Introduccion a distribuciones multivari-antes
Distribucion conjunta. Marginales y condicionales.
Independencia.
5
INTRODUCCION
¿Que es la estadıstica?
Definicion 1 La estadıstica se ocupa de los
metodos y procedimientos para recoger, clasi-
ficar, resumir, hallar regularidades y analizar los
datos, siempre y cuando la variabilidad e incer-
tidumbre sea una causa intrınseca de los mis-
mos; ası como de realizar inferencias a partir
de ellos, con la finalidad de ayudar a la toma de
decisiones y en su caso formular predicciones.
Una parte del trabajo estadıstico es descriptiva
y otra parte es inferencial.
6
Estadıstica descriptiva e inferencial
Definicion 2 La estadıstica descriptiva se
trata de describir, analizar y representar un
grupo de datos utilizando metodos numericos
y graficos que resumen y presentan la informa-
cion contenida en ellos.
Definicion 3 Con la estadıstica inferencial,
apoyandose en el calculo de probabilidades y a
partir de datos muestrales, se efectuan estima-
ciones, decisiones, predicciones u otras gener-
alizaciones sobre un conjunto mayor de datos.
En Introduccion a la Estadıstica, estudiare-
mos la estadıstica descriptiva y el calculo de
probabilidades.
En Estadıstica I, se estudiara como hacer in-
ferencia sobre las caracterısticas de una poblacion
basado en los resultados de un experimento.
7
1. LA ESTADISTICA DESCRIPTIVA
Objetivo
Aprender como resumir las caracterısticas masimportantes de una muestra de datos.
Indice
1. Introduccion: Conceptos fundamentales.
2. Tablas estadısticas. Distribuciones de frecuencia.
3. Representaciones graficas.
Diagrama de barras.
Diagrama de sectores.
Diagrama de Pareto.
Histograma y polıgono de frecuencias.
Diagrama de tallo y hojas.
4. Estadısticos o medidas de centralizacion.
5. Estadısticos o medidas de variabilidad o dispersion.
6. Estadısticos o medidas de asimetrıa y curtosis.
7. Estadısticos o medidas robustas. Diagrama de caja.
8
Conceptos fundamentales
Definicion 4 La poblacion es el conjunto de
individuos o elementos, que se quiere estudiar.
Ejemplo 1
i) La poblacion de gente en Espana.
ii) Los donantes de sangre en Espana.
iii) La poblacion de asientos en el estadio San-
tiago Bernabeu en el siguiente partido frente
a Barca.
iv) Los diabeticos en Madrid.
Una poblacion puede ser tanto finita como in-
finita.9
Definicion 5 El fenomeno o caracterıstica de
la poblacion que se quiere estudiar es una vari-
able.
Ejemplo 2 Retomando el Ejemplo 1:
i) La edad en anos. Posibles valores {0,1,2, . . .}
ii) El tipo de sangre. {A,B,AB,O}
iii) La cantidad de dinero pagado para un asien-
to. [0,∞)
iv) Nivel de azucar en la sangre. {alto, medi-
ano, bajo}
10
Tipos de datos
Es posible clasificar distintos tipos de variables.
En primer lugar, se distinguen entre variables
de naturaleza categorica y variables de natu-
raleza numerica.
Definicion 6 Una variable cualitativa o atrib-
uto es una variable que no aparece en forma
numerica, sino como categorıas o atributos.
Ejemplo 3 En el Ejemplo 2, el tipo de sangre
o el nivel de azucar en el cuerpo son variables
cualitativas.
Definicion 7 Una variable cuantitativa es una
variable que puede expresarse numericamente.
Ejemplo 4 En el Ejemplo 2, la edad y el precio
del asiento son variables cuantitativas.
11
Las variables cualitativas se dividen en vari-
ablesnominales y variables ordinales. Son nom-
inales si las distıntas clases no tienen una orden
natural y son ordinales si las categorıas estan
ordenadas.
Ejemplo 5 Volviendo al Ejemplo 2, el tipo de
sangre es una variable nominal y el nivel de
azucar es ordinal.
Igualmente, se dividen las variables cuantitati-
vas en dos clases: variables discretas y vari-
ables continuas. Una variable discreta es una
variable que puede tomar una clase fija de dist-
ıntos valores. Una variable continua puede tomar
cualquier valor en un rango continuo.
Ejemplo 6 En el Ejemplo 2, la edad es una
variable discreta y el precio del asiento es con-
tinua.
12
Como resumir una muestra de datos cual-
itativos
Dada una muestra de datos, se quiere extraer
la informacion pertinente. Mostrando a alguien
la muestra entera, no van a ser capaces de ver
los rasgos importantes.
Ejemplo 7 Se querıa estudiar los niveles de
educacion de la gente en Getafe y se pregunto a
50 personas sus niveles de estudios (Universit-
arios, Bachillerato, Secondario, Primario, Sin
Estudios) con los siguientes resultados.
U B U S S P P Si B BS U B B B S P S B BSi P P P S U B B B SU U S B S S B B P SS B B S B P S B S B
Es muy difıcil distinguir cual es el nivel de es-
tudios mas tıpico.
13
La tabla de frecuencias
En primer lugar, es conveniente hacer una tablade las frecuencias y frecuencias relativas en ca-da categorıa.
Ejemplo 8 Volvemos al Ejemplo 7.
Categorıa Frecuencia Frecuenciaabsoluta relativa
U 6 0,12B 19 0,38S 15 0,30P 8 0,16Si 2 0,04
Total 50 1
Ya se ve que la clase mas frecuente es de estu-dios secondarios y que la proporcion de gentesin estudios de secondario es de un 20 %.
La tabla que presenta las clases o categorıasde las variables y sus respectivas frecuencias sellama la distribucion de frecuencias.
14
El diagrama de barras
La gente prefiere ver imagenes que tablas de
numeros y entonces es util usar graficos para
mostrar los datos. El grafico mas importante
para variables cualitativas es el diagrama de
barras.
Ejemplo 9 Construimos un diagrama de bar-
ras de los datos del Ejemplo 7 sobre estudios.
15
Diagrama de barras de los niveles de estu-
dios de los Getafenses
frecuenciaabsoluta✻
0
5
10
15
20
U B S P Si
Clave
U = UniversitariosB = BachilleratoS = SecondarioP = PrimarioSi = Sin Estudios
16
Es importante observar que como la variable
en este ejemplo es ordinal, es natural ordenar
las barras en el orden de las categorıas de la
variable desde la mas alta (Universitaria) a la
mas baja (Sin estudios). Si la variable es nomi-
nal, el orden de las barras no importa tanto. Lo
mas natural es ordenar las barras en terminos
de frecuencia desde la mas frecuente hasta la
menos frecuente
Es habitual construir el diagrama de barras us-
ando frecuencias relativas en lugar de frecuen-
cias absolutas.
17
Otros graficos para datos cualitativos
Si se ordenan las categorıas de mas a menos
frecuentes y se dibuja un diagrama de barras
de frecuencias absolutas, anadiendo una linea
para mostrar las frecuencias relativas acumu-
ladas, se tiene un diagrama de Pareto.
Ejemplo 10 La tabla muestra las frecuencias
de estudiantes de distintos programas de licen-
ciatura.
Categorıa Frecuencia Frecuencia Frecuenciaabsoluta relativa acumulada
Ec 18 0,450 0,450Emp 15 0,375 0,825
C 7 0,175 1Total 40 1 —
18
Diagrama de Pareto de programas de licenciatura
✻
✻
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0
4
8
12
16
20
frecuenciaabsoluta
frecuenciacumulativa
Ec Emp C
Clave
Ec = EconomıaEmp = Economıa de la Empresa
C = Estudios Conjuntos
19
El diagrama de sectores o de pastel
Se divide un circulo en sectores donde el area
de un sector es proporcional al numero de datos
en una categorıa.
Ejemplo 11 Se ilustra un diagrama de sec-
tores de los datos de nivel de educacion de
los Getafenses.
12%
38%
30%
16%
4%
Diagrama de sectores de niveles de educación de los Getafenses
UBSPSi
20
Pictogramas etc.
Un pictograma es una representacion grafica
usando dibujos relevantes para ilustrar los datos,
en lugar de simples barras. Son de muchos es-
tilos y formas.
Ejemplo 12 El pictograma muestra las canti-
dades de ventas de bombillas en una tienda en
varios anos distintos.
21
El diagrama de barras con datos discretas
Ejemplo 13 Un estadıstico decidio grabar el
numero de cartas que recibio durante 30 dıas
laborales con los siguientes resultados.
Numero Frecuencia Frecuenciaabsoluta relativa
0 3 0,11 3 0,12 9 0,33 12 0,44 3 0,1
> 4 0 0Total 30 1
Hemos incluido una fila vacia (> 4).
22
✲
✻
0 1 2 3 4 50
0,1
0,2
0,3
0,4
0,5
f
# cartas
Diagrama de barras de cartas recibidas por dıa
La distribucion de los datos es unimodal, (con
una moda de 3 cartas por dıa) y un poco
asimetrica a la izquierda.
23
Frecuencias acumuladas
Ejemplo 14 Volviendo al Ejemplo ??, puede
que el estadıstico tenga interes en la propor-
cion de dıas en los cuales ha recibido menos de
dos cartas.
✲
✻
0 1 2 3 4 50
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1f
# cartas
Frecuencias acumuladas de cartas recibidas por dıa
24
Resumiendo datos continuos: el histograma
Ejemplo 15 Los datos son el numero de es-
pectadores en 32 partidos del equipo nacional
(en miles).
42,1 51,0 30,0 35,2 29,3 10,9 16,1 51,647,0 51,4 35,2 31,7 17,8 67,0 43,2 23,725,2 36,1 32,3 51,7 46,0 12,2 21,1 29,014,3 47,2 31,3 35,4 29,1 23,0 10,3 34,2
En primer lugar, dividimos los datos en inter-
valos de igual anchura y construimos una tabla
de frecuencias.
25
Clase ni fi[10,20) 6 0,1875[20,30) 7 0,21875[30,40) 8 0,25[40,50) 6 0,1875[50,60) 4 0,125[60,70) 1 0,03125
> 70 0 0Total 32 1
A traves de la tabla se construye un histogra-
ma.
26
El histograma
✲
✻
0 10 20 30 40 50 60 70 800
0,1
0,2
0,3
# espectadores
f
Igual que para los datos discretas, es posible
construir el histograma con frecuencias abso-
lutas o relativas o con frecuencias (absolutas
o relativas) acumuladas.
27
¿Como elegir el numero de barras?
Con demasiadas barras (o muy pocas barras),
se pierde un poco la idea de la forma de la
distribucion. ¡Con solo una barra es aun peor!
Una regla empırica razonable es elegir aprox-
imadamente√n barras donde n es el tamano
de la muestra.
Existen muchas otras reglas parecidas.
28
Otros graficos
Existen varias alternativas al histograma.
1) El polıgono de frecuencias
Es basıcamente una version suavizado del his-
tograma de frecuencias relativas.
Ejemplo 16 Retomamos el Ejemplo ??, y con-
struimos un polıgono de frecuencias relativas.
29
El polıgono de frecuencias
✲
✻
0 10 20 30 40 50 60 70 800
0,1
0,2
0,3
# espectadores
f
Observamos que se une el polıgono de frecuen-
cias al eje x en el centro de un intervalo vacio
a cada lado del histograma. Ademas, es mas
tıpico solo ilustrar el polıgono y no el histogra-
ma.
30
El polıgono de frecuencias acumuladas
✲
✻
0
,1
,2
,3
,4
,5
,6
,7
,8
,9
1
0 10 20 30 40 50 60 70 80# espectadores
F
Para construir el polıgono, se unen las rectas
a la derecha de cada intervalo.
31
2) El diagrama de tallo y hojas
Es parecido a un histograma pero preserva los
valores numericos de los datos originales.
Ejemplo 17 Los datos son los emisiones de
dioxido de 47 estados americanos (lb/millon
Btu).
0,3 2,3 4,2 3,8 1,5 0,6 0,4 0,5 1,5 1,34,5 3,6 1,2 1,2 3,4 0,2 0,7 0,2 0,7 4,11,0 2,7 2,2 2,5 2,7 1,7 1,5 3,7 2,9 1,52,1 1,5 1,4 1,9 1,0 2,9 1,7 1,8 1,7 0,60,9 0,6 1,8 1,4 2,0 2,1 3,5
Usamos las unidades para el tallo y los deci-
males para las hojas.
Datos basados en Friedman et al (1983). The American
Statistician, 37, 385-394.
32
Diagrama de tallo y hojas de emisiones de
dioxido
0 2 2 3 40 5 6 6 6 7 91 0 0 2 2 3 4 41 5 5 5 5 5 7 7 7 8 8 92 0 1 1 2 32 5 7 9 93 43 5 6 7 84 24 5
Tallo UnidadesHoja Decimales1|1 = 1,1
33
Descripcion numerica de una muestra de
datos cuantitativos
Medidas de localizacion
La medida mas utilizada es la media (aritmetica).
Definicion 8 Supongamos que tenemos una
muestra x1, . . . , xn. Entonces, la media (arit-
metica) es
xdef=
1
n(x1 + . . . + xn)
=1
n
n∑i=1
xi
34
Ejemplo 18 Los siguientes datos son los numerosde crıos nacidos conjuntamente para 18 pare-jas de ratones campestres.
3 6 5 6 5 75 7 6 6 6 55 5 4 5 6 4
La media de estos datos es1
18(3 + . . . + 4) =
96
18≈ 5,333
ratoncitos por pareja.
Ejemplo 19 Los siguientes datos son los pa-gos de ayuda social anuales en millones dedolares en 15 estados de los EE.UU. en 1990.
114,95 56,79 115,15 171,75 65,9639,62 112,28 92,43 164,20 179,37
121,99 113,66 91,95 95,43 160,41
La media es1
15(114,95 + . . . + 160,41) ≈ 113,063
millones de dolares por estado.
35
Sensibilidad de la media
La media se ve muy afectada por la presencia
de datos atıpicos.
Una medida alternativa y robusta a atıpicos es
la mediana.
Definicion 9 Supongamos que se tiene una
muestra de datos ordenados; x1 ≤ x2 ≤ . . . ≤xn. Entonces, si n es un numero impar, la medi-
ana es xn+12
y si n es un numero par, la mediana
esxn2+xn+2
22 .
36
Es decir que la mediana es el dato (o el prome-dio de los dos datos) mas centrico de la mues-tra.
Ejemplo 20 Ordenamos los datos en el Ejem-plo ??.
39,62 56,79 65,96 91,95 92,4395,43 112,28 113,66 114,95 115,15
121,99 160,41 164,20 171,75 179,37
La mediana es 113,66.
Ejemplo 21 Volvemos al Ejemplo ??.
En primer lugar, ordenamos los datos en lamuestra.
3 4 4 5 5 55 5 5 5 6 66 6 6 6 7 7
n = 18 es un numero par y entonces, la medi-ana es x9+x10
2 = 5+52 = 5.
37
Otras medidas de localizacion
La media geometrica de una muestra x1, . . . , xn,
se define como
n
√√√√ n∏i=1
xi.
Sufre de los mismos problemas como la media
aritmetica pero ademas, si algun de los datos
es negativo, puede que no exista.
Un intento para evitar los efectos de atıpicos es
calcular la media recortada de la muestra qui-
tando el valor mas alto y el valor mas pequeno
(o 2 de cada lado etc.) Es un metodo razon-
able pero ¿cuantos datos se deben quitar?
38
Medidas de dispersion
Se define la dispersion de una muestra a traves
de su localizacion. En primer lugar, definimos
una medida relacionada con la media.
Ya habiendo calculado la media, x de una mues-
tra x1, . . . , xn, la medida mas comun de disper-
sion es la desviacion tıpica.
La varianza
Definicion 10 Para una muestra x1, . . . , xn con
media x, la varianza de la muestra es
s2def=
1
n− 1
n∑i=1
(xi − x)2
La varianza esta midiendo (aproximadamente)
la media distancia cuadrada de los datos en
torno de la media x.39
La desviacion tıpica
Definicion 11 La desviacion tıpica es
sdef=
√s2.
Ejemplo 22 Retomamos el Ejemplo ?? sobre
los ratoncitos. Calculamos anteriomente que la
media es 5,333. Ahora calculamos las desvia-
ciones.
3 − 5,333 6 − 5,333 5 − 5,333 . . . 4 − 5,333
Entonces, la suma de las desviaciones cuadradas
es
(3 − 5,333)2 + . . . + (4 − 5,333)2 = 18
y la varianza es s2 = 18/17.
40
Calculo de la varianza
Existe una formula que simplifica el calculo de
la varianza.
Teorema 1 Para una muestra x1, . . . , xn con
media x, se puede expresar la varianza como
s2 =1
n− 1
n∑i=1
x2i − nx2
.
¿Porque n− 1?
De vez en cuando, se define la varianza con
divisor de n en lugar de n − 1. La definicion
que se tiene aquı implica que la varianza es un
estimador insesgado de la varianza poblacional.
41
El coeficiente de variacion
Es otra medida de variabilidad que tiene la ven-
taja de ser sin unidades.
Definicion 12 Para una muestra de datos con
media x y desviacion tıpica s, se define el coe-
ficiente de variacion como
CV =s
|x|.
Si cambiamos la escala de medir la variable,
el coeficiente de variacion no cambia. No ob-
stante, si la media es igual a cero, el coeficiente
de variacion no existe.
42
Los cuartiles y el rango intercuartılico
Igual que con la media, la varianza y desviaciontıpica son muy sensibles a datos atıpicos. Unamedida mas robusta de la dispersion de losdatos es el rango intercuartılico.
Definimos algunos conceptos basicos:
Definicion 13 Dada una muestra ordenada x1 ≤x2 ≤ . . . ≤ xn, el rango de los datos es la dis-tancia
R = xn − x1
entre el datos mas grande y el dato mas pequeno.
El p × 100% porcentil es el punto p × (n + 1)da la muestra.
El primer cuartil, Q1, es el punto 0,25×(n+1).El tercer cuartil, Q3, es el punto 0,75×(n+1).El rango intercuartılico es la diferencia
RI = Q3 −Q1.
43
Ejemplo 23 En el Ejemplo ?? los 15 datos
ordenados son
39,62 56,79 65,96 91,95 92,4395,43 112,28 113,66 114,95 115,15
121,99 160,41 164,20 171,75 179,37
y la mediana es 113,66.
0,25 × (15 + 1) = 4 y entonces Q1 = 91,95.
0,75 × (15 + 1) = 12 y Q3 = 160,41.
El rango intercuartılico es Q3 − Q1 = 68,46
millones de dolares.
44
Con un numero par de datos se calculan los
cuartiles por interpolacion.
Ejemplo 24 Volvemos al Ejemplo ??.
Tenemos 18 datos.
3 4 4 5 5 55 5 5 5 6 66 6 6 6 7 7
0,25 × 19 = 4,75. Luego Q1 = 5 + 0,75 × (5 −5) = 5.
0,75×19 = 14,25. Q3 = 6+0,25×(6−6) = 6.
El rango intercuartılico es Q3 −Q1 = 1.
45
El diagrama de caja
Es una manera visual de ver la mediana, cuar-
tiles, rango y posibles datos atıpicos.
Ejemplo 25 Vemos un diagrama de caja he-
cho en Statgraphics. Se ve un dato atıpico y
un dato atıpico extremo.
Box-and-Whisker Plot
-60 -40 -20 0 20 40 60
x
46
Medidas de asimetrıa y curtosis
Son otros medidas relacionadas con la mediay varianza.
Definicion 14 Para una muestra x1, . . . , xn, elcoeficiente de asimetrıa es
CA =
∑ni=1 (xi − x)3
ns3
El coeficiente de asimetrıa vale (aproximada-mente) 0 si la distribucion es simetrica, es posi-tiva si la distribucion es asimetrica a la derechay es negativa si la distribucion es asimetrica ala izquierda.
Definicion 15 El coeficiente de apuntamien-to es
CAp =
∑ni=1 (xi − x)4
ns4
Mide la cantidad de curtosis o apuntamiento dela distribucion relativa a la distribucion normal.
47
Transformaciones
En muchas ocasiones se quiere transformar los
datos originales para que la distribucion de la
variable transformada tenga mejores propiedades
de simetrıa etc., o para simplificar el analisis.
Es interesante saber como cambian las car-
acterısticas de la muestra como la media y
desviacion tıpica.
En general, no existe una formula sencilla para
hallar la media de los datos transformadas, sal-
vo en el caso de que la transformacion sea lin-
eal.
48
Transformaciones lineales
Supongamos una muestra x1, . . . , xn con media
x y desviacion tıpica sx. Dada una transforma-
cion lineal de los datos
yi = α + βxi para i = 1, . . . , n
entonces, se tiene el siguiente teorema.
Teorema 2 La media, varianza y desviacion
tıpica de la muestra y1, . . . , yn son
y = α + βx
s2y = β2s2x
sy = βsx
49
Tipificando las observaciones
Teorema 3 Dada la muestra x1, . . . , xn, con
media x y varianza s2x, la distribucion de las
variables tıpificados
yi =xi − x
sxpara i = 1, . . . , n
tiene media 0 y varianza y desviacion tıpica 1.
50
Transformaciones no lineales
Se puede usar una transformacion no lineal
para convertir una muestra asimetrica en una
muestra mucho mas simetrica.
Ejemplo 26 Los datos ilustrados en el histogra-
ma son los tiempos de funcionamiento de 100
piezas electronicas.
0 1 2 3 4 5 6 7 8 90
5
10
15
20
25
30
35
40
45
El histograma es muy asimetrica a la derecha.
51
Los siguientes histogramas ilustran los efectos
de las transformaciones y =√x e y = log x
respectivamente.
0 0.5 1 1.5 2 2.5 30
5
10
15
20
25
−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.50
5
10
15
20
25
Los resultados son mucho menos asimetricas.52
2. DESCRIPCION CONJUNTA DEVARIAS VARIABLES
Objetivo
Mostrar la relacion entre dos (o mas) variables
discretas o categoricas.
Indice
1. La tabla de doble entrada
2. La distribucion conjunta de frecuencias
3. Distribuciones marginales y condicionadas
4. Ideas de independencia
5. Media y varianza condicionada.
53
Introduccion
Puede que, exista una relacion entre dos vari-ables. Midiendo los valores de ambas variablessimultaneamente, podemos intentar medir larelacion.
Ejemplo 27
1. Altura y peso. Esperamos que, por lo gen-eral, la gente mas alta sea mas pesada.
2. Numero de partidos ganados y posicion enla clasificacion.
3. Numero de votos y numero de escanos
4. Tipo de vivienda y sueldo.
5. Provincia de nacimiento y primera idioma.
54
Ejemplo 28 La Real Academıa de la Lengua
Espanola quiere estudiar las idiomas habladas
en Espana. Por esta razon, se pregunta a una
muestra de 40 espanoles su provincia de nacimien-
to {Cataluna, Galicia, Otra,Pais Vasco } y su
lengua materna { Castellano, Catalan,Euskera,
Gallego, Otra} con los siguientes resultados:
(P,Eus) (O,Cas) (O,Cas) (O,Cas) (C,Cat) (C,Cas)(G,Cas) (O,Cas) (C,Cat) (P,Cas) (G,Cas) (O,Cas)(O,Cas) (P,Cas) (C,Cat) (O,Cas) (G,Gal) (P, Otr)(O,Cas) (O,Cas) (O,Cas) (C,Cat) (P,Cas) (G,Cas)(O,Cas) (O,Gal) (O,Otr) (O,Otr) (O,Cas) (C,Cat)(O,Cas) (G,Cas) (G,Gal) (C,Cas) (P,Cas) (O,Cas)(P,Cas) (G,Cas) (O,Otr) (C,Cat)
Resumimos estos datos en una tabla de doble
entrada.
55
La tabla de doble entrada
Construimos una tabla mostrando las frecuen-
cias de cada combinacion.
ProvinciaC G O P
Cas 2 5 14 5Cat 6 0 0 0
Lengua Eus 0 0 0 1Gal 0 2 1 0Otr 0 0 3 1
40
Es decir que tenemos 14 personas en la mues-
tra que provienen de otras provincias y hablan
Castellano.
Podemos convertir la tabla en una tabla de
frecuencias relativas, dividiendo cada frecuen-
cia por 40.
56
Tabla de frecuencias relativas
ProvinciaC G O P
Cas ,050 ,125 ,350 ,125Cat ,150 ,000 ,000 ,000
Lengua Eus ,000 ,000 ,000 ,025Gal ,000 ,050 ,025 ,000Otr ,000 ,000 ,075 ,025
1
Vemos que un 12,5% de la gente en la muestra
son del Pais Vasco y hablan Castellano.
Supongamos que solo nos interesan la lengua.
Podemos calcular las distribucion marginal.
57
La distribucion marginal
ProvinciaC G O P
Cas ,050 ,125 ,350 ,125 ,650Cat ,150 ,000 ,000 ,000 ,150
Lengua Eus ,000 ,000 ,000 ,025 ,025Gal ,000 ,050 ,025 ,000 ,075Otr ,000 ,000 ,075 ,025 ,100
1,000
Es decir, un 65% de la gente en la muestra
hablan Castellano y un 15% hablan Catalan.
Igualmente, podemos anadir la distribucion mar-
ginal de la region de donde proviene la gente.
58
ProvinciaC G O P
Cas ,050 ,125 ,350 ,125 ,650Cat ,150 ,000 ,000 ,000 ,150
Lengua Eus ,000 ,000 ,000 ,025 ,025Gal ,000 ,050 ,025 ,000 ,075Otr ,000 ,000 ,075 ,025 ,100
,200 ,175 ,450 ,175 1,000
Es decir que un 20% de la gente en la muestra
son Catalanes, etc.
Puede que tambien nos interesa la distribucion
de las lenguas habladas por la gente de otras
provincias.
59
La distribucion condicionada
Queremos la frecuencia de Castellanoparlantes
en las otras provincias. Miramos la columna de
frecuencias absolutas.
OCas 14Cat 0Eus 0Gal 1Otr 3
18
Lo podemos convertir en frecuencias condi-
cionadas.
O
Cas 1418
Cat 0Eus 0Gal 1
18Otr 3
181
Es decir que 1418 de la gente de otras provincias
en la muestra hablan Castellano.60
Variables discretas
Con dos variables discretas, se puede construir
una tabla de la misma manera.
Ejemplo 29 La siguiente tabla proporciona el
numero de veces (X) que una muestra de 50
estudiantes de Economıa han tenido que repe-
tir Introduccion a la Estadıstica y el numero de
anos que han tardado en acabar la licenciatura
(Y ).
Y5 6 7 8
0 15 5 3 21 4 8 2 1
X 2 0 2 1 33 0 0 0 4
50
Calculamos las distribuciones marginales y de
frecuencias relativas como anteriormente.61
Con frecuencias absolutas, tenemos
Y5 6 7 8
0 15 5 3 2 251 4 8 2 1 15
X 2 0 2 1 3 63 0 0 0 4 4
19 15 6 10 50
y con frecuencias relativas,
Y5 6 7 8
0 ,3 ,1 ,06 ,04 ,51 ,08 ,16 ,04 ,02 ,3
X 2 0 ,04 ,02 ,06 ,123 0 0 0 ,08 ,08
,38 ,3 ,12 ,2 1
Ademas podemos calcular las frecuencias acondi-
cionadas.
62
¿Cual es la distribucion del numero de anos tar-
dado en hacer la licenciatura suponiendo que
un estudiante tiene que repetir Introduccion
dos veces?
Queremos f(Y |X = 2). Miramos la fila con
X = 2 y dividimos las frecuencias por la fre-
cuencia marginal:
Y 5 6 7 8f(Y |X = 2) 0 ,333 ,166 ,5
La mitad de los alumnos quienes han repetido
Introduccion dos veces han tardado 8 anos en
acabar la carrera.
63
Comparamos esta distribucion con la distribu-
cion marginal de Y .
Se tiene
Y 5 6 7 8f(Y ) ,38 ,3 ,12 ,2
es decir que conociendo la informacion de que
X = 2, las frecuencias relativas de los distıntos
valores de Y son muy distıntas. Este nos pro-
porciona una idea de dependencia entre X e
Y .
64
Media y varianza
Ademas, para variables discretas, es posible
hallar la media y varianza. Para hacerlo, us-
amos la formula que aplicamos para tablas de
frecuencias relativas en el Capıtulo 1.
Ejemplo 30 Volvemos al Ejemplo ??.
Tenemos
x = ,5 × 0 + ,3 × 1 + ,12 × 2 + ,08 × 3= ,51
s2x = ,5 × 02 + ,3 × 12 + ,12 × 22 + ,08 × 32 − ,512
= 1,2399sx ≈ 1,114y = ,38 × 5 + ,3 × 6 + ,12 × 7 + ,2 × 8
= 6,14s2y = ,38 × 52 + ,3 × 62 + ,12 × 72 + ,2 × 82 − 6,142
= 5,2004sy ≈ 2,280
65
Media y varianza condicionada
Ejemplo 31 Volvemos al Ejemplo ??.
Tenemos la distribucion condicionada de Y da-
do X = 2.
Y 5 6 7 8f(Y |X = 2) 0 ,333 ,166 ,5
Podemos calcular la media condicionada de Y
dado X = 2 a traves de esta tabla.
La media de Y dado X = 2 es
5 × 0 + 6 × ,333 + 7 × ,166 + 8 × ,5 = 7,166
La varianza es
52 × 0 + 62 × ,333 + 72 × ,166 + 82 × ,5 − 7,1662
≈ ,806
La desviacion tıpica condicionada es√,806 ≈
,898.
66
Graficos
Existen varios graficos para mostrar datos bi-
variantes. Si tenemos por lo menos una variable
categorica, podemos usar diagramas de pastel
o diagramas de barra comparativas.
Ejemplo 32 Se han preguntado a varios hom-
bres y mujeres trabajadores su respuesta a la
pregunta ¿piensan que el tratamiento de am-
bos sexos en el trabajo es igual? La tabla re-
sume las respuestas.
sexoH M
Si 500 100 600Opinion No 200 600 800
No se 300 300 6001000 1000 2000
67
Diagramas de pastel comparativas
Piechart for Hombres
Opinión
Si
No
No sé
50,00%
20,00%
30,00%
Piechart for Mujeres
Opinión
Si
No
No sé
10,00%
60,00%
30,00%
Vemos que las proporciones son muy distıntos
entre hombres y mujeres.
68
Diagramas de barra comparativaspe
rcenta
ge
Barchart
Hombres
Mujeres
0
5
10
15
20
25
30
Si No No sé
69
Multiples diagramas de caja
Con una variable categorica y una variable cuan-titativa, podemos usar multiples diagramas decaja.
Ejemplo 33 El diagrama muestra los pesos dejugadores de rugby de ambos sexos.
70
Histogramas tridimensionales
Con dos variables quantitativas (continuas), se
pueden construir histogramas tridimensionales.
Ejemplo 34 Los datos tienen que ver con RNA
y antibioticas.Antibiotics and the 39-end of P/P 9-site-bound tRNA
71
Diagramas de dispersion
Es diagrama util para mostrar el tipo de relacion
entre dos variables cuantitativas.
Ejemplo 35 En un estudio sobre el tratamien-
to de diabetes, se interesaba por la perdida de
peso de los pacientes durante el tratamiento.
Los datos son los pesos iniciales de los pa-
cientes (x) cuando les diagnosticaron la dia-
betes y la perdida de peso (y) despues de un
ano (en libras).
X 225 235 173 223 200 199 129 242Y 15 44 31 39 6 16 21 44X 140 156 146 195 155 185 150 149Y 5 12 −3 19 10 24 −3 10
72
Diagrama de dispersion de perdida de peso
frente a peso inicial
120 150 180 210 240 270
x
-3
7
17
27
37
47
y
Hay una relacion positiva entre perdida de peso
y peso inicial.
73
3. CORRELACION Y REGRE-SION
Objetivo
Medir y ajustar una relacion lineal entre dos
variables cuantitativas.
Indice
1. Covarianza y sus propiedades
2. Correlacion y sus propiedades
3. Como calcular la covarianza y correlacion con datosagrupados
4. La recta de regresion y sus propiedades
74
Covarianza
Se ve en el Ejemplo ?? que existe una relacion
creciente y mas o menos lineal entre el peso
perdido y el peso original de las pacientes. La
covarianza es una medida de la fuerza de la
relacion lineal entre dos variables cuantitativas.
Definicion 16 Para una muestra de n datos
bivariantes
(x1, y1), . . . , (xn, yn)
la covarianza entre las dos variables es
sxy =1
n− 1
n∑i=1
(xi − x)(yi − y)
donde x = 1n
∑ni=1 xi e y = 1
n
∑ni=1 yi son las
medias de ambas variables.
75
Es ineficiente calcular la covarianza directa-
mente a traves de esta definicion.
Teorema 4
sxy =1
n− 1
n∑i=1
xiyi − nxy
Ejemplo 36 Volvemos al Ejemplo ??. En primerlugar hallamos las medias de ambas variables.
x =1
16(225 + 235 + . . . + 149)
= 181,375
y =1
16(15 + 44 + . . . + 10)
= 18,12516∑i=1
xiyi = 225 × 15 + 235 × 44 + . . . + 149 × 10
= 58385
sxy =1
15(58385 − 16 × 181,375 × 18,125)
= 361,64
76
Ejemplo 37 Se querıa determinar la concen-
tracion de acido urico en la leche de una es-
pecie de vaca y se tomo una muestra de 14
vacas. Los datos son produccion de leche (x
kg/dıa) y concentracion de acido (y µmol/litro).
x 42,7 40,2 38,2 37,6 32,2 32,2 28,0y 92 120 128 110 153 162 202x 27,2 26,6 23,0 22,7 21,8 21,3 20,2y 140 218 195 180 193 238 213
Tiemeyer, Stohrer, W. y Giesecke, D. (1984). Metabolites of nu-
cleic acids in bovine milk. J. Dairy Sci., 67, 723728.
77
Diagrama de dispersión
20 24 28 32 36 40 44
x
90
120
150
180
210
240
y
78
Vemos que existe una relacion negativa entrelas dos variables.
Calculamos ahora la covarianza.
Tenemos:
x =1
14(42,7 + . . . + 20,2)
≈ 29,56
y =1
14(92 + . . . + 213)
≈ 167,4314∑i=1
xiyi = 42,7 × 92 + . . . + 20,2 × 213
= 65334,2
sxy =1
14(65334,2 − 14 × 29,56 × 167,43)
≈ −283,2
La covarianza es positiva si existe una relacion(lineal) creciente y negativa si existe una relaciondecreciente.
79
Correlacion
Si, por ejemplo las unidades de la variable X
son centimetros y las unidades de la variable Y
son gramos, entonces las unidades de la covar-ianza son cm × g y si cambiamos la escala delas variables, cambia la covarianza. Esto haceque el valor de la covarianza sea difıcil de in-terpretar.
Una medida normalizada es la correlacion.
Definicion 17 Para una muestra bivariante
(x1, y1), . . . , (xn, yn),
la correlacion entre las dos variables es
rxy =sxy
sxsy=
sxy√s2xs
2y
donde sx y sy son las desviaciones tıpicas y s2xe s2y son las varianzas.
La correlacion es independiente de las unidadesde las variables.
80
Propiedades
−1 ≤ rxy ≤ 1.
rxy = 1 si y solo si existen constantes α y
β > 0 donde yi = α+βxi para i = 1, . . . n. Es
decir que existe una relacion lineal positiva
exacta entre las dos variables.
rxy = −1 si y solo si existen constantes α y
β < 0 donde yi = α+βxi para i = 1, . . . n. Es
decir que existe una relacion lineal negativa
exacta entre las dos variables.
Si no existe ninguna relacion entre las dos
variables, la correlacion se aproxima a 0.
Si la correlacion esta cerca de 1 o −1, entonces
hay una relacion aproximadamente lineal.
81
Ejemplo 38 Retomamos el Ejemplo ?? sobre
las vacas.
Calculamos las medias y la covarianza anteri-
ormente. Ya calculamos las varianzas, desvia-
ciones tıpicas y la correlacion.
s2x =1
n
n∑i=1
x2i − n× x2
=1
14
(42,72 + . . . + 20,22 − 14 × 29,562
)≈ 54,43
s2y ≈ 1868,82 parecidemente
Entonces la correlacion es
rxy =−283,2√
54,43 × 1868,82≈ −0,89
Existe una relacion negativa aproximadamente
lineal entre las dos variables.82
Ejemplo 39 Volvemos al Ejemplo ?? sobre los
diabeticos. Calculamos la covarianza como sxy =
361,64 en el Ejemplo ??. Ahora, hallamos las
varianzas y la correlacion.
Calculamos que s2x ≈ 1261,98 y s2y ≈ 211,23 y
luego sx ≈ 35,52 y sy ≈ 14,53.
Entonces rxy = 361,6435,52×14,53 = 0,70.
Hay una relacion lineal positiva bastante fuerte
entre las dos variables.
83
Si no hay relacion entre las variables, la
correlacion es aproximadamente cero
Ejemplo 40 Los datos son 30 parejas de numeros
aleatorios.
Correlación = -0.03
0 2 4 6 8 10(X 10000)
x
0
2
4
6
8
10(X 10000)
y
La correlacion es casi cero.
Al reves no es verdad.
84
¡Ojo! Cero correlacion no implica ninguna
relacion
Se ha visto que si hay una relacion mas o
menos lineal, la correlacion entre las dos vari-
ables es bastante alta pero ¿Que pasa si hay
una relacion no lineal?Correlación = 0.97
x
y
0 4 8 12 16 20
0
100
200
300
400
Correlación = 0
-6 -4 -2 0 2 4 6
xx
0
10
20
30
40yy
En ambas graficas se ha utilizado la formu-
la y = x2 para generar los datos. Una fuerte
relacion no lineal.
85
Regresion
Se han visto algunos ejemplos donde parece
que haya una relacion aproximadamente lin-
eal entre las variables. Supongamos que quere-
mos estimar la relacion entre las dos variables.
¿Como ajustamos la recta a los datos?
Un modelo para representar una relacion aprox-
imadamente lineal es
y = α + βx + ε
donde ε es un error de prediccion.
En esta formulacion, y es la variable depen-
dente cuya valor depende del valor de la vari-
able independiente x.
86
Mınimos Cuadrados
Para la muestra de datos (x1, y1), . . . , (xn, yn)
queremos utilizar la recta que se ajusta mejor.
Si ajustamos una recta y = a + bx a los datos
de la muestra, entonces los residuos o errores
de prediccion son
ri = yi − (a + bxi)
para i = 1, . . . , n.
De alguna manera, la recta que se ajusta mejor
es la que minimiza el error total. Pero ?como
definimos el error total?
Usamos la suma de errores cuadrados E(a, b) =∑ni=1 r2i .
87
Teorema 5 Para una muestra de datos bivari-
antes (x1, y1), . . . , (xn, yn), la recta de forma
y = a + bx que minimiza la suma de errores
cuadrados∑n
i=1(yi − a− bxi)2 tiene
b =sxy
s2xa = y − bx
Demostracion
Supongamos que ajustamos la recta y = a+bx.
Queremos minimizar el valor de E(a, b). Recor-
damos que en el mınimo se tiene
∂E
∂a=
∂E
∂b= 0
Recordamos que E =∑n
i=1(yi−a−bxi)2. Luego
88
∂E
∂a= −2
n∑i=1
(yi − a− bxi) y al mınimo se tiene
0 = −2n∑
i=1
(yi − a− bxi)
= −2 (ny − na− nbx)a = y − bx
∂E
∂b= −2
n∑i=1
xi(yi − a− bxi) y al mınimo,
0 = −2
(n∑
i=1
xiyi −n∑
i=1
xi(a + bxi)
)n∑
i=1
xiyi =n∑
i=1
xi(a + bxi)
=n∑
i=1
xi(y − bx+ bxi) sustituyendo por a
= nxy + b
(n∑
i=1
x2i − nx2
)
b =
∑ni=1 xiyi − nxy∑ni=1 x
2i − nx2
=nsxy
ns2x=
sxy
s2x
89
Ejemplo 41 Se quiere probar la elasticidad de
un muelle. Con este objetivo, se sometio el
muelle a varios niveles de fuerza (x Newtons) y
se midio la extension total del muelle (y mm)
en cada caso.
fuerza 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 0,5extension 18 11 25 22 35 50 54 45 52 68
Diagrama de dispersión de extension frente a fuerza
0 0,1 0,2 0,3 0,4 0,5
fuerza
0
20
40
60
80
exte
nsio
n
90
El diagrama de dispersion sugiere que existe
una relacion casi lineal entre fuerza y exten-
sion. Para predecir la extension del muelle en
torno de la fuerza aplicada, aplicamos el model
de regresion
y = α + βx + ε
Dados los datos de la muestra, hallamos la rec-
ta estimada por mınimos cuadrados. Tenemos:
x = 0,3
s2x = 0,02
y = 38
s2y = 310,8
sxy = 2,34
91
Calculamos la recta de mınimos cuadrados.
b =sxy
s2x
=2,34
0,02= 117
a = y − bx
= 38 − 117 × 0,3
= 2,9
La recta ajustada es y = 2,9 + 117x.
La recta de regresión
fuerza
exte
nsio
n
0 0,1 0,2 0,3 0,4 0,5
0
20
40
60
80
92
Prediccion
Ejemplo 42 En el Ejemplo ??, predecimos la
extension del muelle si se aplica una fuerza de
0,4 Newtons.
Se tiene y = 2,9 + 117 × 0,4 = 49,7 mm es la
extension estimada.
?Que pasarıa si ponemos una fuerza de 0?
La extension prevista por la recta de regresion
en este caso es de 2,9 mm. No obstante el
resultado no tiene sentido. Con fuerza 0, la
extension del muelle debe ser cero.
Es muy peligroso hacer prediccion usando val-
ores de x fuera del rango de los datos obser-
vados.
93
La desviacion tıpica residual
Los residuos o errores de la prediccion son las
diferencias yi − (a + bxi). Es util dar una idea
de si el error tıpico es grande o pequeno. Por
eso, se calcula la desviacion tıpica residual.
Definicion 18 Dado que se ajusta la regresion
por mınimos cuadrados con y = a + bx con a,
b definidos como anteriormente, se define la
desviacion tıpica residual como
sr =
√√√√1
n
n∑i=1
(yi − (a + bxi))2.
Ejemplo 43 Calculamos los residuos en el Ejem-
plo ??
x 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 0,5y 18 11 25 22 35 50 54 45 52 68
2,9 + 117x 14,6 14,6 26,3 26,3 38,0 38,0 49,7 49,7 61,4 61,4r 3,4 −3,6 −1,3 −4,3 −3,0 12,0 4,3 −4,7 −9,4 6,6
94
Entonces
r =1
10(3,4 + . . . + 6,6)
= 0
s2r =1
10
(3,42 + . . . + 6,62
)= 37,2
sr =√
37,02 ≈ 6,08
Existe una manera mas rapido de hacer el calcu-
lo. En primer lugar observamos que r = 0 siem-
pre si ajustamos la recta de mınimos cuadra-
dos.
95
Demostracion
r =1
n
n∑i=1
(yi − (a + bxi))
=1
n
n∑i=1
(yi − (y − bx + bxi)) por definicion de a
=1
n
n∑i=1
(yi − y) − bn∑
i=1
(xi − x)
= 0
En segundo lugar, tenemos el siguiente resul-
tado.
Teorema 6
s2r = s2y(1 − r2xy
)donde rxy es el coeficiente de correlacion.
96
Demostracion
s2r =1
n
n∑i=1
(yi − (a + bxi))2
=1
n(yi − (y − bx+ bxi))
2 por definicion de a
=1
n((yi − y) − b(xi − x)))2
=1
n
(n∑
i=1
(yi − y)2 − 2bn∑
i=1
(yi − y)(xi − x)+
b2n∑
i=1
(xi − x)2
)
= s2y − 2bsxy + b2s2x
= s2y − 2sxy
s2xsxy +
(sxy
s2x
)2
s2x por definicion de b
= s2y − s2xy
s2x
= s2y
(1 − s2xy
s2xs2y
)
= s2y
(1 −
(sxy
sxsy
)2)
= s2y(1 − r2
xy
)
97
Ejemplo 44 Volviendo al Ejemplo ??, recor-
damos que s2x = 0,02, s2y = 310,8 y sxy = 2,34.
Luego, la correlacion es
rxy =2,34√
0,2 × 310,8≈ 0,939.
Entonces s2r = 310,8(1 − 0,9392
)= 37,02 co-
mo calculamos anteriormente.
Podemos interpretar el teorema de otra man-
era. Tenemos
s2rs2y
= 1 − r2xy.
Pensamos en s2y como la varianza o error total
en predecir los valores de la variable y sin saber
los valores de x. s2r es el error total si usamos
la variable x para predecir y. El porcentaje de
reduccion de la varianza original debido a la
regresion es r2xy × 100%.
98
Otra conexion entre correlacion y regre-
sion
Consideramos la formula para el pendiente de
la recta de regresion. Tenemos:
b =sxy
s2x
=sysxy
sysxsx=
sy
sx
sxy
sxsy
=sy
sxrxy
Luego, se ve que si la correlacion entre las dos
variables es cero, tambien lo es la pendiente de
la recta. Ademas, el Teorema ?? nos demues-
tra que la reduccion en la varianza de los datos
y debida a la regresion en este caso es 0.
99
Analisis de los residuos
Se ha visto anteriormente que la correlacion
entre dos variables puede ser alta a pesar de
que la relacion entre las dos sea fuertemente
no lineal.
Se pueden utilizar los residuos para ver si el
modelo de regresion lineal es adecuado.
Casi siempre es util hacer graficos de los resid-
uos (frente x, y o y) para ver si los supuestos
del modelo lineal de regresion son justificados
o no.
Ejemplo 45 La recta de regresion para los cin-
co siguientes conjuntos de datos es la misma:
y = 18,43 + 0,28 ∗ x
Bassett, E. et al (1986). Statistics: Problems and Solu-
tions. London: Edward Arnold
100
x
y
4 6 8 10 12 14
18
19
20
21
22
23
24
x
y
4 6 8 10 12 14
17
18
19
20
21
22
23
x
y
4 6 8 10 12 14
19
21
23
25
27
x
y
4 6 8 10 12 14
19
20
21
22
23
24
x
y
8 10 12 14 16 18 20
18
19
20
21
22
23
24
101
El primer caso parece una regresion nor-
mal.
En el segundo caso, hay una relacion no
lineal.
En el tercer grafico, se ve la influencia de
un dato atıpico.
En el cuarto grafico parece que la recta
esta mas cerca a los datos cuando x es
mas pequeno.
En el ultimo caso, se ve el efecto de un
punto influyente.
Ahora hacemos graficos de los residuos frente
a las predicciones.
102
Gráfico de predicciones frente a residuos
yhat
residuos
19 20 21 22 23
-2
-1
0
1
2
Gráfico de predicciones frente a residuos
yhat
residuos
19 20 21 22 23
-2
-1
0
1
2
Gráfico de predicciones frente a residuos
yhat
residuos
19 20 21 22 23
-3,3
-1,3
0,7
2,7
4,7
Gráfico de predicciones frente a residuos
yhat
residuos
19 20 21 22 23
-2,5
-1,5
-0,5
0,5
1,5
2,5
Gráfico de predicciones frente a residuos
yhat
residuos
20 21 22 23 24
-2
-1
0
1
2
103
En el primer caso, los residuos parecen aleato-
rios. Es una buena indicacion que el modelo
de regresion se ajusta bien.
En el segundo caso, se ve una relacion en-
tre y y los residuos. El modelo lineal no se
ajusta bien.
Cuando haya un dato atıpico, se ve un resid-
uo muy alto.
Los residuos son mas pequenos cuando y
es pequeno.
Se ve el efecto del dato influyente.
104
Dos rectas de regresion
Hasta ahora, hemos pensado en un modelo
y = α + βx + ε
y dada la muestra, hemos usado mınimos cuadra-dos para ajustar la rectas
y = a + bx
con b =sxys2x
y a = y − bx.
Podrıamos escribir el modelo de otra manera:
x = γ + δy + ν
donde δ = 1β, γ = −α
β y ν = −ε.
No obstante, si usamos mınimos cuadrados paraajustar la recta x = c + dy a los datos mues-trales tendremos
d =sxy
s2yy c = x− dy.
Observamos que d �= 1b . ¡Las rectas no son
iguales!
105
Ejemplo 46 Volvemos al Ejemplo ?? sobre ex-
tension (y) relativa a la fuerza (x) aplicada al
muelle.
Antes hemos visto que ajustando la recta y =
a + bx por mınimos cuadrados, se tiene
y = 2,9 + 117x.
Ahora supongamos que queremos predecir la
fuerza x que causarıa una extension de y. Aju-
stando la recta por mınimos cuadrados, ten-
emos
x = ,0139 + ,0075y.
El ajuste de ambas rectas aparece en el sigu-
iente grafico.
106
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.5510
20
30
40
50
60
70
x
y
y=a+bxx=c+dydatos
Para hacer regresion es importante saber cuales
son las variables dependientes y independientes.
107
Correlacion espuria
Si el coeficiente de correlacion entre dos vari-ables es alta, indica que estan relacionadas en-tre si. No obstante, no permite concluir unarelacion causal.
Ejemplo 47 Se ha descubierto que por mascoches de bomberos que van al fuego, mases el dano causado. Pero el trabajo de losbomberos es extinguir los fuegos y reducir eldano y entonces el resultado es sorprendente.
?Como podemos explicar el resultado?
Si el fuego es mas intenso, entonces van mascoches de bomberos y tambien el fuego causamas dano.
La alta correlacion entre numero de coches ydano es espuria, o sea debida al efecto de otravariable (intensidad del fuego) que influye aambas.
108
Ejemplo 48 De Los Simpsons c©.
Homer: No veo ningun oso. La patrulla de busqueda de ososdebe estar funcionando de maravilla.
Lisa: Papa eres idiota.
Homer: Gracias Lisa
Lisa: Siguiendo tu logica, esta roca impede la presenciade tigres.
Homer: ?Como funciona?
Lisa: No funciona.
Homer: Uh-huh.
Lisa: Solo es una estupida roca pero no veo ningun tigre.?Y tu?
Homer: Lisa, quiero comprar tu roca.
109
La paradoja de Simpson
El siguiente ejemplo ilustra la paradoja.
Ejemplo 49 La enfermedad de Grot es muypeligroso y puede llegar a ser fatal. De mo-mento, no existe ningun tratamiento recono-cido pero a muchas personas, les gusta usarla panacea de Blogg, un remedio natural. Sehace un estudio de un grupo de sufridores dela enfermedad con los siguientes resultados.
Nada BloggSobrevive 108 153
Muere 123 120
Parece que el tratamiento funciona, ya que153
153+120 = 56% de los pacientes tomando la
panacea han sobrevivido mientras solo 108108+123 =
47% de las pacientes sin tratamiento se hanrecuperado.
Ejemplo tomado de: http://www.cawtech.freeserve.co.uk/simpsons.2.html
110
Entonces, parece ser buena idea recetar la panacea
a los pacientes.
No obstante, cuando se informa el colectivo
de mujeres Grot sobre la decision a recetar la
panacea, ellas no estan nada contentas porque
ellas han visto los resultados solo para las mu-
jeres en la muestra.
Nada BloggSobrevive 57 32
Muere 100 57
Solo un 3232+57 = 36,0% de las mujeres toman-
do Blogg han sobrevivido mientras un 36,3%
de las que no toman Blogg han sobrevivido.
Parece perjudicar (un poquito) a las mujeres
tomar Blogg.
?El Blogg debe ser un tratamiento machista
que favorece la salud de los hombres?
111
Sacamos la tabla con respeto a los hombres.
Nada BloggSobrevive 51 121
Muere 23 63
Un 121121+63 = 65,7% de los hombres bajo tra-
tamiento han sobrevivido mientras un 5151+23 =
68,9% de los hombres sin tratamiento han so-
brevivido. Parece que el tratamiento perjudica
a los hombres tambien.
El resultado es paradojico. El tratamiento parece
favorecer la poblacion entera de pacientes pero
no favorece ni a las mujeres ni a los hombres.
La paradoja de Simpson demuestra que si mez-
clamos datos de dos subpoblaciones bastante
distıntos, podemos llegar a conclusiones op-
uestas a las obtenidas tratando los grupos por
separados.
112