INTRODUCCIONALAES-´ TAD´ISTICAhalweb.uc3m.es/esp/Personal/personas/mwiper/... · arios, Bachillerato, Secondario, Primario, Sin Estudios) con los siguientes resultados. UB U S S

INTRODUCCION A LA ES-TADISTICA

Profesor: Mike Wiper

Despacho: 10.1.33

Telefono: 9852

Email: [email protected]

1

Objetivo

Introduccion a los conceptos fundamentales del

analisis de datos y de la probabilidad.

Es decir:

Como (sacar y) resumir una muestra de

datos.

Como medir la incertidumbre sobre los posi-

bles resultados de algun experimento.

Un libro muy util que da mucha mas teorıa

matematica es Wasserman (2004), All of Statis-

tics, Springer.

Se encuentra mucho mas materia en la bib-

lioteca (seccion 519.2) o en internet.

2

Programa

1. Estadıstica descriptiva

Como resumir las caracterısticas de una

muestra de datos

Tipos de variables. Distribuciones de frecuencias.

Representaciones graficas. Medidas de centralizacion.

Medidas de dispersion. Medidas de asimetrıa y de

apuntamiento. Transformaciones.

2. Descripcion conjunta de varias variables

Como resumir una muestra de dos vari-

ables.

Distribuciones conjuntas de frecuencias. Distribu-

ciones marginales y condicionadas. Representaciones

graficas de dos o mas variables.

3

3. Correlacion y regresion

Relacion lineal entre dos variables.

La covarianza. El coeficiente de correlacion y sus

propiedades. La recta de regresion. Residuos y la

desviacion tıpica residual. Aplicaciones.

4. Probabilidad

Como medir el incertidumbre.

El concepto de probabilidad y sus propiedades, prob-

abilidad condicional, sucesos independientes, el teo-

rema de Bayes.

4

5. Variables aleatorias

Variables discretas y continuas. Funcion de distribu-

cion. Funcion de densidad. Medidas caracterısticas

de centralizacion, dispersion, asimetrıa y apuntamien-

to. Transformaciones de variables aleatorias.

6. Modelos discretas

Variables de Bernouilli. Distribucion binomial. Dis-

tribucion geometrica. Distribucin de Poisson.

7. Modelos continuos

Distribucion exponencial y distribucion gamma. Dis-

tribucion normal. La distribucion normal como aprox-

imacion a otras distribuciones. Distribucion lognor-

mal. Distribucion ji-cuadrado.

8. Introduccion a distribuciones multivari-antes

Distribucion conjunta. Marginales y condicionales.

Independencia.

5

INTRODUCCION

¿Que es la estadıstica?

Definicion 1 La estadıstica se ocupa de los

metodos y procedimientos para recoger, clasi-

ficar, resumir, hallar regularidades y analizar los

datos, siempre y cuando la variabilidad e incer-

tidumbre sea una causa intrınseca de los mis-

mos; ası como de realizar inferencias a partir

de ellos, con la finalidad de ayudar a la toma de

decisiones y en su caso formular predicciones.

Una parte del trabajo estadıstico es descriptiva

y otra parte es inferencial.

6

Estadıstica descriptiva e inferencial

Definicion 2 La estadıstica descriptiva se

trata de describir, analizar y representar un

grupo de datos utilizando metodos numericos

y graficos que resumen y presentan la informa-

cion contenida en ellos.

Definicion 3 Con la estadıstica inferencial,

apoyandose en el calculo de probabilidades y a

partir de datos muestrales, se efectuan estima-

ciones, decisiones, predicciones u otras gener-

alizaciones sobre un conjunto mayor de datos.

En Introduccion a la Estadıstica, estudiare-

mos la estadıstica descriptiva y el calculo de

probabilidades.

En Estadıstica I, se estudiara como hacer in-

ferencia sobre las caracterısticas de una poblacion

basado en los resultados de un experimento.

7

1. LA ESTADISTICA DESCRIPTIVA

Objetivo

Aprender como resumir las caracterısticas masimportantes de una muestra de datos.

Indice

1. Introduccion: Conceptos fundamentales.

2. Tablas estadısticas. Distribuciones de frecuencia.

3. Representaciones graficas.

Diagrama de barras.

Diagrama de sectores.

Diagrama de Pareto.

Histograma y polıgono de frecuencias.

Diagrama de tallo y hojas.

4. Estadısticos o medidas de centralizacion.

5. Estadısticos o medidas de variabilidad o dispersion.

6. Estadısticos o medidas de asimetrıa y curtosis.

7. Estadısticos o medidas robustas. Diagrama de caja.

8

Conceptos fundamentales

Definicion 4 La poblacion es el conjunto de

individuos o elementos, que se quiere estudiar.

Ejemplo 1

i) La poblacion de gente en Espana.

ii) Los donantes de sangre en Espana.

iii) La poblacion de asientos en el estadio San-

tiago Bernabeu en el siguiente partido frente

a Barca.

iv) Los diabeticos en Madrid.

Una poblacion puede ser tanto finita como in-

finita.9

Definicion 5 El fenomeno o caracterıstica de

la poblacion que se quiere estudiar es una vari-

able.

Ejemplo 2 Retomando el Ejemplo 1:

i) La edad en anos. Posibles valores {0,1,2, . . .}

ii) El tipo de sangre. {A,B,AB,O}

iii) La cantidad de dinero pagado para un asien-

to. [0,∞)

iv) Nivel de azucar en la sangre. {alto, medi-

ano, bajo}

10

Tipos de datos

Es posible clasificar distintos tipos de variables.

En primer lugar, se distinguen entre variables

de naturaleza categorica y variables de natu-

raleza numerica.

Definicion 6 Una variable cualitativa o atrib-

uto es una variable que no aparece en forma

numerica, sino como categorıas o atributos.

Ejemplo 3 En el Ejemplo 2, el tipo de sangre

o el nivel de azucar en el cuerpo son variables

cualitativas.

Definicion 7 Una variable cuantitativa es una

variable que puede expresarse numericamente.

Ejemplo 4 En el Ejemplo 2, la edad y el precio

del asiento son variables cuantitativas.

11

Las variables cualitativas se dividen en vari-

ablesnominales y variables ordinales. Son nom-

inales si las distıntas clases no tienen una orden

natural y son ordinales si las categorıas estan

ordenadas.

Ejemplo 5 Volviendo al Ejemplo 2, el tipo de

sangre es una variable nominal y el nivel de

azucar es ordinal.

Igualmente, se dividen las variables cuantitati-

vas en dos clases: variables discretas y vari-

ables continuas. Una variable discreta es una

variable que puede tomar una clase fija de dist-

ıntos valores. Una variable continua puede tomar

cualquier valor en un rango continuo.

Ejemplo 6 En el Ejemplo 2, la edad es una

variable discreta y el precio del asiento es con-

tinua.

12

Como resumir una muestra de datos cual-

itativos

Dada una muestra de datos, se quiere extraer

la informacion pertinente. Mostrando a alguien

la muestra entera, no van a ser capaces de ver

los rasgos importantes.

Ejemplo 7 Se querıa estudiar los niveles de

educacion de la gente en Getafe y se pregunto a

50 personas sus niveles de estudios (Universit-

arios, Bachillerato, Secondario, Primario, Sin

Estudios) con los siguientes resultados.

U B U S S P P Si B BS U B B B S P S B BSi P P P S U B B B SU U S B S S B B P SS B B S B P S B S B

Es muy difıcil distinguir cual es el nivel de es-

tudios mas tıpico.

13

La tabla de frecuencias

En primer lugar, es conveniente hacer una tablade las frecuencias y frecuencias relativas en ca-da categorıa.

Ejemplo 8 Volvemos al Ejemplo 7.

Categorıa Frecuencia Frecuenciaabsoluta relativa

U 6 0,12B 19 0,38S 15 0,30P 8 0,16Si 2 0,04

Total 50 1

Ya se ve que la clase mas frecuente es de estu-dios secondarios y que la proporcion de gentesin estudios de secondario es de un 20 %.

La tabla que presenta las clases o categorıasde las variables y sus respectivas frecuencias sellama la distribucion de frecuencias.

14

El diagrama de barras

La gente prefiere ver imagenes que tablas de

numeros y entonces es util usar graficos para

mostrar los datos. El grafico mas importante

para variables cualitativas es el diagrama de

barras.

Ejemplo 9 Construimos un diagrama de bar-

ras de los datos del Ejemplo 7 sobre estudios.

15

Diagrama de barras de los niveles de estu-

dios de los Getafenses

frecuenciaabsoluta✻

0

5

10

15

20

U B S P Si

Clave

U = UniversitariosB = BachilleratoS = SecondarioP = PrimarioSi = Sin Estudios

16

Es importante observar que como la variable

en este ejemplo es ordinal, es natural ordenar

las barras en el orden de las categorıas de la

variable desde la mas alta (Universitaria) a la

mas baja (Sin estudios). Si la variable es nomi-

nal, el orden de las barras no importa tanto. Lo

mas natural es ordenar las barras en terminos

de frecuencia desde la mas frecuente hasta la

menos frecuente

Es habitual construir el diagrama de barras us-

ando frecuencias relativas en lugar de frecuen-

cias absolutas.

17

Otros graficos para datos cualitativos

Si se ordenan las categorıas de mas a menos

frecuentes y se dibuja un diagrama de barras

de frecuencias absolutas, anadiendo una linea

para mostrar las frecuencias relativas acumu-

ladas, se tiene un diagrama de Pareto.

Ejemplo 10 La tabla muestra las frecuencias

de estudiantes de distintos programas de licen-

ciatura.

Categorıa Frecuencia Frecuencia Frecuenciaabsoluta relativa acumulada

Ec 18 0,450 0,450Emp 15 0,375 0,825

C 7 0,175 1Total 40 1 —

18

Diagrama de Pareto de programas de licenciatura

✻

✻

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0

4

8

12

16

20

frecuenciaabsoluta

frecuenciacumulativa

Ec Emp C

Clave

Ec = EconomıaEmp = Economıa de la Empresa

C = Estudios Conjuntos

19

El diagrama de sectores o de pastel

Se divide un circulo en sectores donde el area

de un sector es proporcional al numero de datos

en una categorıa.

Ejemplo 11 Se ilustra un diagrama de sec-

tores de los datos de nivel de educacion de

los Getafenses.

12%

38%

30%

16%

4%

Diagrama de sectores de niveles de educación de los Getafenses

UBSPSi

20

Pictogramas etc.

Un pictograma es una representacion grafica

usando dibujos relevantes para ilustrar los datos,

en lugar de simples barras. Son de muchos es-

tilos y formas.

Ejemplo 12 El pictograma muestra las canti-

dades de ventas de bombillas en una tienda en

varios anos distintos.

21

El diagrama de barras con datos discretas

Ejemplo 13 Un estadıstico decidio grabar el

numero de cartas que recibio durante 30 dıas

laborales con los siguientes resultados.

Numero Frecuencia Frecuenciaabsoluta relativa

0 3 0,11 3 0,12 9 0,33 12 0,44 3 0,1

> 4 0 0Total 30 1

Hemos incluido una fila vacia (> 4).

22

✲

✻

0 1 2 3 4 50

0,1

0,2

0,3

0,4

0,5

f

# cartas

Diagrama de barras de cartas recibidas por dıa

La distribucion de los datos es unimodal, (con

una moda de 3 cartas por dıa) y un poco

asimetrica a la izquierda.

23

Frecuencias acumuladas

Ejemplo 14 Volviendo al Ejemplo ??, puede

que el estadıstico tenga interes en la propor-

cion de dıas en los cuales ha recibido menos de

dos cartas.

✲

✻

0 1 2 3 4 50

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1f

# cartas

Frecuencias acumuladas de cartas recibidas por dıa

24

Resumiendo datos continuos: el histograma

Ejemplo 15 Los datos son el numero de es-

pectadores en 32 partidos del equipo nacional

(en miles).

42,1 51,0 30,0 35,2 29,3 10,9 16,1 51,647,0 51,4 35,2 31,7 17,8 67,0 43,2 23,725,2 36,1 32,3 51,7 46,0 12,2 21,1 29,014,3 47,2 31,3 35,4 29,1 23,0 10,3 34,2

En primer lugar, dividimos los datos en inter-

valos de igual anchura y construimos una tabla

de frecuencias.

25

Clase ni fi[10,20) 6 0,1875[20,30) 7 0,21875[30,40) 8 0,25[40,50) 6 0,1875[50,60) 4 0,125[60,70) 1 0,03125

> 70 0 0Total 32 1

A traves de la tabla se construye un histogra-

ma.

26

El histograma

✲

✻

0 10 20 30 40 50 60 70 800

0,1

0,2

0,3

# espectadores

f

Igual que para los datos discretas, es posible

construir el histograma con frecuencias abso-

lutas o relativas o con frecuencias (absolutas

o relativas) acumuladas.

27

¿Como elegir el numero de barras?

Con demasiadas barras (o muy pocas barras),

se pierde un poco la idea de la forma de la

distribucion. ¡Con solo una barra es aun peor!

Una regla empırica razonable es elegir aprox-

imadamente√n barras donde n es el tamano

de la muestra.

Existen muchas otras reglas parecidas.

28

Otros graficos

Existen varias alternativas al histograma.

1) El polıgono de frecuencias

Es basıcamente una version suavizado del his-

tograma de frecuencias relativas.

Ejemplo 16 Retomamos el Ejemplo ??, y con-

struimos un polıgono de frecuencias relativas.

29

El polıgono de frecuencias

✲

✻

0 10 20 30 40 50 60 70 800

0,1

0,2

0,3

# espectadores

f

Observamos que se une el polıgono de frecuen-

cias al eje x en el centro de un intervalo vacio

a cada lado del histograma. Ademas, es mas

tıpico solo ilustrar el polıgono y no el histogra-

ma.

30

El polıgono de frecuencias acumuladas

✲

✻

0

,1

,2

,3

,4

,5

,6

,7

,8

,9

1

0 10 20 30 40 50 60 70 80# espectadores

F

Para construir el polıgono, se unen las rectas

a la derecha de cada intervalo.

31

2) El diagrama de tallo y hojas

Es parecido a un histograma pero preserva los

valores numericos de los datos originales.

Ejemplo 17 Los datos son los emisiones de

dioxido de 47 estados americanos (lb/millon

Btu).

0,3 2,3 4,2 3,8 1,5 0,6 0,4 0,5 1,5 1,34,5 3,6 1,2 1,2 3,4 0,2 0,7 0,2 0,7 4,11,0 2,7 2,2 2,5 2,7 1,7 1,5 3,7 2,9 1,52,1 1,5 1,4 1,9 1,0 2,9 1,7 1,8 1,7 0,60,9 0,6 1,8 1,4 2,0 2,1 3,5

Usamos las unidades para el tallo y los deci-

males para las hojas.

Datos basados en Friedman et al (1983). The American

Statistician, 37, 385-394.

32

Diagrama de tallo y hojas de emisiones de

dioxido

0 2 2 3 40 5 6 6 6 7 91 0 0 2 2 3 4 41 5 5 5 5 5 7 7 7 8 8 92 0 1 1 2 32 5 7 9 93 43 5 6 7 84 24 5

Tallo UnidadesHoja Decimales1|1 = 1,1

33

Descripcion numerica de una muestra de

datos cuantitativos

Medidas de localizacion

La medida mas utilizada es la media (aritmetica).

Definicion 8 Supongamos que tenemos una

muestra x1, . . . , xn. Entonces, la media (arit-

metica) es

xdef=

1

n(x1 + . . . + xn)

=1

n

n∑i=1

xi

34

Ejemplo 18 Los siguientes datos son los numerosde crıos nacidos conjuntamente para 18 pare-jas de ratones campestres.

3 6 5 6 5 75 7 6 6 6 55 5 4 5 6 4

La media de estos datos es1

18(3 + . . . + 4) =

96

18≈ 5,333

ratoncitos por pareja.

Ejemplo 19 Los siguientes datos son los pa-gos de ayuda social anuales en millones dedolares en 15 estados de los EE.UU. en 1990.

114,95 56,79 115,15 171,75 65,9639,62 112,28 92,43 164,20 179,37

121,99 113,66 91,95 95,43 160,41

La media es1

15(114,95 + . . . + 160,41) ≈ 113,063

millones de dolares por estado.

35

Sensibilidad de la media

La media se ve muy afectada por la presencia

de datos atıpicos.

Una medida alternativa y robusta a atıpicos es

la mediana.

Definicion 9 Supongamos que se tiene una

muestra de datos ordenados; x1 ≤ x2 ≤ . . . ≤xn. Entonces, si n es un numero impar, la medi-

ana es xn+12

y si n es un numero par, la mediana

esxn2+xn+2

22 .

36

Es decir que la mediana es el dato (o el prome-dio de los dos datos) mas centrico de la mues-tra.

Ejemplo 20 Ordenamos los datos en el Ejem-plo ??.

39,62 56,79 65,96 91,95 92,4395,43 112,28 113,66 114,95 115,15

121,99 160,41 164,20 171,75 179,37

La mediana es 113,66.

Ejemplo 21 Volvemos al Ejemplo ??.

En primer lugar, ordenamos los datos en lamuestra.

3 4 4 5 5 55 5 5 5 6 66 6 6 6 7 7

n = 18 es un numero par y entonces, la medi-ana es x9+x10

2 = 5+52 = 5.

37

Otras medidas de localizacion

La media geometrica de una muestra x1, . . . , xn,

se define como

n

√√√√ n∏i=1

xi.

Sufre de los mismos problemas como la media

aritmetica pero ademas, si algun de los datos

es negativo, puede que no exista.

Un intento para evitar los efectos de atıpicos es

calcular la media recortada de la muestra qui-

tando el valor mas alto y el valor mas pequeno

(o 2 de cada lado etc.) Es un metodo razon-

able pero ¿cuantos datos se deben quitar?

38

Medidas de dispersion

Se define la dispersion de una muestra a traves

de su localizacion. En primer lugar, definimos

una medida relacionada con la media.

Ya habiendo calculado la media, x de una mues-

tra x1, . . . , xn, la medida mas comun de disper-

sion es la desviacion tıpica.

La varianza

Definicion 10 Para una muestra x1, . . . , xn con

media x, la varianza de la muestra es

s2def=

1

n− 1

n∑i=1

(xi − x)2

La varianza esta midiendo (aproximadamente)

la media distancia cuadrada de los datos en

torno de la media x.39

La desviacion tıpica

Definicion 11 La desviacion tıpica es

sdef=

√s2.

Ejemplo 22 Retomamos el Ejemplo ?? sobre

los ratoncitos. Calculamos anteriomente que la

media es 5,333. Ahora calculamos las desvia-

ciones.

3 − 5,333 6 − 5,333 5 − 5,333 . . . 4 − 5,333

Entonces, la suma de las desviaciones cuadradas

es

(3 − 5,333)2 + . . . + (4 − 5,333)2 = 18

y la varianza es s2 = 18/17.

40

Calculo de la varianza

Existe una formula que simplifica el calculo de

la varianza.

Teorema 1 Para una muestra x1, . . . , xn con

media x, se puede expresar la varianza como

s2 =1

n− 1

n∑i=1

x2i − nx2

.

¿Porque n− 1?

De vez en cuando, se define la varianza con

divisor de n en lugar de n − 1. La definicion

que se tiene aquı implica que la varianza es un

estimador insesgado de la varianza poblacional.

41

El coeficiente de variacion

Es otra medida de variabilidad que tiene la ven-

taja de ser sin unidades.

Definicion 12 Para una muestra de datos con

media x y desviacion tıpica s, se define el coe-

ficiente de variacion como

CV =s

|x|.

Si cambiamos la escala de medir la variable,

el coeficiente de variacion no cambia. No ob-

stante, si la media es igual a cero, el coeficiente

de variacion no existe.

42

Los cuartiles y el rango intercuartılico

Igual que con la media, la varianza y desviaciontıpica son muy sensibles a datos atıpicos. Unamedida mas robusta de la dispersion de losdatos es el rango intercuartılico.

Definimos algunos conceptos basicos:

Definicion 13 Dada una muestra ordenada x1 ≤x2 ≤ . . . ≤ xn, el rango de los datos es la dis-tancia

R = xn − x1

entre el datos mas grande y el dato mas pequeno.

El p × 100% porcentil es el punto p × (n + 1)da la muestra.

El primer cuartil, Q1, es el punto 0,25×(n+1).El tercer cuartil, Q3, es el punto 0,75×(n+1).El rango intercuartılico es la diferencia

RI = Q3 −Q1.

43

Ejemplo 23 En el Ejemplo ?? los 15 datos

ordenados son

39,62 56,79 65,96 91,95 92,4395,43 112,28 113,66 114,95 115,15

121,99 160,41 164,20 171,75 179,37

y la mediana es 113,66.

0,25 × (15 + 1) = 4 y entonces Q1 = 91,95.

0,75 × (15 + 1) = 12 y Q3 = 160,41.

El rango intercuartılico es Q3 − Q1 = 68,46

millones de dolares.

44

Con un numero par de datos se calculan los

cuartiles por interpolacion.


Tenemos 18 datos.

3 4 4 5 5 55 5 5 5 6 66 6 6 6 7 7

0,25 × 19 = 4,75. Luego Q1 = 5 + 0,75 × (5 −5) = 5.

0,75×19 = 14,25. Q3 = 6+0,25×(6−6) = 6.

El rango intercuartılico es Q3 −Q1 = 1.

45

El diagrama de caja

Es una manera visual de ver la mediana, cuar-

tiles, rango y posibles datos atıpicos.

Ejemplo 25 Vemos un diagrama de caja he-

cho en Statgraphics. Se ve un dato atıpico y

un dato atıpico extremo.

Box-and-Whisker Plot

-60 -40 -20 0 20 40 60

x

46

Medidas de asimetrıa y curtosis

Son otros medidas relacionadas con la mediay varianza.

Definicion 14 Para una muestra x1, . . . , xn, elcoeficiente de asimetrıa es

CA =

∑ni=1 (xi − x)3

ns3

El coeficiente de asimetrıa vale (aproximada-mente) 0 si la distribucion es simetrica, es posi-tiva si la distribucion es asimetrica a la derechay es negativa si la distribucion es asimetrica ala izquierda.

Definicion 15 El coeficiente de apuntamien-to es

CAp =

∑ni=1 (xi − x)4

ns4

Mide la cantidad de curtosis o apuntamiento dela distribucion relativa a la distribucion normal.

47

Transformaciones

En muchas ocasiones se quiere transformar los

datos originales para que la distribucion de la

variable transformada tenga mejores propiedades

de simetrıa etc., o para simplificar el analisis.

Es interesante saber como cambian las car-

acterısticas de la muestra como la media y

desviacion tıpica.

En general, no existe una formula sencilla para

hallar la media de los datos transformadas, sal-

vo en el caso de que la transformacion sea lin-

eal.

48

Transformaciones lineales

Supongamos una muestra x1, . . . , xn con media

x y desviacion tıpica sx. Dada una transforma-

cion lineal de los datos

yi = α + βxi para i = 1, . . . , n

entonces, se tiene el siguiente teorema.

Teorema 2 La media, varianza y desviacion

tıpica de la muestra y1, . . . , yn son

y = α + βx

s2y = β2s2x

sy = βsx

49

Tipificando las observaciones

Teorema 3 Dada la muestra x1, . . . , xn, con

media x y varianza s2x, la distribucion de las

variables tıpificados

yi =xi − x

sxpara i = 1, . . . , n

tiene media 0 y varianza y desviacion tıpica 1.

50

Transformaciones no lineales

Se puede usar una transformacion no lineal

para convertir una muestra asimetrica en una

muestra mucho mas simetrica.

Ejemplo 26 Los datos ilustrados en el histogra-

ma son los tiempos de funcionamiento de 100

piezas electronicas.

0 1 2 3 4 5 6 7 8 90

5

10

15

20

25

30

35

40

45

El histograma es muy asimetrica a la derecha.

51

Los siguientes histogramas ilustran los efectos

de las transformaciones y =√x e y = log x

respectivamente.

0 0.5 1 1.5 2 2.5 30

5

10

15

20

25

−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.50

5

10

15

20

25

Los resultados son mucho menos asimetricas.52

2. DESCRIPCION CONJUNTA DEVARIAS VARIABLES

Objetivo

Mostrar la relacion entre dos (o mas) variables

discretas o categoricas.

Indice

1. La tabla de doble entrada

2. La distribucion conjunta de frecuencias

3. Distribuciones marginales y condicionadas

4. Ideas de independencia

5. Media y varianza condicionada.

53

Introduccion

Puede que, exista una relacion entre dos vari-ables. Midiendo los valores de ambas variablessimultaneamente, podemos intentar medir larelacion.

Ejemplo 27

1. Altura y peso. Esperamos que, por lo gen-eral, la gente mas alta sea mas pesada.

2. Numero de partidos ganados y posicion enla clasificacion.

3. Numero de votos y numero de escanos

4. Tipo de vivienda y sueldo.

5. Provincia de nacimiento y primera idioma.

54

Ejemplo 28 La Real Academıa de la Lengua

Espanola quiere estudiar las idiomas habladas

en Espana. Por esta razon, se pregunta a una

muestra de 40 espanoles su provincia de nacimien-

to {Cataluna, Galicia, Otra,Pais Vasco } y su

lengua materna { Castellano, Catalan,Euskera,

Gallego, Otra} con los siguientes resultados:

(P,Eus) (O,Cas) (O,Cas) (O,Cas) (C,Cat) (C,Cas)(G,Cas) (O,Cas) (C,Cat) (P,Cas) (G,Cas) (O,Cas)(O,Cas) (P,Cas) (C,Cat) (O,Cas) (G,Gal) (P, Otr)(O,Cas) (O,Cas) (O,Cas) (C,Cat) (P,Cas) (G,Cas)(O,Cas) (O,Gal) (O,Otr) (O,Otr) (O,Cas) (C,Cat)(O,Cas) (G,Cas) (G,Gal) (C,Cas) (P,Cas) (O,Cas)(P,Cas) (G,Cas) (O,Otr) (C,Cat)

Resumimos estos datos en una tabla de doble

entrada.

55

La tabla de doble entrada

Construimos una tabla mostrando las frecuen-

cias de cada combinacion.

ProvinciaC G O P

Cas 2 5 14 5Cat 6 0 0 0

Lengua Eus 0 0 0 1Gal 0 2 1 0Otr 0 0 3 1

40

Es decir que tenemos 14 personas en la mues-

tra que provienen de otras provincias y hablan

Castellano.

Podemos convertir la tabla en una tabla de

frecuencias relativas, dividiendo cada frecuen-

cia por 40.

56

Tabla de frecuencias relativas

ProvinciaC G O P

Cas ,050 ,125 ,350 ,125Cat ,150 ,000 ,000 ,000

Lengua Eus ,000 ,000 ,000 ,025Gal ,000 ,050 ,025 ,000Otr ,000 ,000 ,075 ,025

1

Vemos que un 12,5% de la gente en la muestra

son del Pais Vasco y hablan Castellano.

Supongamos que solo nos interesan la lengua.

Podemos calcular las distribucion marginal.

57

La distribucion marginal

ProvinciaC G O P

Cas ,050 ,125 ,350 ,125 ,650Cat ,150 ,000 ,000 ,000 ,150

Lengua Eus ,000 ,000 ,000 ,025 ,025Gal ,000 ,050 ,025 ,000 ,075Otr ,000 ,000 ,075 ,025 ,100

1,000

Es decir, un 65% de la gente en la muestra

hablan Castellano y un 15% hablan Catalan.

Igualmente, podemos anadir la distribucion mar-

ginal de la region de donde proviene la gente.

58

ProvinciaC G O P

Cas ,050 ,125 ,350 ,125 ,650Cat ,150 ,000 ,000 ,000 ,150

Lengua Eus ,000 ,000 ,000 ,025 ,025Gal ,000 ,050 ,025 ,000 ,075Otr ,000 ,000 ,075 ,025 ,100

,200 ,175 ,450 ,175 1,000

Es decir que un 20% de la gente en la muestra

son Catalanes, etc.

Puede que tambien nos interesa la distribucion

de las lenguas habladas por la gente de otras

provincias.

59

La distribucion condicionada

Queremos la frecuencia de Castellanoparlantes

en las otras provincias. Miramos la columna de

frecuencias absolutas.

OCas 14Cat 0Eus 0Gal 1Otr 3

18

Lo podemos convertir en frecuencias condi-

cionadas.

O

Cas 1418

Cat 0Eus 0Gal 1

18Otr 3

181

Es decir que 1418 de la gente de otras provincias

en la muestra hablan Castellano.60

Variables discretas

Con dos variables discretas, se puede construir

una tabla de la misma manera.

Ejemplo 29 La siguiente tabla proporciona el

numero de veces (X) que una muestra de 50

estudiantes de Economıa han tenido que repe-

tir Introduccion a la Estadıstica y el numero de

anos que han tardado en acabar la licenciatura

(Y ).

Y5 6 7 8

0 15 5 3 21 4 8 2 1

X 2 0 2 1 33 0 0 0 4

50

Calculamos las distribuciones marginales y de

frecuencias relativas como anteriormente.61

Con frecuencias absolutas, tenemos

Y5 6 7 8

0 15 5 3 2 251 4 8 2 1 15

X 2 0 2 1 3 63 0 0 0 4 4

19 15 6 10 50

y con frecuencias relativas,

Y5 6 7 8

0 ,3 ,1 ,06 ,04 ,51 ,08 ,16 ,04 ,02 ,3

X 2 0 ,04 ,02 ,06 ,123 0 0 0 ,08 ,08

,38 ,3 ,12 ,2 1

Ademas podemos calcular las frecuencias acondi-

cionadas.

62

¿Cual es la distribucion del numero de anos tar-

dado en hacer la licenciatura suponiendo que

un estudiante tiene que repetir Introduccion

dos veces?

Queremos f(Y |X = 2). Miramos la fila con

X = 2 y dividimos las frecuencias por la fre-

cuencia marginal:

Y 5 6 7 8f(Y |X = 2) 0 ,333 ,166 ,5

La mitad de los alumnos quienes han repetido

Introduccion dos veces han tardado 8 anos en

acabar la carrera.

63

Comparamos esta distribucion con la distribu-

cion marginal de Y .

Se tiene

Y 5 6 7 8f(Y ) ,38 ,3 ,12 ,2

es decir que conociendo la informacion de que

X = 2, las frecuencias relativas de los distıntos

valores de Y son muy distıntas. Este nos pro-

porciona una idea de dependencia entre X e

Y .

64

Media y varianza

Ademas, para variables discretas, es posible

hallar la media y varianza. Para hacerlo, us-

amos la formula que aplicamos para tablas de

frecuencias relativas en el Capıtulo 1.


Tenemos

x = ,5 × 0 + ,3 × 1 + ,12 × 2 + ,08 × 3= ,51

s2x = ,5 × 02 + ,3 × 12 + ,12 × 22 + ,08 × 32 − ,512

= 1,2399sx ≈ 1,114y = ,38 × 5 + ,3 × 6 + ,12 × 7 + ,2 × 8

= 6,14s2y = ,38 × 52 + ,3 × 62 + ,12 × 72 + ,2 × 82 − 6,142

= 5,2004sy ≈ 2,280

65

Media y varianza condicionada


Tenemos la distribucion condicionada de Y da-

do X = 2.

Y 5 6 7 8f(Y |X = 2) 0 ,333 ,166 ,5

Podemos calcular la media condicionada de Y

dado X = 2 a traves de esta tabla.

La media de Y dado X = 2 es

5 × 0 + 6 × ,333 + 7 × ,166 + 8 × ,5 = 7,166

La varianza es

52 × 0 + 62 × ,333 + 72 × ,166 + 82 × ,5 − 7,1662

≈ ,806

La desviacion tıpica condicionada es√,806 ≈

,898.

66

Graficos

Existen varios graficos para mostrar datos bi-

variantes. Si tenemos por lo menos una variable

categorica, podemos usar diagramas de pastel

o diagramas de barra comparativas.

Ejemplo 32 Se han preguntado a varios hom-

bres y mujeres trabajadores su respuesta a la

pregunta ¿piensan que el tratamiento de am-

bos sexos en el trabajo es igual? La tabla re-

sume las respuestas.

sexoH M

Si 500 100 600Opinion No 200 600 800

No se 300 300 6001000 1000 2000

67

Diagramas de pastel comparativas

Piechart for Hombres

Opinión

Si

No

No sé

50,00%

20,00%

30,00%

Piechart for Mujeres

Opinión

Si

No

No sé

10,00%

60,00%

30,00%

Vemos que las proporciones son muy distıntos

entre hombres y mujeres.

68

Diagramas de barra comparativaspe

rcenta

ge

Barchart

Hombres

Mujeres

0

5

10

15

20

25

30

Si No No sé

69

Multiples diagramas de caja

Con una variable categorica y una variable cuan-titativa, podemos usar multiples diagramas decaja.

Ejemplo 33 El diagrama muestra los pesos dejugadores de rugby de ambos sexos.

70

Histogramas tridimensionales

Con dos variables quantitativas (continuas), se

pueden construir histogramas tridimensionales.

Ejemplo 34 Los datos tienen que ver con RNA

y antibioticas.Antibiotics and the 39-end of P/P 9-site-bound tRNA

71

Diagramas de dispersion

Es diagrama util para mostrar el tipo de relacion

entre dos variables cuantitativas.

Ejemplo 35 En un estudio sobre el tratamien-

to de diabetes, se interesaba por la perdida de

peso de los pacientes durante el tratamiento.

Los datos son los pesos iniciales de los pa-

cientes (x) cuando les diagnosticaron la dia-

betes y la perdida de peso (y) despues de un

ano (en libras).

X 225 235 173 223 200 199 129 242Y 15 44 31 39 6 16 21 44X 140 156 146 195 155 185 150 149Y 5 12 −3 19 10 24 −3 10

72

Diagrama de dispersion de perdida de peso

frente a peso inicial

120 150 180 210 240 270

x

-3

7

17

27

37

47

y

Hay una relacion positiva entre perdida de peso

y peso inicial.

73

3. CORRELACION Y REGRE-SION

Objetivo

Medir y ajustar una relacion lineal entre dos

variables cuantitativas.

Indice

1. Covarianza y sus propiedades

2. Correlacion y sus propiedades

3. Como calcular la covarianza y correlacion con datosagrupados

4. La recta de regresion y sus propiedades

74

Covarianza

Se ve en el Ejemplo ?? que existe una relacion

creciente y mas o menos lineal entre el peso

perdido y el peso original de las pacientes. La

covarianza es una medida de la fuerza de la

relacion lineal entre dos variables cuantitativas.

Definicion 16 Para una muestra de n datos

bivariantes

(x1, y1), . . . , (xn, yn)

la covarianza entre las dos variables es

sxy =1

n− 1

n∑i=1

(xi − x)(yi − y)

donde x = 1n

∑ni=1 xi e y = 1

n

∑ni=1 yi son las

medias de ambas variables.

75

Es ineficiente calcular la covarianza directa-

mente a traves de esta definicion.

Teorema 4

sxy =1

n− 1

n∑i=1

xiyi − nxy

Ejemplo 36 Volvemos al Ejemplo ??. En primerlugar hallamos las medias de ambas variables.

x =1

16(225 + 235 + . . . + 149)

= 181,375

y =1

16(15 + 44 + . . . + 10)

= 18,12516∑i=1

xiyi = 225 × 15 + 235 × 44 + . . . + 149 × 10

= 58385

sxy =1

15(58385 − 16 × 181,375 × 18,125)

= 361,64

76

Ejemplo 37 Se querıa determinar la concen-

tracion de acido urico en la leche de una es-

pecie de vaca y se tomo una muestra de 14

vacas. Los datos son produccion de leche (x

kg/dıa) y concentracion de acido (y µmol/litro).

x 42,7 40,2 38,2 37,6 32,2 32,2 28,0y 92 120 128 110 153 162 202x 27,2 26,6 23,0 22,7 21,8 21,3 20,2y 140 218 195 180 193 238 213

Tiemeyer, Stohrer, W. y Giesecke, D. (1984). Metabolites of nu-

cleic acids in bovine milk. J. Dairy Sci., 67, 723728.

77

Diagrama de dispersión

20 24 28 32 36 40 44

x

90

120

150

180

210

240

y

78

Vemos que existe una relacion negativa entrelas dos variables.

Calculamos ahora la covarianza.

Tenemos:

x =1

14(42,7 + . . . + 20,2)

≈ 29,56

y =1

14(92 + . . . + 213)

≈ 167,4314∑i=1

xiyi = 42,7 × 92 + . . . + 20,2 × 213

= 65334,2

sxy =1

14(65334,2 − 14 × 29,56 × 167,43)

≈ −283,2

La covarianza es positiva si existe una relacion(lineal) creciente y negativa si existe una relaciondecreciente.

79

Correlacion

Si, por ejemplo las unidades de la variable X

son centimetros y las unidades de la variable Y

son gramos, entonces las unidades de la covar-ianza son cm × g y si cambiamos la escala delas variables, cambia la covarianza. Esto haceque el valor de la covarianza sea difıcil de in-terpretar.

Una medida normalizada es la correlacion.

Definicion 17 Para una muestra bivariante

(x1, y1), . . . , (xn, yn),

la correlacion entre las dos variables es

rxy =sxy

sxsy=

sxy√s2xs

2y

donde sx y sy son las desviaciones tıpicas y s2xe s2y son las varianzas.

La correlacion es independiente de las unidadesde las variables.

80

Propiedades

−1 ≤ rxy ≤ 1.

rxy = 1 si y solo si existen constantes α y

β > 0 donde yi = α+βxi para i = 1, . . . n. Es

decir que existe una relacion lineal positiva

exacta entre las dos variables.

rxy = −1 si y solo si existen constantes α y

β < 0 donde yi = α+βxi para i = 1, . . . n. Es

decir que existe una relacion lineal negativa

exacta entre las dos variables.

Si no existe ninguna relacion entre las dos

variables, la correlacion se aproxima a 0.

Si la correlacion esta cerca de 1 o −1, entonces

hay una relacion aproximadamente lineal.

81

Ejemplo 38 Retomamos el Ejemplo ?? sobre

las vacas.

Calculamos las medias y la covarianza anteri-

ormente. Ya calculamos las varianzas, desvia-

ciones tıpicas y la correlacion.

s2x =1

n

n∑i=1

x2i − n× x2

=1

14

(42,72 + . . . + 20,22 − 14 × 29,562

)≈ 54,43

s2y ≈ 1868,82 parecidemente

Entonces la correlacion es

rxy =−283,2√

54,43 × 1868,82≈ −0,89

Existe una relacion negativa aproximadamente

lineal entre las dos variables.82

Ejemplo 39 Volvemos al Ejemplo ?? sobre los

diabeticos. Calculamos la covarianza como sxy =

361,64 en el Ejemplo ??. Ahora, hallamos las

varianzas y la correlacion.

Calculamos que s2x ≈ 1261,98 y s2y ≈ 211,23 y

luego sx ≈ 35,52 y sy ≈ 14,53.

Entonces rxy = 361,6435,52×14,53 = 0,70.

Hay una relacion lineal positiva bastante fuerte

entre las dos variables.

83

Si no hay relacion entre las variables, la

correlacion es aproximadamente cero

Ejemplo 40 Los datos son 30 parejas de numeros

aleatorios.

Correlación = -0.03

0 2 4 6 8 10(X 10000)

x

0

2

4

6

8

10(X 10000)

y

La correlacion es casi cero.

Al reves no es verdad.

84

¡Ojo! Cero correlacion no implica ninguna

relacion

Se ha visto que si hay una relacion mas o

menos lineal, la correlacion entre las dos vari-

ables es bastante alta pero ¿Que pasa si hay

una relacion no lineal?Correlación = 0.97

x

y

0 4 8 12 16 20

0

100

200

300

400

Correlación = 0

-6 -4 -2 0 2 4 6

xx

0

10

20

30

40yy

En ambas graficas se ha utilizado la formu-

la y = x2 para generar los datos. Una fuerte

relacion no lineal.

85

Regresion

Se han visto algunos ejemplos donde parece

que haya una relacion aproximadamente lin-

eal entre las variables. Supongamos que quere-

mos estimar la relacion entre las dos variables.

¿Como ajustamos la recta a los datos?

Un modelo para representar una relacion aprox-

imadamente lineal es

y = α + βx + ε

donde ε es un error de prediccion.

En esta formulacion, y es la variable depen-

dente cuya valor depende del valor de la vari-

able independiente x.

86

Mınimos Cuadrados

Para la muestra de datos (x1, y1), . . . , (xn, yn)

queremos utilizar la recta que se ajusta mejor.

Si ajustamos una recta y = a + bx a los datos

de la muestra, entonces los residuos o errores

de prediccion son

ri = yi − (a + bxi)

para i = 1, . . . , n.

De alguna manera, la recta que se ajusta mejor

es la que minimiza el error total. Pero ?como

definimos el error total?

Usamos la suma de errores cuadrados E(a, b) =∑ni=1 r2i .

87

Teorema 5 Para una muestra de datos bivari-

antes (x1, y1), . . . , (xn, yn), la recta de forma

y = a + bx que minimiza la suma de errores

cuadrados∑n

i=1(yi − a− bxi)2 tiene

b =sxy

s2xa = y − bx

Demostracion

Supongamos que ajustamos la recta y = a+bx.

Queremos minimizar el valor de E(a, b). Recor-

damos que en el mınimo se tiene

∂E

∂a=

∂E

∂b= 0

Recordamos que E =∑n

i=1(yi−a−bxi)2. Luego

88

∂E

∂a= −2

n∑i=1

(yi − a− bxi) y al mınimo se tiene

0 = −2n∑

i=1

(yi − a− bxi)

= −2 (ny − na− nbx)a = y − bx

∂E

∂b= −2

n∑i=1

xi(yi − a− bxi) y al mınimo,

0 = −2

(n∑

i=1

xiyi −n∑

i=1

xi(a + bxi)

)n∑

i=1

xiyi =n∑

i=1

xi(a + bxi)

=n∑

i=1

xi(y − bx+ bxi) sustituyendo por a

= nxy + b

(n∑

i=1

x2i − nx2

)

b =

∑ni=1 xiyi − nxy∑ni=1 x

2i − nx2

=nsxy

ns2x=

sxy

s2x

89

Ejemplo 41 Se quiere probar la elasticidad de

un muelle. Con este objetivo, se sometio el

muelle a varios niveles de fuerza (x Newtons) y

se midio la extension total del muelle (y mm)

en cada caso.

fuerza 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 0,5extension 18 11 25 22 35 50 54 45 52 68

Diagrama de dispersión de extension frente a fuerza

0 0,1 0,2 0,3 0,4 0,5

fuerza

0

20

40

60

80

exte

nsio

n

90

El diagrama de dispersion sugiere que existe

una relacion casi lineal entre fuerza y exten-

sion. Para predecir la extension del muelle en

torno de la fuerza aplicada, aplicamos el model

de regresion

y = α + βx + ε

Dados los datos de la muestra, hallamos la rec-

ta estimada por mınimos cuadrados. Tenemos:

x = 0,3

s2x = 0,02

y = 38

s2y = 310,8

sxy = 2,34

91

Calculamos la recta de mınimos cuadrados.

b =sxy

s2x

=2,34

0,02= 117

a = y − bx

= 38 − 117 × 0,3

= 2,9

La recta ajustada es y = 2,9 + 117x.

La recta de regresión

fuerza

exte

nsio

n

0 0,1 0,2 0,3 0,4 0,5

0

20

40

60

80

92

Prediccion

Ejemplo 42 En el Ejemplo ??, predecimos la

extension del muelle si se aplica una fuerza de

0,4 Newtons.

Se tiene y = 2,9 + 117 × 0,4 = 49,7 mm es la

extension estimada.

?Que pasarıa si ponemos una fuerza de 0?

La extension prevista por la recta de regresion

en este caso es de 2,9 mm. No obstante el

resultado no tiene sentido. Con fuerza 0, la

extension del muelle debe ser cero.

Es muy peligroso hacer prediccion usando val-

ores de x fuera del rango de los datos obser-

vados.

93

La desviacion tıpica residual

Los residuos o errores de la prediccion son las

diferencias yi − (a + bxi). Es util dar una idea

de si el error tıpico es grande o pequeno. Por

eso, se calcula la desviacion tıpica residual.

Definicion 18 Dado que se ajusta la regresion

por mınimos cuadrados con y = a + bx con a,

b definidos como anteriormente, se define la

desviacion tıpica residual como

sr =

√√√√1

n

n∑i=1

(yi − (a + bxi))2.

Ejemplo 43 Calculamos los residuos en el Ejem-

plo ??

x 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 0,5y 18 11 25 22 35 50 54 45 52 68

2,9 + 117x 14,6 14,6 26,3 26,3 38,0 38,0 49,7 49,7 61,4 61,4r 3,4 −3,6 −1,3 −4,3 −3,0 12,0 4,3 −4,7 −9,4 6,6

94

Entonces

r =1

10(3,4 + . . . + 6,6)

= 0

s2r =1

10

(3,42 + . . . + 6,62

)= 37,2

sr =√

37,02 ≈ 6,08

Existe una manera mas rapido de hacer el calcu-

lo. En primer lugar observamos que r = 0 siem-

pre si ajustamos la recta de mınimos cuadra-

dos.

95

Demostracion

r =1

n

n∑i=1

(yi − (a + bxi))

=1

n

n∑i=1

(yi − (y − bx + bxi)) por definicion de a

=1

n

n∑i=1

(yi − y) − bn∑

i=1

(xi − x)

= 0

En segundo lugar, tenemos el siguiente resul-

tado.

Teorema 6

s2r = s2y(1 − r2xy

)donde rxy es el coeficiente de correlacion.

96

Demostracion

s2r =1

n

n∑i=1

(yi − (a + bxi))2

=1

n(yi − (y − bx+ bxi))

2 por definicion de a

=1

n((yi − y) − b(xi − x)))2

=1

n

(n∑

i=1

(yi − y)2 − 2bn∑

i=1

(yi − y)(xi − x)+

b2n∑

i=1

(xi − x)2

)

= s2y − 2bsxy + b2s2x

= s2y − 2sxy

s2xsxy +

(sxy

s2x

)2

s2x por definicion de b

= s2y − s2xy

s2x

= s2y

(1 − s2xy

s2xs2y

)

= s2y

(1 −

(sxy

sxsy

)2)

= s2y(1 − r2

xy

)

97

Ejemplo 44 Volviendo al Ejemplo ??, recor-

damos que s2x = 0,02, s2y = 310,8 y sxy = 2,34.

Luego, la correlacion es

rxy =2,34√

0,2 × 310,8≈ 0,939.

Entonces s2r = 310,8(1 − 0,9392

)= 37,02 co-

mo calculamos anteriormente.

Podemos interpretar el teorema de otra man-

era. Tenemos

s2rs2y

= 1 − r2xy.

Pensamos en s2y como la varianza o error total

en predecir los valores de la variable y sin saber

los valores de x. s2r es el error total si usamos

la variable x para predecir y. El porcentaje de

reduccion de la varianza original debido a la

regresion es r2xy × 100%.

98

Otra conexion entre correlacion y regre-

sion

Consideramos la formula para el pendiente de

la recta de regresion. Tenemos:

b =sxy

s2x

=sysxy

sysxsx=

sy

sx

sxy

sxsy

=sy

sxrxy

Luego, se ve que si la correlacion entre las dos

variables es cero, tambien lo es la pendiente de

la recta. Ademas, el Teorema ?? nos demues-

tra que la reduccion en la varianza de los datos

y debida a la regresion en este caso es 0.

99

Analisis de los residuos

Se ha visto anteriormente que la correlacion

entre dos variables puede ser alta a pesar de

que la relacion entre las dos sea fuertemente

no lineal.

Se pueden utilizar los residuos para ver si el

modelo de regresion lineal es adecuado.

Casi siempre es util hacer graficos de los resid-

uos (frente x, y o y) para ver si los supuestos

del modelo lineal de regresion son justificados

o no.

Ejemplo 45 La recta de regresion para los cin-

co siguientes conjuntos de datos es la misma:

y = 18,43 + 0,28 ∗ x

Bassett, E. et al (1986). Statistics: Problems and Solu-

tions. London: Edward Arnold

100

x

y

4 6 8 10 12 14

18

19

20

21

22

23

24

x

y

4 6 8 10 12 14

17

18

19

20

21

22

23

x

y

4 6 8 10 12 14

19

21

23

25

27

x

y

4 6 8 10 12 14

19

20

21

22

23

24

x

y

8 10 12 14 16 18 20

18

19

20

21

22

23

24

101

El primer caso parece una regresion nor-

mal.

En el segundo caso, hay una relacion no

lineal.

En el tercer grafico, se ve la influencia de

un dato atıpico.

En el cuarto grafico parece que la recta

esta mas cerca a los datos cuando x es

mas pequeno.

En el ultimo caso, se ve el efecto de un

punto influyente.

Ahora hacemos graficos de los residuos frente

a las predicciones.

102

Gráfico de predicciones frente a residuos

yhat

residuos

19 20 21 22 23

-2

-1

0

1

2


yhat

residuos

19 20 21 22 23

-2

-1

0

1

2


yhat

residuos

19 20 21 22 23

-3,3

-1,3

0,7

2,7

4,7


yhat

residuos

19 20 21 22 23

-2,5

-1,5

-0,5

0,5

1,5

2,5


yhat

residuos

20 21 22 23 24

-2

-1

0

1

2

103

En el primer caso, los residuos parecen aleato-

rios. Es una buena indicacion que el modelo

de regresion se ajusta bien.

En el segundo caso, se ve una relacion en-

tre y y los residuos. El modelo lineal no se

ajusta bien.

Cuando haya un dato atıpico, se ve un resid-

uo muy alto.

Los residuos son mas pequenos cuando y

es pequeno.

Se ve el efecto del dato influyente.

104

Dos rectas de regresion

Hasta ahora, hemos pensado en un modelo

y = α + βx + ε

y dada la muestra, hemos usado mınimos cuadra-dos para ajustar la rectas

y = a + bx

con b =sxys2x

y a = y − bx.

Podrıamos escribir el modelo de otra manera:

x = γ + δy + ν

donde δ = 1β, γ = −α

β y ν = −ε.

No obstante, si usamos mınimos cuadrados paraajustar la recta x = c + dy a los datos mues-trales tendremos

d =sxy

s2yy c = x− dy.

Observamos que d �= 1b . ¡Las rectas no son

iguales!

105

Ejemplo 46 Volvemos al Ejemplo ?? sobre ex-

tension (y) relativa a la fuerza (x) aplicada al

muelle.

Antes hemos visto que ajustando la recta y =

a + bx por mınimos cuadrados, se tiene

y = 2,9 + 117x.

Ahora supongamos que queremos predecir la

fuerza x que causarıa una extension de y. Aju-

stando la recta por mınimos cuadrados, ten-

emos

x = ,0139 + ,0075y.

El ajuste de ambas rectas aparece en el sigu-

iente grafico.

106

0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.5510

20

30

40

50

60

70

x

y

y=a+bxx=c+dydatos

Para hacer regresion es importante saber cuales

son las variables dependientes y independientes.

107

Correlacion espuria

Si el coeficiente de correlacion entre dos vari-ables es alta, indica que estan relacionadas en-tre si. No obstante, no permite concluir unarelacion causal.

Ejemplo 47 Se ha descubierto que por mascoches de bomberos que van al fuego, mases el dano causado. Pero el trabajo de losbomberos es extinguir los fuegos y reducir eldano y entonces el resultado es sorprendente.

?Como podemos explicar el resultado?

Si el fuego es mas intenso, entonces van mascoches de bomberos y tambien el fuego causamas dano.

La alta correlacion entre numero de coches ydano es espuria, o sea debida al efecto de otravariable (intensidad del fuego) que influye aambas.

108

Ejemplo 48 De Los Simpsons c©.

Homer: No veo ningun oso. La patrulla de busqueda de ososdebe estar funcionando de maravilla.

Lisa: Papa eres idiota.

Homer: Gracias Lisa

Lisa: Siguiendo tu logica, esta roca impede la presenciade tigres.

Homer: ?Como funciona?

Lisa: No funciona.

Homer: Uh-huh.

Lisa: Solo es una estupida roca pero no veo ningun tigre.?Y tu?

Homer: Lisa, quiero comprar tu roca.

109

La paradoja de Simpson

El siguiente ejemplo ilustra la paradoja.

Ejemplo 49 La enfermedad de Grot es muypeligroso y puede llegar a ser fatal. De mo-mento, no existe ningun tratamiento recono-cido pero a muchas personas, les gusta usarla panacea de Blogg, un remedio natural. Sehace un estudio de un grupo de sufridores dela enfermedad con los siguientes resultados.

Nada BloggSobrevive 108 153

Muere 123 120

Parece que el tratamiento funciona, ya que153

153+120 = 56% de los pacientes tomando la

panacea han sobrevivido mientras solo 108108+123 =

47% de las pacientes sin tratamiento se hanrecuperado.

Ejemplo tomado de: http://www.cawtech.freeserve.co.uk/simpsons.2.html

110

Entonces, parece ser buena idea recetar la panacea

a los pacientes.

No obstante, cuando se informa el colectivo

de mujeres Grot sobre la decision a recetar la

panacea, ellas no estan nada contentas porque

ellas han visto los resultados solo para las mu-

jeres en la muestra.


Muere 100 57

Solo un 3232+57 = 36,0% de las mujeres toman-

do Blogg han sobrevivido mientras un 36,3%

de las que no toman Blogg han sobrevivido.

Parece perjudicar (un poquito) a las mujeres

tomar Blogg.

?El Blogg debe ser un tratamiento machista

que favorece la salud de los hombres?

111

Sacamos la tabla con respeto a los hombres.


Muere 23 63

Un 121121+63 = 65,7% de los hombres bajo tra-

tamiento han sobrevivido mientras un 5151+23 =

68,9% de los hombres sin tratamiento han so-

brevivido. Parece que el tratamiento perjudica

a los hombres tambien.

El resultado es paradojico. El tratamiento parece

favorecer la poblacion entera de pacientes pero

no favorece ni a las mujeres ni a los hombres.

La paradoja de Simpson demuestra que si mez-

clamos datos de dos subpoblaciones bastante

distıntos, podemos llegar a conclusiones op-

uestas a las obtenidas tratando los grupos por

separados.

112

Documents

INTRODUCCIONALAES-´ TAD´ISTICAhalweb.uc3m.es/esp/Personal/personas/mwiper/... · arios, Bachillerato, Secondario, Primario, Sin Estudios) con los siguientes resultados. UB U S S