17
LA RECTA DE REGRESIÓN CONTENIDOS: Dependencia funcional y dependencia estadística Concepto de regresión ¿Es buena la aproximación? Error cuadrático medio, varianza residual coeficiente de determinación lineal

LA RECTA DE REGRESIÓN

Embed Size (px)

DESCRIPTION

LA RECTA DE REGRESIÓN. CONTENIDOS: Dependencia funcional y dependencia estadística Concepto de regresión ¿Es buena la aproximación? Error cuadrático medio, varianza residual coeficiente de determinación lineal. Independencia - Dependencia. - PowerPoint PPT Presentation

Citation preview

Page 1: LA RECTA DE REGRESIÓN

LA RECTA DE REGRESIÓN

CONTENIDOS:

Dependencia funcional y dependencia estadística Concepto de regresión ¿Es buena la aproximación?

Error cuadrático medio, varianza residual coeficiente de determinación lineal

Page 2: LA RECTA DE REGRESIÓN

Independencia - DependenciaIndependencia - DependenciaAl estudiar dos características simultáneamente de una muestra:

– ¿están relacionadas? ¿interdependencia? ¿cómo lo hacen?– altura vs peso. horas de estudio vs calificación en un examen.

El objetivo principal es determinar el modo en que se relacionan. Dos variables pueden considerarse:• Independientes ninguna explica el comportamiento de la otra• Dependencia funcional (exacta) Y=f(x)• Dependencia estadística está entre las dos anteriores

r=0,1

30

80

130

180

230

280

330

140 150 160 170 180 190 200

Independencia estadística Dependencia funcionalDependencia estadística

Grado de asociación entre dos variables- +

0,00

5,00

10,00

15,00

20,00

25,00

0,00 20,00 40,00 60,00 80,00

Page 3: LA RECTA DE REGRESIÓN

Estudio conjunto de dos variables

Altura en cm.

Peso en Kg.

162 61

154 60

180 78

158 62

171 66

169 60

166 54

176 84

163 68

... ...

• A la derecha tenemos los datos obtenido observando dos variables estadísticas en varios individuos de una muestra.

– En cada fila tenemos los datos de un individuo

– Cada columna contiene los valores que toma una variable sobre los individuos.

– Las individuos no se muestran en ningún orden particular.

• Podemos representar las observaciones en un diagrama de dispersión (‘scatterplot’). En él, cada individuo es un punto cuyas coordenadas son los valores de las variables.

• En primera instancia, pretendemos reconocer a partir del diagrama si hay relación entre las variables, de qué tipo y, si es posible predecir el valor de una de ellas en función de la otra.

Page 4: LA RECTA DE REGRESIÓN

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Diagramas de dispersión o nube de puntos

Mid

e 18

7 cm

.

Mide 161 cm.

Pesa 76 kg.

Pesa 50 kg.

Altura y peso de 30 individuos.

Page 5: LA RECTA DE REGRESIÓN

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Relación entre variables.Altura y peso de 30 individuos.

Parece que el peso aumenta con la altura

Page 6: LA RECTA DE REGRESIÓN

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Relación entre variables.Altura y peso de 30 individuos.

Parece que el peso aumenta con la altura

Page 7: LA RECTA DE REGRESIÓN

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Relación entre variables.Altura y peso de 30 individuos.

Parece que el peso aumenta con la altura

• ¿Qué recta explica mejor la relación peso-altura? • mejor...¿en qué sentido?

Page 8: LA RECTA DE REGRESIÓN

1x 2x 3x ix 1nx nx

1y

2y

3y

iy

1ny

ny

Ordenada en el origen

PendienteRECTA DE REGRESIÓN

ˆiy

ˆi i iu y y

yi

iii ubxay

3u iu

Error: residuo

Page 9: LA RECTA DE REGRESIÓN

Llamemos a “u” residuo, perturbación o error: es la diferencia que hay entre el valor observado de la variable “y” y el valor que tendría (valor estimado) si la relación fuera lineal, es decir, través de la recta de regresión

IDEA: hacer MÍNIMA la suma de los CUADRADOS de los residuos.

2 2ˆ( )i i iu y y 2 2

1 1

ˆ( )n n

i i ii i

u y y

22 2

, 1 1 1

ˆ( )minn n n

i i i i ia b i i i

u y y y a bx

iiy a bx

RECTA DE REGRESIÓN

Page 10: LA RECTA DE REGRESIÓN

1 1

1 1( )( )

n n

xy k k k kk k

S x x y y x y x yn n

2

xy

x

Sa y x

S

2

xy

x

Sb

S

La recta de regresión de y sobre x es

Es decir, los valores de los coeficientes son

Covarianza

EQUIVALE a buscar los coeficientes de la recta hace MÍNIMA la suma de los CUADRADOS de los residuos.

2 2ˆ xy xy

x x

S Sy y x x

S S

Page 11: LA RECTA DE REGRESIÓN

¿Es la recta de regresión una buena aproximación de la nube de puntos?

2 2ˆ XY XYi i

X X

S Sy y x x

S S

Yi

X

Sy x x

Sr XY

X Y

SrS S

22ˆi i

u

y yS

N

Varianza residual ó error cuadrático medio: Ayuda a medir la dependencia.

VR =

Coeficiente de correlación lineal de Pearson r:

2

1 XYY

X Y

SS

S S

Coeficiente de determinación:

2

2 1

2

1

ˆn

kkn

kk

y yR

y y

Diferencia entre el valor estimado y la media observada

Diferencia entre lo observado y la media observada

Page 12: LA RECTA DE REGRESIÓN

• La pendiente de la recta de regresión es Sxy/ S2X

• El signo de la covarianza indica si la posible relación entre dos variables es directa o inversa.– Directa: Sxy >0

– Inversa: Sxy <0

– Incorreladas: Sxy =0

• La covarianza no dice nada sobre el grado de relación entre las variables.

Covarianza de dos variables X e Y

Page 13: LA RECTA DE REGRESIÓN

Coef. de correlación lineal de Pearson

• La coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).

• tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relación sea directa o inversa.

• r es útil para determinar si hay relación lineal entre dos variables

yx

xy

SS

Sr

Page 14: LA RECTA DE REGRESIÓN

• Es adimensional• Sólo toma valores en [-1,1]• Las variables son incorreladas r=0• Relación lineal perfecta entre dos variables r=+1 o r=-1

– Excluimos los casos de puntos alineados horiz. o verticalmente.

• Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.– Siempre que no existan observaciones anómalas.

Propiedades de r

-1 +10

Relación inversa perfecta

Relación directa

casi perfecta

Variables incorreladas

Page 15: LA RECTA DE REGRESIÓN

Coeficiente de determinación

• No mide la validez del modelo de regresión propuesto.

• Sí mide cuanto de la variabilidad se explica por la ecuación de regresión estimada.

Page 16: LA RECTA DE REGRESIÓN

Hemos usado materiales de:– Julián de la Horra Navarro.

Estadística aplicada, 3ª edición. Díaz de Santos.

– G.C. Canavós. Estadística y probabilidad. Métodos y aplicaciones. McGrawHill

– Francisco Javier Barónhttp://www.bioestadistica.uma.es/baron/apuntes

– Sara Mateohttp://www.dea.uib.es/webpersonal/williamnilsson/archivos/Capitulo7.ppt

Page 17: LA RECTA DE REGRESIÓN

Estadística Económica 2007-2008. Sara Mateo.

¿Qué “a” y “b” minimizan la suma de los cuadrados de los errores cometidos?

22

1 1

( , )n n

i i i ii i

a b y a bx y a bx

El valor que hemos

aproximado para “y” con la recta de regresión

Errores cometidos al aproximar por una recta

MINIMIZARMINIMIZAR

02

02

i

i

ii

i

ii

xbxayb

bxaya

i ii i

na y b a y bx x

i i

ii

i

ii

i i i

ii

xbxayx

xbay

2

2

2

2 2

22

i i i ii i i

ii i i i

i i i

i i ii i

xyxy

xx

x y y bx x b x

yx y x bxnx b x

n

x y ynx b x nx

Sbb

SS S

y

¿DE DÓNDE SALEN LOS COEFICIENTES DE LA RECTA DE REGRESIÓN?