37
Regresión Lineal Dra. Noemí L. Ruiz Limardo 2008 © Derechos Reservados, Rev 2010

Regresión Lineal - EDUG531 | Just another … · de causa y efecto se requieren otras medidas en otros ... – Como la relación que estudiamos es correlación lineal entre dos variables,

Embed Size (px)

Citation preview

Regresión Lineal

Dra. Noemí L. Ruiz Limardo

2008 © Derechos Reservados, Rev 2010

Objetivos de la Lección

• Conocer el significado de la regresión lineal

• Determinar la línea de regresión cuando hay

correlación lineal

• Predecir un valor de y basado en un valor de x

dado, cuando hay variables correlacionadas

• Determinar el error de predicción en una

regresión

Introducción

Correlación y Predicción

• Predicción es el proceso de estimación de valores de una variable y (variable de criterio) basado en el conocimiento de otra variable x (variable predictora).

• Cuando hay correlación entre dos variables x, y se puede predecir el valor que asume la y basado en el valor que tiene x.

• Ejemplo: Si las variables creatividad (y) y razonamiento lógico (x) están relacionadas, unoquisiera saber cuál es el mejor estimado de la medida de creatividad que está relacionado con unapuntuación específica de razonamiento lógico.

Línea de Regresión

• Cuando hay correlación entre dos variables, en

una gráfica de puntos (“scatterplot”) los puntos

tienden a estar alrededor de una línea recta.

• Si podemos dibujar la línea recta, ésta

representaría, en promedio, cómo el cambio en

una variable x está asociada a otra variable y.

• Esta línea recta se llama la línea de regresión.

• Cuando usamos la variable x para predecir la

variable y, la línea se llama la regresión de y

en x.

Correlación y Relación de

Causalidad (Causa-Efecto)

• El mero hecho de que dos variables x, y estén asociadas no implica que los cambios en xcausará cambios en y.

• Ejemplo: Una manzana al día mantiene al médico alejado.– Esta correlación negativa se fundamenta en el

número de manzanas consumidas anualmente y el número de visitas anuales al médico.

– Esto no implica que si una persona tiene muchas visitas al médico se debe a que comió pocas manzanas. Quizás se deba a otros factores tales como accidentes automovilísticos, aún comiendo la manzana mientras guiaba.

Correlación y Relación de

Causa-Efecto

• Hay variables en las cuales el cambio no se

puede atribuir al cambio en la otra variable.

• Ejemplo: Relación positiva entre la ejecución en

una tarea física y la edad cronológica.

– Esto no nos permite argumentar que la edad

cronológica es afectada por la ejecución en la tarea

física.

– La edad cronológica solo puede ser afectada por el

paso del tiempo desde el nacimiento del sujeto.

Correlación y Relación de

Causa-Efecto

• Hay combinación de variables que están altamente

correlacionadas, y en esos casos, una de las

variables es una predictora precisa (con precisión) de

la otra.

• Pero, predicción precisa no necesariamente implica

que la variable predictora es la causa de la otra

variable (variable de criterio).

• Por tanto, no se debe confundir correlación con

relación de causa y efecto. Para establecer relaciones

de causa y efecto se requieren otras medidas en otros

contextos de investigación.

Línea de Regresión

Proceso de predecir

Dos pasos:

1. Determinar la línea de regresión. (Determinar

la ecuación de la recta.)

– Como la relación que estudiamos es correlación

lineal entre dos variables, la línea de regresión es

una ecuación lineal en dos variables.

2. Predecir una valor específico de la variable y

dado cierto valor de la variable x.

– Sustituyendo el valor de x en la ecuación que

representa la línea de regresión se obtiene el valor

de y.

Línea de Regresión

abxy

Cuando x = 0

y Puntuación que se predice

b = Pendiente de la recta (inclinación respecto a eje de x)

a = Intercepto en y de la recta

12

12

xx

yybFórmula de Pendiente:

Línea de regresión

• Ejemplo: (Figura 6.1, página 123 del libro de Hinkle)

Gráfica de: y = 0.5x + 2

0 1 2 3 4 5

1

2

3

4

5

0

Ver partes de la

ecuación y su

relación con la

gráfica.

Determinación de la línea de

regresión

• ¿Cómo se ajusta la línea de regresión en una “scatterplot”? (Ver Figura 6.2 en pág. 126)

• Se ajusta determinando primero para cadapunto:

• e se conoce como el error de predicción.

• Para ajustar la línea de regresión, se determina e y luego se usa el método de los cuadrados mínimos.

)ˆ( yye

Determinación de la línea de

regresión

• El método de los cuadrados mínimos ajusta la línea de tal manera que la suma de los cuadrados de las distancias de los puntos a la línea es un mínimo. (Ver Figura 6.3 en pág. 126)

• Esto es similar al concepto de desviación estándar de la muestra.

• Los cuadrados mínimos se determinan con la siguiente fórmula:

2yy

Coeficiente de regresión y

Constante de regresión

• Coeficiente de regresión b:

ó

• Constante de regresión a:

ó

abxy

22 xxn

yxxynb

x

y

s

srb

n

xbya

Pendiente de la recta

Intercepto en y de la recta

xbya

Ejemplo 1:

Predecir valores de y, dados

valores de x

Ejemplo 1:

Est. Punt Raz Log (x) Punt Creat (y) x2 y2 xy

1 15 12 225 144 180

2 10 13 100 169 130

3 7 9 49 81 63

4 18 18 324 324 324

5 5 7 25 49 35

6 10 9 100 81 90

7 7 14 49 196 98

8 17 16 289 256 272

9 15 10 225 100 150

10 9 12 81 144 108

11 8 7 64 49 56

12 15 13 225 169 195

13 11 14 121 196 154

14 17 19 289 361 323

15 8 10 64 100 80

16 11 16 121 256 176

17 12 12 144 144 144

18 13 16 169 256 208

19 18 19 324 361 342

20 7 11 49 121 77

Total 233 257 3037 3557 3205

12.4

65.11

xs

x

66.3

85.12

ys

y

74.0

16.11

r

sxy

Datos de la Tabla 6.1,

pág. 125, Libro de

Hinkle

Ejercicio 1

• Usa los datos del ejemplo 1 para predecir la puntuación

de creatividad de un estudiante que tiene una

puntuación de razonamiento lógico de 12.

• Hay que calcular tres cosas:

– Coeficiente de regresión:

ó

– Constante de regresión:

ó

– Ecuación lineal:

22 xxn

yxxynb

n

xbya

abxy

x

y

s

srb

xbya

Veamos cómo se hace

en las otras pantallas

Coeficiente de Regresión

ó también se puede hallar:

65.0233303720

2572333205202

b

x

y

s

srb

22 xxn

yxxynb

65.012.4

66.374.0b

Primero, calculamos el coeficiente de regresión:

Constante de Regresión

ó también se puede hallar:

n

xbya 28.5

20

23365.0257a

xbya 28.565.1165.085.12a

Segundo, calculamos la constante de regresión:

Ecuación de Regresión

Finalmente, podemos predecir la puntuación de

creatividad de un estudiante que tiene una

puntuación de razonamiento lógico de 12.

abxy

28.565.0ˆ xy

08.13

28.51265.0y

Tercero, determinamos la ecuación de regresión:

Ejemplo 2:

Predecir valores estandarizados

de y usando puntuaciones

estándarizadas de x

Introducción al Ejercicio 2

• Se pueden predecir valores estandarizados de y

usando puntuaciones estándarizadas de x

• Este proceso ayuda cuando se va a determinar

correlación múltiple y regresión lineal múltiple (Cap. 18)

• La correlación múltiple se utiliza cuando se desea

determinar la relación entre la variable de criterio y y

múltiples variables predictoras xi (1 ≤ i ≤ k; k ≥ 2)

Introducción al Ejercicio 2

• Para realizar esta predicción se utiliza la siguiente fórmula:

• zx es la puntuación estándarizada de x

• r es el índice de correlación de Pearson de las variables x, y

• es la puntuación estándarizada de y

• A continuación se presenta un ejemplo de cómo se realiza

esta predicción.

xy zrz ˆ

yz ˆ

Si se desea ver de dónde viene la fórmula,

véase las últimas dos transparencias o haz

clic aquí.

Ejemplo 2:

Est. Punt Raz Log (x) Punt Creat (y) x2 y2 xy

1 15 12 225 144 180

2 10 13 100 169 130

3 7 9 49 81 63

4 18 18 324 324 324

5 5 7 25 49 35

6 10 9 100 81 90

7 7 14 49 196 98

8 17 16 289 256 272

9 15 10 225 100 150

10 9 12 81 144 108

11 8 7 64 49 56

12 15 13 225 169 195

13 11 14 121 196 154

14 17 19 289 361 323

15 8 10 64 100 80

16 11 16 121 256 176

17 12 12 144 144 144

18 13 16 169 256 208

19 18 19 324 361 342

20 7 11 49 121 77

Total 233 257 3037 3557 3205

12.4

65.11

xs

x

66.3

85.12

ys

y

74.0

16.11

r

sxy

Datos del Ejemplo 1

anterior.

Ejercicio 2

• Usando los datos del Ejercicio 1 anterior, predice el valor

estandarizado de y usando la puntuación estándarizada de x

del sujeto 1.

• El sujeto 1 tuvo una puntuación x = 15. Primero hallamos la

puntuación estandarizada de este valor de x:

• Ahora, se puede sustituir la puntuación estandarizada de z y el

valor que corresponde a r (r = 0.74) en la ecuación para hallar

la puntuación estandarizada de y:

60.0)81.0)(74.0(ˆ xy zrz

81.012.4

65.1115

x

xs

xxz

Error de Predicción

Error de Predicción

• Como se presentó antes, si la correlación lineal entre dos

variables x,y es perfecta, las puntuaciones en el diagrama de

scatterplot caerán en una línea recta.

• Si hay correlación, pero esta no es perfecta, las puntuaciones

caerán alrededor de la línea recta.

• Para ajustar las puntuaciones se usa el método de los

cuadrados mínimos. La aplicación de este método se conoce

como el error de predicción.

• El error de predicción es la suma de los cuadrados de las

distancias (desviaciones) desde cada punto hasta la línea

recta, donde se produce un mínimo.

• Simbólicamente, el error está dado por la fórmula: yye ˆ

Error Estándar del Estimado

• Se puede calcular la media de este error de pedicción

mediante la siguiente fórmula:

• Se puede calcular también la varianza y la desviación estándar

mediante las fórmulas a continuación:

• La desviación estándar se conoce como el error estándar del

estimado.

00

nn

ee

22

22

2

n

e

n

ees xy 2

2

n

es xy

Error Estándar del Estimado

• Para aplicar la fórmula anterior, primero hay que obtener el

error de cada punto individualmente.

• Este proceso puede ser bien tedioso, especialmente en

muestra grandes.

• La fórmula siguiente es una fórmula alterna más conveniente

en estos casos:

2

2

n

es xy

2

11 2

n

nrss yxy

Fórmula

Alterna

Ejemplo 3

• Usando los datos del ejercicio anterior que aparecen en la

Tabla 6.2 de la página 128, calcula el error estándar del

estimado usando la fórmula:

2

2

n

es xy

Ejemplo 3:

Est.Punt RazLog (x)

Punt Creat (y)

1 15 12 15.03 -3.03 9.18

2 10 13 11.78 1.22 1.49

3 7 9 9.83 -0.83 0.69

4 18 18 16.98 1.02 1.04

5 5 7 8.53 -1.53 2.34

6 10 9 11.78 -2.78 7.73

7 7 14 9.83 4.17 17.39

8 17 16 16.33 -0.33 0.11

9 15 10 15.03 -5.03 25.30

10 9 12 11.13 0.87 0.76

11 8 7 10.48 -3.48 12.11

12 15 13 15.03 -2.03 4.12

13 11 14 12.43 1.57 2.46

14 17 19 16.33 2.67 7.13

15 8 10 10.48 -0.48 0.23

16 11 16 12.43 3.57 12.74

17 12 12 13.08 -1.08 1.17

18 13 16 13.73 2.27 5.15

19 18 19 16.98 2.02 4.08

20 7 11 9.83 1.17 1.37

Total 233 257 0 116.59

12.4

65.11

xs

x

66.3

85.12

ys

y

74.0

16.11

r

sxy

Datos del Ejemplo 1

anterior.

yy ˆ2

yyy

Ejemplo 3

• Sustituyendo en la fórmula del error estándar del estimado

tenemos:

55.248.618

59.116

2

2

n

es xy

Ejemplo 3

• Usando los datos del ejercicio anterior que aparecen en la

Tabla 6.2 de la página 128, calcula el error estándar del

estimado usando la fórmula alterna.

2

11 2

n

nrss yxy

53.218

19)74.0(166.3 2

xys

Las centésimas de diferencia con la fórmula

anterior se deben al uso del redondeo.

Observe que cuando la correlación es alta, el

error estándar es pequeño.

Fin de la lección

Derivando la fórmula

• Recordando que una puntuación estándarizada z se obtiene

aplicando la fórmula:

• Para derivar la fórmula de , comencemos con la

ecuación de regresión:

• Si se sustituye el valor de a , , en la ecuación

anterior se obtiene:

• Reagrupando términos y factorizando se obtiene:

s

xxz

xy zrz ˆ

xy zrz ˆ

abxyxbya

xbybxy

xxbyy

Derivando la fórmula

• Si se sustituye el valor de b , , en la ecuación

anterior se obtiene:

• Manipulando algebraicamente la ecuación se obtiene:

• Esta ecuación es equivalente a:

xy zrz ˆ

xxbyy

x

y

s

srb

xxs

sryy

x

y)(ˆ

xy s

xxr

s

yy)(

ˆ

xy zrz ˆ