54
Material Preparado por Olga Susana Filippini y Hugo Delfino 1 Análisis de Regresión y Correlación

Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Embed Size (px)

Citation preview

Page 1: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 1

Análisis de

Regresión y Correlación

Page 2: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 2

ORIGEN HISTÓRICO DEL TÉRMINO REGRESlÓN

El término regresión fue introducido por Francis Galton. En un famoso

artículo Galton plantea que, a pesar de la presencia de una tendencia

en la que los padres de estatura alta tenían hijos altos y los padres de

estatura baja tenían hijos bajos, la estatura promedio de los niños

nacidos de padres de una estatura dada tendía a moverse o «regresar»

hacia la estatura promedio de población total. En otras palabras, la

estatura de los hijos inusualmente altos o de padres inusualmente bajos

tiende a moverse hacia la estatura promedio de la población. La ley de

regresón universal de Galton fue confirmada por su amigo Karl Pearson,

quien reunió más de registros de estaturas de miembros de grupos

familiares. Pearson encontró que la estatura promedio de los hijos de un

grupo de padres de estatura alta era menor que la estatura de sus

padres y la estatura promedio de los hijos de un grupo de padres de

estatura baja era mayor que estatura de sus padres, generándose un

fenómeno mediante el cual los hijos altos e hijos bajos «regresaban» en

forma similar hacia la estatura promedio de todos los hombres. En

palabras de Galton, se trataba de una «regresión hacia la mediocridad».

Page 3: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 3

Muchas veces las decisiones gerenciales

se basan en la relación entre dos o más

variables

• Ejemplos:

• Después de revisar la relación entre los gastos de

publicidad y las ventas, un gerente de marketing

podría tratar de predecir las ventas para

determinado nivel de gastos de publicidad.

• Se quiere estimar el consumo de un bien en

función de los ingresos de la familia.

Introducción

Page 4: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 4

• Después de revisar la relación entre la dosis de

fertilizante aplicado y el rendimiento de un cultivos

ventas, un agricultor podría tratar de predecir el

rendimiento del cultivo en qq/ha en función de la

cantidad de fertilizante a aplicar. Teniendo en

cuenta todos los gastos e ingresos esperados,

establecer el punto optimo de dosis de fertilizante a

utilizar.

• Un ingeniero en alimentos puede ver la relación

existente entre el tiempo y el número de bacterias

que se producen.

Ejemplos

Page 5: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 5

En general uno desea conocer la relación

existente entre las variables y cuantificarla.

La representación gráfica es eficaz para

obtener una información intuitiva sobre la

relación entre variables.

Diagrama de Dispersión: Es un gráfico que

muestra la intensidad y el sentido de la

relación entre dos variables de interés.

Introducción

Page 6: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 6

Los diagramas de dispersión no sólo muestran la

relación existente entre variables, sino también resaltan

las observaciones individuales que se desvían de la

relación general. Estas observaciones son conocidas

como outliers o valores inusitados, que son puntos de

los datos que aparecen separados del resto.

Diagrama de dispersión

Page 7: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 7

• Análisis de Correlación: Un grupo de

técnicas estadísticas usadas para medir la

intensidad de la relación entre dos

variables

• Análisis de Regresión: Es un

procedimiento estadístico que estudia la

relación funcional entre variables. Con el

objeto de predecir una en función de la/s

otra/s.

Conceptos básicos

Page 8: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 8

• Variable dependiente (Y): es la variable que se desea

predecir o estimar

• Variables independientes (Xi ). Son las variables que

proveen las bases para estimar.

• Regresión simple: interviene una sola variable

independiente

• Regresión múltiple: intervienen dos o más variables

independientes.

• Regresión lineal: la función es una combinación lineal

de los parámetros.

• Regresión no lineal: la función que relaciona los

parámetros no es una combinación lineal

Conceptos básicos

Page 9: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 9

Coeficiente de correlación lineal

• Coeficiente de Correlación (r) requiere variables medidas en escala de intervalos o de proporciones

· Varía entre -1.00 y 1.00.

· Valores de -1.00 o 1.00 indican correlación perfecta.

· Valor igual a 0.0 indica ausencia de correlación.

· Valores negativos indican una relación lineal inversa y valores positivos indican una relación lineal directa

Page 10: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 10

Correlación Negativa Perfecta

0 1 2 3 4 5 6 7 8 9 10

10

9

8

7

6

5

4

3

2

1

0

X

Y

Page 11: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 11

0 1 2 3 4 5 6 7 8 9 10

10

9

8

7

6

5

4

3

2

1

0

X

Y

Correlación Positiva Perfecta

Page 12: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 12

0 1 2 3 4 5 6 7 8 9 10

10

9

8

7

6

5

4

3

2

1

0

X

Y

Ausencia de Correlación

Page 13: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 13

0 1 2 3 4 5 6 7 8 9 10

10

9

8

7

6

5

4

3

2

1

0

X

Y

Correlación Fuerte y Positiva

Page 14: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 14

Coeficiente de correlación (r) Pearson

)(*)(

)(aCovarianci

YVarXVar

XYr

2222 )()()()(

))(()(

YYnXXn

YXXYnr

Page 15: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 15

Test de hipótesis del coeficiente de correlación

1. Hipótesis: H0: la correlación en la población es 0. H1: la

correlación en la población no es 0.

2. Nivel de significación: = 0.05.

tr n

r

2

1 23. Estadística de la prueba: se distribuye

como un t de Student con n-2 grados de libertad.

4. Regla de decisión: Rechazamos H0 si, y solo si, el valor de

t calculado es mayor que el valor t teórico, o el valor p es

menor que el fijado . En caso contrario, se acepta H0.

5. Conclusión: Si rechazo H0 concluyo que hay evidencias de

correlación entre las variables. En caso contrario no

Page 16: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 16

Modelo de Regresión

Un modelo de regresión, es una manera de

expresar dos ingredientes esenciales de una

relación estadística:

• Una tendencia de la variable dependiente Y

a variar conjuntamente con la variación de

la o las X de una manera sistemática

• Una dispersión de las observaciones

alrededor de la curva de relación

estadística

Page 17: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 17

Modelo de Regresión

Estas dos características están implícitas en

un modelo de regresión, postulando que:

• En la población de observaciones

asociadas con el proceso que fue

muestreado, hay una distribución de

probabilidades de Y para cada nivel de X.

• Las medias de estas distribuciones varían

de manera sistemática al variar X.

Page 18: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 18

Representación gráfica del modelo de

Regresión Lineal

Nota: en esta figura se muestran las distribuciones de probabilidades

de Y para distintos valores de X

Page 19: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 19

Análisis de Regresión

• Objetivo: determinar la ecuación de regresión

para predecir los valores de la variable

dependiente (Y) en base a la variable

independiente (X).

• Procedimiento: seleccionar una muestra a

partir de la población, listar pares de datos

para cada observación; dibujar un diagrama de

puntos para dar una imagen visual de la

relación; determinar la ecuación de regresión.

Page 20: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 20

Proceso de estimación de la regresión lineal simple

Modelo de regresión

y= 0+ 1x+

Ecuación de regresión

E(y)= 0+ 1x

Parámetros desconocidos

0. 1

Datos de la muestrax y

x1 y1

x2 y2

. .

. .

. .

xn yn

b0 y b1

proporcionan estimados

0 y 1

Ecuación estimada de

regresión

y=b0+b1xEstadísticos de la muestra

b0.b1

Page 21: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 21

Método de Mínimos Cuadrados

• Considera la desviación de yi con respecto a su valor esperado: yi – ( 0 + 1·xi)

• Se considera la suma de n desviaciones elevadas al cuadrado. Este criterio se denota como:

• Los estimadores de 0 y 1 son b0 y b1 que se obtienen minimizando las ecuaciones normales

n

i

ii XYQ1

2

10

2

10

10

iiii

ii

XbXbYX

XbbnY

Page 22: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 22

Posibles modelos en la regresión lineal simple

xx

Ey

Sección A

Relación lineal positiva

Línea de regresión

La pendiente 1

es positiva

*

x

Ey

Sección B

Relación lineal negativa

Línea de regresión

La pendiente 1

es negativa*

Sección C

No hay relación

Ey

Línea de regresión

La pendiente 1

es 0

*

Ordenada al origen 0*

Page 23: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 23

Estimación de la ecuación de

Regresión

• = b0 + b1xi, donde:

• es el valor estimado de y para distintos x.

• b0 es la intersección o el valor estimado de y

cuando x=0

• b1 es la pendiente de la línea, o el cambio promedio

de y para cada cambio en una unidad de x

• el principio de mínimos cuadrados es usado para

obtener b0 y b1 :

iy

iy

n

xb

n

yb

xxn

yxxynb

10

221)()(

))(()(

Page 24: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 24

Interpretación gráfica de coeficientes de

regresión

Page 25: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 25

Regresión Lineal simple en términos

matricialesYi= 0+ 1xi+ i donde i=1, .....,n

Y1= 0+ 1x1+ 1

.

.

Yn= 0+ 1xn+ n

En términos matriciales

Y=X +

1

0

i

n

i.

2

1

n

i

Y

Y

Y

Y.

2

1

n

i

X

X

X

X

1

..

1

1

2

1

Page 26: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 26

Regresión Lineal simple en términos

matriciales

En términos matriciales encontrar el estimador de mínimos

cuadrados implica resolver:

b= (X´X)-1 X´Y

Para producir las estimaciones

Los residuales se obtienen

Xb

Y

Y

Y

Y

n

i

ˆ

.

ˆ

ˆ

ˆ 2

1

XbYYYe ˆ

Page 27: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 27

• La prueba global es usada para investigar

si la combinación lineal de variables

independientes es significativa.

• Las hipótesis son :

H

H Al menos un coeficiente de regresión

es distinto de cero.

k

a

0 1 2 3 0: ...

:

Prueba de Hipótesis Global

La distribución estadística F es usada en esta prueba

,con k (número de variables independientes) y n-(k+1)

grados de libertad , donde n es el tamaño de muestra.

Page 28: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 28

• La prueba “t” de Student es utilizada paradeterminar cual variable independiente tienecoeficientes de de regresión distinto de cero. Sonllamadas pruebas parciales.

• Las variables con coeficiente de regresión cero soneliminadas.

• La estadística “t” se utiliza en este caso con n -(k+1) grados de libertad.

Prueba de Hipótesis Parciales

Page 29: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 29

Estimación de la variancia de los términos

del error ( 2)

Debe ser estimada por varios motivos

• Para tener una indicación de la variabilidad de las distribuciones de probabilidad de Y.

• Para realizar inferencias con respecto a la función de regresión y la predicción de Y.

• La lógica del desarrollo de un estimador de 2 para el modelo de regresión es la misma

que cuando se muestrea una sola población

• La variancia de cada observación Yi es 2, la misma que la de cada término del error

Page 30: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 30

Estimación de la variancia de los términos

del error ( 2)

Dado que los Yi provienen de diferentes distribuciones de

probabilidades con medias diferentes que dependen del

nivel de X, la desviación de una observación Yi debe ser

calculada con respecto a su propia media estimada

Por tanto, las desviaciones son los residuales

iiie=YY -

n

i

n

i

ii

n

i

iie eXbbYYYSC1 1

22

110

2

1

)()ˆ(

Y la suma de cuadrados es:

iY

Page 31: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 31

Page 32: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 32

Estimación de la variancia de los términos

del error ( 2)La suma de cuadrados del error, tiene n-(k+1) grados de libertad asociados con ella, ya que se tuvieron que estimar k parámetros.

Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios

Donde CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de 2

)1()1(

2

1

kn

e

kn

SCCM i

n

iee

Page 33: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 33

Análisis de Variancia en el análisis de

regresión

• El enfoque desde el análisis de variancia se basa en la partición de sumas de cuadrados y grados de libertad asociados con la variable respuesta Y.

• La variación de los Yi se mide convencionalmente en términos de las desviaciones

• La medida de la variación total SCtot, es la suma de las desviaciones al cuadrado

)YY(ii

2)YY(ii

Page 34: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 34

Variación Total

Page 35: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 35

Desarrollo formal de la partición

Consideremos la desviación

Podemos descomponerla en

T R E

(T): desviación total

(R): es la desviación del valor ajustado por laregresión con respecto a la media general

(E): es la desviación de la observación con respecto ala línea de regresión

)YY(ii

)YY()YY(YYiiii

Page 36: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 36

Partición de la variación total

Page 37: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 37

Desarrollo formal de la partición

Si consideremos todas las observaciones y elevamos al cuadrado para que los desvíos no se anulen

SCtot SCreg SCer

(SCtot): Suma de cuadrados total

(SCreg): Suma de cuadrados de la regresión

(SCer): Suma de cuadrados del error

Dividiendo por los grados de libertad, (n-1), (k) y

(n-2), respectivamente cada suma de cuadrados, seobtienen los cuadrados medios del análisis de variancia.

222

)YY()YY(YYiiii

Page 38: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 38

Coeficiente de Determinación

• Coeficiente de Determinación, R2 - es la proporción

de la variación total en la variable dependiente Y

que es explicada o contabilizada por la variación en

la variable independiente X.

· El coeficiente de determinación es cuadrado del

coeficiente de correlación, y varia entre 0 y 1.

Para calcular el R2 se utilizó la siguiente fórmula:

2

2

2

)(

)ˆ(

yy

yyR

o

c

Page 39: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 39

• Linealidad.

• Independencia de los residuos.

• Homocedasticidad

• Normalidad

• No colinealidad.

Supuestos

Page 40: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 40

• La relación entre las variables

independientes y dependientes es lineal.

• ¿Cómo se prueba?

• Diagrama de dispersión entre las

variables

Linealidad

Page 41: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 41

Los diagramas de dispersión no sólo muestran la

relación existente entre variables, sino también resaltan

las observaciones individuales que se desvían de la

relación general. Estas observaciones son conocidas

como outliers o valores inusitados, que son puntos de

los datos que aparecen separados del resto.

Diagrama de dispersión

Page 42: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 42

• Los residuos son una variable aleatoria.

• No deben estar autocorrelacionados. Es

común que ocurra en series temporales.

• ¿Cómo diagnosticar?

• Durbin Watson

• Varia entre 0 y 4 alrededor de 2 significa

independencia de los residuos.

Independencia de los Residuos

n

i

i

ii

n

i

e

ee

DW

1

2

2

1

2

)(

Page 43: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 43

• Para cada valor de la variable independiente la

variación alrededor de la línea de regresión de

la variable dependiente es constante.

• ¿Cómo diagnosticar?

• Gráfico de dispersión entre las valores

pronosticados y los residuales (ambos

estandarizados)

Homocedasticidad

Page 44: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 44

Análisis de residuos

valores pronosticados

residuos

estandarizados

Los residuos deberían estar:

• Distribuidos aleatoriamente alrededor del 0, es decir

que haya aproximadamente la misma cantidad de

valores positivos y negativos.

• Variar entre -3 y +3.

Esto indica que el modelo que se especifico es correcto

Page 45: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 45

Análisis de residuos

valores pronosticados

residuos

estandarizados

Caso 1: Se requieren mas variables en el modelo.

Caso 2: La relación no es lineal entre las variables.

Caso 3: Hay heterocedasticidad.

Page 46: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 46

• Residuo:

• Residuo tipificado:

• Los residuos deben seguir una distribución

Normal.

• ¿Cómo probarlo?

• Histograma de los residuos.

• Gráfico de probabilidad normal

Normalidad de los Residuos

YYe ii eez i

i

Page 47: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 47

• Colinealidad lineal perfecta cuando una

variable se relaciona de forma perfectamente

lineal con otra.

• Colinealidad perfecta: no se pueden estimar los

parámetros.

• Colinealidad parcial: aumenta los residuos tipificados

y produce coeficientes de regresión inestables.

• ¿Cómo diagnosticar?

• FIV (Factores de Inflación de la Variancia)

No colinealidad

Page 48: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 48

Regresión múltiple

• Para dos variables independientes, la forma

general de la ecuación de Regresión múltiple es:

• X1 y X2 son las variables independientes .

• a es la intercepción con Y cuando X1 y X2 son

iguales a cero .

• b1 es el porcentaje de cambio en Y por cada

unidad de cambio en X1 manteniendo X2

constante. La misma interpretación se aplica a b2.

• b1. y b2. son llamados coeficientes de Regresión

Parciales.

Y a b X b X' 1 1 2 2

Page 49: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 49

Ecuación de regresión múltiple

Modelo de regresión

múltiple

y= 0+ 1x1+ 2x2+... + pxp +

E(y)= 0+ 1x1+ 2x2+... + pxp

Son parámetros desconocidos

0. 1 2... p

b0.b1 .b2....bp

proporcionan estimados

0. 1. 2..... . p

Ecuación estimada de

regresióny= b0.b1x1+b2x2+...

+bpxp

b0b1b2...bp son estadísticos de la

muestra

Proceso de estimación de la regresión múltiple

Datos de la muestrax1 x2 xp y

. . . .

. . . .

. . . .

Page 50: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 50

Modelo general

• La Regresión Múltiple General con k variables

independientes esta dada por:

• El criterio de Mínimos cuadrados es utilizado para

estimar los parámetros de la ecuación.

• Calcular b1, b2, etc.es muy tedioso. Hay software que

puede utilizarse para resolver el algebra matricial que

se usa en la estimación de los parámetros

Y a b X b X b Xk k' ...1 1 2 2

Page 51: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 51

Inferencia en el análisis de Regresión

• Estimación por intervalo de los parámetros

de la regresión, 0 y 1.

• En todo lo que sigue, asumiremos el

modelo de errores con distribución normal

• Yi = 0 + 1·Xi + i [1]

• donde 0 y 1 son parámetros, las Xi son

constantes conocidas y los i son errores

independientes con distribución N(0,1).

Page 52: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 52

Inferencias acerca de 1 - Distribución por muestreo de b1

• La distribución por muestreo de b1 se refiere a los distintos valores de b1

que se obtendrían con muestras repetidas cuando los niveles de la

variable independiente X se mantienen constantes de muestra en

muestra.

• E(b1) = 1

necesitamos estimar (b1) mediante s(b1)

Por lo tanto

21

XX

YYXXb

i

ii

2

2

1

2

XXb

i

)1,0(1

11 Nb

b

2

1

11nt

bs

b1

2;2

11

11

2;2

nnt

bs

btP

112;2

11112;2

11 bstbbstbPnn

21

2

XX

CMbs

i

E

Page 53: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 53

Inferencias acerca de 0 - Distribución por muestreo de b0

XbYb 10

.

• La distribución por muestreo de b0 se refiere a los distintos valores de b0

que se obtendrían con muestras repetidas cuando los niveles de la

variable independiente X se mantienen constantes de muestra en

muestra.

• E(b0) = 0

necesitamos estimar (b0) mediante s(b0)

Por lo tanto

2

22

0

2 1

XX

X

nb

i

2

2

0

2 1

XX

X

nCMbs

i

E)1,0(0

00 Nb

b

2

0

00nt

bs

b1

2;2

10

00

2;2

nnt

bs

btP

102;2

10102;2

10 bstbbstbPnn

Page 54: Análisis de Regresión y Correlación - Universidad ...platdig.unlu.edu.ar/1/archivos/repositorio//250/350/Regresion_y... · Coeficiente de correlación lineal ... medidas en escala

Material Preparado por Olga Susana Filippini y Hugo Delfino 54

Estimación por intervalo de E(Yi) - Distribución por

muestreo de . iY

ii XbbY 10ˆ

• La distribución por muestreo de se refiere a los distintos valores de

que se obtendrían con muestras repetidas cuando los niveles de la

variable independiente X se mantienen constantes de muestra en

muestra.

• E( ) = E(Yi)

necesitamos estimar ( ) mediante s( )

Por lo tanto

iY iY

2

2

22 1ˆ

XX

XX

nY

i

ii

iY

2

2

2 1ˆ

XX

XX

nCMYs

i

iEiiYiY

i

ii

Y

YEY

ˆ

ˆ

h

hh

Ys

YEY

ˆ

ˆ

ˆ

2;2

12;2

n

h

hh

nt

Ys

YEYtP

1ˆˆˆˆ2;

2112;

21 iniiini YstYYEYstYP