View
35
Download
0
Embed Size (px)
Citation preview
Regresión y CorrelaciónCuando se mide 2 ó más variables (X, Y) de cada individuo deseamos expresar la naturaleza de ambas variables.
Regresión
relación de una variable con otra expresando una como función de la otra (u otra función más compleja).
Correlacióngrado en el que dos variables varían conjuntamente
Regresión Lineal Simple
* Se dispone de una muestra con observaciones de 2 variables: (X1, Y1), (X2, Y2), …, (Xn, Yn)
¿Se entiende de qué estamos hablando?
¿Cuál es el grado de asociación entre ambas variables?
* Covarianza = medida de variación conjunta entre variables X e Y
Si COV es (+), entonces X e Y tienden a variar de la misma forma(-), entonces una ↑ y la otra ↓, o vice versa~ 0 , entonces no hay asociación entre X e Y
EJEMPLO. Datos de 20 empleados de una empresa:
X = pulsaciones por minuto en reposo (nº)Y = tiempo en correr una milla (segundos) COVARIABZA
(valores centrados y productos)
Cov = 239,41
¿Usos de la regresión?
* Estudio de causalidad (variación de una variable causada por la otra, lo que debemos probar experimentalmente)
* Descripción de leyes científicas y predicción (descripción matemática de relaciones entre variables en la naturaleza y uso de un modelo de regresión, el que puede ser útil para predicciones, preferiblemente simples, aunque pueden ser complejas)
* Comparación de valores dependientes (¿en qué grado la diferencia en la supervivencia observada de 2 grupos de coleópteros es función de la densidad a la que han crecido?)
* Sustitución de variables (¿se relaciona la presión sanguínea de ratones experimentales con la edad? En caso (+), entonces se podría registrar la edad de los ratones, simplemente, y predecir la presión sanguínea si los equipos son muy escasos y caros, por ejemplo)
Cov tiene el problema que su valor no es acotado, por lo que ese valor calculado puede ser pequeño o grande. Bo sabemos. Por lo tanto, se define …
Coeficiente de Correlación (r) = medida de asociación lineal entre dos variables X e Y, independiente de sus unidades de medida. Se mide como la Cov dividida por las desviaciones estándar (S) de X e Y, esto es:
r = [ -1, +1 ],
pero, alto valor de r no significa que exista relación causa-efecto entre ambas variables.
Cálculo del Coeficiente de Correlación
- Calcular las desviaciones estándar de X e Y
���� d.s.(X) = 7,36 ���� d.s.(Y) = 69,97
Corr (X, Y) = Cov(X,Y) / [ d.s.(X) * d.s.(Y) ]
Corr (X, Y) = 239,41 / [ 7,36 * 69,97 ] = 0,46Corr (X, Y) = 239,41 / [ 7,36 * 69,97 ] = 0,46
Regresión Lineal Simple
Asumiremos que ahora existe una relación de causalidad desde la variable X (causa) hacia la variable Y (efecto), y que la relación es de tipo lineal en el rango de los datos observados. El modelo es
Yi = a + b Xi + εi para i = 1, 2, …, n
donde:a, b son parámetros del modelo (fijas)
εi son errores aleatorios y corresponden a la diferencia entre loque postula el modelo “a + b X” y lo que se observa (Y).
Ejemplo: Ventas de automóviles
Ejemplo: Ventas de automóviles
Se piensa que si aumenta el porcentaje de comisión pagada mensual al vendedor (variable X, en %), entonces aumenta la ganancia neta por venta mensual (variable Y, en millones de $); n=15 concesionarios.
El problema es estimar los parámetros a, b y d.s. para identificar el modelo. ¿Cómo?
Método de Mínimos Cuadrados:consiste en encontrar los valores de a y b que minimicen la suma de cuadrados de las desviaciones de las observaciones respecto de la recta que representa al modelo (en la figura los segmentos representan los
errores εi del modelo).
(continuación)
X = comisión pagada mensual al vendedor (%) X̅ = 5,4Y = ganancia neta por venta mensual (millones $) ̅Y = 16,1
b = 3,18a = - 0,96
Regresión Lineal Múltiple
En el análisis de regresión múltiple la ecuación de regresión ya no define una recta (en el plano), sino un hiperplano en un espacio multidimensional.
Imaginemos al salario como variable dependiente (Y) del salario inicial (X1) y de la experiencia previa (X2).
La ecuación es:
Y = a + b1 X1 + b2 X2 + ε
Coeficiente de Determinación (R2)
Es una medida de la bondad de ajuste del modelo de regresión lineal a los datos. (Es deseable que los valores de Y ajustados al modelo sean lo más parecidos posible a los valores observados. Una medida de lo parecido que son (los valores de Y observados y los valores de Y ajustados), es el coeficiente de correlación.
R2: [ 0, 1]
0 significa no ajuste; 1 significa ajuste perfecto (todos los valores sobre la recta)
Ejemplos Tabla 1: Notas física y matemáticas de un curso
Alumno Matemáticas Fisica
1 82 72
2 74 40
3 76 62
4 78 48
5 98 74
6 94 70
NOTAS
6 94 70
7 84 84
8 68 52
9 72 54
10 96 58
11 58 46
12 80 60
y = 4.66 + 0.6917x
R² = 0.40
20
40
60
80
100
40 60 80 100
No
tas
físi
ca
Notas matemáticas
Ejemplos
TABLA 2: Número de vehículos y mertes por accidentes de tránsito
País N° Vehículos /100 personas Muertes de transito/ 100 habitantes
1 31 14
2 32 29
3 30 22
4 47 32
5 30 25
6 19 20
7 36 21
8 40 22
9 47 30
10 58 35
PROMEDIO 37 25
Ejemplos TABLA 3: Peso (kg) y consumo de alimento diario promedio (calorías x100/día)
en muchachas adolescentes obesas
Muchacha peso (kg) consumo (cal x100)
1 84 32
2 93 33
3 81 33
4 61 24
5 95 39
6 86 32
7 90 34
8 78 28100
9 85 33
10 72 27
11 65 26
12 75 29
Promedio 80 31 y =6.47 + 2.3981x
R² = 0.88
40
50
60
70
80
90
20 25 30 35 40
Pe
so (
Kg
)
Consumo (cal. x 100)
TABLA 4: Cantidad de subsidios gubernamentales en inglaterra (1969) vs. Población
ciudad Población (x 10.000) Subsidio (millones de libras) Subsidio por habitante (millones libras)
1 29 8.03 0.28
2 58 16.81 0.29
3 108 33.9 0.31
4 34 9.97 0.29
5 115 34.02 0.30
6 19 6.72 0.35
7 136 40.75 0.30
8 33 10.15 0.31
9 25 8.77 0.35
10 47 12.5 0.27
11 49 17.27 0.35
12 33 12.6 0.38
PROMEDIO 57.2 17.6 0.3
DE 0.0445 DE 0.04
CV 0.11y = 0.2949x + 0.7634
R² = 0.9873
0
5
10
15
20
25
30
35
40
45
0 50 100 150
Su
bsi
dio
(m
illo
ne
s d
e l
ibra
s)
Población (x 10.000)
Regresión y CorrelaciónCuando se mide 2 ó más variables (X, Y) de cada individuo deseamos expresar la naturaleza de ambas variables.
Regresión
relación de una variable con otra expresando una como función de la otra (u otra función más compleja).
CorrelaciónCorrelacióngrado en el que dos variables varían conjuntamente
Hugo Arancibia([email protected])
Unidad de Tecnología Pesquera (www.unitep.cl)Universidad de Concepción