Download pdf - Práctica 5 Modelos empíricos a partir de datos experimentalestep028/fia/curso_2013_2014/seminario/... · 2014-03-27 · 10 7.- Ejercicios de regresiones lineales Problema 2: Ajustar

1

Grado en Ciencia y Tecnología de los Alimentos

Fundamentos de Ingeniería de los Alimentos

Práctica 5

Modelos empíricos a partir de datos experimentales

2

1.- Regresión lineal

La regresión consiste en deducir, a partir de valores empíricos, el modelo

matemático que mejor representa estos valores empíricos. Si el modelo que se pretende

ajustar es la ecuación de una línea recta, se trata entonces de una regresión lineal. Hay

ciertos modelos, como el potencial, el exponencial y el logarítmico, entre otros, que

mediante un cierto tratamiento matemático pueden reducirse también a un modelo

lineal, es decir, “se linealizan”

El método que se suele emplear para realizar la regresión es el de los mínimos

cuadrados.

2.- Correlación

Decimos que dos variables, x e y, están correlacionadas cuando hay una relación

cuantitativa entre ellas. x suele ser la variable independiente e y la dependiente (y

“depende” de x).

• Altura y peso de niños. Peso = f(Altura)

• Velocidad máxima que alcanza un coche y potencia de su motor. Velocidad =

f(Potencia)

La relación puede ser claramente causal o no.

• La potencia del motor de un coche es la causa de que alcance una mayor

velocidad.

• La relación altura – peso tiene parte de causalidad, pero también existen otros

factores (x y otros factores son la causa de y).

Cuando se hacen correlaciones hay que analizar bien el fenómeno. Hay que evitar

las denominadas correlaciones espurias, es decir, que llevan a conclusiones erróneas.

Ocurren cuando dos variables, X e Y, son realmente independientes entre sí, pero

dependientes ambas de una misma causa común, Z.

Ejemplo de correlación espuria o espúrea: Cierto biólogo inglés publicó un

estudio en el que se comprueba que en los pueblos y ciudades con más cigüeñas en los

campanarios, X, nacen más niños, Y. Llegó a la conclusión de que “los niños los trae

la cigüeña”.

X Y

Z

X Y

Z

3

Lo cierto es que tanto el número de cigüeñas, X, como el de niños, Y, dependen de

la causa común, Z, que es el tamaño del pueblo o ciudad. En las poblaciones grandes

hay siempre más cigüeñas y más niños. Tanto cigüeñas como niños están

correlacionados con el tamaño de la población, pero no entre ellos mismos.

3.- Nube de puntos

Sea un conjunto de pares de valores de las variables X e Y. Si los representamos

en un diagrama de dispersión obtendremos una “nube de puntos” que nos dará una idea

gráfica de la posible correlación entre ambas variables (Figura 1)

Figura 1.- Correlación y nubes de puntos

Las nubes de puntos se pueden ajustar a diversos modelos. En muchos casos, por

el “aspecto” de la nube de puntos se puede tener cierta idea del tipo de modelo que la

ajusta (Figura 2 y Figura 3)

Figura 2.- Modelo lineal

No hay correlación Correlación positiva Correlación negativa

X X X

Y Y Y

No hay correlación Correlación positiva Correlación negativa

X X X

Y Y Y

Correlación lineal positiva Correlación lineal negativa

4

Figura 3.- Otros modelos de correlación

4.- Modelo lineal

Los modelos lineales son aquellos en que la variable dependiente, y, es

directamente proporcional a la variable independiente, x. Geométricamente responden a

la ecuación de una línea recta. El tipo más usado es la ecuación explícita (Figura 4),

donde “a” se denomina ordenada en el origen y “b” pendiente.

La ordenada en el origen es el punto de corte de la recta con el eje de ordenadas.

La pendiente nos indica la inclinación de la recta: si es positiva, la recta es creciente y si

es negativa, la recta es decreciente. La pendiente es el cociente entre el incremento que

se produce en la variable dependiente, y, cuando se incrementa la variable

independiente, x.

Figura 4.- Ecuación explícita de la recta

5.- Recta de regresión mínimo cuadrática

La recta de regresión es la que se obtiene a partir de la nube de puntos y es la que

representa mejor la distribución de esos puntos como modelo lineal. Se suele emplear el

método de los Mínimos Cuadrados, que consiste en encontrar aquella recta tal que la

suma de los cuadrados de las distancias, di, de los puntos a la recta sea la mínima

posible.

• Potencial

• Exponencial positiva

• Otros tipos

• Potencial inversa

• Exponencial negativa

• Otros tipos

• Potencial

• Logarítmica

• Otros tipos

• Potencial


• Otros tipos



• Otros tipos

• Potencial


• Otros tipos



• Otros tipos

• Potencial

• Logarítmica

• Otros tipos

y

a

b

y = a + bx

Y

X

X

Y

y

a

b

y = a + bx

Y

X

X

Y

5

2 2 2 2 2

1 2 ... ...i i nd d d d d Mínimo

eq. 1

Figura 5.- Distancias de los puntos a la recta mínimo cuadrática

Bajo esta condición se puede demostrar que la pendiente, b, y la ordenada en el

origen, a, se determinan mediante:

22

i i i i

i i

n x y x yb

n x x

eq. 2

i iy b xa

n

eq. 3

Problema 1:

Determinar la ordenada en el origen y la pendiente de la recta que representan

los datos adjuntos. Emplear una hoja de cálculo Excel o similar determinando los

valores de la pendiente, b, y la ordenada en el origen, a, con las ecuaciones anteriores.

x y 0 2

1 3

2 4

3 5

d1

d2

d3

d4

d5 d6

d8 d9

d10

d1

d2

d3

d4

d5 d6

d8 d9

d10

6

Solución:

Para determinar a y b según la eq. 2 y la eq. 3, es necesario determinar cuánto

suman las 4 equis, las 4 y griegas, el cuadrado de las equis y el producto de la equis

por la y griega.

Tabla 1

x y x2 xy

0 2 0 0

1 3 1 3

2 4 4 8

3 5 9 15

6 14 14 26

Como n = 4, resulta:

2

4 46 6 14 104 84 201

56 36 204 14 6b

14 1 6 82

4 4a

La ecuación de la recta que representa a los valores empíricos es:

2y x

La representación gráfica de la nube de puntos y de la recta mínimo cuadrática

se muestra en la Figura 6. Obsérvese que los puntos están perfectamente alineados,

existiendo una perfecta coincidencia entre los puntos empíricos y los calculados con la

ecuación de la recta. Esta situación es extremadamente improbable de que ocurra:

normalmente hay una cierta dispersión entre los valores observados y los valores

calculados. Diremos que un ajuste es “bueno” cuando la dispersión de la nube de

puntos respecto de la recta mínimo-cuadrática es pequeña.

7

Figura 6

Para determinar la “bondad” de ajuste es necesario emplear estadísticos

relacionados con la dispersión de los datos respecto de los valores calculados.

Problema propuesto 10:

Determinar la ordenada en el origen y la pendiente de la recta que representan

los datos adjuntos. Emplear la hoja de cálculo Excel o similar pero usando la opción

"Línea de tendencia" de las gráficas de dispersión.

x y 0 4

4 8

8 12

10 14

6.- Bondad de los ajustes

6.1.- Covarianza

Es una medida de lo que se dispersan los valores de una muestra bidimensional

tanto del valor medio de la x como del valor medio de la y. Se determina mediante la

expresión:

i i

xy xy

x x y yV S

n

eq. 4

y = x + 2

-2

-1

0

1

2

3

4

5

6

7

8

-4 -3 -2 -1 0 1 2 3 4 5 6

X

Y

8

O bien mediante

i i

xy xy

x yV S x y

n

eq. 5

La covarianza no se suele utilizar como estadístico de la bondad de un ajuste,

porque no está normalizado, pero sí es la base para el coeficiente de correlación de

Pearson, r.

6.2.- Coeficiente de correlación de Pearson, r

El coeficiente de correlación de Pearson, r, nos permite saber si el ajuste de la

nube de puntos a la recta de regresión obtenida es satisfactorio. Se define como el

cociente entre la covarianza y el producto de las desviaciones típicas (raíz

cuadrada de las varianzas).

2 2

xy xy xy

x yx y x y

V S Sr

S SV V S S

eq. 6

Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar

mediante cualquiera de las dos expresiones siguientes, totalmente equivalentes:

2 22 2

i i

i i

x yx y

nrx y

x yn n

eq. 7

2 22 2

i i i i

i i i i

n x y x yr

n x x n y y

eq. 8

La ventaja del coeficiente de correlación de Pearson respecto de la covarianza es

que está normalizado.

9

Figura 7.- Correlación y coeficiente de Pearson

Las principales características del coeficiente de correlación son las siguientes

• El coeficiente de correlación, r, presenta valores entre –1 y +1.

• Cuando r es próximo a 0, no hay correlación lineal entre las variables. La nube

de puntos está muy dispersa o bien no forma una línea recta. No se puede trazar

una recta de regresión.

• Cuando r es cercano a +1, hay una buena correlación positiva entre las

variables según un modelo lineal y la recta de regresión que se determine tendrá

pendiente positiva, será creciente.

• Cuando r es cercano a -1, hay una buena correlación negativa entre las

variables según un modelo lineal y la recta de regresión que se determine tendrá

pendiente negativa: es decreciente.

6.3.- Coeficiente de determinación, R2

Para estimar la bondad de un ajuste frecuentemente se prefiere utilizar el

Coeficiente de Determinación, R2, que es el Coeficiente de Correlación de Pearson

elevado al cuadrado.

Se determina mediante cualquiera de las dos expresiones siguientes:

2

2

2 22 2

i i

i i

x yx y

nR

x yx y

n n

eq. 9

2

2

2 22 2

i i i i

i i i i

n x y x yR

n x x n y y

eq. 10

No hay

correlación

0r

Correlación lineal

positiva

1r

Correlación lineal

negativa

1r

Hay correlación no

lineal

0r

No hay

correlación

0r

No hay

correlación

0r

Correlación lineal

positiva

1r

Correlación lineal

positiva

1r 1r

Correlación lineal

negativa

1r

Correlación lineal

negativa

1r

Hay correlación no

lineal

0r

Hay correlación no

lineal

0r

10

7.- Ejercicios de regresiones lineales

Problema 2:

Ajustar los valores de la Tabla 2 a un modelo lineal usando el método de los

mínimos cuadrados. Determinar la bondad del ajuste calculando el coeficiente de

correlación de Pearson y el coeficiente de determinación.

Tabla 2

x y

1 -1,1

2 0,2

3 1,0

4 2,1

Necesitamos determinar la suma de las variables, del producto xy, y de sus

cuadrados (Tabla 3)

Tabla 3

x y xy x2 y2 1 -1,1 -1,1 1 1,21

2 0,2 0,4 4 0,04

3 1,0 3 9 1

4 2,1 8,4 16 4,41

10 2,2 10,7 30 6,66

Con estos valores, tan solo tenemos que substituir en las ecuaciones de la

pendiente, de la ordenada en el origen, del coeficiente de correlación de Pearson y del

coeficiente de determinación.

2

4 10.7 10 2.21.04

4 30 10b

2.2 1.04 102.2

4a

La ecuación de la recta es:

1.04 2.2y x

La bondad del ajuste vendrá dado por r y R2:

2 2

4 10.7 10 2.2 20.800.9962

20.88024 30 10 4 6.66 2.2r

11

El ajuste es bastante bueno ya que es muy próximo a 1. La correlación es

positiva ya que r es positivo. No obstante, la pendiente es positiva es signo de que la

correlación es positiva (y crece conforme x crece).

El coeficiente de determinación es:

22 0.9962 0.9924R

También es muy próximo a la unidad.

Figura 8

Comprobar los resultados usando la opción "Línea de tendencia" de las gráficas de

dispersión en Excel u otra hoja de cálculo análoga.

Problema 3:

De un catálogo de coches se ha extraído la información

que se muestra en la tabla adjunta referente a la potencia

y la velocidad máxima que desarrollan distintos modelos

del Citroën Saxo.

Tabla 4

Modelo Citroën Saxo P (CV) V (Km/h)

1.5D SX Furio 58 158

1.1i SX 60 162

1.4i SX 75 175

1.6i VTS 100 193

1.6i 16V VTS 120 205

y = 1,04x - 2,05

R2 = 0,9924

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

2,5

0 1 2 3 4 5

12

Se pide determinar la relación Velocidad Máxima – Potencia como un modelo

lineal e interpretar los resultados obtenidos

Solución:

Se ha realizado una regresión lineal usando como variable independiente, la x, la

potencia expresada en CV, y como variable dependiente, la y, la velocidad en Km/h. Se

encuentra lo siguiente:

b = 0.747

a = 117

R2

= 0.9915

Es decir, la ecuación que nos permite calcular la velocidad máxima, V, de un

Citroën Saxo según la potencia del motor, P, es la siguiente:

0.75 117V P eq. 11

Figura 9.- Velocidad máxima frente a potencia en el Citroën Saxo

Comentarios:

• Potencia y velocidad son dos variables correlacionadas según un modelo

lineal, cuya ecuación es:

• El ajuste es excelente.

• La correlación es positiva, ya que la pendiente también lo es.

• Por cada CV de potencia, la velocidad máxima se incrementa en 0’75 Km/h

• Es posible predecir qué velocidad se podría alcanzar a partir de una potencia

determinada o bien a la inversa, determinar qué potencia se necesita para

alcanzar una velocidad.

• Estas predicciones se pueden realizar sin restricciones dentro del rango

analizado (Interpolación). En cambio, fuera del rango sólo son posibles si no nos

alejamos excesivamente de él (Extrapolación)

y = 0,7468x + 116,91

R2 = 0,9915

0

50

100

150

200

250

0 50 100 150

Potencia, P (CV)

Ve

locid

ad

má

xim

a,

V (

Km

/h)

1.5D SX Furio1.1i SX

1,4i SX1.6i VTS

1.6i 16V VTS

y = 0,7468x + 116,91

R2 = 0,9915

0

50

100

150

200

250

0 50 100 150

Potencia, P (CV)

Ve

locid

ad

má

xim

a,

V (

Km

/h)

1.5D SX Furio1.1i SX

1,4i SX1.6i VTS

1.6i 16V VTS

13

Tabla 5

Modelo Citroën

Saxo

P

(CV)

V (Km/h) V (Km/h)

calculada

% Error

1.5D SX Furio 58 158 58x0’75+117 =

160

(160-

158)/158*100 =

1’3%

1.1i SX 60 162 162 0%

1.4i SX 75 175 173 -1’1%

1.6i VTS 100 193 192 -0.5%

1.6i 16V VTS 120 205 207 1%

“Nuevo Modelo

Intermedio”

90 ------ 184 Este caso es una

interpolación y como

el ajuste es muy

bueno, el resultado es

correcto.

“Nuevo Modelo muy

Potente”

150 ------ 229 Resultado razonable.

La extrapolación es

también razonable.

“Nuevo Modelo poco

Potente”

10 ------ 124 ¿? Demasiada

velocidad para tan

poca potencia. Se ha

hecho una

extrapolación

excesiva

8.- Modelos no lineales

En ciertos modelos no lineales es posible realizar una regresión lineal si

previamente hacemos cambios de variables adecuados.

Antes de proceder a la regresión, hay que transformar la ecuación no lineal, y =

f(x), en otra del tipo Y = A + BX, donde Y, X, A y B son funciones de y, x, a y b

respectivamente.

En la Tabla 6 se muestra un resumen de cómo ciertos modelos (potencial,

exponencial y logarítmico) pueden linealizarse. El procedimiento en general consiste en

sacar logaritmos a ambos lados de la ecuación del modelo y se realiza el cambio de

variable necesario para que el resultado sea una ecuación lineal.

Por ejemplo, un modelo potencial se linealiza gráficamente cuando se representa

log y frente a log x. Para la regresión, se hacen los cambios de variable Y = log y; X =

log x. La ordenada en el origen resultante, A = log a, y la pendiente, B =b.

14

En el modelo exponencial se hace el cambio Y = log y y en el logarítmico X =

log x. En muchas ocasiones es más ventajoso usar logaritmos neperianos que

logaritmos decimales.

Tabla 6.- Algunos modelos no lineales que pueden linealizarse

9.- Ejercicios de regresiones con modelos no lineales

Problema 4: El péndulo de Galileo

Una de las principales aportaciones de Galileo Galilei (1564-1642), fue encontrar la

relación entre el tiempo o periodo de oscilación de un péndulo y su longitud. Esto

permitió construir por primera vez en la historia relojes de gran precisión basados en

péndulos. Dicen que la idea de correlacionar estas variables se le ocurrió en la iglesia

de su ciudad natal, Pisa, mientras, absorto, observaba cómo oscilaban las lámparas del

techo...

Estos datos podrían corresponder a un supuesto e hipotético

experimento realizado por Galileo... Tabla 7

L (m) T (s) 0.1 0.6

0.3 1.1

1.0 2.1

3.0 3.4

6.0 5.0

9.0 6.0

Se pide deducir cuál es la ley general que rige el movimiento de los péndulos.

15

Solución:

Gráficamente el tiempo o periodo de oscilación, T, frente a la longitud del

péndulo, L

Para encontrar el modelo que relaciona periodo de oscilación, T, con la

longitud del péndulo, L, Galileo bien pudo hacer las siguientes deducciones gráficas

(Figura 10)

Se deduce que el modelo es potencial porque los valores empíricos se linealizan

cuando se representa logaritmo de T frente a logaritmo de L.

Como vamos a ajustar a un modelo potencial, hacemos el cambio de variables:

X = log x e Y = log y.

Por lo demás se procede exactamente igual a una regresión lineal, ajustando a

una expresión del tipo Y = A + BX.

Por último, de B y A calculados se despejan b y a respectivamente.

El Péndulo de Galileo

0,0

1,0

2,0

3,0

4,0

5,0

6,0

7,0

0,0 2,0 4,0 6,0 8,0 10,0

Longitud del péndulo, L(m)

Tie

mp

o d

e o

scil

ació

n,

T(s

)

baLT baxy

baLT baxy

16

Figura 10

Tabla 8

2 22

6 1,740235 0,686636 2,1503630,5085

6 3.01745009 (0,686636)

i i i i

i i

n x y x yB

n x x

eq. 12

0,5085b B eq. 13

0,0

1,0

2,0

3,0

4,0

5,0

6,0

7,0

0,0 2,0 4,0 6,0 8,0 10,0

L

T

No es lineal

0,0

1,0

2,0

3,0

4,0

5,0

6,0

7,0

0,0 2,0 4,0 6,0 8,0 10,0

L

T

No es lineal

0,1

1,0

10,0

0,0 2,0 4,0 6,0 8,0 10,0

L

log

T

No es exponencial

0,0

1,0

2,0

3,0

4,0

5,0

6,0

7,0

0,1 1,0 10,0

log L

T

Tampoco es logarítmica

0,1

1,0

10,0

0,1 1,0 10,0

log L

log

T

Es potencial

L(m) T(s) X = log x Y = log y

x y X Y XY X^2 Y^20,1 0,6 -1 -0,22185 0,221849 1 0,049217

0,3 1,1 -0,52288 0,041393 -0,02164 0,273402182 0,001713

1,0 2,1 0 0,322219 0 0 0,103825

3,0 3,4 0,477121 0,531479 0,25358 0,227644692 0,28247

6,0 5,0 0,778151 0,69897 0,543904 0,605519368 0,488559

9,0 6,0 0,954243 0,778151 0,742545 0,910578767 0,605519

Sumas 0,686636 2,150363 1,740235 3,017145009 1,531304

n= 6

17

2,150363 0,5085 0,6866360,3002

6

i iy b xA

n

eq. 14

De aquí deducimos el valor de la constante a:

0,300210 10 1,9962Aa

eq. 15

Y la bondad del ajuste:

2

2

2 22 2

0.9988i i i i

i i i i

n x y x yR

n x x n y y

eq. 16

Figura 11

La representación gráfica log T frente a log L es la mostrada en la Figura 11. Si

la representación se realiza deshaciendo los logaritmos, tenemos la Figura 12

y = 1,9962x0,5085

R2 = 0,9988

0,1

1,0

10,0

0,1 1,0 10,0

log L

log

T

18

Figura 12

Lo interesante de todo esto es que se deduce que:

1

0'5 22 2 2T L L L eq. 17

y generalizando:

T k L eq. 18

Ecuación que representa la Ley del Péndulo obtenida por Galileo. En palabras se

puede enunciar como sigue:

“El periodo de oscilación de un péndulo es proporcional a la raíz cuadrada de su

longitud.”

Nota: En tiempos de Galileo todavía no se conocían los logaritmos ni tampoco las

técnicas de regresión: Evidentemente Galileo llegó a estas conclusiones mediante una

vía distinta, lo que pone de manifiesto su gran capacidad científica.

Problema 5: El método del carbono 14 para la datación

arqueológica

A partir de los datos adjuntos en los que se dan valores de

carbono 14 residual respecto del tiempo transcurrido, determina:

1. Parámetros de la distribución de %C14-Tiempo, sabiendo

que es exponencial negativa

y = 1,9962x0,5085

R2 = 0,9988

0,0

1,0

2,0

3,0

4,0

5,0

6,0

7,0

0,0 2,0 4,0 6,0 8,0 10,0

L

T

19

2. Cuánto C14 quedará en el hueso que llevo en la mano si ambos tenemos 12.000

años.

Tabla 9

Edad, t (años) %C 14 residual

0 100

1000 92

5000 53

10000 30

20000 9.3

Solución:

Primeramente representamos los porcentajes de C 14 residual frente a la edad

del material arqueológico.

Figura 13.- Porcentaje de carbono 14 residual en restos arqueológicos

Se observa que el descenso no es lineal: hay que encontrar el modelo buscando

la representación gráfica que linealice los datos. Esto ocurre cuando el eje de abscisas es

lineal y el de ordenadas es logarítmico, lo que corresponde con un modelo exponencial.

Figura 14.- Representación semilogarítmica para el porcentaje de carbono 14 residual

0

20

40

60

80

100

120

0 5000 10000 15000 20000 25000

Edad, t (años)

%C

14

re

sid

ua

l

1

10

100

1000

0 5000 10000 15000 20000 25000

Edad, t (años)

%C

14

re

sid

ua

l

Es

ca

la l

og

arí

tmic

a

20

Haciendo el cambio de variable Y = log y, la regresión nos conduce a las

siguientes soluciones:

4

2

14 14

100

1,194 10

0,9992

% 24% de C residual

a

b

R

C

Para el modelo:

% 14

bx

bt

y ae

C ae

Granada, marzo de 2014