1
Grado en Ciencia y Tecnología de los Alimentos
Fundamentos de Ingeniería de los Alimentos
Práctica 5
Modelos empíricos a partir de datos experimentales
2
1.- Regresión lineal
La regresión consiste en deducir, a partir de valores empíricos, el modelo
matemático que mejor representa estos valores empíricos. Si el modelo que se pretende
ajustar es la ecuación de una línea recta, se trata entonces de una regresión lineal. Hay
ciertos modelos, como el potencial, el exponencial y el logarítmico, entre otros, que
mediante un cierto tratamiento matemático pueden reducirse también a un modelo
lineal, es decir, “se linealizan”
El método que se suele emplear para realizar la regresión es el de los mínimos
cuadrados.
2.- Correlación
Decimos que dos variables, x e y, están correlacionadas cuando hay una relación
cuantitativa entre ellas. x suele ser la variable independiente e y la dependiente (y
“depende” de x).
• Altura y peso de niños. Peso = f(Altura)
• Velocidad máxima que alcanza un coche y potencia de su motor. Velocidad =
f(Potencia)
La relación puede ser claramente causal o no.
• La potencia del motor de un coche es la causa de que alcance una mayor
velocidad.
• La relación altura – peso tiene parte de causalidad, pero también existen otros
factores (x y otros factores son la causa de y).
Cuando se hacen correlaciones hay que analizar bien el fenómeno. Hay que evitar
las denominadas correlaciones espurias, es decir, que llevan a conclusiones erróneas.
Ocurren cuando dos variables, X e Y, son realmente independientes entre sí, pero
dependientes ambas de una misma causa común, Z.
Ejemplo de correlación espuria o espúrea: Cierto biólogo inglés publicó un
estudio en el que se comprueba que en los pueblos y ciudades con más cigüeñas en los
campanarios, X, nacen más niños, Y. Llegó a la conclusión de que “los niños los trae
la cigüeña”.
X Y
Z
X Y
Z
3
Lo cierto es que tanto el número de cigüeñas, X, como el de niños, Y, dependen de
la causa común, Z, que es el tamaño del pueblo o ciudad. En las poblaciones grandes
hay siempre más cigüeñas y más niños. Tanto cigüeñas como niños están
correlacionados con el tamaño de la población, pero no entre ellos mismos.
3.- Nube de puntos
Sea un conjunto de pares de valores de las variables X e Y. Si los representamos
en un diagrama de dispersión obtendremos una “nube de puntos” que nos dará una idea
gráfica de la posible correlación entre ambas variables (Figura 1)
Figura 1.- Correlación y nubes de puntos
Las nubes de puntos se pueden ajustar a diversos modelos. En muchos casos, por
el “aspecto” de la nube de puntos se puede tener cierta idea del tipo de modelo que la
ajusta (Figura 2 y Figura 3)
Figura 2.- Modelo lineal
No hay correlación Correlación positiva Correlación negativa
X X X
Y Y Y
No hay correlación Correlación positiva Correlación negativa
X X X
Y Y Y
Correlación lineal positiva Correlación lineal negativa
4
Figura 3.- Otros modelos de correlación
4.- Modelo lineal
Los modelos lineales son aquellos en que la variable dependiente, y, es
directamente proporcional a la variable independiente, x. Geométricamente responden a
la ecuación de una línea recta. El tipo más usado es la ecuación explícita (Figura 4),
donde “a” se denomina ordenada en el origen y “b” pendiente.
La ordenada en el origen es el punto de corte de la recta con el eje de ordenadas.
La pendiente nos indica la inclinación de la recta: si es positiva, la recta es creciente y si
es negativa, la recta es decreciente. La pendiente es el cociente entre el incremento que
se produce en la variable dependiente, y, cuando se incrementa la variable
independiente, x.
Figura 4.- Ecuación explícita de la recta
5.- Recta de regresión mínimo cuadrática
La recta de regresión es la que se obtiene a partir de la nube de puntos y es la que
representa mejor la distribución de esos puntos como modelo lineal. Se suele emplear el
método de los Mínimos Cuadrados, que consiste en encontrar aquella recta tal que la
suma de los cuadrados de las distancias, di, de los puntos a la recta sea la mínima
posible.
• Potencial
• Exponencial positiva
• Otros tipos
• Potencial inversa
• Exponencial negativa
• Otros tipos
• Potencial
• Logarítmica
• Otros tipos
• Potencial
• Exponencial positiva
• Otros tipos
• Potencial inversa
• Exponencial negativa
• Otros tipos
• Potencial
• Exponencial positiva
• Otros tipos
• Potencial inversa
• Exponencial negativa
• Otros tipos
• Potencial
• Logarítmica
• Otros tipos
y
a
b
y = a + bx
Y
X
X
Y
y
a
b
y = a + bx
Y
X
X
Y
5
2 2 2 2 2
1 2 ... ...i i nd d d d d Mínimo
eq. 1
Figura 5.- Distancias de los puntos a la recta mínimo cuadrática
Bajo esta condición se puede demostrar que la pendiente, b, y la ordenada en el
origen, a, se determinan mediante:
22
i i i i
i i
n x y x yb
n x x
eq. 2
i iy b xa
n
eq. 3
Problema 1:
Determinar la ordenada en el origen y la pendiente de la recta que representan
los datos adjuntos. Emplear una hoja de cálculo Excel o similar determinando los
valores de la pendiente, b, y la ordenada en el origen, a, con las ecuaciones anteriores.
x y 0 2
1 3
2 4
3 5
d1
d2
d3
d4
d5 d6
d8 d9
d10
d1
d2
d3
d4
d5 d6
d8 d9
d10
6
Solución:
Para determinar a y b según la eq. 2 y la eq. 3, es necesario determinar cuánto
suman las 4 equis, las 4 y griegas, el cuadrado de las equis y el producto de la equis
por la y griega.
Tabla 1
x y x2 xy
0 2 0 0
1 3 1 3
2 4 4 8
3 5 9 15
6 14 14 26
Como n = 4, resulta:
2
4 46 6 14 104 84 201
56 36 204 14 6b
14 1 6 82
4 4a
La ecuación de la recta que representa a los valores empíricos es:
2y x
La representación gráfica de la nube de puntos y de la recta mínimo cuadrática
se muestra en la Figura 6. Obsérvese que los puntos están perfectamente alineados,
existiendo una perfecta coincidencia entre los puntos empíricos y los calculados con la
ecuación de la recta. Esta situación es extremadamente improbable de que ocurra:
normalmente hay una cierta dispersión entre los valores observados y los valores
calculados. Diremos que un ajuste es “bueno” cuando la dispersión de la nube de
puntos respecto de la recta mínimo-cuadrática es pequeña.
7
Figura 6
Para determinar la “bondad” de ajuste es necesario emplear estadísticos
relacionados con la dispersión de los datos respecto de los valores calculados.
Problema propuesto 10:
Determinar la ordenada en el origen y la pendiente de la recta que representan
los datos adjuntos. Emplear la hoja de cálculo Excel o similar pero usando la opción
"Línea de tendencia" de las gráficas de dispersión.
x y 0 4
4 8
8 12
10 14
6.- Bondad de los ajustes
6.1.- Covarianza
Es una medida de lo que se dispersan los valores de una muestra bidimensional
tanto del valor medio de la x como del valor medio de la y. Se determina mediante la
expresión:
i i
xy xy
x x y yV S
n
eq. 4
y = x + 2
-2
-1
0
1
2
3
4
5
6
7
8
-4 -3 -2 -1 0 1 2 3 4 5 6
X
Y
8
O bien mediante
i i
xy xy
x yV S x y
n
eq. 5
La covarianza no se suele utilizar como estadístico de la bondad de un ajuste,
porque no está normalizado, pero sí es la base para el coeficiente de correlación de
Pearson, r.
6.2.- Coeficiente de correlación de Pearson, r
El coeficiente de correlación de Pearson, r, nos permite saber si el ajuste de la
nube de puntos a la recta de regresión obtenida es satisfactorio. Se define como el
cociente entre la covarianza y el producto de las desviaciones típicas (raíz
cuadrada de las varianzas).
2 2
xy xy xy
x yx y x y
V S Sr
S SV V S S
eq. 6
Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar
mediante cualquiera de las dos expresiones siguientes, totalmente equivalentes:
2 22 2
i i
i i
x yx y
nrx y
x yn n
eq. 7
2 22 2
i i i i
i i i i
n x y x yr
n x x n y y
eq. 8
La ventaja del coeficiente de correlación de Pearson respecto de la covarianza es
que está normalizado.
9
Figura 7.- Correlación y coeficiente de Pearson
Las principales características del coeficiente de correlación son las siguientes
• El coeficiente de correlación, r, presenta valores entre –1 y +1.
• Cuando r es próximo a 0, no hay correlación lineal entre las variables. La nube
de puntos está muy dispersa o bien no forma una línea recta. No se puede trazar
una recta de regresión.
• Cuando r es cercano a +1, hay una buena correlación positiva entre las
variables según un modelo lineal y la recta de regresión que se determine tendrá
pendiente positiva, será creciente.
• Cuando r es cercano a -1, hay una buena correlación negativa entre las
variables según un modelo lineal y la recta de regresión que se determine tendrá
pendiente negativa: es decreciente.
6.3.- Coeficiente de determinación, R2
Para estimar la bondad de un ajuste frecuentemente se prefiere utilizar el
Coeficiente de Determinación, R2, que es el Coeficiente de Correlación de Pearson
elevado al cuadrado.
Se determina mediante cualquiera de las dos expresiones siguientes:
2
2
2 22 2
i i
i i
x yx y
nR
x yx y
n n
eq. 9
2
2
2 22 2
i i i i
i i i i
n x y x yR
n x x n y y
eq. 10
No hay
correlación
0r
Correlación lineal
positiva
1r
Correlación lineal
negativa
1r
Hay correlación no
lineal
0r
No hay
correlación
0r
No hay
correlación
0r
Correlación lineal
positiva
1r
Correlación lineal
positiva
1r 1r
Correlación lineal
negativa
1r
Correlación lineal
negativa
1r
Hay correlación no
lineal
0r
Hay correlación no
lineal
0r
10
7.- Ejercicios de regresiones lineales
Problema 2:
Ajustar los valores de la Tabla 2 a un modelo lineal usando el método de los
mínimos cuadrados. Determinar la bondad del ajuste calculando el coeficiente de
correlación de Pearson y el coeficiente de determinación.
Tabla 2
x y
1 -1,1
2 0,2
3 1,0
4 2,1
Necesitamos determinar la suma de las variables, del producto xy, y de sus
cuadrados (Tabla 3)
Tabla 3
x y xy x2 y2 1 -1,1 -1,1 1 1,21
2 0,2 0,4 4 0,04
3 1,0 3 9 1
4 2,1 8,4 16 4,41
10 2,2 10,7 30 6,66
Con estos valores, tan solo tenemos que substituir en las ecuaciones de la
pendiente, de la ordenada en el origen, del coeficiente de correlación de Pearson y del
coeficiente de determinación.
2
4 10.7 10 2.21.04
4 30 10b
2.2 1.04 102.2
4a
La ecuación de la recta es:
1.04 2.2y x
La bondad del ajuste vendrá dado por r y R2:
2 2
4 10.7 10 2.2 20.800.9962
20.88024 30 10 4 6.66 2.2r
11
El ajuste es bastante bueno ya que es muy próximo a 1. La correlación es
positiva ya que r es positivo. No obstante, la pendiente es positiva es signo de que la
correlación es positiva (y crece conforme x crece).
El coeficiente de determinación es:
22 0.9962 0.9924R
También es muy próximo a la unidad.
Figura 8
Comprobar los resultados usando la opción "Línea de tendencia" de las gráficas de
dispersión en Excel u otra hoja de cálculo análoga.
Problema 3:
De un catálogo de coches se ha extraído la información
que se muestra en la tabla adjunta referente a la potencia
y la velocidad máxima que desarrollan distintos modelos
del Citroën Saxo.
Tabla 4
Modelo Citroën Saxo P (CV) V (Km/h)
1.5D SX Furio 58 158
1.1i SX 60 162
1.4i SX 75 175
1.6i VTS 100 193
1.6i 16V VTS 120 205
y = 1,04x - 2,05
R2 = 0,9924
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
0 1 2 3 4 5
12
Se pide determinar la relación Velocidad Máxima – Potencia como un modelo
lineal e interpretar los resultados obtenidos
Solución:
Se ha realizado una regresión lineal usando como variable independiente, la x, la
potencia expresada en CV, y como variable dependiente, la y, la velocidad en Km/h. Se
encuentra lo siguiente:
b = 0.747
a = 117
R2
= 0.9915
Es decir, la ecuación que nos permite calcular la velocidad máxima, V, de un
Citroën Saxo según la potencia del motor, P, es la siguiente:
0.75 117V P eq. 11
Figura 9.- Velocidad máxima frente a potencia en el Citroën Saxo
Comentarios:
• Potencia y velocidad son dos variables correlacionadas según un modelo
lineal, cuya ecuación es:
• El ajuste es excelente.
• La correlación es positiva, ya que la pendiente también lo es.
• Por cada CV de potencia, la velocidad máxima se incrementa en 0’75 Km/h
• Es posible predecir qué velocidad se podría alcanzar a partir de una potencia
determinada o bien a la inversa, determinar qué potencia se necesita para
alcanzar una velocidad.
• Estas predicciones se pueden realizar sin restricciones dentro del rango
analizado (Interpolación). En cambio, fuera del rango sólo son posibles si no nos
alejamos excesivamente de él (Extrapolación)
y = 0,7468x + 116,91
R2 = 0,9915
0
50
100
150
200
250
0 50 100 150
Potencia, P (CV)
Ve
locid
ad
má
xim
a,
V (
Km
/h)
1.5D SX Furio1.1i SX
1,4i SX1.6i VTS
1.6i 16V VTS
y = 0,7468x + 116,91
R2 = 0,9915
0
50
100
150
200
250
0 50 100 150
Potencia, P (CV)
Ve
locid
ad
má
xim
a,
V (
Km
/h)
1.5D SX Furio1.1i SX
1,4i SX1.6i VTS
1.6i 16V VTS
13
Tabla 5
Modelo Citroën
Saxo
P
(CV)
V (Km/h) V (Km/h)
calculada
% Error
1.5D SX Furio 58 158 58x0’75+117 =
160
(160-
158)/158*100 =
1’3%
1.1i SX 60 162 162 0%
1.4i SX 75 175 173 -1’1%
1.6i VTS 100 193 192 -0.5%
1.6i 16V VTS 120 205 207 1%
“Nuevo Modelo
Intermedio”
90 ------ 184 Este caso es una
interpolación y como
el ajuste es muy
bueno, el resultado es
correcto.
“Nuevo Modelo muy
Potente”
150 ------ 229 Resultado razonable.
La extrapolación es
también razonable.
“Nuevo Modelo poco
Potente”
10 ------ 124 ¿? Demasiada
velocidad para tan
poca potencia. Se ha
hecho una
extrapolación
excesiva
8.- Modelos no lineales
En ciertos modelos no lineales es posible realizar una regresión lineal si
previamente hacemos cambios de variables adecuados.
Antes de proceder a la regresión, hay que transformar la ecuación no lineal, y =
f(x), en otra del tipo Y = A + BX, donde Y, X, A y B son funciones de y, x, a y b
respectivamente.
En la Tabla 6 se muestra un resumen de cómo ciertos modelos (potencial,
exponencial y logarítmico) pueden linealizarse. El procedimiento en general consiste en
sacar logaritmos a ambos lados de la ecuación del modelo y se realiza el cambio de
variable necesario para que el resultado sea una ecuación lineal.
Por ejemplo, un modelo potencial se linealiza gráficamente cuando se representa
log y frente a log x. Para la regresión, se hacen los cambios de variable Y = log y; X =
log x. La ordenada en el origen resultante, A = log a, y la pendiente, B =b.
14
En el modelo exponencial se hace el cambio Y = log y y en el logarítmico X =
log x. En muchas ocasiones es más ventajoso usar logaritmos neperianos que
logaritmos decimales.
Tabla 6.- Algunos modelos no lineales que pueden linealizarse
9.- Ejercicios de regresiones con modelos no lineales
Problema 4: El péndulo de Galileo
Una de las principales aportaciones de Galileo Galilei (1564-1642), fue encontrar la
relación entre el tiempo o periodo de oscilación de un péndulo y su longitud. Esto
permitió construir por primera vez en la historia relojes de gran precisión basados en
péndulos. Dicen que la idea de correlacionar estas variables se le ocurrió en la iglesia
de su ciudad natal, Pisa, mientras, absorto, observaba cómo oscilaban las lámparas del
techo...
Estos datos podrían corresponder a un supuesto e hipotético
experimento realizado por Galileo... Tabla 7
L (m) T (s) 0.1 0.6
0.3 1.1
1.0 2.1
3.0 3.4
6.0 5.0
9.0 6.0
Se pide deducir cuál es la ley general que rige el movimiento de los péndulos.
15
Solución:
Gráficamente el tiempo o periodo de oscilación, T, frente a la longitud del
péndulo, L
Para encontrar el modelo que relaciona periodo de oscilación, T, con la
longitud del péndulo, L, Galileo bien pudo hacer las siguientes deducciones gráficas
(Figura 10)
Se deduce que el modelo es potencial porque los valores empíricos se linealizan
cuando se representa logaritmo de T frente a logaritmo de L.
Como vamos a ajustar a un modelo potencial, hacemos el cambio de variables:
X = log x e Y = log y.
Por lo demás se procede exactamente igual a una regresión lineal, ajustando a
una expresión del tipo Y = A + BX.
Por último, de B y A calculados se despejan b y a respectivamente.
El Péndulo de Galileo
0,0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
0,0 2,0 4,0 6,0 8,0 10,0
Longitud del péndulo, L(m)
Tie
mp
o d
e o
scil
ació
n,
T(s
)
baLT baxy
baLT baxy
16
Figura 10
Tabla 8
2 22
6 1,740235 0,686636 2,1503630,5085
6 3.01745009 (0,686636)
i i i i
i i
n x y x yB
n x x
eq. 12
0,5085b B eq. 13
0,0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
0,0 2,0 4,0 6,0 8,0 10,0
L
T
No es lineal
0,0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
0,0 2,0 4,0 6,0 8,0 10,0
L
T
No es lineal
0,1
1,0
10,0
0,0 2,0 4,0 6,0 8,0 10,0
L
log
T
No es exponencial
0,0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
0,1 1,0 10,0
log L
T
Tampoco es logarítmica
0,1
1,0
10,0
0,1 1,0 10,0
log L
log
T
Es potencial
L(m) T(s) X = log x Y = log y
x y X Y XY X^2 Y^20,1 0,6 -1 -0,22185 0,221849 1 0,049217
0,3 1,1 -0,52288 0,041393 -0,02164 0,273402182 0,001713
1,0 2,1 0 0,322219 0 0 0,103825
3,0 3,4 0,477121 0,531479 0,25358 0,227644692 0,28247
6,0 5,0 0,778151 0,69897 0,543904 0,605519368 0,488559
9,0 6,0 0,954243 0,778151 0,742545 0,910578767 0,605519
Sumas 0,686636 2,150363 1,740235 3,017145009 1,531304
n= 6
17
2,150363 0,5085 0,6866360,3002
6
i iy b xA
n
eq. 14
De aquí deducimos el valor de la constante a:
0,300210 10 1,9962Aa
eq. 15
Y la bondad del ajuste:
2
2
2 22 2
0.9988i i i i
i i i i
n x y x yR
n x x n y y
eq. 16
Figura 11
La representación gráfica log T frente a log L es la mostrada en la Figura 11. Si
la representación se realiza deshaciendo los logaritmos, tenemos la Figura 12
y = 1,9962x0,5085
R2 = 0,9988
0,1
1,0
10,0
0,1 1,0 10,0
log L
log
T
18
Figura 12
Lo interesante de todo esto es que se deduce que:
1
0'5 22 2 2T L L L eq. 17
y generalizando:
T k L eq. 18
Ecuación que representa la Ley del Péndulo obtenida por Galileo. En palabras se
puede enunciar como sigue:
“El periodo de oscilación de un péndulo es proporcional a la raíz cuadrada de su
longitud.”
Nota: En tiempos de Galileo todavía no se conocían los logaritmos ni tampoco las
técnicas de regresión: Evidentemente Galileo llegó a estas conclusiones mediante una
vía distinta, lo que pone de manifiesto su gran capacidad científica.
Problema 5: El método del carbono 14 para la datación
arqueológica
A partir de los datos adjuntos en los que se dan valores de
carbono 14 residual respecto del tiempo transcurrido, determina:
1. Parámetros de la distribución de %C14-Tiempo, sabiendo
que es exponencial negativa
y = 1,9962x0,5085
R2 = 0,9988
0,0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
0,0 2,0 4,0 6,0 8,0 10,0
L
T
19
2. Cuánto C14 quedará en el hueso que llevo en la mano si ambos tenemos 12.000
años.
Tabla 9
Edad, t (años) %C 14 residual
0 100
1000 92
5000 53
10000 30
20000 9.3
Solución:
Primeramente representamos los porcentajes de C 14 residual frente a la edad
del material arqueológico.
Figura 13.- Porcentaje de carbono 14 residual en restos arqueológicos
Se observa que el descenso no es lineal: hay que encontrar el modelo buscando
la representación gráfica que linealice los datos. Esto ocurre cuando el eje de abscisas es
lineal y el de ordenadas es logarítmico, lo que corresponde con un modelo exponencial.
Figura 14.- Representación semilogarítmica para el porcentaje de carbono 14 residual
0
20
40
60
80
100
120
0 5000 10000 15000 20000 25000
Edad, t (años)
%C
14
re
sid
ua
l
1
10
100
1000
0 5000 10000 15000 20000 25000
Edad, t (años)
%C
14
re
sid
ua
l
Es
ca
la l
og
arí
tmic
a
20
Haciendo el cambio de variable Y = log y, la regresión nos conduce a las
siguientes soluciones:
4
2
14 14
100
1,194 10
0,9992
% 24% de C residual
a
b
R
C
Para el modelo:
% 14
bx
bt
y ae
C ae
Granada, marzo de 2014