132
Desarrollo de un método de selección de variables para datos espectroscópicos en el infrarrojo cercano. AUTOR: Francisco Manuel González Vázquez. DIRECTOR: Eduard Llobet Valero . FECHA: Noviembre / 2004.

Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

  • Upload
    voque

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Desarrollo de un método de selección de variables para datos espectroscópicos en el infrarrojo cercano.

AUTOR: Francisco Manuel González Vázquez.

DIRECTOR: Eduard Llobet Valero .

FECHA: Noviembre / 2004.

Page 2: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Índice

I

Índice

1 Objetivos y contenidos del proyecto 1

2 Espectroscopia en el infrarrojo próximo (NIR) 2

2.1 Introducción. 2

2.2 Modos de registro en NIR. 4

2.2.1 Medidas por Transmisión. 4

2.3 Origen de la absorción de la radiación NIR. 5

2.4 Interpretación del espectro NIR. 6

2.5 Instrumentación. 7 2.5.1 Fuentes de radiación. 9

2.5.2 Detectores. 9

2.5.3 Funcionamiento del espectrofotómeto FT-NIR. 10

2.5.3.1 Interferómetro de Michelson. 12

2.5.3.2 Retardo óptico. 13

2.5.4 Fuente de radiación emisora monocromática. 14

2.5.5 El interferograma. 15

2.5.6 El escáner. 17

2.5.7 Transformada de Fourier. 18

2.6 Ventajas e inconvenientes de la espectroscopia NIR. 19

2.7 Espectroscopia NIR en el control de procesos. 21

3 Quimiometría en espectroscopia NIR. 23

3.1 Introducción. 23

3.2 Etapas del proceso de modelado. 24 3.2.1 Selección del conjunto de calibración. 24

3.2.2 Métodos de referencia. 25

3.2.3 Obtención de la señal analítica. 25

3.2.4 Cálculo del modelo. 25

3.2.5 Validación del modelo. 26

3.2.6 Aplicación del modelo. 26

Page 3: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Índice

II

3.2.7 Transferencia del modelo. 26

3.3 Reducción de variables (PCA). 27 3.3.1 Tratamiento previo de los datos. 27

3.3.2 Análisis en componentes principales. 28

3.4 Técnicas quimiométricas en el análisis cuantitativo. 30 3.4.1 Clasificación de los métodos de calibración. 30

3.4.2 Métodos basados en la reducción de variables. 31

3.4.2.1 Regresión en componentes principales. 32

3.4.2.2 Regresión parcial por mínimos cuadrados. 34

3.4.3 Evaluación de la capacidad predictiva del modelo. 37

3.4.4 Elección del número de componentes principales. 38

3.5 Selección de variables. 39 3.5.1 Criterio de la varianza. 40

3.5.2 Algoritmo genético. 44

3.5.2.1 Características de los algoritmos genéticos. 44

3.5.2.2 Creación del algoritmo genético. 45

3.5.2.3 Función de aptitud. 46

3.5.2.4 Medida de la población. 46

3.5.2.5 Técnicas de selección de individuos. 46

3.5.2.6 Técnicas de cruzamiento. 47

3.5.2.7 Técnicas de mutación. 47

4 Metodología experimental. 49

4.1 Introducción. 49

4.2 Instrumentación. 49

4.3 Programa de cálculo. 50

4.4 Módulos utilizados en el registro de los espectros NIR. 52

4.5 Fibra óptica. 54

5 Desarrollo de los métodos. 56

5.1 Introducción. 56

5.2 Descripción de las muestras de producción. 57

Page 4: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Índice

III

5.3 Descripción de los métodos de referencia. 58 5.3.1 Descripción general. 58

5.3.2 Procedimiento de análisis del ácido clorhídrico. 59

5.3.3 Desarrollo de métodos de cuantificación del HCl y H2O. 60

5.3.3.1 Muestras. 60

6 Estudio y discusión de los resultados 62

6.1 Introducción. 62

6.2 Estudio de los modelos PLSR y PCR para la matriz de datos inicial. 62 6.2.1 Estudio de los modelos PLSR y PCR para el caso del H2O. 63

6.2.2 Estudio de los modelos PLSR y PCR para el caso del HCl. 68

6.2.3 Evaluación de la linealidad de los métodos de cuantificación para los casos del H2O

y del HCl. 72

6.2.4 Conclusiones. 76

6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

de selección de variables basado en el criterio de la varianza. 77

6.3.1 Introducción. 77

6.3.2 Estudio de los modelos PLSR y PCR para el caso del H2O. 77

6.3.3 Estudio de los modelos PLSR y PCR para el caso del HCl. 82

6.3.4 Evaluación de la linealidad de los métodos de cuantificación para los casos del H2O

y del HCl. 85

6.3.5 Conclusiones. 89

6.4 Estudio de los modelos PLSR y PCR a partir del desarrollo de

un método de selección de variables basado en un algoritmo genético. 90 6.4.1 Introducción. 90

6.4.2 Estudio de los modelos PLSR y PCR para el caso del H2O. 91

6.4.3 Estudio de los modelos PLSR y PCR para el caso del HCl. 100

6.4.4 Evaluación de la linealidad de los métodos de cuantificación para los casos del H2O

y del HCl. 107

6.4.5 Conclusiones. 112

Referencias.

Anexo A.

Page 5: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Objetivos y contenido del proyecto

1

1 Objetivos y contenido del proyecto

La industria química necesita disponer de métodos analíticos rápidos y fiables para poder controlar de forma eficiente tanto las materias primas como los productos intermedios o finales, y, en un sentido amplio, el proceso de fabricación.

El objetivo del presente proyecto es hacer un estudio comparativo de los resultados obtenidos, al utilizar distintos métodos de selección de variables para datos espectroscópicos, y probar estos algoritmos en modelos de calibración multivariable, los cuales podrían ser aplicables a las distintas necesidades que existen en el control de calidad de la industria química, ya sea aplicado a analizar las materias primas, o partes del proceso de producción.

Para llevar a cabo este objetivo, hemos utilizado la espectroscopia en el infrarrojo cercano (NIR), en concreto para la aplicación a estudiar, se ha escogido un espectrofotómetro NIR de transformada de Fourier, el cual utiliza un interferómetro de Michelson para modular la información espectral. Es un lazo analítico on line, es decir la medición de la muestra se realiza en la misma línea por la que circula la muestra a analizar. Este lazo analítico, que se describirá en detalle en el capítulo 4 de esta memoria, está formado por un espectrofotómetro FT-NIR, fibra óptica y una sonda de medición on line. Se ha propuesto esta técnica espectroscópica debido a las ventajas que presenta respecto a otras técnicas analíticas, como la rápida obtención de espectros, la posibilidad de determinar el valor de varios parámetros físico-químicos de una misma muestra a partir de un único espectro y la posibilidad de emplear dicha técnica en la misma línea de proceso.

La enorme cantidad de información que nos proporciona la espectroscopia NIR, hace muy difícil, el tratamiento de los datos obtenidos. Por ello el objetivo de este proyecto será el de desarrollar dos métodos diferentes de selección de variables, que nos permitan reducir al máximo la cantidad de información con la que partiremos a la hora de realizar el estudio y la predicción del resultado de la muestra a analizar. Estos métodos serán: criterio de la varianza y un algoritmo genético acoplado a una red PLS. Una vez evaluados los resultados, combinaremos estos métodos de selección de variables junto con dos métodos quimiométricos de calibración multivariable, Regresión en componentes principales (PCR) y Regresión parcial por mínimos cuadrados (PLSR). Todas estas pruebas y algoritmos se realizarán en el entorno Matlab versión 6.1.

Page 6: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

2

2 Espectroscopia en el infrarrojo próximo (NIR)

2.1 Introducción.

La región infrarroja del espectro está comprendida entre las longitudes de onda de 700 a 106 nm. Tanto por razones instrumentales como por las características de la interacción de la radiación con la materia, se divide en tres zonas tabla 2.1: infrarrojo próximo (NIR, Near Infrared), infrarrojo medio (MIR, Middle Infrared) e infrarrojo lejano (FIR, Far Infrared).

Región Longitud de onda (nm) Origen de la absorción

NIR 700 - 2500 Sobretonos y bandas de combinación de vibraciones moleculares fundamentales

MIR 2500-50000 Vibraciones moleculares fundamentales

FIR 50000-106 Rotaciones moleculares

Tabla 2.1. División de la región infrarroja del espectro [1]

La radiación en la zona del infrarrojo cercano fue descrita en los inicios del siglo XIX por William Hersche [2], aunque la aplicación de la espectroscopia NIR, een el ámbito de la química analítica, es reciente. De hecho, el primer registro fotográfico documentado de un espectro de líquidos orgánicos en la zona de 700 a 1200 nm tiene fecha de 1881 y fue realizado por Abney i Festing. Las características especiales de la amplia zona del infrarrojo, hizo que durante la primera mitad del siglo XX, los espectroscopistas se interesaran por la zona media del espectro (MIR) a la hora de buscar aplicaciones analíticas, experimentando la zona del infrarrojo cercano un cierto olvido.

De este modo las primeras aplicaciones analíticas en el infrarrojo cercano, se desarrollaron durante la década de los 50, como consecuencia de la aparición de los primeros espectrofotómetros comerciales equipados con detectores fotoeléctricos. En 1954 Wilbur Kaye [3] presentó su trabajo, en el que se registraban espectros de diferentes líquidos orgánicos en la región comprendida entre 700 y 3500 nm, asignado las diferentes bandas a los diferentes grupos funcionales de la molécula. En este mismo trabajo se muestran posibles aplicaciones analíticas de la técnica: determinación de agua y alcoholes y análisis de aminas e hidrocarburos. En 1960 Goddu [4] revisó sus aplicaciones al análisis cuantitativo de grupos funcionales orgánicos. Según el autor, el número de trabajos en los que se utilizaba la técnica NIR como técnica de análisis era de unos 40.

Page 7: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

3

El primer impulso importante fue en la década de los 60, cuando Karl Norris, líder de un grupo de investigación de la USDA (United States Department of Agriculture), empezó a experimentar sus posibilidades en el estudio de matrices complejas de origen natural [5][6]. Sus trabajos estaban orientados al campo del análisis agroalimentario e hizo que a partir de ese momento, el interés por la espectroscopia NIR creciera notablemente.

Hasta finales de los años 70 los instrumentos comerciales fueron principalmente instrumentos de filtros diseñados para aplicaciones específicas. Es a partir de este momento cuando se empiezan a desarrollar nuevos equipos con diseños mejorados y mayores prestaciones. Así, se construyen los primeros espectrofotómetros que permiten registrar espectros de forma rápida y altamente reproducible.

El desarrollo que experimentó la informática también ayudó a la expansión de la técnica. Se puso al alcance del usuario una capacidad de cálculo inexistente hasta el momento, haciendo que a partir de entonces se pudieran utilizar algoritmos relativamente complejos para superar uno de los principales inconvenientes de la técnica: la falta de especificación de las bandas de absorción.

Gracias a todos estos avances tecnológicos, el número de aplicaciones NIR en los diferentes campos ha crecido enormemente en los últimos años, tal y como se muestra en el artículo de McClure [7] de 1994. Actualmente se pueden encontrar aplicaciones de esta técnica en el análisis de alimentos, de productos farmacéuticos [8], de fibras textiles [9], de polímeros o de derivados del petróleo[10][11], entre otras.

El gran interés que ha despertado la espectroscopia NIR en el sector industrial puede considerarse consecuencia directa de dos de las ventajas que ofrece como herramienta analítica para el control de calidad. Por un lado, la baja absortividad molar de las bandas de absorción permite trabajar en modo reflectancia con la consiguiente ventaja de poder registrar el espectro de muestras sólidas sin necesidad de realizar tratamiento alguno de la misma, aumentando así el número y frecuencia de los análisis [8]. Por otro, la doble dependencia de la señal con la naturaleza química y física de la muestra permite tanto su identificación como la determinación de parámetros químicos y físicos de la misma. Además el desarrollo de instrumentos de planta, mucho más robustos, permiten realizar medidas on line, lo que ha abierto las puertas al control de procesos industriales.

Page 8: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

4

2.2 Modos de registro en NIR.

En el intervalo espectral del infrarrojo próximo se realizan medidas de reflectancia, transmitancia o transflectancia. La diferencia básica entre los tres tipos de medidas es la posición de la muestra en el instrumento, como se muestra en la figura 2.2.1.

Figura 2.2.1 Diseños instrumentales en espectroscopia NIR.

S.L.O.*: Selección de longitudes de onda

En todos los casos, la señal analítica que se obtiene en espectroscopia NIR es una función compleja, que habitualmente se expresa como absorbancia aparente a=log(1/R), o unidades de Kubelka-Munk cuando las medidas se realizan en modo reflectancia, o como absorbancia A=log(1/T) cuando las medidas se realizan por transmisión.

2.2.1 Medidas por transmisión.

La absorción de la radiación NIR sigue la ley de Beer y, por tanto, las medidas de transmisión pueden utilizarse con fines cuantitativos. Así pues, se puede definir la absorbancia como:

TII

Ao

loglog −== (1)

donde Io es la intensidad de energía incidente e I la intensidad de la radiación detectada después de pasar a través de la muestra.

Page 9: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

5

Sin embargo, de manera análoga a lo que sucede en las regiones del visible y del MIR, se pueden producir desviaciones del cumplimiento de la ley por causas tales como cambios en los enlaces por puente de hidrógeno, complejación o procesos químicos.

Cuando se analizan muestras sólidas por transmisión, no puede asumirse directamente que cualquier sistema siga la ley de Beer, ya que por efecto de la dispersión parte de la radiación puede sufrir reflectancia difusa y en este caso log 1/T no representa la atenuación de la radiación por absorción. Desde un punto de vista práctico, para realizar análisis mediante medidas de transmisión se procede del mismo modo que en reflectancia, es decir, utilizando una A aparente. De todos modos, la instrumentación utilizada en este tipo de medidas está diseñada para minimizar los efectos de la dispersión de radiación y, por tanto, la señal analítica depende fundamentalmente de la absorbancia de la muestra.

La medida por transmisión presenta como principales ventajas respecto a medidas por reflectancia, la mayor sensibilidad y homogeneidad espectral, debido a que, para registrar el espectro, se utiliza una porción mayor de muestra, pero tiene como principal inconveniente que componentes muy sensibles a la radiación (termo-sensibles), puedan ser afectados por la gran cantidad de energía que atraviesa la muestra.

Una variación de esta metodología son las medidas por transflectancia figura2.2.1. En este caso se mide la transmitancia después que la radiación haya atravesado dos veces la muestra, la segunda después que un reflector colocado al lado de la muestra provoque que el haz de luz pase una segunda vez por la misma antes de llegar al detector.

2.3 Origen de la absorción de la radiación NIR.

Para que una molécula absorba radiación electromagnética tienen que darse dos condiciones. Por un lado, la radiación debe tener la energía precisa para satisfacer los requerimientos energéticos del material. Por otro, debe producirse un acoplamiento entre la radiación y la materia. La radiación en el infrarrojo tiene la energía necesaria para provocar transiciones vibracionales en las moléculas, y la primera condición para la absorción se satisface si una determinada frecuencia de radiación infrarroja corresponde exactamente a una frecuencia fundamental de vibración de una determinada molécula. Para satisfacer la segunda condición de la absorción la molécula debe experimentar un cambio en el momento dipolar cuando tiene lugar la vibración fundamental.

Page 10: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

6

Aunque teóricamente son posibles las transiciones a cualquier nivel, en la realidad, esto no ocurre así. Como efecto derivado de la ley de Maxwell-Boltzmann, la probabilidad que se lleve a cabo una transición a niveles superiores a 1±=∆ i , disminuye rápidamente y a efectos prácticos, únicamente las transiciones con 3,2,1 ±±±=∆ i son observables.

Mientras la primera es conocida como la absorción fundamental, las otras dos reciben el nombre de primer y segundo sobretodo.

Para definir la región espectral del NIR, se puede recurrir a la transición IR más energética. Ésta se da a 4000 cm-1, con lo que podemos decir, que la región NIR queda establecida en el intervalo 4000-14300 cm-1 (700- 2500 nm). Es precisamente en esta zona, donde se dan las absorciones correspondientes a la absorción fundamental, además de la absorción del primer y segundo sobretodo. Hay que tener en cuenta, que también son posibles los movimientos vibracionales de combinación y de diferencia, que presentan las moléculas excitadas y por lo tanto son muy poco probables a temperatura ambiente.

2.4 Interpretación del espectro NIR.

Casi todas las bandas de absorción observadas en el NIR provienen de sobretonos de las vibraciones, stretching, de grupos AHx o bandas de combinación de estos grupos. En la tabla 2.4.1 se representan las regiones del infrarrojo cercano donde absorben los diferentes enlaces, indicando si la banda de absorción corresponde al primer, segundo o tercer sobretono, o a combinaciones de frecuencias de vibración de diferentes enlaces.

Tabla 2.4.1 Tabla de asignación entre los diferentes enlaces y las bandas de absorción en la región NIR.

Page 11: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

7

2.5 Instrumentación.

Los primeros espectrofotómetros comerciales NIR aparecieron en la década de los 50. El esquema básico de estos instrumentos era el mismo que el utilizado en los espectrofotómetros UV-Visible o infrarrojo medio (fuente de radiación, sistema de selección de longitudes de onda, compartimento para la muestra y detector) pero modificando solamente los materiales de ciertos componentes para optimizar la respuesta del instrumento.

El primer espectrofotómetro comercial capaz de registrar en la zona NIR fue el Cary Model (fabricado por Applied Physics Corporation, Monrovia, California), el cual se construyó en 1954. El sistema de selección de longitudes de onda estaba integrado por un doble monocromador formado por un prisma de sílice fundida y una red con 600 líneas/mm, siendo el detector de PbS. Este instrumento era capaz de registrar hasta 2650nm.

Después de esta etapa inicial, se desarrollaron espectrofotómetros basados en diversas técnicas ópticas, introduciendo nuevos sistemas de selección de longitudes de onda y detección, consiguiendo registrar espectros de forma más rápida y fiable.

Dependiendo del sistema que utilizan en la generación de la radiación monocromática, los instrumentos de infrarrojo, se pueden clasificar básicamente en dispersivos y no dispersivos.

En general, los instrumentos dispersitos, son aquellos que utilizan redes de difracción para generar la radiación monocromática. En espectrofotometría acostumbran a ser instrumentos de doble haz, los cuales son menos exigentes con las características de las fuentes y los detectores y permiten la compensación de la absorción de la radiación por parte de los gases de la atmósfera.

En lo que se refiere a los instrumentos no dispersivos, encontramos equipos con orientaciones muy diferentes. Por un lado los fotómetros de filtros, los cuales se utilizan en la determinación in situ de parámetros medioambientales y en el análisis de sólidos agrarios e industriales. En este tipo de instrumentos se valora la sencillez, la robustez y la economía de mantenimiento del equipo por encima de otros factores.

Page 12: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

8

Por otro lado, también se dispone de instrumentos multicanal (o multiplex). En estos sistemas, la señal se registra de forma simultánea y posteriormente se decodifica con la ayuda de un algoritmo matemático. Básicamente, se han aplicado dos procedimientos de decodificación. Son los llamados Transformada de Fourier [12] y de Hadamard. Aunque las dos son alternativas válidas, sólo la primera se ha consolidado, aplicándose a diferentes campos de la espectrofotometría, como la resonancia magnética nuclear (RMN) y la espectrometría de masas (MS).

En este tipo de instrumentos no se utiliza un sistema monocromador para dispersar la radiación y medir la transmitancia en cada una de las longitudes de onda, sino que está formado por un haz policromático con ciertas características. Este hecho supone diferentes ventajas, respecto a los monocromadores [12], las cuales se resumen brevemente:

• Ventaja de Jaquinot (Rendimiento): Supone una elevación considerable de la relación señal-ruido, respecto a los instrumentos dispersitos, al ser sistemas que presentan un menor número de elementos ópticos y no utilizan ranuras para atenuar la radiación.

• Exactitud de longitud de onda: Los sistemas basados en láser de He-Ne, presentan una elevada exactitud y precisión en la selección de la longitud de onda, (inferior a 0.01 cm-1 en el intervalo entre 4800 y 400 cm-1). Esto hace posible el promediado de espectros con el consecuente incremento de la relación señal-ruido. Los efectos debidos a las radiaciones parásitas son minimizados al tratarse de una señal modulada.

• Ventaja del Felguett: Se consigue ya que al llegar todas las componentes del espectro a la vez (codificadas), el tiempo entre un espectro y otro puede ser sensiblemente pequeño (1 segundo). Este aspecto favorece el promediado de un elevado número de espectros que también aumenta la relación señal-ruido del espectro.

A diferencia de la espectroscopia convencional, que es de dominio de frecuencias (se registra la potencia radiante recibida por el detector para cada frecuencia), la espectroscopia de Transformada de Fourier, es de dominio del tiempo. En este tipo de espectroscopia la señal obtenida es el resultado de la combinación de diferentes frecuencias y recibe el nombre de interferograma. Esta combinación genera un resultado complejo que proviene de la superposición de ondas, las cuales están ligeramente desfasadas unas con otras. Es lo que se llama espectro del dominio del tiempo.

Page 13: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

9

Para poder disponer de un inteferograma, hace falta un sistema que module la señal de alta frecuencia, que conserve las características en lo que respecta al tiempo, es decir, que sea proporcional, y que permita su registro por parte de los transductores actuales. Este sistema recibe el nombre de interferómetro [13]. Existen dos interferómetros muy populares: El interferómetro de Michelson y el interferómetro de prismas. En el apartado 2.5.3.1 describiremos detalladamente el funcionamiento del interferómetro de Michelson ya que realizaremos nuestro proyecto con uno de ellos.

2.5.1 Fuentes de radiación NIR.

Actualmente las fuentes de radiación utilizadas en espectroscopia NIR se pueden clasificar en dos tipos: las de espectro completo y las de intervalo reducido.

En un primer grupo se encuentra lámpara halógena con filamento de Tungsteno y con ventana de cuarzo. Sigue siendo la fuente de radiación más utilizada. Se trata de una fuente de elevada intensidad de emisión y que cubre ampliamente la zona NIR del espectro electromagnético, proporcionando una radiación continua en el intervalo 320-2500nm. Es la fuente de radiación con la que vamos a trabajar en el espectofotrómetro utilizado en el presente proyecto.

En el segundo grupo se encuentran los diodos de luz emisora o LEDs (Light Emission Diodes)18-20. Se trata de dispositivos semiconductores que emiten radiación NIR en un intervalo estrecho de longitudes de onda. Entre los semiconductores más utilizados se encuentran los de GaAs, que emiten en la región entre 900 y 970nm y los de InGaAs que permiten llegar a longitudes de onda más largas (1600nm).

2.5.2 Detectores.

Los detectores utilizados en espectroscopia NIR son fotoeléctricos. En ellos, los fotones incidentes afectan directamente al estado electrónico del material fotosensible del detector, produciendo una señal eléctrica que constituye la respuesta del detector. El más utilizado es el de sulfuro de plomo, dispositivo semiconductor que presenta una sensibilidad adecuada en la región 1100-2500nm a temperatura ambiente. Para realizar medidas por debajo de 1100nm se usa el detector de silicio.

Page 14: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

10

Otro tipo de detectores más modernos son los FPA (Focal Point Array) que son los equivalentes en el infrarrojo cercano de los CCD (Charged-Coupled Devices), utilizados en la región UV-Vis. Son detectores multicanal que permiten mayor rapidez en el registro y mejor relación señal/ruido cuando se comparan con los detectores monocanales tradicionales. Sin embargo, el principal problema para su uso es el coste de adquisición, dado que pueden llegar a ser tan caros como el espectrofotómetro. Un aspecto especialmente importante es la disposición de los sistemas detectores.

Para medidas de transmitancia, es suficiente con situar el detector en línea con la muestra y el haz incidente. No obstante, para medidas de reflectancia, especialmente en sólidos, lo que se quiere es captar la radiación reflejada por la muestra. En estos casos, se acostumbra a trabajar con más de un detector, los cuales se sitúan en posiciones determinadas, no alineadas con el haz incidente.

2.5.3 Funcionamiento del espectrofotómetro FT-NIR. A continuación vamos a explicar detalladamente el funcionamiento del espectrofotómetro por Transformada de Fourier [13] en el infrarrojo cercano, así como cada una de las partes que lo forman.

El haz producido por la fuente NIR (lámpara halógena con filamento de Tungsteno), pasa a través de una apertura, y eventualmente a través de un filtro óptico, y penetra en el interferómetro. Cuando el haz de luz policromática, entra en contacto con el interferómetro, éste es modulado por un escáner (espejo móvil). Es a partir de aquí cuando se conduce el haz de luz hacia la muestra, donde éste será transmitido o reflejado, y donde finalmente llegará al detector.

Cada detector contiene un preamplificador o un amplificador programable de ganancia. Por tanto la señal de salida de este preamplificador, el interferograma, será enviada al amplificador principal, donde la señal será amplificada, filtrada y digitalizada. Esta “señal” digital, se enviará posteriormente a un sistema de adquisición y procesado de datos, en el que se realizarán los procesos matemáticos necesarios, para convertir el interferograma en un espectro.

Page 15: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

11

En la figura 2.5.1 se puede observar de forma esquemática el principio de funcionamiento del espectrofotómetro.

Figura 2.5.1 Principio de funcionamiento del espectrofotómetro.

Page 16: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

12

2.5.3.1 El interferómetro de Michelson.

En líneas generales el interferómetro de Michelson [14] es un dispositivo óptico, que divide un haz de luz policromática en dos mitades aproximadamente iguales. Estos haces se reflejan en dos espejos internos, uno fijo y otro móvil de velocidad perfectamente conocida. La diferencia de distancias recorridas por los haces a los espejos fijos y móvil recibe el nombre de retardo. La recombinación de los dos haces con un desfase entre ellos provoca interferencias constructivas y destructivas que se reflejan en la potencia radiante que recibe el detector. Cuando se representa la potencia radiante en función del retardo, se dispone del interferograma.

Podemos decir, que el interferómetro es el corazón del espectrofotómetro. Como se puede observar en la figura 2.5.2, el haz de luz que entra al interferómetro, es dividido a su vez en dos haces: el primero se transmite al espejo móvil (T), mientras que el segundo es reflejado hacia el espejo fijo (R).

La parte del haz transmitida, se refleja en el espejo móvil, modulándose de este modo en función de la velocidad del escáner, y retornando hacia el separador de haz (beamsplitter), donde de nuevo, parte del haz será transmitido de vuelta hacia la fuente emisora NIR (lámpara de tungsteno) (TT), mientras que la otra parte es reflejada hacia la muestra (TR).

Figura 2.5.2 Interferómetro de Michelson.

La parte del haz reflejada, se refleja a su vez en el espejo fijo y retorna hacia el beamsplitter, donde a su vez se volverá a dividir en dos partes. Una parte retornará hacia la fuente emisora NIR (RR), mientras que la otra parte se transmite hacia la muestra (RT).

Page 17: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

13

Esto significa que a la salida del interferómetro, tendremos dos haces los cuales se dirigen hacia la muestra de una forma combinada (TR+RT).

Dependiendo de la posición del espejo móvil, estos dos haces se combinarán de una manera constructiva o destructiva, y de esta forma se construirá el interferograma.

2.5.3.2 Retardo óptico. La parte reflejada del haz producido por la fuente emisora NIR, se dirige hacia el espejo fijo FM (distancia OF) donde se refleja, y vuelve a incidir en el beamsplitter de nuevo, recorriendo una distancia de 2*OF. Este efecto se puede observar en la figura 2.5.3.

La parte transmitida del haz producido por la fuente emisora NIR, es reflejada por el espejo móvil (distancia OM). Este espejo se mueve a velocidad constante. El valor de la distancia recorrida por esta parte del haz es 2*OM.

Los dos haces (reflejado y transmitido), se recombinan de nuevo en el beamsplitter, donde interfieren con una diferencia de trayectoria. A esta diferencia la llamamos retardo óptico y equivale a 2*(OM-OF)=d.

Figura 2.5.3 Retardo óptico.

El haz que saliente del interferómetro, pasará a través de la muestra, para ser dirigido finalmente hacia el detector.

Page 18: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

14

2.5.4 Fuente de radiación emisora monocromática. Para poder entender de una forma más clara lo que ocurre en el interferómetro, vamos a explicar un ejemplo utilizando una fuente emisora de luz monocromática.

Cuando el espejo móvil y el fijo, está equidistante con el beamsplitter (esto significa retardo óptico cero), los dos haces se encuentran perfectamente en fase después de la recombinación que se produce al incidir ambos nuevamente en el beamsplitter. En este punto, los haces interfieren de una manera constructiva, siendo la intensidad del haz incidente en el detector, la suma de las intensidades de los dos haces que pasan a través de los dos espejos, figura 2.5.4.

Figura 2.5.4 Interferencia constructiva.

Cuando el espejo móvil se desplaza una distancia de 1/4? (donde ? es la longitud de onda expresada en cm-1), podemos decir entonces que el retardo óptico es de 1/2?. Por tanto la longitud de la trayectoria de ambos haces, se diferencia es exactamente 1/2 de la longitud de onda.

Page 19: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

15

Después de la recombinación que se produce al incidir ambos haces en el beamsplitter, éstos están desfasados e interfieren de una forma destructiva. Este efecto se puede observar en la siguiente figura.

Figura 2.5.5 Interferencia destructiva.

Un nuevo desplazamiento del espejo móvil de 1/4?, hará que el retardo sea de ?. Los dos haces estarán nuevamente en fase cuando se recombinen en el beamsplitter.

2.5.5 El interferograma.

Como ya hemos explicado anteriormente, el espejo móvil se mueve a una velocidad constante (?) lo que hace que la señal en el detector sea una onda senoidal cambiante, y en el que se registrará un máximo cada vez que el retardo sea un múltiplo de ?.

El retardo puede expresarse pues de la siguiente forma:

vt2=δ (2)

donde: d: retardo (cm) ?: velocidad del escáner (cm/s) t: tiempo (s)

Page 20: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

16

La intensidad del haz medida por el detector expresada en función del retardo será:

)/2cos1){()(' λπδυδ += BI (3)

donde: I’(d): intensidad del haz B(?): intensidad de la fuente a un determinado número de onda ? modificado según las características del instrumento (eficiencia del beamsplitter, respuesta del detector, amplificador...) ?: número de onda (?=1/?) La componente AC de I’(d) hace referencia al interferograma. La intensidad del haz medida por el detector expresada en función del tiempo será:

)22cos)()(' vtBI πσυδ = (4)

Page 21: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

17

2.5.6 El escáner La velocidad del escáner (así como la posición del espejo móvil) es controlada de una forma muy precisa a través del haz emitido por un láser de HeNe, el cual produce una luz monocromática a 632,8 nm.

El haz del láser se envía hacia el interferómetro, donde es modulado del mismo modo que lo son los haces de la fuente emisora de luz NIR. A la salida del interferómetro, se encuentran dispuestos a 90º dos detectores, los cuales detectan el movimiento de los dos haces del láser.

Como podemos observar en la figura 2.5.6, las señales Laser A y Laser B, se envían hacia la zona electrónica, controladora del escáner, vía una tarjeta electrónica llamada Interferometer board, la cual forma parte del espectrofotómetro.

Figura 2.5.6 Control del escáner

Page 22: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

18

2.5.7 Transformada de Fourier. Cuando usemos como fuente luminosa NIR una lámpara de Tungsteno, esto quiere decir que van a ser emitidas al mismo tiempo muchas longitudes de onda (o frecuencias) al mismo tiempo.

Una señal registrada en el dominio del tiempo se podrá representar como una combinación de funciones periódicas. Podemos decir por tanto, que el análisis de Fourier es el proceso matemático que permite la descomposición de una curva cualquiera en una suma de términos seno y coseno, llamada serie de Fourier.

La potencia de la señal del interferograma se puede llegar a describir con la siguiente expresión:

)2cos()()( ftvBP πδ = (5)

Donde el término B(?), está relacionado con la potencia de la fuente de radiación, en nuestro caso la lámpara de Tungsteno para la región del espectro NIR, la división del haz por parte del interferómetro y la respuesta del detector con la frecuencia.

Si tenemos en cuenta conceptos como el número de onda y el retardo óptico, la expresión anterior se puede rescribir de esta forma:

)2cos()()( vvBP πδδ = (6)

Por lo tanto, el interferograma que mediremos en el detector, será la resultante de todos los interferogramas correspondientes a cada número de onda. De forma matemática podemos expresar el interferograma completo con la siguiente expresión:

∫+∞

∞−= υδπυδ dvBI 2cos)()( (7)

Cuando se aplica la transformada de Fourier a esta expresión se generan dos soluciones, una real y otra imaginaria. En espectroscopia, se utiliza la solución real, la cual nos da el valor de B(?) y que representa el valor de la potencia radiante en el espacio de las frecuencias, es decir el espectro.

Page 23: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

19

2.6 Ventajas e inconvenientes de la espectroscopia NIR.

Las principales ventajas de la espectroscopia NIR como herramienta de análisis cuantitativo son:

• La técnica no es destructiva ni invasiva.

• La medida se realiza con rapidez. La posibilidad de realizar medidas tanto en estado sólido como líquido ha permitido minimizar la manipulación previa de la muestra por parte del analista y realizar un número elevado de análisis, aspecto muy importante en el análisis de control de calidad.

• Es posible realizar análisis on-line, es decir en la misma tubería de proceso. Esto conlleva rapidez a la hora de conocer los resultados analíticos de la muestra, pudiendo por este motivo implementar el lazo analítico en el sistema de control de la planta de producción, mejorando así el control del proceso.

• Por el anterior motivo, la resistencia de los materiales utilizados y la ausencia de partes móviles en el sistema de detección, hacen que sea una técnica idónea para procesos de control en planta. Esta aplicación se ve favorecida por la gran tendencia a la miniaturización y compactación que está sufriendo esta instrumentación.

• Se obtiene en gran medida un aumento de la seguridad. Si se realiza un análisis on-line, no hará falta tomar muestras continuamente del proceso, evitando así la manipulación, por parte de los analistas u operadores de planta, de la muestra, ya que esta puede contener productos nocivos para la salud, tóxicos, corrosivos, etc.

• Por otra parte el análisis presenta un bajo coste. La ausencia de reactivos y otro tipo de materiales para la preparación de muestras hace que los costes de aplicación de la técnica sean mínimos. Por otro lado, al ser un análisis automático y de gran rapidez produce un aumento de la capacidad analítica del laboratorio. Estas razones hacen que la inversión inicial sea rápidamente amortizada.

• La técnica permite la determinación de varios analitos de la muestra sin tener que seguir un procedimiento analítico diferente para cada uno de ellos. Esta posibilidad implica invertir mucho tiempo cuando se ponen a punto las calibraciones, pero permite la posterior automatización del análisis.

• Es posible determinar parámetros no químicos de una muestra, puesto que con frecuencia los espectros NIR están afectados por parámetros físicos.

Page 24: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

20

• En muchos campos de aplicación, la exactitud de la técnica NIR es comparable a otras técnicas analíticas y, generalmente, su precisión es mayor debido a la falta de tratamiento de la muestra.

Pero como toda técnica también tiene sus inconvenientes:

• La adquisición del espectrofotómetro NIR es caro a corto plazo. Aunque

como hemos observado en el estudio económico explicado anteriormente, no resulta una inversión cara la adquisición del espectrofotómetro a medio plazo.

• La complejidad de la señal NIR obliga a aplicar técnicas quimiométricas, que permitan modelar los datos para identificar y cuantificar muestras problema.

• La preparación del calibrado es dificultosa, ya que es necesario disponer de muestras para ampliar el intervalo de concentración de las muestras problema (habitualmente representan un intervalo de concentración demasiado estrecho). Además, éstas deben presentar características físicas y químicas similares a las reales.

• No es posible analizar muestras problema que presenten una variabilidad (física o química) no contemplada en la calibración.

• Presenta dificultades en la transferencia de calibraciones entre diferentes instrumentos, ya que pequeñas diferencias entre ellos pueden dar lugar a errores importantes en los resultados, lo que puede obligar a que, para analizar una misma muestra problema, sea necesario preparar un calibrado en cada instrumento.

Page 25: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

21

2.7 Espectroscopia NIR en el control de procesos.

El objetivo de la química analítica de procesos es proporcionar información cualitativa y cuantitativa del proceso químico [15]. Esta información puede ser utilizada no sólo para monitorizar y controlar el proceso, sino también para optimizar el eficiente uso de energía, tiempo y materias primas. En este mismo trabajo se describen las diferentes eras de la química analítica de procesos, desde que la muestra era tomada en la línea de producción y llevada al laboratorio para su posterior análisis (off-line), hasta que la medida analítica es hecha en la misma línea de producción sin necesidad de haber contacto físico con la muestra (non-invasive).

La evolución de los métodos espectroscópicos desde la era off-line a la era on-line, se ha llevado a cabo al cambiar el concepto de llevar la muestra a la luz por el de llevar la luz a la muestra. En los métodos espectroscópicos implantados en control de procesos, la radiación se conduce a la muestra mediante sondas de fibra óptica, las cuales tendrán diferentes diseños según su función. Éstas pueden insertarse directamente en la línea de proceso o pueden llegar a una celda de flujo por la que se hace pasar parte de la muestra desviada de la línea de producción.

Las medidas de reflectancia se pueden realizar a través de una ventana en la línea de procesos, mientras que las medidas de transmitancia pueden ser realizadas insertando una sonda en la misma línea de producción, compuesta de dos fibras ópticas, de manera que por una fibra llegue la luz y la otra recoja la radiación que no ha absorbido la muestra. Existe otro tipo de sondas con las que se realizan medidas de transflectancia, en las que la radiación llega a través de la fibra óptica, atraviesa la muestra y después de reflejarse la radiación va al detector a través de la misma fibra.

Con el uso de multiplexores se pueden dirigir diferentes sondas a distintos puntos de la producción. Además, la utilización de las fibras ópticas permite que tanto el instrumento como el operador puedan estar lejos del ambiente agresivo de la planta de producción.

Durante los últimos años, la espectroscopia NIR asociada con el análisis multivariable ha ido ganando aceptación en el mundo industrial como técnica de control rutinario en la misma línea de producción, ya que una vez establecida la calibración, el análisis es rápido. El hecho de poder realizar los análisis in-situ mediante espectroscopia NIR proporciona una serie de ventajas que mejoran la producción. Entre estas ventajas se encuentran el bajo mantenimiento del equipo, la no utilización de reactivos, la rapidez de los análisis, etc.

Page 26: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Espectroscopia en el infrarrojo cercano

22

Hoy en día, tanto la espectroscopia NIR como la calibración multivariable aparecen como herramientas destacadas en el control de procesos y sus aplicaciones abarcan campos tan diferenciados como la biotecnología, las ciencias de la tierra, atmosférica y la mineralogía, la monitorización ambiental, la industria química, la industria agroalimentaria, la química clínica y médica, la industria petroquímica (petróleo, gas natural y combustibles), la producción farmacéutica, la industria de polímeros y el análisis de superficies.

Page 27: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

23

3 Quimiometría y procesado de la señal en espectroscopia NIR.

3.1 Introducción

Un método de análisis instrumental proporciona un conjunto de datos, más o menos complejo, al que se denomina señal analítica. Dicha señal es una magnitud física que incorpora información química y/o física de la muestra analizada. Para obtener dicha información, se debe correlacionar la señal obtenida con la propiedad analítica que se pretende medir. Este proceso no siempre es directo, ya que la señal obtenida suele ser contribución de más de una especie o propiedad. Por ejemplo, en métodos cromatográficos, hay una separación previa de los componentes de la muestra, por lo que cada señal analítica obtenida corresponde a analitos discretos, no así en métodos espectroscópicos, donde la señal proporcionada por el instrumento no es exclusiva de un solo componente de la muestra.

Los avances instrumentales, la automatización y la incorporación de los ordenadores en el control y adquisición de señales de instrumentos, permite obtener gran cantidad de información analítica en tiempos muy cortos. Poder extraer la información útil de la que no lo es, y ser capaz de interpretar los datos para que puedan ser utilizados y relacionados con el parámetro a determinar, se convierte en una tarea compleja dado el gran volumen de información. Esta problemática ha propiciado el desarrollo de métodos quimiométricos, basados en cálculos matemáticos, estadísticos y de lógica formal, que permiten diseñar o seleccionar procedimientos de medida óptimos y obtener la máxima información relevante de los datos analíticos [16].

La palabra quimiometría, inventada hace aproximadamente treinta años, quiere resumir el concepto que engloba la medida en química. Se podría argumentar que, ciertamente, la medida en química siempre ha sido el campo de actuación de la química analítica.

La quimiometría trata, específicamente, de todas aquellos procesos que transforman señales analíticas y datos más o menos complejos en información. La quimiometría utiliza métodos de origen matemático, estadístico y otros procedentes del campo de la lógica formal para conseguir sus fines. Por todo ello, la quimiometría se sitúa en un campo interdisciplinario. Aunque sus métodos y herramientas provienen de otras disciplinas (como, de hecho, ocurre habitualmente en la química analítica), claramente los fines de la quimiometría están ligados a la química y su éxito depende de los problemas químicos que sea capaz de resolver.

Page 28: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

24

La quimiometría se ha convertido así en una parte muy importante de la química analítica y su uso ha ido en aumento aplicándose al tratamiento de todo tipo de datos espectroscópicos, cromatográficos, polarográficos, etc.

Por otra parte, no debemos olvidar que la aplicación de técnicas quimiometricas requiere un preprocesado previo de los datos, mediante el que se extraiga y normalice la información relevante que suministra la matriz de datos espectroscópicos. Este paso puede ser crucial en el éxito de la aplicación y debe ser tratado con sumo cuidado.

Por este motivo se ha incluido en esta memoria, un apartado en el que se explican con detalle todos los pasos previos a la aplicación de técnicas quimiométricas, que incluyen desde la extracción de parámetros relevantes, la selección de variables y métodos de calibración multivariable que hagan posible relacionar la señal analítica con la propiedad a determinar.

3.2 Etapas del proceso de modelado.

El proceso de modelado de un conjunto de datos, ya sea para clasificación o bien para determinación cuantitativa de un parámetro determinado, tiene como finalidad obtener un modelo capaz de predecir propiedades de nuevas muestras. Para la obtención de un modelo robusto se deben seguir las siguientes etapas: selección de un conjunto de calibración, determinación de la propiedad o identidad por métodos de referencia adecuados, obtención de la señal analítica, cálculo del modelo, validación del modelo, aplicación del modelo al análisis de muestras desconocidas, análisis de rutina y monitorización y por último transferencia de modelos. A continuación se explica más detalladamente cada una de las etapas implicadas en el modelado de datos. 3.2.1 Selección del conjunto de calibración. Se debe seleccionar un conjunto limitado de muestras que debe ser representativo de toda la variabilidad química y física que pueda darse durante el análisis de rutina, con la finalidad de obtener buena capacidad predictiva.

Page 29: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

25

El conjunto de calibración (o training set) deberá incorporar variabilidad de distinta naturaleza según la finalidad del modelo. Así, para una calibración multivariable, las muestras deberán ser representativas de todo el intervalo del parámetro a determinar (p.ej: cubrir todo el intervalo de concentraciones en la determinación de un principio activo), mientras que en modelos de clasificación las muestras deben incorporar toda la posible variabilidad que pueda darse para cada tipo de muestras (proveedor, tamaño de partícula, grados de pureza...).

3.2.2 Métodos de referencia.

Se determinan las concentraciones o propiedades de las muestras o bien las identidades de las mismas mediante métodos de referencia adecuados. Estos métodos de referencia deben proporcionar valores precisos y exactos, ya que de ello dependerá la exactitud del modelo multivariable obtenido.

3.2.3 Obtención de la señal analítica. Para obtener la señal analítica se debe someter a las muestras al procedimiento instrumental que se haya elegido. Si se trata de técnicas espectroscópicas se deben registrar los espectros de las muestras. Una vez el sistema instrumental proporciona los datos resultantes, éstos son almacenados y quedan disponibles para su posterior tratamiento.

3.2.4 Cálculo del modelo. La construcción del modelo implica una serie de tratamientos previos de la señal para a continuación hallar la relación más simple entre la señal analítica y la propiedad a determinar, ya sea estableciendo la relación con la concentración de un analito o con parámetros físicos de la muestra, o bien estableciendo las características que definen una clase y fijando las fronteras que la separan de otra u otras clases.

Los pretratamientos de la señal reducen las contribuciones del ruido. El procesado previo de la señal analítica permite corregir el efecto de los componentes ajenos a la información buscada, mejorando así la exactitud y precisión de los resultados. Ejemplos típicos de tratamientos de señales son la utilización de filtros de transformada de Fourier, correcciones de línea base... En espectroscopia, sobretodo en la zona del infrarrojo cercano, estos tratamientos son necesarios para corregir además otros efectos indeseados en la señal.

Page 30: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

26

Una vez corregidos los efectos del ruido, el modelo puede ser construido teniendo en cuenta las bases teóricas que explican la relación entre la magnitud física de la señal analítica con la propiedad a medir (Ley de Lambert-Beer en absorción, ecuación de Nernst en potenciometría...) o bien por relaciones totalmente empíricas. En calibración multivariable para el cálculo del modelo se utilizan gran variedad de algoritmos matemáticos, así como técnicas estadísticas para evaluar la calidad del mismo y optimizarlo.

3.2.5 Validación del modelo. Se trata de aplicar el modelo calculado a un número limitado de muestras de las cuales se conoce la propiedad que el modelo predice. Estas muestras son externas al conjunto de calibración (test set). Los resultados obtenidos mediante el modelo se comparan estadísticamente con los valores de referencia, comprobando que ambos resultados no son distintos, es decir que el modelo predice correctamente y por lo tanto es válido para la determinación de la propiedad que queremos predecir.

3.2.6 Aplicación del modelo. Una vez validado el modelo, éste se aplica a la predicción de muestras desconocidas. Los resultados obtenidos para estas muestras son generalmente aceptables, por lo que esta fase es tan sólo una segunda comprobación de la capacidad predictiva del modelo.

- 3.2.7 Transferencia del modelo. Una última etapa del proceso de modelado puede conllevar la transferencia de ese modelo a otro instrumento en el que se deban predecir muestras en control de rutina. Para que un modelo prediga de forma correcta muestras desconocidas en el nuevo instrumento, en ocasiones será necesario realizar una serie de correcciones del modelo, comprobando estadísticamente que una vez transferido proporciona buenos resultados. Este último aspecto del proceso de modelado está siendo objeto de discusión en numerosas publicaciones, existiendo distintas opciones para transferir modelos de un instrumento a otros.

Page 31: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

27

3.3 Reducción de variables (PCA).

Debido al gran volumen de información que proporcionan los métodos instrumentales, a los que hemos hecho referencia al inicio del capítulo, uno de los campos de estudio de la quimiometría ha sido el desarrollo de métodos de cálculo capaces de reducir este gran volumen de información para que ésta quede contenida, sin pérdidas relevantes, en un número reducido de variables. Uno de los métodos más utilizados para reducción de variables, es la descomposición de los datos en componentes principales (PCA, Principal Component Analysis) [17]. Las técnicas quimiométricas utilizadas en este proyecto se basan en un análisis en componentes principales previo al modelado de los datos, por lo que a continuación se explicarán los fundamentos de este tratamiento.

3.3.1 Tratamiento previo de los datos.

Los procedimientos de reducción de variables no suelen ser aplicados a los datos originales, sino que estos son previamente tratados para eliminar posibles efectos que puedan afectar a la descomposición. Los dos tratamientos habituales son el centrado y el auto escalado, cuyos efectos han sido discutidos en la bibliografía [18].

Considerando la matriz X de datos donde cada fila corresponde al espectro de una muestra y cada columna corresponde a una longitud de onda (variable), el centrado y el auto escalado transforman esta matriz de la siguiente forma:

• Centrado: se calcula el valor medio de cada variable ( kx ) del conjunto de

calibración (de cada columna de la matriz), y se resta este valor a cada punto ( ikx ) de la columna.

kik

centradoik xxx −= (8)

El valor medio corresponde al centro del modelo, y los valores de todas las variables están ahora referidos a dicho centro. Este tratamiento permite seguir manteniendo las unidades originales.

Page 32: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

28

• Auto escalado: consiste en, después de centrar cada columna, dividir el resultado por la desviación estándar de la misma ks ; de esta forma la varianza de cada variable vale la unidad.

k

kikdoautoescalaik s

xxx

−= (9)

Geométricamente es equivalente a cambiar la longitud de los ejes de coordenadas; todos los ejes tienen la misma longitud y cada variable tiene la misma influencia en el cálculo.

Si los datos son espectros de muestras, puede ser más interesante no escalarlo, ya que al escalar se daría igual importancia a las variables con baja absorbancia, o con principalmente solo ruido, que a los máximos de absorción. Por otra parte, el escalar puede favorecer la determinación de compuestos minoritarios en presencia de absorbentes mayoritarios. Para cada problema en concreto hay que adoptar la solución más conveniente.

3.3.2 Análisis en componentes principales. El espectro de una muestra registrado a k longitudes de onda puede describirse como un vector con k coeficientes. Se puede construir un espacio de k dimensiones de forma que cada una de ellas sea la señal a cada una de las longitudes de onda, y se puede representar la muestra como un punto en este espacio. Si se tienen m muestras, cada una de ellas se puede representar como un punto en el espacio de k dimensiones. Si estas muestras no tienen nada en común aparecerán dispersadas en el espacio. Si por el contrario tienen algo en común o están relacionadas los m puntos aparecerán agrupados.

El objetivo del PCA es hallar las direcciones que explican la máxima variabilidad de las muestras y utilizarlas como nuevos ejes de coordenadas, denominados componentes principales (PC’s). De esta forma, se reduce la dimensionalidad de un espacio de k dimensiones a un espacio de a dimensiones (a<k), manteniendo intacta la información relevante del sistema. Geométricamente, un PCA es un cambio de ejes, representando las muestras en un nuevo sistema de coordenadas con un número inferior de ejes al utilizado inicialmente.

Page 33: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

29

El primer componente principal es combinación lineal de las k variables que explica la máxima variabilidad de las muestras. El segundo PC se escoge de forma que sea ortogonal al primero y que explique la máxima variabilidad de las muestras una vez restada la explicada por el primer PC. Para definir matemáticamente estos nuevos ejes se utilizan los loadings, que son los cosenos de los ángulos que forman los nuevos ejes con los originales. Los scores son las coordenadas de las muestras en estos nuevos ejes.

Numéricamente, la matriz de datos X (datos espectrales) se descompone en el producto de dos matrices: una matriz de scores T y una matriz de loadings P, quedando un residual representado por la matriz E:

ETPX t += (10)

El PCA tiene la propiedad de que la matriz de loadings P puede encontrarse mediante un ajuste por mínimos cuadrados de X en la matriz de scores T, del mismo modo que T se puede encontrar por un ajuste de mínimos cuadrados de X en P. Esto ha llevado al desarrollo de algoritmos de cálculo para la obtención de T y P.

El más conocido es el algoritmo NIPALS [19] (Nonlinear Iterative Partial Least Squares), que permite obtener sólo los primeros PC’s sin necesidad de calcular todos los vectores propios de una matriz.

Cada componente principal contiene información de diferente relevancia. Los primeros PC’s describen la fuente de variación más importante de los datos. La representación completa de la matriz X implica k vectores de loadings y scores. Sin embargo, puesto que la finalidad de la descomposición es la reducción de la dimensionalidad del sistema, se representa la matriz original con un número menor de vectores a de la forma:

EptptptX t

aatt ++++= ....2211 (11)

El conjunto de datos X, descrito inicialmente por variables correlacionadas, queda de esta forma definido por un nuevo conjunto de variables (PC’s) no correlacionadas entre si en un nuevo sistema de ejes ortogonales.

Page 34: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

30

3.4 Técnicas quimiométricas en el análisis cuantitativo.

Los métodos instrumentales de análisis son métodos relativos, en los que para determinar la cantidad de analito presente en la muestra es necesario comparar la propiedad medida con la de un conjunto de patrones de composición conocida.

Uno de los objetivos de los métodos quimiométricos es transformar la señal obtenida en el análisis instrumental (sin significación química) en información útil para el analista a través de lo que se conoce como calibración. Es por ello que la calibración, como etapa integrante del proceso analítico, es de gran importancia y sólo podrá obtenerse una buena precisión y exactitud en los resultados si se aplica el tipo de calibración adecuado y, evidentemente, de forma correcta.

En el ámbito de la química analítica se define calibración como el proceso que permite establecer la relación entre la respuesta instrumental y una propiedad determinada de la muestra, que en determinaciones cuantitativas suele ser la concentración. Esta relación matemática que relaciona la señal analítica con la concentración se denomina modelo o ecuación de calibración y la representación gráfica que los relaciona recibe el nombre de curva de calibración.

3.4.1 Clasificación de los métodos de calibración.

Los métodos de calibración pueden clasificarse de diferentes maneras, en función del criterio que se utilice. Los más habituales se muestran en la tabla 3.4.1.

Criterio Método de calibración

Dependiendo del número de variables Univariable

Multivariable

Dependiendo del tipo de función matemática Lineal

No lineal

Dependiendo de la obtención de los parámetros de calibración

Directa

Inderecta

Dependiendo de cuál sea la variable independiente

Clásica

Inversa

Tabla 3.4.1 Tabla de asignación entre los diferentes enlaces y las bandas de absorción en la región NIR.

Page 35: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

31

En la calibración univariable se establece la relación matemática entre una única variable dependiente y una única variable independiente. Cuando intervienen más de una variable se denomina calibración multivariable. Las calibraciones lineales son las que relacionan las variables dependientes con funciones lineales de las variables independientes, o bien con funciones polinómicas que son lineales en los coeficientes. Cuando las funciones no son de este tipo se trata de calibraciones no lineales. Cuando los parámetros de calibración se conocen directamente a partir de la señal de cada uno de los analitos de forma individual la calibración es directa. Cuando los parámetros se conocen a partir de las señales analíticas de mezclas de los componentes, la calibración es indirecta.

En la calibración clásica la variable independiente es la concentración y la variable dependiente la señal analítica. En caso contrario estamos hablando de calibración inversa.

Dentro de la calibración multivariable, los modelos pueden clasificarse en dos grandes grupos: métodos rígidos, en los que es necesario tener información de todas las especies presentes que pueden contribuir a la señal, y métodos flexibles, en los que únicamente es necesario tener información de los analitos que se desea cuantificar, aunque hayan otras especies o fenómenos físicos que contribuyan a la señal registrada.

También se distingue entre métodos de espectro completo, donde se utilizan tantas longitudes de onda como sea posible sin ninguna selección previa, o de selección de variables en los cuales sólo se utilizan un número reducido de variables. Dentro de los métodos de espectro completo deben mencionarse los métodos de compresión de variables, basados en la descomposición de los datos en componentes principales.

3.4.2 Métodos basados en reducción de variables.

Son métodos inversos e indirectos, por lo que posibilitan cuantificar un analito en una mezcla sin necesidad de conocer los otros componentes de la misma. Se basan en que la información contenida en las variables medidas, se puede concentrar en un número menor de variables (llamadas componentes principales) sin pérdida de información relevante. La regresión no se hace sobre los datos originales, sino sobre estas nuevas variables, simplificando el modelo y la interpretación de los resultados. Por otra parte, este tipo de métodos son de espectro completo, es decir, pueden utilizar todas las variables a las que se ha registrado el espectro sin necesidad de una selección previa.

Page 36: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

32

Estos métodos se basan en que la información contenida en las variables de la señal puede estar contenida en un número menor de variables sin que haya pérdida de información relevante (ver punto 3.3). El proceso calibración se realiza, no sobre los datos originales, sino sobre estas nuevas variables, simplificando el modelo y la interpretación de los resultados.

Este tipo de métodos de calibración son de espectro completo, no presentan problemas de colinealidad ni las consecuencias derivadas de ella. Por estas razones, la tendencia actual es la utilización de métodos de calibración basados en una reducción de variables previa al cálculo del modelo, a través de métodos de selección de variables.

Generalmente, los procedimientos de reducción de variables no son realizados sobre los datos originales sino que éstos se centran o auto escalan previamente.

3.4.2.1 Regresión en componentes principales (PCR). La Regresión en Componentes Principales (PCR, Principal Component Regression) aprovecha las propiedades de la descomposición en componentes principales (PCA), realizando una regresión múltiple inversa (ILS) de la propiedad a determinar sobre los scores obtenidos en el PCA en lugar de realizarla sobre los datos originales. No existe pérdida de información útil, ya que los scores contienen la misma información que los datos originales pero habiendo eliminado el ruido.

Si tenemos una muestra con un conjunto de P especies absorbentes, tendremos P variables y1, y2, y3...yp representando la concentración de cada componente que pueden ser escritas en forma de vector y. El espectro de la misma, registrado a K longitudes de onda constituye un conjunto de K variables independientes x1, x2, x3...xk que pueden ser escritas en forma de vector x. Si se construye un conjunto de calibración con M objetos, se pueden agrupar los vectores que describen cada uno de ellos en dos matrices: la matriz Y, que contiene las concentraciones de cada componente en cada muestra, de dimensiones (M x P) y la matriz X, que contiene los espectros de cada muestra, de dimensiones (M x K). De este modo, dentro de las matrices la información espectral o las propiedades a determinar de cada muestra están escritas en una fila, mientras que cada columna contiene la información de una variable concreta para todas las muestras presentes.

Page 37: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

33

El primer paso del PCR consiste en realizar una descomposición de la matriz X en sus componentes principales, de la forma indicada en el punto 3.3.2.

∑=

+=+=A

a

taa

t EptETPX1

(12)

Una vez elegido el número de A componentes principales que se considere como óptimo para describir la matriz X (ver procedimientos de elección de componentes principales en el punto 3.4.1.4), ésta se puede representar por su matriz de scores T.

TPX = (13)

Hasta aquí lo que se ha realizado es un PCA, obteniendo a partir de la matriz de datos X la matriz de scores T y la de loadings P. A continuación, la matriz de datos Y se puede calcular según la expresión:

ETBY += (14)

siendo B la matriz de regresores que se halla por mínimos cuadrados conociendo los valores de Y del conjunto de calibración:

YTTTB tt 1^

)( −= (15)

Page 38: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

34

El símbolo ^ indica valores calculados. Una vez calculados los regresores, y por lo tanto establecido el modelo de calibración, se pueden realizar los cálculos para predecir un conjunto de nuevas muestras. En primer lugar, la matriz de datos espectroscópicos del conjunto de muestras de predicción X*, se centra o autoescala utilizando los valores calculados a partir de la matriz de datos X empleada en la calibración. A partir de la matriz de loadings calculada en la calibración, para el número A de componentes principales óptimo, se calculan los scores de las muestras de predicción, T*

PXT ** = (16)

y se utiliza la matriz de regresores calculada también en la calibración, junto con los scores de estas muestras, para el cálculo de la propiedad a determinar en las muestras desconocidas.

^* BTY = (17)

Uno de los principales problemas con PCR es que los componentes principales que mejor representan la matriz de los datos espectroscópicos, X, pueden no ser los más apropiados para la predicción de las propiedades de los analitos que queremos determinar. Por este motivo se ha desarrollado otra técnica de calibración que intenta concentrar el máximo poder predictivo en los primeros componentes principales. Este nuevo método es la regresión parcial por mínimos cuadrados.

3.4.2.2 Regresión parcial por mínimos cuadrados (PLSR) El método de Regresión Parcial por Mínimos Cuadrados (PLSR, Partial Least- Squares Regression) fue desarrollado por H. Wold en 1975 [20]. La principal diferencia con respecto a PCR radica en el hecho de que en PLS se intenta contener la mayor información para la predicción de las muestras en los primeros componentes principales. Para ello, durante la etapa de calibración, el algoritmo PLS utiliza tanto la información contenida en la matriz de datos espectroscópicos (matriz X) como la información contenida en la matriz de la propiedad a determinar (matriz Y), obteniéndose unas variables auxiliares llamadas variables latentes, factores o componentes PLS.

Page 39: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

35

Una vez centradas o autoescaladas las matrices X e Y, cada una de las matrices se descompone en una suma de A factores, calculando simultáneamente:

∑=

+=+=A

a

taa

t EptETPX1

(18)

∑=

+=+=A

a

taa

t FquFUQY1

(19)

La ecuación (13) es la descomposición de la matriz de datos espectroscópicos X, siendo T es la matriz de scores, P la de loadings y E la matriz de residuales. En la ecuación (14), que es la descomposición de la matriz de la propiedad a determinar Y, U es la matriz de scores, Q la matriz de loadings y F la matriz de residuales. Si tenemos M muestras, A factores, K variables y P analitos, la dimensionalidad de las matrices es la siguiente: T y U (M x A), Pt

(A x K) y Qt (A x P). En este caso los loadings no coinciden con las direcciones de

máxima variabilidad de las muestras como en el caso de PCA, ya que están corregidos para obtener la máxima capacidad predictiva para la matriz Y.

La descomposición de ambas matrices no es independiente, sino que se realiza de forma simultánea, estableciéndose una relación interna entre los scores de los bloques X e Y de forma que para cada componente a se cumpla:

aaa tbu = (20)

donde el símbolo ^ indica que es una cantidad calculada y ba es el coeficiente de regresión para cada uno de los factores PLS. Si se desea calcular una única concentración de las presentes en la matriz Y, el algoritmo recibe el nombre de PLS1. A continuación se muestra una descripción detallada del proceso de calibración y predicción respectivamente mediante PLS1.

Page 40: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

36

Calibración Una vez se tienen los datos centrados (Xo ) para cada factor a=1,2,...,A se realizan los

pasos del 1 al 5:

Paso 1

Se calculan los llamados “pesos” (weights) wa por mínimos cuadrados, utilizando la variabilidad restante en y expresada como vector ya-1:

EwyX Taaa += −− 11

escalando a continuación el vector wa:

11 −−= aaTT

a ycXW siendo c un factor de escalado que hace que la longitud del vector final wa sea igual a 1.

Paso 2

Se estiman los scores ta utilizando los pesos obtenidos en el modelo local:

EwtX Taaa +=−1

siendo los scores calculados por mínimos cuadrados:

aaa wXt 1−=

Paso 3

Con los scores calculados, se estiman los loadings pa de los datos espectroscópicos. Con el modelo local:

EptX Taaa +=−1

de nuevo por mínimos cuadrados se calcula:

aT

aaTaa tttXp /1−=

Paso 4

Lo siguiente es calcular el loading de concentración qa utilizando a tal efecto el modelo:

fqty Taaa +=−1

lo que da como solución:

aT

aaTaa tttyq /1−=

Paso 5

Se crean una matriz Xa-1 nueva y un residual ya-1 sustrayendo el efecto de este factor. Ahora a habrá aumentado en una unidad (a=a+1):

Taaa

nuevaa ptXX −= −− 1

)(1

Taaa

nuevaa qtyy −= −− 1

)(1

Paso 6

Se determina el número A de factores PLS y se calculan los predictores b0 y b para ser utilizados en la predicción de nuevas muestras:

qWPWb T 1)( −=

bxyb To −=

Predicción La concentración y de una muestra desconocida cuyo espectro es x se calcula utilizando los regresores obtenidos en el paso 6 de la forma:

bxby To −=

Tabla 3.4.1.2 Descripción del algoritmo PLS.

Page 41: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

37

3.4.3 Evaluación de la capacidad predictiva del modelo.

El objetivo de la calibración es obtener unos parámetros que permitan calcular la propiedad a determinar en futuras muestras de forma que los valores obtenidos difieran lo menos posible de los valores reales. En modelos de clasificación la capacidad predictiva se evalúa por los aciertos en la clasificación de muestras que no hayan formado parte de la calibración.

En modelos de cuantificación, se realizan estudios cuantitativos de los resultados obtenidos. Se debe utilizar un parámetro que permita evaluar el error medio de toda la población, no sólo de una muestra. Para ello, se puede utilizar el sumatorio del cuadrado de los residuales ))(( 2

ijijyy −∑ , denominado habitualmente PRESS (Predicted Residual

Error Sum of Squares) o su valor medio obtenido dividiendo el PRESS por el número de muestras de predicción (np), conocido como MSEP (Mean Square Error of Prediction)

)/)(( 2pijij

nyy −∑ .

También se puede utilizar la raíz cuadrada del MSEP, denominada RMSEP (Root Mean Square Error of Prediction).

Para la construcción de un modelo se suelen utilizar dos conjuntos de muestras: de calibración y de validación (o test set). Si se procede de esta forma, se calcula el MSEP o el RMSEP para cada componente principal. De igual forma, también se pueden calcular estos parámetros para el conjunto de calibración (MSEC, RMSEC).

Si el número de muestras disponibles es relativamente pequeño, la metodología a seguir es la validación cruzada (cross validation) [12], la cual utiliza, para comprobar el ajuste del modelo, muestras del conjunto de calibración. Mediante este método, el conjunto de calibración se divide en varios bloques o segmentos. El modelo se construye tantas veces como número de segmentos se ha elegido, utilizando un segmento como bloque de datos para comprobar resultados y el resto para construir el modelo, de forma que se deja un segmento fuera cada vez. Cuando el número de segmentos es igual que el número de muestras de calibración, se le denomina leave one out (LOO). Este procedimiento deja cada vez una muestra fuera, utilizando el resto para el cálculo del modelo, repitiendo el proceso un número de veces igual al número de muestras.

Para comparar la capacidad predictiva de distintos modelos se puede utilizar la raíz del error estándar relativo de predicción RSEP (Relative Standard Error of Prediction), ecuación 21:

Page 42: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

38

=

=

−= M

iij

M

jijij

y

yyRSEP

1

2

1

2)ˆ( (21)

donde M es el número de muestras, yij es la concentración del analito j-ésimo en la muestra i-ésima e yij es el estimado. Este error estándar relativo de predicción, RSEP, se calcula tanto para las muestras de calibración como para las muestras del conjunto externo, obteniéndose el RSEP(C) y el RSEP(P) respectivamente.

3.4.4 Elección del número de componentes principales.

La elección del número de componentes principales o factores que configura el modelo óptimo es el punto clave en la utilización de cualquier técnica de calibración que realice reducción de variables. Se han propuesto formas para reducir el número de variables latentes (LV’s) para PLSR y de componentes principales (PC’s) para PCR, que se basan, en general, en el análisis del error de predicción al utilizar distinto número de éstos. Puesto que el método más usual de construcción del modelo es el de validación cruzada, una forma muy popular de seleccionar el número de factores óptimo es la sugerida por Wold [21], consistente en representar el valor de PRESS frente al número de componentes y elegir como óptimo el mínimo de la curva. Se parte de que el error disminuye al aumentar el número de componentes que se utilizan en el modelo, hasta que llega un momento en que los nuevos componentes únicamente explican ruido y el PRESS aumenta debido al sobre ajuste del modelo.

Figura 3.4.4. Estudio del número óptimo de variables latentes.

Page 43: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

39

El método determina el número óptimo de variables latentes realizando una validación cruzada en la que calcula el sumatorio del error del cuadrado de los residuales (PRESS) con un número creciente de variables latentes. La figura 3.4.4 muestra un gráfico típico de resultados en el que se observa que, para el ejemplo en cuestión, el modelo óptimo queda creado con 7 variables latentes (LV’s).

3.5 Selección de variables.

En todo estudio de viabilidad en el que se pretende determinar si un método espectroscópico es capaz de realizar satisfactoriamente una determinada función, se debe realizar una cuidadosa selección de las variables que formarán la matriz reducida de datos espectroscópicos. Tal y como hemos visto en apartados anteriores, la espectrofotometría NIR genera una señal espectral que habitualmente es compleja y que a menudo necesita ser tratada con métodos quimiométricos específicos. La finalidad de realizar una selección de variables, no es otra que la de simplificar esta señal espectral, con la intención de obtener calibraciones más estables y una mayor capacidad predictiva.

Dicho esto, vemos que el disponer de una gran cantidad de información no es garantía de obtener mejores resultados. Hay variables que aportan información útil y otras que sólo aportan ruido. Por ese motivo es necesario escoger cuidadosamente las variables que los diferentes algoritmos de reconocimiento de patrones van a utilizar.

De este modo resulta interesante utilizar algún criterio de selección de variables que permita reducir la dimensionalidad de los datos sin eliminar información útil y minimizando, a la vez, las interferencias que aporten las variables con ruido.

Dentro de los diferentes métodos existentes podemos destacar las dos filosofías que se han considerado en este proyecto:

• El criterio de la varianza

• Algoritmo genético acoplado a una red PLS.

Page 44: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

40

3.5.1 Criterio de la Varianza.

La varianza empírica de una muestra se puede definir como la media de los cuadrados de los datos de la muestra centrados. Es decir, la varianza proporciona un valor de dispersión (inercia) de la variable alrededor de su media (centro de gravedad). Se calcula según hemos dicho, como la media de las desviaciones de las observaciones a la media. Se elevan al cuadrado las desviaciones alrededor de la media para que no se compensen las diferencias negativas y positivas, ya que de no hacerlo, se demuestra que la media de las desviaciones de las observaciones a la media es de cero.

Las nociones de varianza y desviación estándar sirven para cuantificar la variabilidad de una muestra midiendo su dispersión alrededor de la media.

Definimos la media empírica de una muestra como la suma la suma de sus elementos dividida por el número de ellos, es decir sea la muestra ),........,( 1 nxx su media empírica es:

n

xxxx

nx

n

ii

n

∑==⇒++= 1

1 )......(1

(22)

Por tanto la media es el centro de gravedad de los datos, dando el mismo peso a todos los elementos.

Volviendo a la definición anterior de varianza de una muestra se puede expresar como la cantidad denotada por s2, definida por:

2

1

2 )(1

1xx

ns

n

ii −

−= ∑

=

(23)

Para muestras con muchos datos hay que prestar atención a la imprecisión de las sumas acumuladas. Es más fácil y más estable numéricamente calcular en primer lugar, la media de los valores de la muestra y, posteriormente la varianza de ésta.

Si reagrupamos los datos de una muestra en clases, la varianza se divide en una componente correspondiente a la variabilidad en el interior de las clases y una componente de variabilidad entre las clases.

Page 45: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

41

Por tanto si consideramos una serie de datos de tamaño n cuyos valores se dividen en k muestras de tamaño n1,......., nk respectivamente, con n1+....+ nk=n. Denotamos que:

• ),.......,( )()(1

hn

hh

xx los datos de la h-ésima clase.

• )(hx la media empírica de la h-ésima clase.

• )(hv la varianza empírica de la h-ésima clase.

• x la media de los valores de la muestra total.

• )(1int

hk

hh

ra vnn

v ∑ == la media de las varianzas (varianza intraclase).

• 2)(

1int )( xxnn

v hk

hh

er −= ∑ = la varianza de las medias (varianza interclase).

• S2 la varianza de la muestra total.

En el caso que vamos a desarrollar en este proyecto, los datos recogidos son muestras de datos espectroscópicos en el infrarrojo cercano, cuyos espectros corresponden a varias concentraciones de un compuesto a analizar. Dividimos estas concentraciones en 3 clases distintas, concentración baja, concentración media y concentración alta. Cada una de estas clases contiene un número j de variables.

Lo que queremos saber es si la variabilidad observada en los datos se debe exclusivamente al azar, o si existen efectivamente diferencias significativas entre cada una de las clases.

La media de las varianzas, resume la variabilidad en el interior de las clases, es decir pude definirse (en términos de proyección) como la distancia media entre cada medida de una clase concreta y la posición del centroide de dicha clase, de ahí que adopte el nombre de varianza intraclase o varianza residual. La varianza de las medias describe las diferencias entre las clases que puedan depender de las concentraciones y se calcula como la distancia media entre las centroides de todas las clases consideradas en el experimento, de ahí que reciba el nombre de varianza interclase o varianza explicada. Si las concentraciones tienen efectivamente una influencia sobre las muestras, observaremos que la varianza interclase será mayor que la varianza intraclase.

Page 46: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

42

Vamos a desarrollar lo explicado anteriormente de manera matemática para poder entenderlo mejor:

erra

n

i

h

h

k

h

h

hhn

i

hi

h

k

h

hhn

i

hi

h

k

h

h

hn

i

hhi

h

k

h

hk

h

n

i

hi

VVxxnn

n

xxxxnn

nxx

nnn

xxxxnn

nxx

ns

h

hh

hh

intint2

1

)(

1

)()(

1

)(

1

2)(

1

)(

1

2)(

1

)()(

1

2

1 1

)(2

0)(1

))((1

2)(1

)(1

)(1

++=−+

+−−+−=

=−+−=−=

∑∑

∑∑∑∑

∑∑∑∑

==

====

=== =

(24)

Entonces definimos el factor FM, como factor de mérito para cada una de las variables y que se corresponde con la siguiente expresión:

raclaseVerclaseV

FM j int.int.

= (25)

De la expresión anterior obtendremos tantos factores de mérito como variables (j) se les haya calculado la varianza intraclase.

Como conclusión se obtiene que, a mayor factor de mérito, mejor discriminación de clases nos ofrece esa variable.

Finalmente nos tenemos que quedar con las variables discriminatorias. Lo que haremos será, quedarnos únicamente con los valores que tengan el factor de mérito FM más elevado.

Page 47: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

43

Los pasos detallados del algoritmo de selección de variables siguiendo el criterio de la varianza son:

Criterio de la varianza

Paso 1

Se calcula, para cada una de las clases, la distancia media entre todas sus medias y su centroide, es decir la distancia intraclase media:

).....(1

1 na aaclase ddn

V ++= ; ).....(1

1 nb bbclase ddn

V ++=

Paso 2

Se calcula el valor medio del calculo anterior (Varianza intraclase):

)......(1

int na claseclasera VVn

V ++=

Paso 3

Cálculo de la distancia media entre las centroides de cada una de las clases (Varianza interclase):

)......(1

int clasBclasNclasAclasBer ddn

V ++=

Paso 4

Se calcula el factor de mérito FM:

raclaseVerclaseV

FM j int.int.

=

Escoger las variables con factor de mérito más elevado y conformar la nueva matriz de datos reducida.

Tabla 3.5.1 Descripción del algoritmo de selección de variables por el criterio de la varianza.

Page 48: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

44

3.5.2 Algoritmo genético.

Los algoritmos genéticos son procesos de búsqueda basados en los principios de la selección y la evolución natural [22]. A lo largo de las generaciones, las poblaciones evolucionan en la naturaleza, según los principios de la selección natural y la supervivencia de los más fuertes postulada por Darwin.

Aquellos individuos que tienen más éxito de sobrevivir y atraer a otros tienen más probabilidad de generar un mayor número de descendientes. Sin embargo, los individuos poco dotados producirán un menor número de descendientes y a la larga podrán llegar a desaparecer. Esto significa que los genes de los individuos mejor adaptados se propagarán en sucesivas generaciones hacia un número creciente de individuos.

Por imitación de este proceso, los algoritmos genéticos son capaces de ir creando soluciones para los problemas de la vida real. La evolución de estas soluciones hacia valores óptimos del problema, dependerá en gran mesura de una adecuada codificación de las mismas. Por lo tanto, las posibles soluciones a un problema serán codificadas en forma de cadenas binarias y la búsqueda se iniciará con una población aleatoria de posibles soluciones.

Podemos definir los algoritmos genéticos como un procedimiento de resolución de problemas que imita los métodos de evolución genética de los seres vivos, para solucionar problemas de investigación (en el cual el proceso analiza las posibles soluciones para el problema en cuestión) y optimización ( en el cual se encuentra el mejor resultado para un problema específico).

3.5.2.1 Características de los algoritmos genéticos.

Algunas de las características más destacadas de los algoritmos genéticos son:

• Son algoritmos estocásticos. Es decir, dos ejecuciones diferentes pueden dar dos soluciones diferentes. Esto es útil debido a la gran cantidad de resultados que corresponden con soluciones válidas.

• Los algoritmos genéticos, excepto en poblaciones iniciales muy degeneradas, la convergencia del algoritmo es poco sensible a la población inicial si esta es escogida de forma aleatoria y es suficientemente grande.

Page 49: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

45

• Por su grado de penetración casi nulo, la curva de convergencia asociada al algoritmo presenta una convergencia excepcionalmente rápida al principio, que prácticamente se bloquea de repente. Esto se debe a que el algoritmo genético se comporta de una manera excelente descartando subespacios realmente malos. Cada cierto tiempo la población vuelve a dar un salto evolutivo y se produce un incremento de la velocidad de convergencia. La razón de todo esto se debe a que algunas veces aparece una mutación altamente beneficiosa que propaga algún conjunto de cromosomas excepcional al resto de población.

• La optimización va en función de la representación de los datos. Este es el concepto clave dentro de los algoritmos genéticos, ya que una buena codificación puede hacer la programación y la resolución muy sencillas.

• Es una búsqueda paramétrica robusta. Esto quiere decir que hemos de escoger muy mal los parámetros del algoritmo para que no llegue a converger. Con parámetros razonables convergerá, mejor o peor, en una solución razonablemente buena si la representación es adecuada. Esto es muy importante para la naturaleza de nuestra búsqueda.

3.5.2.2 Creación del algoritmo genético.

Los pasos a seguir para crear un algoritmo genético serán generar aleatoriamente la población inicial, que estará constituida por un conjunto de cromosomas o cadena de caracteres que representarán las posibles soluciones del problema. A cada uno de los cromosomas de esta población se le aplicará la función de aptitud, con el fin de saber como será de buena la solución que esté codificando. Sabiendo la aptitud de cada cromosoma, se procederá a la selección de los que se cruzarán en la siguiente generación.

Para realizar la selección de variables, cada posible combinación es codificada con una cadena binaria tan larga como parámetros se consideren para encontrar la combinación óptima de variables. En dicha cadena, cada variable tiene asignada una posición o bit, de manera que una posible solución vendrá descrita por una sucesión de unos y ceros indicando la presencia (con un 1) o la ausencia (con un cero) de cada una de las variables en esa combinación particular.

Page 50: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

46

3.5.2.3 Función de aptitud.

La función de aptitud es la base para determinar que soluciones tienen mayor o menor probabilidad de sobrevivir. Dado un cromosoma particular, la función de aptitud le asigna un número real que supuestamente refleja el nivel de adaptación al problema del individuo representado por este cromosoma. Esta función de aptitud o también llamada función de adaptación se ha de diseñar de manera específica para cada problema o, como en nuestro caso, sustituida para obtener el resultado utilizando otro método. En nuestro caso se utilizará un leave-one-out, donde en su interior se ejecutará una red neuronal.

Por imitación de este proceso, los algoritmos genéticos son capaces de ir creando soluciones para los problemas de la vida real. La evolución de estas soluciones hacia valores óptimos del problema, dependerá en gran mesura de una adecuada codificación de las mismas. Por lo tanto, las posibles soluciones a un problema serán codificadas en forma de cadenas binarias y la búsqueda se iniciará con una población aleatoria de posibles soluciones.

3.5.2.4 Medida de la población.

En lo que refiere a la medida de la población, será interesante que la población no sea muy pequeña ya que se corre el riesgo de no cubrir adecuadamente el espacio de la búsqueda, mientras que si la población es realmente grande podremos llegar a tener un problema con el tiempo de ejecución de programa.

3.5.2.5 Técnicas de selección de individuos.

En las técnicas de selección de individuos podemos distinguir dos métodos:

• Selección aleatoria: La cual puede ser realizada por una selección equiprobable, donde todos tienen la misma probabilidad de ser escogidos o por selección estocástica, donde la probabilidad de que un individuo sea escogido dependerá de una heurística.

• Selección directa: donde se seleccionan elementos de acuerdo a un criterio objetivo, como podrían ser, los x mejores o los x peores, etc.

Page 51: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

47

3.5.2.6 Técnicas de cruzamiento.

Las técnicas de cruzamiento permitirán la generación de nuevos individuos cogiendo características de sus padres. A continuación detallamos algunas de las técnicas de cruzamiento:

• Cruce básico: Se selecciona un punto de la cadena o cromosoma al azar. La parte anterior se copia del genoma del padre y la posterior de la madre.

• Cruce segmentado: Existe una probabilidad de que un cromosoma sea punto de un cruce. A medida que se va formando la nueva cadena del descendiente, se verifica si se producirá un cruce para cada gen.

• Cruce multipunto: Funciona del mismo modo que el cruce básico, con la pequeña diferencia de establecer otro punto del cruce.

• Cruce uniforme: Cada gen de la descendencia se crea copiando el gen correspondiente de uno de los padres, escogido de acuerdo con una máscara de cruce. Cuando existe un uno en la máscara de cruce el gen que se copia es el del primer padre, si en cambio es un cero el gen que se copia es el del segundo padre.

Nosotros vamos a utilizar en nuestro proyecto la técnica de cruce básico y cabe destacar que según el valor de la variable de entrada, el cruce se podrá realizar una o dos veces. Si lo hace dos veces, la primera modificará el cromosoma y la segunda modificará el cromosoma modificado.

3.5.2.7 Técnicas de mutación.

Las técnicas de mutación permiten introducir nueva información no presente en la población y tiene una baja probabilidad para ser utilizada. Algunas de las técnicas de mutación son:

• Mutación de bit: Existe una única probabilidad de que se produzca una mutación de algún bit. Si ésta se produce, el algoritmo cogerá de forma aleatoria un bit y lo invertirá.

• Mutación multibit: En esta mutación cada bit tiene una probabilidad de mutar o no, la que se calcula en cada pasada del operador de mutación del multibit.

Page 52: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Quimiometría y procesado de la señal en espectroscopia NIR

48

• Mutación de intercambio: En esta mutación existe una probabilidad de que se produzca una mutación. Si se produce cogerá dos bits de forma aleatoria y los intercambiará.

En nuestro caso la técnica que utilizaremos será la mutación multibit, y el valor que hará que se produzca una mutación tendría que ser más pequeño que el valor de la mutación.

Page 53: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Metodología experimental

49

4 Metodología experimental

4.1 Introducción.

En este capítulo se describen, por un lado, la instrumentación y los programas de cálculo utilizados a lo largo del desarrollo de este proyecto y, por otro, aquellos aspectos generales que pueden afectar al registro del espectro NIR.

4.2 Instrumentación.

El espectrofotómetro utilizado para registrar los espectros es el FT-NIR VECTOR 22/N de Bruker, equipado con un detector de transmisión fotoconductiva de Ge y con un módulo multiplexor para fibra óptica de cuarzo. El software del equipo, OPUS NT versión 3, incorpora los programas para el control y diagnóstico del instrumento, la adquisición y almacenamiento de los espectros NIR y su posterior tratamiento.

En la siguiente figura podemos observar el aspecto de los espectros del set de muestras que vamos a utilizar en el presente proyecto.

Figura 4.2.1 Espectros NIR de las muestras a utilizar.

Page 54: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Metodología experimental

50

4.3 Programas de cálculo.

A continuación realizamos una pequeña explicación de los programas de cálculo utilizados para llevar a cabo este proyecto.

• OPUS-NT Spectroscopic Software version 3.0, el cual se utiliza para el control del espectrofotómetro FT-NIR Vector 22/N. También se pueden realizar con este programa, diferentes pretratamientos espectrales (suavizado espectral, corrección de la línea base, derivadas, MSC,...) y operaciones aritméticas con los espectros.

• OPUS-NT Quant2 versión 2.0, el cual ha sido diseñado por Bruker para el análisis cuantitativo para datos espectroscópicos. Este programa permite determinar la concentración de más de un componente en cada muestra simultáneamente. Para este supuesto, Quant2 [23] incorpora una de las técnicas de calibración multivariable, el partial least squares (PLS), además de poder desarrollar procesos de clasificación con datos espectroscópicos registrados.

• MATLAB, cuya versión 6.1 ha sido la utilizada en la realización de este proyecto, es el nombre abreviado de “MATrix LABoratory”. Matlab es un paquete informático capaz de realizar cálculos numéricos con vectores y matrices. Como caso particular puede también trabajar con números escalares, tanto reales como complejos, con cadenas de caracteres y con otras estructuras de información más complejas. Una de las capacidades más atractivas es la de realizar una amplia variedad de gráficos en dos y tres dimensiones. MATLAB tiene también un lenguaje de programación propio.

Este programa dispone además de un código básico, de librerías especializadas (toolbox), entre las que se encuentra el paquete multivariante denominado PLS-Toolbox versión 2.0 [24]. El cual se acopla al progrma principal. En concreto existen varias rutinas que se han utilizado, pls (versión clásica), pcr (versión clásica) y gaseletr.

Sin embargo, estas funciones son excesivamente generales para los objetivos de nuestro trabajo. Ha sido necesario programar una serie de funciones auxiliares para facilitar la integración y evaluación de estos algoritmos en los objetivos planteados para cada uno de los componentes a analizar.

Page 55: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Metodología experimental

51

En concreto, ha sido necesario remodelar la representación gráfica de resultados para poder asignar códigos numéricos y de color para distinguir correctamente entre multitud de medidas diferentes en cada una de las dos aplicaciones. Para ello se han programado algunas funciones gráficas adicionales para representar los datos con mayor claridad. El formato de estas funciones gráficas se irá observando en las figuras de resultados en el siguiente capítulo.

Page 56: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Metodología experimental

52

4.4 Módulos utilizados en el registro de los espectros NIR.

Para poder llevar a cabo el registro de los diferentes espectros NIR se ha utilizado una sonda de medición de cuarzo directamente en la línea de proceso (on-line), acoplada al espectrofotómetro a través de dos sondas de fibra óptica. En la figura 4.4.1 podemos observar el despiece de la sonda de cuarzo, donde se pueden distinguir las dos fibras ópticas, las bridas para acoplar la sonda a la tubería de proceso, la protección de la sonda, etc.

Figura 4.4.1 Despiece de la sonda de cuarzo on-line.

La utilización de estas de sondas on-line con fibra óptica, nos permite por otra parte y como ya hemos explicado con más detalle en el apartado 2.6 de esta memoria, reducir al máximo la manipulación de la muestra por parte del analista. Por este motivo este tipo de sonda se ha convertido en una herramienta muy útil para el análisis instrumental.

Page 57: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Metodología experimental

53

En la figura 4.4.2, se puede ver un ejemplo de la posible ubicación física de la sonda de medición on-line, directamente en la línea de proceso.

Figura 4.4.2 Sonda de cuarzo on-line directamente en la línea de proceso.

A continuación, en la figura 4.4.3, vemos con más detalle la posición de la óptica de la sonda de transmisión en el interior de la tubería de proceso.

Figura 4.4.3 Posición de la óptica en el interior de la tubería de proceso.

Page 58: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Metodología experimental

54

4.5 Fibra óptica.

La función de la fibra óptica es la de transmitir la luz que emite la fuente emisora de radiación NIR situada en el espectrofotómetro hasta la sonda de medida on-line y, retornarla de nuevo hacia el detector situado en el espectrofotómetro una vez haya interaccionado con el producto a analizar.

En nuestra aplicación utilizaremos fibras del tipo UV/VIS de cuarzo, cuyo diseño corresponde con el de la figura 4.5.1.

Figura 4.5.1 Diseño de la fibra óptica a utilizar.

El principal inconveniente de utilizar la fibra óptica es la pérdida de intensidad radiante durante la transmisión de la luz, provocando en muchas ocasiones un aumento del ruido de la señal que puede tener importancia a la hora de realizar el tratamiento del espectro. De ahí que tengamos que prestar especial atención al tipo de fibra óptica a utilizar, cual es la protección mecánica que hemos de colocar, así como las especificaciones técnicas de la propia fibra.

Las especificaciones de la fibra óptica que hemos utilizado se presentan en la siguiente tabla:

Page 59: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Metodología experimental

55

Especificaciones de la fibra óptica utilizada en este proyecto:

Tipo de fibra:

Broy & Honrad, da lata transmisión UV/Vis,

ultra bajo contenido en OH-, resistente a los

rayos por láser y a la radiación.

Diámetro corazón fibra 600 µm±2%

Diámetro del revestimiento interior 660 µm±2%

Diámetro del revestimiento exterior 800 µm±3%

Material revestimiento exterior Acrilato

Diámetro de la cubierta 1000 µm±5%

Material cubierta Nylon

Atenuación

850 nm: 2,1 dB/km 1064 nm: 1,4 dB/km 1385 nm: 10,6 dB/km 2100 nm: 109,7 dB/km

Apertura paso óptico 0,22 ± 0,02

Tipo conector fibra SMA 905

Tabla 4.5.1 Especificaciones técnicas de la fibra óptica.

Page 60: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Desarrollo de los métodos

56

5 Desarrollo de los métodos.

5.1 Introducción.

La problemática de un laboratorio de control en la industria química es muy compleja, ya que continuamente recibe muestras de tipología, naturaleza y composición muy diferente que deben ser analizadas. Las metodologías convencionales de análisis requieren la preparación previa de la muestra, lo que supone la mayor parte del tiempo invertido en el análisis, acumula la mayor parte de los errores que se producen en todo el proceso de control y están asociadas a un consumo importante de reactivos y disolventes.

Esto provoca que se preste mayor atención a nuevas metodologías que sean al mismo tiempo rápidas, fiables y, si es posible, capaces de lograr el control exhaustivo del proceso de producción, determinando más de un parámetro simultáneamente. En este contexto no es de extrañar el éxito que ha conseguido la espectroscopia en el infrarrojo próximo. La posibilidad de realizar medidas directas de muestras líquidas, con mínima o nula manipulación de la misma, la convierte en una técnica ampliamente aceptada en los laboratorios de control. Desde un punto de vista positivo, según hemos comentado anteriormente, tenemos la posibilidad de acoplar una sonda de fibra óptica al espectrofotómetro FT-NIR, permitiendo de este modo, medir la muestra a una cierta distancia y, por tanto, muy útil para análisis químico on-line.

En este apartado veremos como se aplican los métodos de selección de variables mencionados anteriormente, para probar en el modelo de calibración que hemos creado, y proceder a la validación del propio modelo, comparando los errores obtenidos una vez aplicados los distintos métodos de selección de variables.

La muestra está compuesta por tres componentes productos químicos (agua (H2O), ácido clorhídrico (HCl) y metanol), que estarán en estado líquido. Lo que se pretende obtener una vez validado el modelo, es la concentración del agua y del ácido clorhídrico. El metanol se podrá obtener fácilmente restando 100 de la suma de las concentraciones de los dos componentes anteriores.

Page 61: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Desarrollo de los métodos

57

5.2 Descripción de las muestras de producción.

Como hemos explicado en el apartado anterior, el contenido de la muestra a analizar consta de tres productos químicos, el agua, ácido clorhídrico y metanol y están en fase líquida, siempre que se mantengan unas condiciones determinadas de presión y temperatura.

La temperatura de preparación de la muestra es de unos –18 ºC, con 500 mbar de presión, estas condiciones son muy importantes, ya que para la preparación de la disolución se utiliza HCl 100% gas, siendo muy complicado el proceso de absorción del gas por parte del líquido, en este caso metanol y agua. Este proceso de absorción entre el HCl gas y el resto de compuestos líquidos, se favorece cuanto más baja sea la temperatura.

En la tabla 5.2.1 se muestran la concentración óptima que se desea obtener al final de la fase de preparación, para cada uno de los tres componentes que forman parte de la disolución.

Componente Valor mínimo % (tanto por ciento en peso)

Valor máximo % (tanto por ciento en peso)

Ácido clorhídrico 30 55

Metanol 35 65

Agua 5 10

Tabla 5.2.1 Composición óptima de la disolución.

Partimos de un set de 57 muestras tomadas de la disolución, pertenecientes a diferentes cargas, ya que se trata de un proceso tipo batch. De estas 57 muestras, 45 se utilizarán para realizar y probar el modelo de calibración, y las 12 restantes para realizar la validación externa del modelo.

Page 62: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Desarrollo de los métodos

58

5.3 Descripción de los métodos de referencia.

5.3.1 Descripción general.

Para poder realizar el análisis de la concentración, ya sea de ácido clorhídrico o de agua, de cada una de las 57 muestras utilizadas para realizar la calibración y validación del modelo, se tomaron muestras del proceso y al mismo tiempo se registró el espectro que estaba indicando el espectrofotómetro. Esta tarea fue complicada, ya que exigió una completa coordinación entre analista que estaba tomando la muestra y el analista que esta guardando el espectro registrado por el espectrofotómetro, y que se incluirá posteriormente en el set de muestras de la librería de calibración.

A continuación vemos el aspecto de los espectros de absorbancia correspondientes a cada una de las muestras utilizadas para la realización de este proyecto.

Figura 4.2.1 Espectros de absorbancia NIR de las muestras.

Una vez registrada la muestra por el espectrofotómetro, se le asignó un nombre de identificación igual al de la muestra de proceso que había tomado el analista, evitando así posibles errores a la hora de identificar el resultado analítico de una muestra y el espectro de ésta, registrado por el espectrofotómetro. Normalmente la nomenclatura utilizada para identificar, tanto la muestra como el espectro, es la fecha, seguida de un punto y de la hora separada del minuto por un guión bajo. Por ejemplo una muestra recogida el día 10 de enero del 2004 a las 18 horas y 10 minutos, se identificaría como 10012004.18_10.

Page 63: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Desarrollo de los métodos

59

5.3.2 Procedimiento de análisis del ácido clorhídrico.

El objeto de este método es el de determinar la concentración de ácido clorhídrico por titración con electrodo de pH y disolución de NaOH 1 N.

Este método será aplicable en muestras con contenido de HCl entre 0.36% y 100% (tantos por ciento en peso).

El procedimiento de análisis es el siguiente:

• Se añaden 60 ml de agua desmineralizada en un vaso de precipitados de 100 ml.

• Se introduce el vaso de precipitados en la balanza analítica y se realiza la tara.

• Se pesan 0.4 gramos de la muestra con una balanza analítica de precisión 0,1 mg con una pipeta desechable en el mismo vaso de precipitados y se anota la masa introducida.

• Se limpia el electrodo de pH con agua desmineralizada.

• Se titula con el titrino, a través del método para análisis de HCl con disolución de hidróxido de sodio 1 N y electrodo de pH.

• Se comprobará que la curva de valoración sea correcta, con un punto de equilibrio que aparece con un pH entre 2 y 3. Obtendremos pues el valor de la concentración de HCl mediante la fórmula siguiente:

0031*02*1

1C

CCEpRS = (30)

siendo:

RS1= % de HCl.

Ep1= ml de NaOH 1 N consumidos.

C02= Factor de conversión.

C31= Factor de NaOH 1 N.

C00= Peso de la muestra.

Page 64: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Desarrollo de los métodos

60

5.4 Desarrollo de los métodos de cuantificación del ácido clorhídrico y agua.

En el análisis de productos químicos, uno de los principales problemas es la disponibilidad de un conjunto de muestras que cubran un intervalo de concentración adecuado para establecer una ecuación de calibración fiable, puesto que todas las cargas del proceso de fabricación tienen un contenido de ácido clorhídrico muy constante y próximo al valor nominal. Para la realización de este trabajo, el intervalo de concentración se extendió mediante la utilización de la librería de muestras del laboratorio de la planta de producción, las cuales se obtuvieron por infra y sobre dosificación de ácido clorhídrico en el deposito dónde se preparan las disoluciones de las diferentes cargas de producción.

5.4.1 Muestras.

Por lo que hacer referencia a las muestras, un total de 70 cargas de la disolución entre los tres componentes, HCl, agua y metanol, producidas durante el año 2003 fueron estudiadas. Previamente a la utilización de los resultados analíticos, se hizo un diezmado del conjunto de muestras a utilizar. Es decir se eliminaron las muestras que pudiesen introducir errores en el modelo de calibración, ya fuese por errores en el análisis (estamos hablando de HCl, que a unas determinadas condiciones de presión y temperatura se mantiene en estado líquido, pero si estas condiciones se alteran, puede que parte del contenido en HCl de la muestra pueda evaporarse, y perder así contenido en HCl), o en la propia toma de muestra.

En cuanto a su distribución, tanto las muestras de calibración como las de predicción, se han seleccionado de tal forma que el intervalo de concentraciones para cada uno de los dos analitos quedase cubierto

Como hemos podido ver en la tabla 5.2.1 el ácido clorhídrico (HCl) representa entre el 30 y el 55% del contenido total de la disolución. Las muestras disponibles, se han hecho servir para construir un modelo de calibración de 45 muestras con concentraciones distribuidas uniformemente a lo largo del intervalo 32 al 52% de la concentración. El conjunto de predicción se ha constituido por 12 muestras que contienen proporciones variables del mismo componente, es decir HCl, cubriendo el mismo intervalo de concentraciones.

Page 65: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Desarrollo de los métodos

61

El caso del agua es diferente, ya que está presente en la disolución en proporciones más bajas que el HCl. El margen de concentraciones en que se puede presentar el agua, está comprendido entre el 5 y el 10% de la concentración total de la disolución. Del mismo modo que con el HCl, se han elaborado dos conjuntos de datos, uno de calibración, con 45 muestras y otro de validación con 12 muestras. El intervalo de concentración cubierto por el agua se encuentra comprendido entre el 3 y el 18%.

Para el registro de los espectros de transmitancia se ha utilizado el espectrofotómetro FT-NIR Vector 22/N de Bruker, equipado con un detector de transmisión fotoconductiva de Ge. El control de las operaciones básicas del espectrofotómetro y el registro de los datos espectrales, se ha realizado vía software. En este caso se ha utilizado el OPUS NT versión 3.0.

Figura 5.4.1 Espectros de absorbancia NIR de las muestras.

Los espectros se han registrado todos en modo transmitancia, haciendo servir la sonda de medición de cuarzo, en la misma línea de proceso, es decir on-line, cuyo paso óptico es de 2mm. Cada uno de los espectros obtenidos, es el resultado de 32 barridos a lo largo del intervalo de 4100 a 12000 cm-1, haciendo servir una resolución de 2 cm-1.

Page 66: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

62

6 Estudio y discusión de los resultados.

6.1 Introducción.

En este capítulo se van a realizar los diferentes estudios de los PLSR y PCR, utilizando en primer lugar la matriz de datos inicial, es decir la obtenida directamente del espectrofotómetro, realizando una selección de variables en función de la absorción de los componentes de la muestra. En segundo lugar realizaremos un estudio, seleccionando las variables más significativas, aplicando el criterio de la varianza. Finalmente a la matriz de datos obtenida una vez aplicado el criterio de la varianza, se le aplicará otro método de selección de variables, un algoritmo genético.

6.2 Estudio de los modelos PLSR y PCR para la matriz de datos inicial.

Al procesar los datos y con la intención inicial de simplificar el proceso de calibración se han eliminado de la matriz espectral aquellas zonas donde los sobretonos y las bandas de combinación de los enlaces OH y C-H, no presentan absorción de la radiación. De esta forma, el intervalo de longitudes de onda de trabajo va a quedar delimitado por dos segmentos para el caso del ácido clorhídrico, que son: 11995.9 - 11340.1 cm-1 y 10688.3 - 5446.4 cm-1. Para el caso del agua, se trata de un solo intervalo de trabajo de longitudes de onda: 7980.5 – 5299.8 cm-1.

De este modo tendremos dos bloques de datos diferentes, uno para la calibración del modelo y otro para la validación de éste. Para realizar la calibración de los modelos, utilizaremos una matriz de 45 muestras XHCl con 38385 variables para el caso del ácido clorhídrico (853 longitudes de onda × 45 muestras) y otra matriz de 45 muestras XH2O con 31320 variables para el caso del agua (696 longitudes de onda × 45 muestras). Para llevar a cabo el proceso de validación de los modelos, utilizaremos dos matrices de 12 muestras, independientes de las utilizadas en el proceso de calibración. La primera matriz será la de las muestras de HCl, XHCltest con 10236 variables (853 longitudes de onda × 12 muestras) y la otra matriz, serán las muestras de H2O, XH2O con 8352 variables (696 longitudes de onda × 12 muestras).

Page 67: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

63

6.2.1 Estudio de los modelos PLS y PCR para el caso del H2O.

Para la realización de los ensayos, todos los modelos de calibración se han obtenido utilizando los algoritmos PLSR y PCR [18] respectivamente, utilizando el método de validación cruzada leave-one-out para la determinación de las condiciones óptimas.

Para llevar a cabo estos ensayos se ha creado un fichero para Matlab llamado plspcrsr.m, cuyo listado se puede ver en el anexo. Con la ejecución del programa contenido en este fichero, realizamos el PLSR y el PCR de forma simultánea. Vamos a explicar con más detalle cual es la función de este programa, el cual utilizaremos para realizar la calibración y validación de todos los modelos ensayados en este proyecto.

Con el fichero plspcrsr.m cargamos la matriz de datos para poder ejecutar el programa. Una vez cargados los datos, para poder evaluar la capacidad de predicción del modelo, lo validaremos de forma interna utilizando la validación cruzada (cross validation). Dividiremos el conjunto de muestras en varios segmentos, de esta forma el modelo se construirá tantas veces como segmentos hayamos escogido. En nuestro caso escogeremos 10 segmentos y lo haremos con el leave one out para realizar la validación, tanto para el método PLSR como para el PCR.

La estructura de la función es del siguiente tipo:

[plspress,plscumpress,plsrmsecv,plsrmsec]=crossval(ax,ay,'sim','loo',lv,sp) [pcrpress,pcrcumpress,pcrrmsecv,pcrrmsec]=crossval(ax,ay,'pcr','loo',lv,sp)

Código6.2 Parte principal de la validación cruzada.

Puesto que el método utilizado en la construcción de ambos modelos es el de validación cruzada, una forma muy utilizada para seleccionar el número de componentes PLSR y PCR óptimos (LV’s) es la sugerida por Wold [21], como ya se explicó en el apartado 3.4.4 de la presente memoria. Este método consistente en representar el valor de PRESS frente al número de variables latentes (LV’s) y elegir como óptimo el mínimo de la curva. Se parte, de que el error disminuye al aumentar el número de LV’s que se utilizan en el modelo, hasta que llega un momento en que los nuevos LV’s únicamente explican ruido y el PRESS aumenta debido al sobre ajuste del modelo.

Page 68: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

64

En la figura 6.2.1 se ha representado el valor de PRESS, para PLSR y PCR, frente al número de LV’s para el caso del H2O. Cabe destacar que, a la matriz de datos de H2O, cuyo resultado se representa en la figura 6.2.1 a, no se les ha aplicado ningún tratamiento previo.

Figura 6.2.1 a PRESS individual y acumulado frente LV’s para PLSR y PC’s para PCR realizando un escalado de los datos para el caso del H2O.

Page 69: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

65

Pero como los procedimientos de reducción de variables no suelen aplicarse directamente a los datos originales, hemos vuelto a calcular el número óptimo de LV’s, para ambos métodos y así eliminar posibles efectos que puedan afectar a la descomposición. Concretamente hemos centrado los datos, y el resultado lo podemos ver en la figura 6.2.1 b.

Figura 6.2.1 b PRESS individual y acumulado frente LV’s para PLSR y PC’s para PCR realizando un centrado de los datos para el caso del H2O.

Pasamos entonces a valorar los resultados obtenidos. Se realizó la calibración de los modelos PLSR y PCR, a través del set de calibración compuesto por 45 muestras de agua, estudiando la variación del error estándar relativo de predicción para el bloque de muestras de calibración RSEP (C).

Para la realización de dicho estudio, se realizaron pruebas en ambos modelos, cambiando el número de componentes principales del PLSR y PCR y aplicando tratamientos previos a la calibración de los datos (centrado, auto escalado, sin tratamiento).

Page 70: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

66

En la tabla 6.2.2 podemos observar las diferencias entre los diferentes modelos PLSR y PCR estudiados, en función, de los tratamientos previos aplicados a los datos de calibración y validación para el H2O, y de los componentes principales (LV’s) escogidos.

Método PLSR PCR PLSR PCR PLSR PCR PLSR PCR PLSR PCR PLSR PCR

Error RSEP(C) RSEP(C) RSEP(C) RSEP(P) RSEP(P) RSEP(P)

Tratamiento previo

mncn set calibración

auto set calibración

Sin tratamiento

set calibración

mncn set validación

auto set validación

Sin tratamiento

set validación

3 LV’s 0.2 0.242 0.040 0.083 0.512 0.554 0.450 0.397 1.13 1.15 1.34 1.15

5 LV’s 0.35 0.343 0.405 0.389 0.066 0.083 0.562 0.640 0.98 0.95 0.96 0.95

7LV’s 0.0005 0.128 0.010 0.127 0.461 0.344 0.078 0.165 1.20 1.15 1.19 1.16

Tabla 6.2.2 Variación de los errores RSEP(C) y RSEP(P) para el caso del H2O.

Una vez estudiados los datos obtenidos, se escogió como mejor modelo aquel que presentaba el menor valor del error estándar relativo de predicción para el bloque de muestras de calibración, RSEP(C), y que usaba un número menor de componentes para la obtención de dicho error. Como se puede observar, los mejores resultados en ambos casos, se obtuvieron cuando se utilizaba como pretratamiento de los datos el centrado de éstos (mean center) y 7 componentes principales (LV’s).

Además, estos modelos de calibración, son también los que presentan una mejor capacidad predictiva de las muestras de H2O, con valores del error estándar relativo de predicción para el bloque de muestras del conjunto externo, RSEP(P)del 0.078% en el caso del PLSR y del 0.165% en el caso del PCR.

Para realizar la validación del modelo, escogimos un bloque de 12 de muestras de H2O, no utilizadas durante el proceso de calibración de los modelos.

Page 71: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

67

En la tabla 6.2.3 mostramos los resultados obtenidos al estudiar la capacidad predictiva de los modelos PLSR y PCR según hemos comentado anteriormente. En esta tabla, podemos observar por un lado, los valores de las concentraciones de referencia (valores analíticos de laboratorio), y por otro, los valores de las concentraciones que han sido calculadas (predichas) por los modelos PLSR y PCR, validando ambos modelos con un bloque de 12 muestras (matriz de validación) externo e independiente, a las muestras utilizadas en la etapa de calibración.

Concentración (%) peso de H2O PLSR PCR

Valores de referencia Set de muestras externo de validación

3.5200 3.2597 3.3217

5.1800 4.8977 4.9926

6.9400 7.0809 7.1187

7.2000 7.2922 7.3527

7.2300 7.3060 7.3523

7.4600 7.4874 7.3841

7.9300 8.1244 8.1959

8.3200 8.4414 8.4063

8.6100 8.5215 8.3806

9.1300 9.2717 9.3194

9.5300 9.4460 9.3913

10.0800 10.0011 9.9143

Tabla 6.2.3 Resultados predicción PLSR y PCR para el H2O.

Page 72: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

68

6.2.2 Estudio de los modelos PLSR y PCR para el caso del HCl.

Siguiendo el mismo proceso que el realizado para las muestras de H2O, vamos a estudiar ahora las muestras de HCl. Ejecutamos el programa plspcrsr.m y cargamos la matriz de muestras de HCl.

Una vez cargados los datos, para poder evaluar la capacidad de predicción del modelo a través de una validación cruzada (cross validation). Dividiremos el conjunto de muestras en diez segmentos, de esta forma el modelo se construirá tantas veces como segmentos hayamos escogido y para realizar la validación cruzada, utilizaremos el leave one out, tanto para el método PLSR como para el PCR.

Para seleccionar el número de componentes PLSR y PCR óptimos, estudiaremos ambos modelos con el método descrito por Wold [21], del mismo modo que hizo para las muestras de H2O.

En la figura 6.2.3a se ha representado el valor de PRESS, para PLSR y PCR, frente al número de LV’s (componentes principales) para el HCl, sin que se haya ha aplicado ningún tratamiento previo a los datos.

Figura 6.2.3 a PRESS individual y acumulado frente LV’s para PLSR y PC’s para PCR, para el caso del HCl sin

tratamiento previo.

Page 73: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

69

En la figura 6.2.3 b se ha representado el valor de PRESS, para PLSR y PCR, frente al número de LV’s (componentes principales) para el caso del HCl, aplicándoles un centrado a los datos y utilizando 7 LV’s.

Figura 6.2.3 b PRESS individual y acumulado frente LV’s para PLSR y PC’s para PCR realizando un centrado de

los datos para el caso del HCl.

Se ha realizado la calibración de los modelos PLSR y PCR, a través de la matriz de calibración, compuesta por 45 muestras de ácido clorhídrico, estudiando la variación del error estándar relativo de predicción para el bloque de muestras de calibración RSEP(C).

Para llevar a cabo de dicho estudio, se han probado ambos modelos (PLSR y PCR), variando el número de componentes principales escogidos y aplicando tratamientos previos a la calibración de los datos (centrado, auto escalado, sin tratamiento).

Page 74: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

70

En la tabla 6.2.4 podemos observar las diferencias entre los diferentes modelos PLSR y PCR estudiados, en función, de los tratamientos previos aplicados a los datos de calibración y validación para el caso del HCl, y de los componentes principales (LV’s) escogidos.

Método PLSR PCR PLSR PCR PLSR PCR PLSR PCR PLSR PCR PLSR PCR

Error RSEP(C) RSEP(C) RSEP(C) RSEP(P) RSEP(P) RSEP(P)

Tratamiento previo

mncn set calibración

auto set calibración

Sin tratamiento

set calibración

mncn set validación

auto set validación

Sin tratamiento

set validación

3 LV’s 1.003 1.063 1.100 1.183 7.90 7.88 0.798 0.836 2.568 2.63 7.80 7.81

5 LV’s 0.253 0.253 0.258 0.218 7.954 7.95 0.407 0.408 1.931 1.85 7.79 7.79

7LV’s 0.028 0.205 0.062 0.275 7.936 7.945 0.25 0.312 1.992 1.88 7.73 7.80

Tabla 6.2.4 Variación de los errores RSEP(C) y RSEP(P) para el caso del HCl.

Una vez estudiados los datos obtenidos, se escogió como mejor modelo aquel que presentaba el menor valor del error estándar relativo de predicción para el bloque de muestras de calibración, RSEP(C), y que usaba un número menor de componentes para la obtención de dicho error. Como se puede observar, los mejores resultados en ambos casos, se obtuvieron cuando se utilizaba como pretratamiento de los datos el centrado de éstos (mean center) y 7 componentes principales (LV’s).

Además, estos modelos de calibración, son también los que presentan una mejor capacidad predictiva para las muestras de HCl, con valores del error estándar relativo de predicción para el bloque de muestras externo, RSEP(P) del 0.25% en el caso del PLSR y del 0.312% en el caso del PCR.

Para realizar la validación interna del modelo, escogimos un bloque de 12 de muestras de HCl, no utilizadas durante el proceso de calibración de los modelos.

Page 75: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

71

En la tabla 6.2.5 mostramos los resultados obtenidos al estudiar la capacidad predictiva de los modelos PLSR y PCR según hemos comentado anteriormente. En esta tabla, podemos observar por un lado, los valores de las concentraciones de referencia de HCl (valores analíticos de laboratorio), y por otro, los valores de las concentraciones que han sido calculadas (predichas) por los modelos PLSR y PCR, validando ambos modelos con un bloque de 12 muestras (matriz de validación) externo e independiente, a las muestras utilizadas en la etapa de calibración.

Concentración (%) peso de HCl PLSR PCR

Valores de referencia Set de muestras externo de validación

33.5600 33.4772 33.2484

34.4900 34.4524 34.5132

36.7500 33.7811 33.6623

38.8600 38.5910 38.7308

39.8000 45.3449 45.0439

40.1000 39.6902 39.7885

41.7800 41.4098 41.5382

43.3400 43.3213 43.9691

46.7500 46.6604 46.4281

48.9600 48.6703 48.4558

50.1300 49.3722 49.4536

51.2700 51.0201 50.9580

Tabla 6.2.5 Resultados predicción PLSR y PCR para el HCl.

Page 76: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

72

6.2.3 Evaluación de la linealidad de los métodos de cuantificación estudiados para los casos de H2O y de HCl.

La validación de un procedimiento analítico como el que estamos estudiando en este proyecto, implica la evaluación de un conjunto de parámetros como la linealidad, robustez y exactitud.

La linealidad es la capacidad del método para proporcionar resultados que son directamente proporcionales a la concentración del analito en la muestra dentro de un intervalo de concentración establecido. Si una inspección visual del gráfico de la señal analítica en función del contenido de analito confirma que existe una relación lineal, los resultados pueden ser analizados mediante parámetros estadísticos, como una regresión lineal por mínimos cuadrados (coeficiente de correlación, ordenada en el origen, pendiente y error estándar relativo de la regresión). En el caso que la respuesta analítica no sea lineal con la concentración, ésta debe describirse por una función adecuada.

Como se ha comentado, en una calibración NIR el estudio de la linealidad es especialmente problemático. A diferencia de las calibraciones univariables, donde la linealidad se evalúa mediante la representación de la señal analítica frente a la concentración de analito, en un procedimiento NIR ésta se evalúa representado los valores encontrados por NIR frente a los encontrados por el método de referencia. Si en esta representación se obtiene una recta con pendiente unidad y ordenada en el origen cero, se asume que el método propuesto es lineal y no está sujeto a errores sistemáticos o de matriz respecto al intervalo de concentración estudiado.

Para realizar el estudio de la evolución de la linealidad de los modelos estudiados, tanto para el H2O, como para el HCl, se calculó la pendiente, el punto intercepto de la recta ideal con la recta de correlación (punto de intercepción) y la pendiente de la recta de correlación. Esto se hizo ejecutando el fichero correlación, cuyo contenido puede observarse en el anexo A de esta memoria.

En la figura 6.2.4 se muestra el efecto que tiene en la evaluación de la linealidad de las muestras utilizadas en la etapa de calibración para el caso del H2O. En la figura 6.2.4 a se observa la representación de los valores NIR frente a los valores de referencia para el bloque de 12 muestras de H2O independientes de las utilizadas en la calibración interna del modelo PLSR.

Page 77: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

73

En la figura 6.2.4 b se observa la representación de los valores NIR frente a los valores de referencia para el bloque de 12 muestras de H2O independientes de las utilizadas en la calibración del modelo PCR.

Figura 6.2.4 a Cuantificación del conjunto de predicción de 12 muestras de H2O con el modelo de

calibración PLSR.

Figura 6.2.4 b Cuantificación del conjunto de predicción de 12 muestras de H2O con el modelo de

calibración PCR.

Recta de predicción muestras H2O (PLSR). a= 1.0345 b= -0.26173 r= 0.9626

Recta de predicción muestras H2O (PCR). a= 1.0136 b= -0.1034 r= 0.9592

Page 78: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

74

En las dos figuras se pueden distinguir claramente dos rectas que muestran, como ya hemos explicado, la representación de los valores obtenidos por los modelos de calibración de los datos NIR, frente a los valores de referencia obtenidos en el laboratorio.

De estas dos figuras, se determina que la predicción de las muestras de H2O, utilizando los dos modelos de calibración, (PLSR y PCR), es una recta con pendiente unidad y ordenada en el origen cero.

En la recta de regresión de las muestras de H2O obtenidas para los modelos de calibración PLSR y PCR, se puede observar que casi todos los puntos (predicciones) están muy cerca de la recta, por lo que el coeficiente de correlación es muy parecido.

Estudiemos ahora los resultados de la evaluación de la linealidad de las muestras utilizadas en la etapa de calibración para el caso del HCl. En la figura 6.2.5 a se observa la representación de los valores NIR frente a los valores de referencia para el bloque de 12 muestras de HCl independientes de las utilizadas en la calibración del modelo PLSR.

Figura 6.2.5 a Cuantificación del conjunto de predicción de 12 muestras de HCl con el modelo de

calibración PLSR.

Recta de predicción muestras HCl (PLSR). a= 0.8762 b= 5.2213 r= 0.9824

Page 79: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

75

En la figura 6.2.5 b se observa la representación de los valores NIR frente a los valores de referencia para el bloque de 12 muestras de HCl independientes de las utilizadas en la calibración del modelo PCR.

Figura 6.2.5 b Cuantificación del conjunto de predicción de 12 muestras de HCl con el modelo de

calibración PCR

En las dos figuras se distinguen dos rectas que muestran la representación de los valores obtenidos por los modelos de calibración de los datos NIR, frente a los valores de referencia obtenidos en el laboratorio.

De la comparación de los resultados para el H2O y del HCl, deducimos que la predicción de las muestras de H2O determina una recta con pendiente unidad y ordenada en el origen cero para los dos modelos de calibración estudiados. Aunque la predicción de las muestras de HCl, (estudiada con los mismos modelos de calibración que en el caso del H2O), define una línea recta cuya pendiente y ordenada en el origen son sensiblemente diferentes de uno y cero respectivamente.

Recta de predicción muestras HCl (PCR). a= 0.8730 b= 5.3646 r= 0.9811

Page 80: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

76

6.2.4. Conclusiones.

Una vez realizados los estudios de los modelos de calibración PLSR y PCR para dos bloques de muestras (H2O y HCL) sin realizar selección de variables, vemos que ambas estrategias de calibración nos proporcionan resultados muy buenos a la hora de predecir las concentraciones de los componentes a medir.

Esta capacidad predictiva de los modelos, se evalúa mediante el análisis de la linealidad en la validación del procedimiento, utilizando un bloque de 12 muestras, las cuales no pertenecen al bloque de 45 muestras utilizadas en la calibración interna del modelo, aunque son de la misma naturaleza es decir, se han obtenido a través de un espectrofotómetro FT-NIR y cuyo (concentración de H2O ó HCL) se ha obtenido del análisis a través de un método de referencia en el laboratorio.

Se observa también, que los resultados d el estudio en el caso del H2O son ligeramente mejores que los obtenidos en el caso del HCl. Esto se debe a que al procesar los datos y con la intención inicial de simplificar el proceso de calibración se han eliminado de la matriz espectral aquellas zonas donde los sobretonos y las bandas de combinación de los enlaces OH y C-H, no presentan absorción de la radiación.

De esta forma, el intervalo de longitudes de onda de trabajo para el caso del HCl ha quedado delimitado por dos intervalos: 11995.9 - 11340.1 cm-1 y 10688.3 - 5446.4 cm-1. Esto quiere decir, que si se hubiesen elegido otras longitudes de onda, el resultado podría haber mejorado. Aunque esto lo veremos con mayor claridad en los siguientes apartados, cuando abordemos el tema de la selección de variables.

Page 81: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

77

6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de un método de selección de variables basado en el criterio de la varianza.

6.3.1 Introducción. Para llevar a cabo los estudios de los modelos de calibración utilizando algoritmos PLSR y PCR [18] respectivamente, una vez realizada la selección de variables basada en el criterio de la varianza, se creó un fichero en entorno Matlab llamado selvar.m, cuyo listado se puede ver en el anexo A de esta memoria. Con la ejecución de este programa se realiza una selección de variables obteniendo de este modo una nueva matriz de datos, en la que se reduce considerablemente el número de variables que inicialmente teníamos en el bloque de datos.

Estos bloques constan cada uno, de dos matrices de datos, uno es utilizado para la calibración del modelo y otro para la validación de éste. Como recordatorio, decir que para la calibración de los modelos del apartado anterior, se utilizó una matriz de 45 muestras XHCl con 38385 variables para el caso del ácido clorhídrico (853 longitudes de onda × 45 muestras) y otra matriz de 45 muestras XH2O con 31320 variables para el caso del agua (696 longitudes de onda × 45 muestras). Para llevar a cabo el proceso de validación de los modelos, se utilizaron dos matrices de 12 muestras, independientes de las utilizadas en el proceso de calibración. La primera matriz era la de las muestras de HCl, XHCltest con 10236 variables (853 longitudes de onda × 12 muestras) y la otra matriz, era la que contenía muestras de H2O, XH2Otest con 8352 variables (696 longitudes de onda × 12 muestras). Será a estas matrices a las que se les aplicó el criterio de la varianza, para realizar la selección de variables y obtener así las nuevas matrices de datos reducidas, XHclred, XH2Ored, XHcltestred,

XH2Otestred.

Una vez se tienen las matrices reducidas, se volverán a calcular los modelos PLSR y el PCR de forma simultánea, mediante la ejecución del fichero plspcrsr.m.

6.3.2 Estudio del método de selección de variables basado en el criterio de la varianza, aplicado a los modelos de calibración PLSR y PCR para el caso del H2O.

El estudio para la selección de variables basado en el criterio de la varianza, pasa por la ejecución del programa selvar.m (se ejecuta en entorno Matlab).

Page 82: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

78

Para obtener las matrices reducidas XH2Ored, XH2Otestred, lo primero que se hizo fue crear tres matrices nuevas a partir de la matriz XH2O (696 longitudes de onda × 45 muestras). Como la matriz XH2O está formada por 45 muestras que cubren el máximo de variabilidad normal de las muestras de proceso, se dividió por tres el número de muestras de la matriz XH2O, obteniendo así tres grupos de quince muestras cada uno. Cada uno de estos grupos representaba a unos valores de concentración dentro de este margen de variabilidad.

De este modo se crearon tres nuevas matrices a partir de la matriz XH2O, llamadas cb, cm y ca, las cuales describen tres clases distintas. Estas matrices están formadas cada una de ellas por 15 muestras y tienen la siguiente estructura:

• Con las 15 primeras muestras de la matriz XH2O, se formó la matriz cb, que tiene 10440 variables (696 longitudes de onda × 15 muestras), y que describe a las muestras de la clase concentración baja.

• Con las 15 segundas muestras de la matriz XH2O, se formó la matriz cm, que tiene 10440 variables (696 longitudes de onda × 15 muestras), y que describe a las muestras de la clase concentración media.

• Con las 15 terceras muestras de la matriz XH2O, se formó la matriz ca, que tiene 10440 variables (696 longitudes de onda × 15 muestras), y que describe a las muestras de la clase concentración alta.

Una vez creadas éstas matrices, se calcularon las varianzas intraclase e interclase respectivamente, y una vez obtenidas se calculó un factor de mérito FM. A partir de aquí, se confeccionó la nueva matriz de datos reducida XH2Ored, para realizar los estudios con los modelos de calibración PLSR y PCR. Esta nueva matriz de datos reducida se formó escogiendo las longitudes de onda que tenían un factor de mérito mayor, ya que estas variables son las que nos aportarán más información a la hora de estudiar los modelos PLSR y PCR.

Se realizaron varias pruebas de los modelos variando el número de variables seleccionadas (eligiendo las 100 mejores, las 150 mejores, las 200 mejores). Los mejores resultados de los modelos se obtuvieron1 escogiendo las 150 primeras variables de la matriz estudiada y cuyos resultados se detallan a continuación.

1 Se llegó a un compromiso entre escoger el mínimo número de variables y la obtención de los

mejores resultados del estudio de linealidad del modelo, tanto para el caso del H2O, como para el HCl.

Page 83: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

79

Se formaron dos matrices de datos reducidas, XH2Ored, con 6750 variables (150 longitudes de onda × 45 muestras), y XH2Otestred, con 1800 variables (150 longitudes de onda × 12 muestras). Siguiendo el mismo proceso que en el apartado 6.2.1 de esta memoria, se estudiaron las muestras de H2O, utilizando las nuevas matrices con un número reducido de variables y ejecutando el programa plspcrsr.m .

Una vez cargados los datos, para poder evaluar la capacidad de predicción del modelo utilizando la validación cruzada (cross validation), se dividió el conjunto de muestras en diez segmentos (de esta forma el modelo se construirá tantas veces como segmentos hayamos escogido) utilizando el leave one out, tanto para el método PLSR como para el PCR.

Para seleccionar el número de componentes PLSR y PCR óptimos, se estudiaron ambos modelos con el método descrito por Wold [21], como ya se hizo anteriormente.

En la figura 6.3.1 se ha representado el valor de PRESS, para PLSR y PCR, frente al número de LV’s (componentes principales) para el H2O, realizando un centrado de los datos (mean center).

Figura 6.3.1 PRESS individual y acumulado frente LV’s para PLSR y PC’s para PCR realizando un centrado de los

datos para el caso del H2O.

Page 84: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

80

Pasamos entonces a valorar los resultados obtenidos. Se realizó la calibración de los modelos PLSR y PCR, a través del bloque de datos compuesto por la nueva matriz reducida XH2Ored (150 longitudes de onda × 45 muestras) para el caso del H2O, estudiando la variación del error estándar relativo de predicción para el bloque de muestras de calibración RSEP (C).

Para la realización de dicho estudio, se probaron ambos modelos cambiando el número de componentes principales para PLSR y PCR y aplicando tratamientos previos a la calibración de los datos (centrado y auto escalado).

En la tabla 6.3.1 podemos observar las diferencias entre los diferentes estudios realizados con los modelos PLSR y PCR, en función, de los tratamientos previos aplicados a los datos de calibración y validación para el caso del H2O, y de los componentes principales (LV’s) escogidos.

Tratamiento previo Método

Componentes

(PLS o PCR) RSEP (C) RSEP (P)

Escalado (auto) PLSR 6 0.2776 0.115

Escalado (auto) PCR 8 1.3395 0.091

Centrado (mncn) PLSR 7 0.058 0.081

Centrado (mncn) PCR 8 0.110 0.088

Tabla 6.3.1 Variación de los errores RSEP(C) y RSEP(P) para el caso del H2O.

Una vez estudiados los datos obtenidos, se escogió como mejor modelo el que presentó el menor valor del error estándar relativo de predicción para el bloque de muestras de calibración, RSEP(C), y que usaba un número menor de componentes, para la obtención de dicho error. Como se puede observar en la tabla 6.3.1, los mejores resultados, en ambos casos, se obtuvieron cuando se utilizaba como pretratamiento de los datos el centrado de éstos (mean center) y 7 componentes principales (LV’s) para el modelo PLSR y 8 componentes para el modelo PCR.

Page 85: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

81

Además, estos modelos de calibración, son también los que presentan una mejor capacidad predictiva para las muestras de H2O con valores del error estándar relativo de predicción para el bloque de muestras externo, RSEP(P) del 0.081% en el caso del PLSR y del 0.088% en el caso del PCR.

En la tabla 6.3.2 mostramos los resultados obtenidos al estudiar la capacidad predictiva de los modelos PLSR y PCR, partiendo de un bloque de 12 de muestras de H2O, con 1800 variables (150 longitudes de onda × 12 muestras), no utilizadas durante el proceso de calibración interna de los modelos.

Concentración (%) peso de H2O PLSR PCR

Valores de referencia Set de muestras externo de validación

3.5200 3.2665 3.2192

5.1800 4.8190 4.7878

6.9400 7.0328 6.9432

7.2000 7.2338 7.2552

7.2300 7.3063 7.3281

7.4600 7.6207 7.5101

7.9300 8.1507 8.0571

8.3200 8.5684 8.5948

8.6100 8.5250 8.5585

9.1300 9.2746 9.2997

9.5300 9.3081 9.4337

10.0800 9.9988 10.1678

Tabla 6.3.2 Resultados predicción PLSR y PCR para el HCl.

Page 86: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

82

6.3.3 Estudio del método de selección de variables basado en el criterio de la varianza, aplicado a los modelos de calibración PLSR y PCR para el caso del HCl.

Para la obtención de las matrices reducidas XHClred, XHCltestred, se realizó el mismo proceso que para obtener la matriz de H2O.

Se crearon dos nuevas matrices de datos reducidas, XHClred, que tiene 6750 variables (150 longitudes de onda × 45 muestras), y XHCltestred, que tiene 1800 variables (150 longitudes de onda × 12 muestras). Posteriormente a la creación de las nuevas matrices, se ejecutó el programa plspcrsr.m .y se evaluó la capacidad de predicción del modelo utilizando la validación cruzada (cross validation), dividiendo el conjunto de muestras en diez segmentos, y utilizando leave one out, tanto para el método PLSR como para el PCR.

En la figura 6.3.3 se ha representado el valor de PRESS, para PLSR y PCR, frente al número de LV’s (componentes principales) para el HCl, realizando un centrado de los datos (mean center).

Figura 6.3.3 PRESS individual y acumulado frente LV’s para PLSR y PC’s para PCR realizando un centrado de los

datos para el caso del HCl.

Page 87: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

83

Se realizó la calibración y validación de los modelos PLSR y PCR, a través del bloque, compuesto por la nueva matriz de datos reducida XHClred (150 longitudes de onda × 45 muestras), estudiando la variación del error estudiando la variación del error estándar relativo de predicción para el bloque de muestras de calibración RSEP(C) y por una nueva matriz de datos reducida XHCltestred (150 longitudes de onda × 12 muestras), cuyas muestras no se utilizaron para calibrar internamente el modelo, estudiando la variación del error estándar relativo de predicción para el bloque de muestras externo RSEP(P).

Para la realización de dicho estudio, se realizaron pruebas en ambos modelos, cambiando el número de componentes principales PLSR y PCR y aplicando tratamientos previos a la calibración de los datos (centrado y auto escalado).

En la tabla 6.3.4 podemos observar las diferencias entre los diferentes modelos PLSR y PCR estudiados, en función, de los tratamientos previos aplicados a los datos de calibración y validación, y de los componentes principales (LV’s) escogidos para el caso del HCl.

Tratamiento previo Método

Componentes

(PLS o PCR) RMSEC (%) RMSEP (%)

Escalado (auto) PLSR 8 0.015 0.792

Escalado (auto) PCR 6 0.113 1.216

Centrado (mncn) PLSR 8 0.009 0.024

Centrado (mncn) PCR 6 0.101 0.262

Tabla 6.3.4 Variación de los errores RSEP(C) y RSEP(P) para el caso del HCl.

Se realizó un estudio de los resultados escogiendo como mejor modelo el que presentaba el menor valor del error estándar relativo de predicción para el bloque de muestras de calibración, RSEP(C) y que usaba un número menor de componentes, para la obtención de dicho error. Como se puede observar, los mejores resultados en ambos casos se obtuvieron cuando se utilizaba como pretratamiento de los datos el centrado de éstos (mean center) y, 8 componentes principales (LV’s) para el modelo PLSR y 6 componentes para el modelo PCR.

Page 88: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

84

Además, estos modelos de calibración, son también los que presentan una mejor capacidad predictiva para las muestras de HCl, con valores del error estándar relativo de predicción para el bloque de muestras externo, RSEP(P) del 0.024% en el caso del PLSR y del 0.262% en el caso del PCR.

En la tabla 6.3.5 mostramos los resultados obtenidos al estudiar la capacidad predictiva de los modelos PLSR y PCR, partiendo de un bloque de 12 de muestras de HCl, con 1800 variables (150 longitudes de onda × 12 muestras), no utilizadas durante el proceso de calibración interna de los modelos.

Concentración (%) peso de HCl PLSR PCR

Valores de referencia Set de muestras externo de validación

33.5600 34.0470 33.7113

34.4900 34.6316 34.6870

36.7500 33.8121 33.9461

38.8600 38.8613 39.5195

39.8000 42.1023 40.8817

40.1000 40.0926 40.5311

41.7800 41.6378 42.1233

43.3400 43.4481 43.3549

46.7500 46.2773 46.5623

48.9600 49.0038 49.3737

50.1300 50.5815 50.0914

51.2700 51.2945 51.0077

Tabla 6.3.5 Resultados predicción PLSR y PCR para el HCl.

Page 89: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

85

6.3.4 Evaluación de la linealidad de los métodos de cuantificación estudiados a través del método de selección de variables basado en el criterio de la varianza para los casos de H2O y de HCl.

La evaluación de la linealidad, como ya hemos explicado, es un parámetro importante, ya que demuestra que el modelo no sólo cuantifica bien las muestras de producción cuyo contenido real coincide con el definido por las especificaciones que nos marca el laboratorio, sino también todas aquellas muestras cuyo contenido difiere de él, tanto si están dentro de los márgenes tolerados, como ligeramente por encima o por debajo. El margen de concentración queda necesariamente prefijado, ya que no es posible cuantificar muestras fuera del intervalo cubierto en la calibración.

Para realizar el estudio de la evolución de la linealidad de los modelos, tanto para el H2O como para el HCl, se utilizaron las nuevas matrices de datos reducidas, obtenidas después de realizar la selección de las variables más significativas, por el método basado en el criterio de la varianza. Se calculó la pendiente, el punto intercepto de la recta ideal con la recta de correlación (punto de intercepción) y la pendiente de la recta de correlación. Esto se hizo ejecutando el fichero correlación.

La figura 6.3.4 consta de dos figuras, en las que se muestra el efecto que tiene en la evaluación de la linealidad en las muestras utilizadas en la etapa de calibración para ambos modelos, PLSR y PCR, para el caso del H2O. En la figura 6.3.4 a se observa la representación de los valores NIR frente a los valores de referencia para el bloque de 12 muestras de H2O independientes de las utilizadas en la calibración del modelo PLSR.

Page 90: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

86

En la figura 6.3.4 b se observa la representación de los valores NIR frente a los valores de referencia para el bloque de 12 muestras de H2O independientes de las utilizadas en la calibración del modelo PCR.

Figura 6.3.4 a Cuantificación del conjunto de predicción de 12 muestras de H2O con el modelo de

calibración PLSR.

Figura 6.3.4 b Cuantificación del conjunto de predicción de 12 muestras de H2O con el modelo de

calibración PCR.

Recta de predicción muestras H2O (PLSR). a= 1.0425 b= -0.3228 r= 0.9954

Recta de predicción muestras H2O (PCR). a= 1.0687 b= -0.5216 r= 0.9975

Page 91: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

87

En las dos figuras se pueden distinguir dos rectas que representan los valores obtenidos por los modelos de calibración de los datos NIR, frente a los valores de referencia obtenidos en el laboratorio. Aquí se determina que la predicción de las muestras de H2O, utilizando los dos modelos de calibración, (PLSR y PCR), es una recta con pendiente unidad y ordenada en el origen cero.

Tanto en la recta de regresión para las muestras de H2O, obtenidas para los modelos de calibración PLSR y PCR, se observa, que tienen casi todos sus puntos (predicciones) muy cercanos a la recta, por lo que el coeficiente de correlación es muy parecido, 0.9954 para el modelo PLSR y 0.9975 para el modelo PCR.

Estudiemos ahora los resultados de la evaluación de la linealidad de las muestras utilizadas en la etapa de calibración para el caso del HCl. En la figura 6.3.5 a se observa la representación de los valores NIR frente a los valores de referencia para el bloque de 12 muestras de HCl independientes de las utilizadas en la calibración del modelo PLSR.

Figura 6.3.5 a Cuantificación del conjunto de predicción de 12 muestras de HCl con el modelo de

calibración PLSR.

Recta de predicción muestras HCl (PLSR). a= 1.0184 b= -0.7758 r= 0.9829

Page 92: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

88

En la figura 6.3.5 b se observa la representación de los valores NIR frente a los valores de referencia para el bloque de 12 muestras de HCl independientes de las utilizadas en la calibración del modelo PCR.

Figura 6.3.5 b Cuantificación del conjunto de predicción de 12 muestras de HCl con el modelo de

calibración PCR

Aquí también podemos distinguir las dos rectas, que muestran la representación de los valores obtenidos por los modelos de calibración de los datos NIR, frente a los valores de referencia obtenidos en el laboratorio, en este caso para el HCl..

De la comparación de los resultados para el H2O y del HCl, vemos que la predicción de las muestras para el caso del H2O determina una recta con pendiente unidad y ordenada muy cercana al origen en cero, y que para el caso del HCl, existe una pequeña desviación tanto para el modelo PLSR como para el PCR.

Recta de predicción muestras HCl (PCR). a= 1.015 b= -0.6227 r= 0.988

Page 93: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

89

6.3.5 Conclusiones.

Una vez realizado el estudio de la evolución de la linealidad de los modelos estudiados, tanto para el H2O, como para el HCl, utilizando las nuevas matrices de datos reducidas obtenidas después de seleccionar las variables más significativas, a través del criterio de la varianza, vemos que ambas estrategias de calibración (PLSR y PCR), nos proporcionan resultados muy buenos a la hora de predecir las concentraciones de los componentes a medir.

Esta capacidad predictiva de los modelos, se evaluó mediante el análisis de la linealidad en la validación del procedimiento utilizando un bloque de 12 muestras, las cuales no pertenecían al bloque de 45 muestras utilizadas en la calibración interna del modelo. Cabe destacar que las muestras eran de la misma naturaleza, es decir, se habían obtenido a través de un espectrofotómetro FT-NIR y cuyo valor analítico (concentración de H2O ó HCL) se obtuvo del análisis a través de un método de referencia en el laboratorio.

En las figuras 6.3.4 y 6.3.5, se ha representado la evaluación de la linealidad de los modelos estudiados (PLSR y PCR), frente a los encontrados por el método de referencia, los resultados analíticos de laboratorio.

Para ambos modelos se obtiene una recta con pendiente unidad y ordenada en el origen cero, con una pequeña desviación en el caso del HCl, aunque los resultados obtenidos pueden considerarse como buenos, ya que el error de predicción de las muestras no supera el 10% en ninguna de las muestras. Es por este motivo por el que se asume que el método propuesto es lineal y no está sujeto a errores sistemáticos o de matriz respecto al intervalo de concentración estudiado, mejorando así los resultados obtenidos en el apartado 6.2 de esta memoria.

Page 94: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

90

6.4 Estudio de los modelos PLSR y PCR a partir del desarrollo de un método de selección de variables basado en un algoritmo genético.

6.4.1 Introducción. Los estudios sobre la selección de variables basada en un algoritmo genético, se realizaron con la ejecución del programa gaselctr.m, que se encuentra junto a las funciones asociadas en el paquete multivariante PLS toolbox 2.0 [24]. El programa gaselctr.m implementa una selección de variables con vista a construir modelos predictivos tipo PLSR y PCR. El listado de este programa se podrá ver en el anexo A de esta memoria.

El programa gaselctr.m tiene como entradas los siguientes datos:

• Matriz de datos

• Matriz de targets.

• Tamaño de la población (np), que puede ir de 16 hasta 256 y ha de ser divisible por 4. Este tamaño nos dará el número de individuos uqe se deberán considerar y evaluar en cada iteración.

• Máximo número de iteraciones (mg), donde el mínimo será 25 y el máximo 500.

• Valor de la mutación (mt), que puede tomar valores típicos de 0.001 a 0.01. Si el valor de la mutación es pequeño se conseguirán duplicaciones mucho más rápidas.

• Número de variables en la ventana (wn), el cual influye directamente en el número de columnas de la matriz pop. Nos interesa que sea igual a 1, para que así se corresponda con la matriz de datos.

• Tanto por ciento de la población igual a la convergencia (cn), que será utilizado para saber el número máximo de duplicados que pueda haber.

• Tanto por ciento de términos incluidos en la inicialización (bf). Puede tomar valores entre 10 y 50 y sirve para generar la población inicial.

• Normas de cria cruzada (cr). Puede ser simple=1 ó doble=2. Sirve para criar la mejor mitad de la población y sustituir la otra mitad.

• Máximo número de variables latentes para los modelos PLSR y PCR (ml), ya se ha visto la forma de calcularlos en apartados anteriores.

• Opción de validación cruzada (cv). Si es 0 será aleatoria, y si es 1 serán bloques contiguos.

Page 95: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

91

• Número de subconjuntos a utilizar en validación cruzada PLS (sp), es decir, número de subconjuntos que serán iterativamente utilizados para evaluar el “fitness” de cada miembro de la población.

• Número de iteraciones para la validación cruzada en cada generación (it).

Las salidas de la función serán:

• Una única población para cualquier conversión o máxima generación (pop).

• Error de validación para cada población de pop (fit), el mejor error dentro de fit se llama fitness.

Anteriormente se realizó una normalización de las de datos y de targets, utilizando la función mncn, centrado de las matrices.

6.4.2 Estudio del método de selección de variables basado en un algoritmo genético, acoplado a los modelos de calibración PLSR y PCR para el caso del H2O.

El estudio para la selección de variables basado en un algoritmo genético, se realizó ejecutando el programa gaselectr.m.

Antes de la ejecución del programa, se introdujeron las entradas de la función, sabiendo que hay alguna variable como es el caso del tamaño de la población (np) que aumenta el tiempo de ejecución sí el valor es muy elevado. Por este motivo se consideró que el valor que se le dio para realizar cada una de las pruebas, fue suficiente para obtener buenos resultados. Este valor fue np=128. También interesa tener el máximo número de términos incluidos en la inicialización (bf), y conseguir de este modo que la población pueda converger lo antes posible. Se considera que con un número de generaciones (mg) concreto, la población converge hacia un resultado medianamente bueno.

Otra de las variables de entrada a la función muy importante es el valor de la mutación (mt). Este valor interesa que no sea ni muy grande ni muy pequeño. Si el valor de la mutación fuese pequeño se conseguirán duplicaciones mucho más rápidas, en cambio si el valor de la mutación es grande, se podría llegar a producir una deriva genética. En definitiva, se ha de llegar a un criterio entre todas las variables de entrada.

Page 96: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

92

Por lo tanto nos interesará que la nueva matriz de datos que vamos a obtener, tenga el menor número posible de variables, pero que estas variables contengan la información más relevante para poder estudiar los modelos de calibración posteriormente.

Otra de las cosas que hemos de tener en cuenta y que difiere respecto a los modelos estudiados en los apartados anteriores, es la matriz de targets. Esta matriz de estar compuesta de un número de muestras concreto y una única columna. Cada una de estas muestras, deberá ser un número entero que hará referencia a las diferentes clases.

Como recordatorio y según lo explicado en el apartado 6.3.2 de esta memoria, se crearon tres nuevas matrices a partir de la matriz XH2O, llamadas cb, cm y ca, las cuales describen tres clases distintas. Estas matrices se formaron cada una de ellas por 15 muestras y tenían la siguiente estructura:

• Con las 15 primeras muestras de la matriz XH2O, se formó la matriz cb, que tiene 10440 variables (696 longitudes de onda × 15 muestras), y que describe a las muestras de la clase concentración baja.

• Con las 15 segundas muestras de la matriz XH2O, se formó la matriz cm, que tiene 10440 variables (696 longitudes de onda × 15 muestras), y que describe a las muestras de la clase concentración media.

• Con las 15 terceras muestras de la matriz XH2O, se formó la matriz ca, que tiene 10440 variables (696 longitudes de onda × 15 muestras), y que describe a las muestras de la clase concentración alta.

Page 97: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

93

En la tabla 6.4.1 se puede ver un ejemplo de como se puede formar la matriz de targets para el programa gaselectr.m. Como vemos se trata de 9 muestras, las cuales corresponden a 3 clases diferentes. Por tanto la matriz de targets tendrá tres clases y una columna.

Clases

1

1

1

2

2

2

3

3

Muestras

3

Tabla 6.4.1 Ejemplo matriz de targets.

Una vez creada la matriz de targets, se creó también la nueva matriz de datos reducida, XH2Ored, con 6750 variables (150 longitudes de onda × 45 muestras). Esta será la matriz de datos que utilizaremos como entrada a la hora de ejecutar el programa.

Por lo tanto las entradas del programa gaselectr fueron las siguientes:

• Matriz de datos: XH2Ored, con 6750 variables (150 longitudes de onda × 45 muestras).

• Matriz de targets: Tendrá tres clases, 45 muestras (una columna).

• Tamaño de la población: (np=128).

• Máximo número de generaciones (mg=200).

• Valor de la mutación: (mt=0.005)

• Número de varialbes de la ventana: (wn=1)

• Tanto por ciento de población igual a la convergencia: (cn=80).

Page 98: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

94

• Términos incluidos en la inicialización: (bf=50)

• Regla de reproducción: (cr=2)

• Máximo número de variables latentes para el modelo PLS: (lv=10)

• Opción de validación: (cv=1)

• Número de subconjuntos en validación cruzada: (sp=10)

• Número de iteraciones para la validación en cada generación: (it=1).

Cuando se ejecute el programa gaselectr.m, para cada generación, se crearán cuatro gráficas. Una vez hayan acabado de realizarse todas las generaciones, en dos de estas gráficas se podrá ver la evolución que han sufrido algunas variables, y en las otras dos se podrá ver el resultado obtenido en la última generación. Vamos a explicar con más detalle cada una de las cuatro gráficas.

En la primera gráfica, se hará una relación entre fit y la suma de la matriz pop traspuesta, es decir, cada valor de fit tendrá asignado un valor de pop. Estas relaciones dan como resultado unos puntos que estarán marcados mediante un circulo. El eje de las X representará los valores de pop y el eje Y representará los valores de fit. En esta gráfica se podrá observar el resultado obtenido en una generación en concreto.

En la segunda gráfica, se observará la evolución que se producirá en fit, representado en cada generación el mejor fitness (valor de fit más bajo) y la media de fit. El eje de las X representará las generaciones y el eje de las Y representará la media y el mejor fitness de fit.

La tercera gráfica representará la media de la población incluida en cada generación, representando el eje de la X las generaciones y el eje de las Y representará la media de la población incluida en cada generación.

En la cuarta gráfica se podrá observar un diagrama de barras, donde cada barra hará referencia a una columna de la matriz pop. Las barras se construirán a partir del número de unos que tenga cada columna de la matriz pop. El eje de las X representará las columnas de pop y el eje de las Y representará el número de unos que tiene cada columna. En esta gráfica se podrá ver el resultado obtenido para una generación en concreto.

Page 99: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

95

En la gráfica número 3 de la figura 6.4.1 se representa la evolución del número de variables en cada generación y se pude observar, que se necesitan hacerse las doscientas generaciones para poder obtener los resultados de fit y pop. También puede apreciarse en la gráfica número 4 de la misma figura, que más de la mitad de las columnas de la matriz pop son cero en la generación doscientos, lo que nos facilitará el cálculo de la nueva matriz de datos reducida.

Figura 6.4.1 Evolución gráfica al ejecutar el programa gaselectr para el caso del H2O.

Estudiando los resultados obtenidos, vemos que tenemos una matriz pop (única población para cualquier conversión o máxima generación), y una matriz fit (fitness, el mejor error de validación para cada población de pop).

Page 100: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

96

La matriz fit obtenida como resultado de ejecutar el programa gaselectr, tiene una fila y ochenta y ocho columnas. En la tabla 6.4.3 se muestran únicamente las once primeras columnas ya que únicamente nos interesa el mejor fitness, es decir, el menor error de validación para cada población. En el caso del H2O, el mejor fitness será 0.2756.

Columns 1 through 11

0.2756 0.2762 0.2763 0.2766 0.2769 0.2770 0.2778 0.2779 0.2780 0.2781 0.2782

Tabla 6.4.3 Once primeras columnas de la matriz fit para el caso del H2O.

Una vez tengamos las dos matrices pop y fit, y evaluados los resultados, se ha de crear la nueva matriz de datos reducida, a la que llamaremos XH2Oga. Para crear esta matriz, escogeremos el valor de fit más pequeño, es decir el mejor fitness según hemos explicado anteriormente. Si hubieran varias columnas con el mismo fitness, entonces se sumarían las filas de pop que estén asociada a estos valores de fitness y entonces se verá cual es el valor más bajo.

La fila de la matriz pop a la que hará referencia el mejor fitness, será la que nos sirva para crear la nueva matriz. De esta nueva matriz XH2Oga se extraerá el nuevo error que deberá ser inferior al calculado con la matriz inicial XH2Ored.

Para obtener de la nueva matriz XH2Oga , se creó un programa matredga.m, para poder ejecutar la función matredga y que tendrá como parámetros de entrada:

• Matriz de datos XH2Ored.

• Matriz de población pop.

• Número de la columna de fit que tenga el mejor fitness.

Los parámetros de salida de la función serán:

• Nueva matriz de datos reducida XH2Oga.

Page 101: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

97

Del mismo modo actuaremos para crear la nueva matriz de datos reducida XH2Otestredga para validar los modelos de calibración PLSR y PCR. El código de la función matredga.m se puede observar en el anexo A de esta memoria.

Se obtuvieron dos nuevas matrices de datos reducidas, XH2Oredga, con 1845 variables (41 longitudes de onda × 45 muestras), y XH2Otestredga, con 492 variables (41 longitudes de onda × 12 muestras). Siguiendo el mismo proceso que en el apartado 6.2.1 de este capitulo, se estudiaron las muestras de H2O, utilizando las nuevas matrices y se ejecutó el programa plspcrsr.m.

En la figura 6.4.4 se ha representado el valor de PRESS, para PLSR y PCR, frente al número de LV’s (componentes principales) para el H2O, realizando un centrado de los datos (mean center).

Figura 6.4.4 RMSECV y RMSEC frente LV’s para PLSR y PCR realizando un centrado de los datos para el caso

del H2O.

Page 102: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

98

Pasamos entonces a valorar los resultados obtenidos. Se realizó la calibración de los modelos PLSR y PCR, a través del bloque de datos compuesto por la nueva matriz reducida XH2Oredga (41 longitudes de onda × 45 muestras) para el caso del H2O, estudiando la variación del error estándar relativo de predicción para el bloque de muestras de calibración RSEP (C).

Para la realización de dicho estudio, se probaron ambos modelos, cambiando el número de componentes principales del PLSR y PCR y aplicando tratamientos previos a la calibración de los datos (centrado y auto escalado).

En la tabla 6.4.5 podemos observar las diferencias entre los diferentes estudios realizados con los modelos PLSR y PCR, en función, de los tratamientos previos aplicados a los datos de calibración y validación para el caso del H2O, y de los componentes principales (LV’s) escogidos.

Tratamiento previo Método

Componentes

(PLS o PCR) RSEP (C) RSEP (P)

Escalado (auto) PLSR 7 0.1599 0.5324

Escalado (auto) PCR 8 0.1909 0.5799

Escalado (auto) PLSR 8 0.1408 0.5127

Escalado (auto) PCR 9 0.1804 0.5516

Centrado (mncn) PLSR 6 0.2010 0.2340

Centrado (mncn) PCR 7 0.2150 0.2328

Centrado (mncn) PLSR 7 0.1716 0.2367

Centrado (mncn) PCR 8 0.2009 0.2240

Tabla 6.4.5 Variación de los errores RSEP(C) y RSEP(P) para el caso del H2O.

Page 103: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

99

Una vez estudiados los datos obtenidos mostrados en la tabla 6.4.5, se escogió como mejor modelo el que presentó el menor valor del error estándar relativo de predicción para el bloque de muestras de calibración, RSEP (C) y que usaba un número menor de componentes, es decir, se escogió como pretratamiento de los datos el centrado (mean center) y 6 componentes principales (LV’s) para el modelo PLSR y 8 componentes para el modelo PCR.

Además, estos modelos de calibración, son también los que presentan una mejor capacidad predictiva con valores del error estándar relativo de predicción para el bloque de muestras externo, RSEP (P) del 0.2340% en el caso del PLSR y del 0.2240% en el caso del PCR.

En la tabla 6.4.6 mostramos los resultados obtenidos al estudiar la capacidad predictiva de los modelos PLSR y PCR, partiendo del bloque de 12 de muestras de H2O, con 492 variables (41 longitudes de onda × 12 muestras), no utilizadas durante el proceso de calibración interna de los modelos.

Concentración (%) peso de H2O PLSR PCR

Valores de referencia Set de muestras externo de validación

3.5200 3.2719 3.2337

5.1800 4.7653 4.7150

6.9400 6.9862 6.9904

7.2000 7.1560 7.1794

7.2300 7.0488 7.0795

7.4600 7.7573 7.7614

7.9300 8.2477 8.1931

8.3200 8.5585 8.5531

8.6100 8.7718 8.7774

9.1300 9.2715 9.2145

9.5300 9.2235 9.3610

10.0800 10.0716 10.0715

Tabla 6.4.6 Resultados predicción PLSR y PCR para el HCl.

Page 104: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

100

6.4.3 Estudio del método de selección de variables basado en un algoritmo genético, acoplado a los modelos de calibración PLSR y PCR para el caso del HCl.

El estudio para la selección de variables basado en un algoritmo genético para el caso del HCl, se realizó del mismo modo que para el caso del H2O, ejecutando el programa gaselectr.m que se encuentra en el paquete multivariante PLS toolbox 2.0 y que funciona bajo el entorno Matlab.

La matriz de targets se creó del mismo modo que para el caso del H2O, es decir deberá estar compuesta de un número de muestras concreto y una única columna. Cada una de estas muestras, deberá ser un número entero que hará referencia a las diferentes clases. Según lo explicado en el apartado 6.3.2 de este capítulo, se crearon tres nuevas matrices a partir de la matriz XHCl, llamadas cb, cm y ca, las cuales describen tres clases distintas. Estas matrices se formaron cada una de ellas por 15 muestras y tenían la siguiente estructura:

• Con las 15 primeras muestras de la matriz XHCl, se formó la matriz cb, que tiene 12795 variables (853 longitudes de onda × 15 muestras), y que describe a las muestras de la clase concentración baja.

• Con las 15 segundas muestras de la matriz XH2O, se formó la matriz cm, que tiene 12795 variables (853 longitudes de onda × 15 muestras), y que describe a las muestras de la clase concentración media.

• Con las 15 terceras muestras de la matriz XH2O, se formó la matriz ca, que tiene 12795 variables (853 longitudes de onda × 15 muestras), y que describe a las muestras de la clase concentración alta.

Por tanto la matriz de targets, tendrá para el caso del HCl tres clases y cuarenta y cinco muestras (una columna).

Como matriz de datos de entrada para ejecutar el programa gaselectr.m se utilizó la nueva matriz reducida, XH2Ored, que se obtuvo del estudio realizado en el apartado 6.3.2 de esta memoria, y que está formada por 6750 variables (150 longitudes de onda × 45 muestras).

Page 105: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

101

Por lo tanto las entradas del programa gaselectr para el caso del HCl fueron las siguientes:

• Matriz de datos: XHClred, con 6750 variables (150 longitudes de onda × 45 muestras).

• Matriz de targets: Tendrá tres clases y cuarenta y cinco muestras (una columna).

• Tamaño de la población: (np=128).

• Máximo número de generaciones (mg=200).

• Valor de la mutación: (mt=0.005)

• Número de varialbes de la ventana: (wn=1)

• Tanto por ciento de población igual a la convergencia: (cn=80).

• Términos incluidos en la inicialización: (bf=50)

• Regla de reproducción: (cr=2)

• Máximo número de variables latentes para el modelo PLS: (lv=10)

• Opción de validación: (cv=1)

• Número de subconjuntos en validación cruzada: (sp=10)

• Número de iteraciones para la validación en cada generación: (it=1).

En la gráfica número 3 de la figura 6.4.5 se representa la evolución del número de variables en cada generación y se pude observar, que se necesitan hacerse las doscientas generaciones para poder obtener los resultados de fit y pop. También puede apreciarse en la gráfica número 4 de la misma figura, que prácticamente la mitad de las columnas de la matriz pop son cero en la generación doscientos, lo que nos facilitará el cálculo de la nueva matriz de datos reducida.

Page 106: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

102

Figura 6.4.5 Evolución gráfica al ejecutar el programa gaselectr para el caso del HCl.

Revisando los resultados vemos que se obtienen una matriz pop (única población para cualquier conversión o máxima generación), y una matriz fit (fitness, el mejor error de validación para cada población de pop).

La matriz fit obtenida como resultado de ejecutar el programa gaselectr, tiene una fila y noventa y seis columnas. En la tabla 6.4.7 se muestran únicamente las once primeras columnas ya que únicamente nos interesa el mejor fitness, es decir, el menor error de validación para cada población. En el caso del HCl, el mejor fitness será 0.1924.

Columns 1 through 11

0.1924 0.1926 0.1927 0.1930 0.1931 0.1934 0.1934 0.1934 0.1935 0.1936 0.1936

Tabla 6.4.7 Once primeras columnas de la matriz fit para el caso del HCl.

Page 107: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

103

Una vez tenemos las dos matrices pop y fit y se han evaluado los resultados, se ha de crear la nueva matriz de datos reducida, a la que llamaremos XHClga. Este proceso será idéntico al realizado para el caso del H2O. La fila de la matriz pop a la que hará referencia el mejor fitness, será la que nos sirva para crear la nueva matriz.

Para obtener de la nueva matriz XHClga, se utilizó el programa matredga.m, que tendrá como parámetros de entrada:

• Matriz de datos XHClred.

• Matriz de población pop.

• Número de la columna de fit que tenga el mejor fitness.

Los parámetros de salida de la función serán:

• Nueva matriz de datos reducida XHClga.

Del mismo modo actuaremos para crear la nueva matriz de datos reducida XHCltestga para validar los modelos de calibración PLSR y PCR.

Se obtuvieron así dos nuevas matrices de datos reducidas, XHClga, con 1485 variables (33 longitudes de onda × 45 muestras), y XH2Otestga, con 396 variables (33 longitudes de onda × 12 muestras). Ejecutando el programa plspcrsr.m evaluamos la capacidad de los modelos PLSR y PCR.

En la figura 6.4.6 se ha representado el valor de PRESS, para PLSR y PCR, frente al número de LV’s (componentes principales) para el HCl, realizando un centrado de los datos (mean center).

Page 108: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

104

Figura 6.4.6 RMSECV y RMSEC frente LV’s para PLSR y PCR realizando un centrado de los datos para el

caso del HCl.

Pasamos entonces a valorar los resultados obtenidos. Se realizó la calibración de los modelos PLSR y PCR, a través del bloque de datos compuesto por la nueva matriz reducida XClga (33 longitudes de onda × 45 muestras) para el caso del HCl, estudiando la variación del error estándar relativo de predicción para el bloque de muestras de calibración RSEP (C).

Para la realización de dicho estudio, se probaron ambos modelos, cambiando el número de componentes principales del PLSR y PCR y aplicando tratamientos previos a la calibración de los datos (centrado y auto escalado).

En la tabla 6.4.7 podemos observar las diferencias entre los diferentes estudios realizados con los modelos PLSR y PCR, en función, de los tratamientos previos aplicados a los datos de calibración y validación para el caso del H2O, y de los componentes principales (LV’s) escogidos.

Page 109: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

105

Tratamiento previo Método

Componentes

(PLS o PCR) RSEP(C) RSEP (P)

Escalado (auto) PLSR 6 0.3140 0.9716

Escalado (auto) PCR 6 0.3679 0.9717

Escalado (auto) PLSR 8 0.2588 1.0043

Escalado (auto) PCR 8 0.3397 0.9366

Centrado (mncn) PLSR 6 0.3132 1.0714

Centrado (mncn) PCR 6 0.3756 0.9561

Centrado (mncn) PLSR 9 0.2457 1.0925

Centrado (mncn) PCR 9 0.3068 1.1990

Tabla 6.4.7 Variación de los errores RSEP(C) y RSEP(P) para el caso del HCl.

Una vez estudiados los datos mostrados en la tabla 6.4.7, se escogió como mejor modelo el que presentó el menor valor del error estándar relativo de predicción para el bloque de muestras de calibración, RSEP (C) y que usaba un número menor de componentes. Como podemos observar en este caso, los mejores resultados, es decir un menor error, se obtienen realizando un escalado de los datos, eligiendo 6 componentes principales para el modelo PLSR. Aunque para el modelo PCR, se obtienen los mejores resultados realizando un centrado de los datos y eligiendo también 6 componentes principales.

De la misma forma, estos modelos de calibración, son también los que presentan una mejor capacidad predictiva con valores del error estándar relativo de predicción para el bloque de muestras externo, RSEP(P) ligeramente superiores a los obtenidos anteriormente. Estos errores son para el modelo PLSR 0.9716% y para el modelo PCR del 0.9561%.

Page 110: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

106

En la tabla 6.4.8 se muestran los resultados obtenidos al estudiar la capacidad predictiva de los modelos PLSR y PCR, partiendo del bloque de 12 de muestras de HCl, con 396 variables (33 longitudes de onda × 12 muestras), no utilizadas durante el proceso de calibración interna de los modelos.

Concentración (%) peso de H2O PLSR PCR

Valores de referencia Set de muestras externo de validación

33.5600 35.6022 33.8969

34.4900 35.1750 34.6830

36.7500 35.5671 33.9984

38.8600 40.0119 39.4111

39.8000 39.4585 41.2985

40.1000 40.8738 40.8414

41.7800 42.1377 41.9982

43.3400 42.3876 42.2487

46.7500 45.7940 46.3163

48.9600 48.7731 49.3739

50.1300 49.8193 50.1816

51.2700 50.1896 50.9020

Tabla 6.4.8 Resultados predicción PLSR y PCR para el HCl.

Page 111: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

107

6.4.4 Evaluación de la linealidad de los métodos de cuantificación estudiados a través del método de selección de variables basado en un algoritmo genético para los casos de H2O y de HCl.

Para realizar el estudio de la evolución de la linealidad de los modelos estudiados, tanto para el H2O, como para el HCl, utilizando las matrices de datos reducidas, obtenidas después de seleccionar las variables más significativas a través del criterio de la varianza y, del algoritmo genético, se calculó la pendiente, el punto intercepto de la recta ideal con la recta de correlación (punto de intercepción ) y la pendiente de la recta de correlación. Esto se hizo ejecutando el fichero correlación.

Vamos a estudiar en primer lugar la linealidad de los modelos PLS y PCR para el caso del H2O. La figura 6.5.1 consta de dos gráficas, en las que se muestra el efecto que tiene en la evaluación de la linealidad en las muestras utilizadas en la etapa de calibración para ambos modelos, PLSR y PCR. En la figura 6.5.1 a se observa la representación de los valores NIR frente a los valores de referencia para el bloque de 12 muestras de H2O independientes de las utilizadas en la calibración del modelo PLSR.

Page 112: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

108

En la figura 6.5.1 b se observa la representación de los valores NIR frente a los valores de referencia para el bloque de 12 muestras de H2O independientes de las utilizadas en la calibración del modelo PCR.

Figura 6.5.1 a Cuantificación del conjunto de predicción de 12 muestras de H2O con el modelo de

calibración PLSR.

Recta de predicción muestras H2O (PLSR). a= 1.0063 b= -0.04821 r= 0.9483

Page 113: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

109

Figura 6.5.1 b Cuantificación del conjunto de predicción de 12 muestras de H2O con el modelo de

calibración PCR.

En las dos figuras se pueden distinguir dos rectas que representan los valores obtenidos por los modelos de calibración de los datos NIR, frente a los valores de referencia obtenidos en el laboratorio.

De estas dos figuras, se determina que la predicción de las muestras de H2O, utilizando los dos modelos de calibración, (PLSR y PCR), es una recta con pendiente unidad y ordenada en el origen cero.

Tanto en la recta de regresión para las muestras de H2O, obtenidas para los modelos de calibración PLSR y PCR, se observan peores resultados que en los estudios anteriores, en los que se utilizaban más variables. Vemos que algunos puntos (predicciones) están situados muy cerca de la recta, aunque hay otros que no lo están. De ahí que el coeficiente de correlación sea más bajo que en los estudios anteriores, aunque muy parecido para los modelos PLSR (0.9483) y PCR (0.9435).

Recta de predicción muestras H2O (PCR). a= 0.9874 b= 0.0935 r= 0.9435

Page 114: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

110

Estudiemos ahora los resultados de la evaluación de la linealidad de las muestras utilizadas en la etapa de calibración para el caso del HCl. En la figura 6.5.2 a se observa la representación de los valores NIR frente a los valores de referencia para el bloque de 12 muestras de HCl independientes de las utilizadas en la calibración del modelo PLSR.

Figura 6.5.2 a Cuantificación del conjunto de predicción de 12 muestras de HCl con el modelo de

calibración PLSR.

Recta de predicción muestras HCl (PLSR). a= 0.890 b= 4.2608 r= 0.990

Page 115: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

111

En la figura 6.5.2 b se observa la representación de los valores NIR frente a los valores de referencia para el bloque de 12 muestras de HCl independientes de las utilizadas en la calibración del modelo PCR.

Figura 6.5.2 b Cuantificación del conjunto de predicción de 12 muestras de HCl con el modelo de

calibración PCR

Aquí también podemos distinguir las dos rectas, que muestran la representación de los valores obtenidos por los modelos de calibración de los datos NIR, frente a los valores de referencia obtenidos en el laboratorio, en este caso para el HCl..

Tanto en la recta de regresión para las muestras de HCl, obtenidas para los modelos de calibración PLSR y PCR, también se observan peores resultados que en los estudios anteriores, aunque mejores que en el estudio del H2O, utilizando las matrices reducidas obtenidas del algoritmo genético.

Vemos que algunos puntos (predicciones) están situados muy cerca de la recta, aunque hay otros que no lo están, aunque en este caso el coeficiente de correlación sea más alto que en el caso del H2O estudiado en este apartado, siendo los coeficientes de correlación para el modelo PLSR = 0.990 y para el modelo PCR = 0.9866.

Recta de predicción muestras HCl (PCR). a= 1.0052 b= -0.2180 r= 0.9866

Page 116: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

112

6.4.5 Conclusiones.

Una vez realizado el estudio de la evolución de la linealidad de los modelos estudiados, tanto para el H2O, como para el HCl, utilizando las matrices de datos reducidas, obtenidas después de realizar la selección de variables más significativas a través de un modelo basado en un algoritmo genético, vemos que para ambas estrategias de calibración (PLSR y PCR), obtenemos resultados satisfactorios, aunque sensiblemente peores que los obtenidos con los métodos estudiados en los apartados anteriores.

Esta capacidad predictiva de los modelos, se evaluó mediante el análisis de la linealidad en la validación del procedimiento utilizando un bloque de 12 muestras, las cuales no pertenecían al bloque de 45 muestras utilizadas en la calibración interna del modelo. Cabe destacar que las muestras eran de la misma naturaleza, es decir, se habían obtenido a través de un espectrofotómetro FT-NIR y cuyo valor analítico (concentración de H2O ó HCL) se obtuvo del análisis a través de un método de referencia en el laboratorio.

En las figuras 6.3.4 y 6.3.5, se ha representado la evaluación de la linealidad de los modelos estudiados (PLSR y PCR), en la que se utilizó el algoritmo genético para seleccionar las variables con información más relevante, frente a los encontrados por el método de referencia, análisis en el laboratorio.

Para ambos modelos se obtiene una recta con pendiente unidad y ordenada en el origen cero (con una muy pequeña desviación), y por tanto se asume que el método propuesto es lineal y no está sujeto a errores sistemáticos o de matriz respecto al intervalo de concentración estudiado, aunque los coeficientes de correlación son sensiblemente más bajos que los obtenidos con los métodos estudiados anteriormente.

Podemos concluir pues, que en los estudios realizados en esta memoria se han encontrado dos formas diferentes para llevar a cabo una selección de las variables, lo suficientemente robustos y lineales como para seleccionar aquellas variables que contienen la información relevante. Se pudo comprobar que con este tipo de selección de variables se reducían en gran mesura las variables de la matriz de datos con la que partíamos, sin que esto influyese negativamente en la calibración de los modelos estudiados.

Page 117: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Estudio y discusión de los resultados

113

Se calculó también para cada uno de los estudios y casos, el error estándar relativo de predicción para el bloque de muestras de calibración RSEP (C) y el error del bloque de muestras externo de predicción, RSEP (P) obteniendo resultados muy satisfactorios.

Los principales inconvenientes de los modelos estudiados, fueron en primer lugar, el crear las matrices de datos a partir de los espectros de las diferentes muestras obtenidos por el espectrofotómetro, y en segundo lugar el tiempo de ejecución del algoritmo genético utilizado en la selección de variables, ya que si no se dispone de un ordenador potente, esta tarea puede durar días.

Page 118: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Referencias

114

Referencias.

[1] B.G. Osborne, T. Fearn, P.H. Hindle, Practical NIR Spectroscopy with applications in food and beverage analysis, 2nd ed., Longman Scientific & Technical, Harlow, Essex, England, 1993.

[2] W. Herschel, Phylosophical Transactions of the Royal Society, 90, 255, 1800.

[3] W. Kaye, Spectrochimica Acta, 6, 257, 1954.

[4] R.F. Goddu, Advances in Analytical Chemistry and Instrumentation, ed. Reilly, Ch. N. Interscience, New York, 1960.

[5] K.H. Norris, Trans. Am. Soc. Agric. Eng., 7, 240, 1964.

[6] I. Ben-Gera, K.H. Norris, J. Food. Sci., 7, 240, 1968.

[7] W.F. McClure, Anal. Chem., 66, 43A, 1994.

[8] M. Blanco, J. Coello, H. Iturriaga, S. Maspoch, C de la Pezuela, Analyst, 123, 135R, 1998.

[9] M. Blanco, J. Coello, J.M. García-Fraga, H. Iturriaga, S. Maspoch, J. Pagès, Analyst, 122, 777, 1997.

[10] M. Blanco, S. Maspoch, I. Villarroya, X. Peralta, J.M. González, J. Torres, Appl. Spectrosc., 55, 834, 2001.

[11] M. Blanco, S. Maspoch, I. Villarroya, X. Peralta, J.M. González, J. Torres, Analyst, 126, 378, 2001.

[12] D.A. Skoog, J.J. Leary, Análisis Instrumental, 4ª ed., McGraw-Hill, Madrid, 1994.

[13] E. Huys, A short introduction to FT-NIR, Bruker Optics, March 1997.

[14] H.H. Willard, L.L. Merritt Jr., J.A. Dean, F.A. Settle Jr., Métodos instrumentales de análisis, Grupo Editorial Iberoamérica, México D.F., 1991.

[15] J.B. Callis, D.L. Illman, B.R. Kowalski, Anal. Chem., 59, 624A, 1987.

[16] D.L. Massart, B.G.M. Vandegiste, S.N. Deming, Y. Michotte, L. Kaufman, Chemometrics: a textbook, Elsevier, Amsterdam, 1988.

[17] J.E. Jackson, User´s Guide to Principal Componentes, Wiley, New York, 1991.

Page 119: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Referencias

115

[18] P. Geladi, B.R. Kowalski, Anal. Chim. Acta, 185, 1, 1985.

[19] H. Wold, Multivariate Analysis, Ed. Krishnaiah, P.R. Academic Press, New York, 1966.

[20] Bruker Optic GmbH, OPUS-NT Spectroscopic Software, Getting started, (2003) version 4.2

[21] S. Wold, Technometrics, 20, 397, 1978.

[22] Holland J.H., Genetic algorithms, Scientific American (1992), 267(1), 66.

[23] Bruker Optic GmbH, Quant2 Reference manual, (2003) version 4.2.

[24] Barry M. Wise, Neal B. Gallagher, PLS Toolbox Versión 2.0, Eigenvector Research, Inc., 1998.

Page 120: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Anexo

116

Anexo A.

En éste apartado se recogen todos los programas que se han creado y que se utilizaron en los estudios de los diferentes casos y modelos y sus funciones asociadas.

Cabe destacar que cada función dispone de comentarios pertinentes para mejorar la comprensión de los mismos, por los diferentes usuarios.

Algoritmo plspcrsr.m

Con la ejecución del algoritmo, se han realizado las pruebas de los diferentes modelos estudiados en este proyecto, realizando los algoritmos PLSR y PCR simultáneamente. Estos sistemas se aplican tanto al caso del H20 y del HCl.

% Modelo PLS y PCR.

echo on

% Vamos a cargar los datos para encontrar la concentracion del componente A,calculando posteriormente los modelos mediante PLS y PCR.

% Pulsar una tecla.

pause

echo off

load matred1

%----------------------Calibracion interna del modelo-------

% Vamos a calibrar el modelo con los nuevos datos internos (cal-set).

% Empezamos por escalar los datos usando el autoescalado.

pause

[ax,mx,stdx] = auto(xcal);

[ay,my,stdy] = auto(ycal);

% Ahora los datos estan escalados y podemos usar los modelos PLS y PCR para hacer la calibracion.

% Empezamos por usar todos los datos para crear los modelos y ver que varianza capturan.

pause

echo on

Page 121: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Anexo

117

% EVALUACION DE LA CAPACIDAD PREDICTIVA DEL MODELO

%Para evaluar la capacidad de prediccion del modelo validaremos el modelo de %forma interna Cross-validation. Dividiremos el conjunto de muestras en varios %segmentos.

%El modelo se constituye tantas veces como segmentos escogidos.

%Utilizamos para PLS leave one out, una sola muestra.

%Para PCR tambien vamos a utilizar leave one out.

echo off

pause

% numero de varialbes latentes.

lv=10

% numero de segmentos para 'loo'.

sp=10

[plspress,plscumpress,plsrmsecv,plsrmsec]=crossval(ax,ay,'sim','loo',lv,sp);

[pcrpress,pcrcumpress,pcrrmsecv,pcrrmsec]= crossval(ax,ay,'pcr','loo',lv,sp);

pause

echo off

%Para evaluar la capacidad predictiva utilizaremos el sumatorio del

%cuadrado de los residuales (Predicted Residual Error Sum of Squares)

subplot(2,2,1)

plot(plspress','-o')

xlabel('Numero de LVs')

title('PLS PRESS individual')

ylabel('PRESS')

subplot(2,2,2)

plot(plscumpress,'-o')

xlabel('Numero de LVs')

title('PLS PRESS acumulado')

ylabel('PRESS')

subplot(2,2,3)

plot(pcrpress','-o')

xlabel('Number of PCs')

title('PCR PRESS individual')

ylabel('PRESS')

subplot(2,2,4);

Page 122: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Anexo

118

plot(pcrcumpress,'-o')

xlabel('Numero de PCs')

title('PCR PRESS acumulado')

ylabel('PRESS')

echo on

pause

echo on

%(Root Mean Squared Error) raiz cuadrada del valor medio de PRESS (RMSEC y %RMSECV)

echo off

pause

subplot(2,2,1)

plot(plsrmsecv','-o')

xlabel('Numero de LVs')

title('Curva de RMSECV para PLS')

ylabel('RMSECV')

subplot(2,2,2)

plot(plsrmsec,'-o')

xlabel('Numero de LVs')

title('Curva de RMSEC para PLS')

ylabel('RMSEC')

subplot(2,2,3)

plot(pcrrmsecv','-o')

xlabel('Numero de PCs')

title('Curva de RMSECV para PCR')

ylabel('RMSECV')

subplot(2,2,4);

plot(pcrrmsec,'-o')

xlabel('Numero de PCs')

title('Curva de RMSEC para PCR')

ylabel('RMSEC')

pause

Page 123: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Anexo

119

% Escoger el numero de variables latentes (lv) optimas para el modelo segun RMSECV para PLS:

optimallvpls=input('Escribe el valor de la variable latente optima escogida: ');

if isempty (optimallvpls)

optimallvpls=input('Escribe el valor de la variable latente optima escogida: ');

end

pause

% Escoger el numero de componentes principales optimas para el modelo segun %RMSECV para PCR:

optimallvpcr=input('Escribe el valor de la variable latente optima escogida: ');

if isempty (optimallvpcr)

optimallvpcr=input('Escribe el valor de la variable latente optima escogida: ');

end

echo on

% A continuacion se calcula el modelo de calibracion utilizando los algoritmos

% PLS y PCR para el numero de componentes principales escogido.

pause

[bpls,upls] = pls(ax,ay,optimallvpls);

[bpcr,upcr] = pcr(ax,ay,optimallvpcr);

echo off

echo on

pause

echo off

subplot(1,1,1)

plot(bpls(optimallvpls,:),'-b','LineWidth',1), hold on, hline(0)

plot(bpcr(optimallvpcr,:),'-k','LineWidth',1), hold off

title('PLS and PCR Regression Vector Coefficients For CONCENTRATION Prediction');

xlabel('Variable Numero');

ylabel('Coeficente');

legend('bpls = PLS','Horizontal','bpcr = PCR')

pause

echo on

Page 124: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Anexo

120

% Ahora se usan los vectores de regresion para calcular la prediccion

% de los datos de calibracion y compararlos con la concentracion actual.

pause

ypls = ax*bpls(optimallvpls,:)';

ypcr = ax*bpcr(optimallvpcr,:)';

csypls = rescale(ypls,my,stdy);

csypcr = rescale(ypcr,my,stdy);

echo off

sc=input('Introducir numero de muestras para bloque de calibracion: ');

s = 1:sc;

plot(s,csypls,'-+y','LineWidth',2), hold on

plot(s,csypcr,'-og','LineWidth',2)

plot(s,ycal,'-xb','LineWidth',2), hold off

title('Actual and Fitted Level by PLS, PCR and MLR')

xlabel('Numero de muestra');

ylabel('Concentracion (%)');

legend('csypls = PLS','csypcr = PCR','ycal = actual calibracion')

pause

echo on

% Plot del metodo PLS (PREDICTION vs TRUE) entrenamiento :

pause

echo off

% Hacer la diagonal

plot(0:1:20,0:1:20,'-b','LineWidth',3), hold on

% Representar

plot(csypls,ycal,'s','LineWidth',2,...

'MarkerEdgeColor','k',...

'MarkerFaceColor','r',...

'MarkerSize',10), hold off

grid on

title('PLS Predicted vs true bloque entrenamiento')

xlabel('Variable predecida');

ylabel('Variable real');

Page 125: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Anexo

121

pause

echo on

% Plot del metodo PCR (PREDICTION vs TRUE) entrenamiento :

pause

echo off

plot(0:1:20,0:1:20,'-b','LineWidth',3), hold on

% Representar

plot(csypcr,ycal,'s','LineWidth',2,...

'MarkerEdgeColor','k',...

'MarkerFaceColor','g',...

'MarkerSize',10), hold off

grid on

title('PCR Predicted vs true bloque entrenamiento')

xlabel('Variable predecida');

ylabel('Variable real');

pause

echo on

%----------Validacion del modelo con datos esternos-----------%

% Vamos a validar el modelo con los nuevos datos externos (test set)

% Empezamos por escalar los datos usando la misma tecnica que se ha usado

% para escalar los datos de la prediccion interna del modelo (calibracion).

echo off

pause

[ax2,mx,stdx2] = auto(xtest);

[ay2,my,stdy2] = auto(ytest);

% Ahora solo multiplicamos la nueva matriz por los vectores de regresion

% para obtener la nueva prediccion. Despues de reescalar podemos comparar

% los datos predecidos con los actuales.

pause

newypls = ax2*bpls(optimallvpls,:)';

newypcr = ax2*bpcr(optimallvpcr,:)';

pause

Page 126: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Anexo

122

echo on

%Volvemos a escalar los datos:

echo off

tsypls = rescale(newypls,my,stdy2);

tsypcr = rescale(newypcr,my,stdy2);

echo on

% Los resultados obtenidos en la validacion del modelo mediante PLS son:

echo off

disp('[Analitica] [Predecida]')

disp([ytest tsypls])

echo on

% Los resultados obtenidos en la validacion del modelo mediante PCR son:

echo off

disp('[Analitica] [Predecida]')

disp([ytest tsypcr])

pause

%Ploteamos ahora los valores real vs prediccion del modelo de validacion externo:

sp=input('Escribe el numero de muestras del bloque test que vas a utilizar: ')

s = 1:sp;

plot(s,tsypls,'-y','LineWidth',3), hold on

plot(s,tsypcr,'-g','LineWidth',3)

plot(s,ytest,'-r','LineWidth',3), hold off

title('Concentracion real vs predecida por PLS, PCR')

xlabel('Numero muestra');

ylabel('Concentracion (%)');

legend('sypls = PLS','sypcr = PCR','ytest = actual prediccion'),

pause

Page 127: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Anexo

123

echo on

% Plot( PLS (PREDICTION vs TRUE) para el bloque de validacion externo:

pause

echo off

plot(0:1:15,0:1:15,'-b','LineWidth',3), hold on

plot(tsypls,ytest,'s','LineWidth',2,...

'MarkerEdgeColor','k',...

'MarkerFaceColor','r',...

'MarkerSize',10), hold off

grid on

title('PLS Predicted vs true para validacion con set datos externos')

xlabel('Variable predecida');

ylabel('Variable real');

pause

echo on

% Plot PCR (PREDICTION vs TRUE) para el bloque de validacion externo:

pause

echo off

plot(0:1:15,0:1:15,'-b','LineWidth',3), hold on

plot(tsypcr,ytest,'s','LineWidth',2,...

'MarkerEdgeColor','k',...

'MarkerFaceColor','g',...

'MarkerSize',10), hold off

grid on

title('PCR Predicted vs true para validacion con set datos externos')

xlabel('Variable predecida');

ylabel('Variable real');

pause

echo on

% Resultados de concentracion para el bloque de calibracion, comparacion entre los reales y predecidos (PLS):

echo off

disp('[Real] [Predecida]')

disp([ycal csypls])

echo on

Page 128: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Anexo

124

% Resultados de concentracion para el bloque de calibracion, comparacion entre los reales y predecidos (PCR):

echo off

disp('[Real] [Predecida]')

disp([ycal csypcr])

echo on

% Tambien podemos calcular el error de la suma total de cuadrados de

% la prediccion para el PLS, PCR y mostrar la comparacion

% con los errores de la calibracion y de la cross-validation calculados anteriormente:

% Error para el bloque de calibracion de los modelos PLS PCR.

echo off

for i=1:45

plsssqc(i) = sqrt(mean((ycal(i)-csypls(i)).^2));

pcrssqc(i) = sqrt(mean((ycal(i)-csypcr(i)).^2));

end

errorplstotalc=mean(plsssqc(i));

errorpcrtotalc=mean(pcrssqc(i));

disp(' PLS error PCR error para set entrenamiento'),

disp([errorplstotalc errorpcrtotalc])

echo on

% Error para el bloque de validacion de los modelos PLS PCR.

echo off

for i=1:12

plsssqt(i) = sqrt(mean((ytest(i)-tsypls(i)).^2));

pcrssqt(i) = sqrt(mean((ytest(i)-tsypcr(i)).^2));

end

errorplstotalt=mean(plsssqt(i));

errorpcrtotalt=mean(pcrssqt(i));

disp(' PLS error PCR error para set validacion externo'),

disp([errorplstotalt errorpcrtotalt])

echo o

Page 129: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Anexo

125

Función selvar.m

Se muestra el código de la función selvar.m utilizada para realizar el estudio de la selección de variables basado en el criterio de la varianza.

load matrizdatos;

%Clases por concentraciones.

%cb=con_baja;

%cm=con_media;

%ca=con_alta;

%ct=con_total;

% Varianza intraclase para la clase con_baja (cb) para las n variables:

for i=1:n

varabscb(:,i)=var(cbhcl(:,i));

% Varianza intraclase para la clase con_media (cm) para las n absorbancias:

varabscm(:,i)=var(cmhcl(:,i));

% Varianza intraclase para la clase con_alta (ca) para las 696 absorbancias.

varabsca(:,i)=var(cahcl(:,i));

end

%Suma de las varianzas intraclase:

vartotal=(varabscb+varabscm+varabsca);

%Se calculan las medias en cada clase para cada una de las n variables:

for i=1:n

sumacb(:,i)=sum(cbhcl(:,i));

mediacb(:,i)=(sumacb(:,i))./m;

end

for i=1:n

sumacm(:,i)=sum(cmhcl(:,i));

mediacm(:,i)=(sumacm(:,i))./m;

end

Page 130: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Anexo

126

for i=1:n

sumaca(:,i)=sum(cahcl(:,i));

mediaca(:,i)=(sumaca(:,i))./m;

end

for i=1:n

sumatot(:,i)=(sumacb(:,i)+sumacm(:,i)+sumaca(:,i));

end

for i=1:n

mediatot(:,i)=(mediacb(:,i)+mediacm(:,i)+mediaca(:,i))/3;

end

%Calculamos la varianza de las medias

var_2=var(mediatot);

var_1=vartotal/3; % Buscamos la media de varianza intraclase

FM=var_1/var_2; %Calculo Del factor de merito

[val,index]=sort(-FM);

matred=[index; val]; %matred, es la matriz con las nuevas variables que %aportan mas informacion, ordenadas de mejor a peor %variable.

xcalred=xcal(:,[matred(1,1:110)]); %La matriz matred contiene todas %las filas por clase, en funcion de %las X mejores variables (matriz %calibración).

xtestred=xtest(:,[matred(1,1:110)]); % La matriz matred contiene todas %las filas por clase, en funcion de %las X mejores variables (matriz $validación externa).

Page 131: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Anexo

127

Función correlacion.m

Se muestra el código de la función correlacion.m utilizada para realizar el estudio de la linealidad en cada uno de los modelos estudiados en este proyecto.

% Estudio de la linealidad de los modelos.

Clear all;

load matrizdatos.mat;

% ---------------- componente --------------

polypls=polyfit(ytest,tsypcr,1);

correlpls=corrcoef(ytest,tsypcr);

% -------------- Gráficas -----------

x=1:1:n;

figure(1); % Calculo pendientes

plot(x,x);

hold on;

plot(ytest,tsypcr,'rx');

title('Recta de correlación de la concentración del componente');

xlabel('Concentración ideal');

ylabel('Concentración real');

Page 132: Desarrollo de un método de selección de variables para ...deeea.urv.cat/public/PROPOSTES/pub/pdf/682pub.pdf · 6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método

Anexo

128

Función matredga.m

Se muestra el código de la función matredga.m utilizada para crear la nueva matriz de datos reducida una vez realizado el estudio de la selección de variables basado en el algoritmo genético.

%Crar matriz de datos reducida después de realizar ga.

clear all;

function [matriznueva]=matriznueva(xcalred,pop,fila)

load matrizdatos

tam=size(xcalred)

co=1;

for col=1:tam(2)

if pop(fila,col)==1

for fila1=1:tam(1)

matriznueva(fila1,co)=xcalred(fila1,col);

end

co=co+1;

end

end