PLS-REGRESSIO KEMOMETRIAN KALIBROINTIONGELMASSA

AB Mat-2.108 Sovelletun matematiikanerikoistyot

PLS-REGRESSIO KEMOMETRIANKALIBROINTIONGELMASSA

Teppo-Heikki Saari, 58096R19. helmikuuta 2008

TEKNILLINEN KORKEAKOULUTeknillisen fysiikan ja matematiikan osastoSysteemianalyysin laboratorio

Sisalto

1 Johdanto 11.1 Yhden muuttujan kalibrointi . . . . . . . . . . . . . . . . . . . 21.2 Usean muuttujan kalibrointi . . . . . . . . . . . . . . . . . . . 4

1.2.1 Klassinen suora ja epasuora kalibrointi . . . . . . . . . 41.2.2 Kaanteinen kalibrointi . . . . . . . . . . . . . . . . . . 5

2 Kalibrointimenetelmista 72.1 Paakomponenttianalyysi ja -regressio . . . . . . . . . . . . . . 7

2.1.1 Yleista . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.1.2 Datan esikasittely . . . . . . . . . . . . . . . . . . . . . 82.1.3 Paakomponenttien maaraaminen . . . . . . . . . . . . 82.1.4 Paakomponenttiregressio (PCR) . . . . . . . . . . . . . 92.1.5 Paakomponenttimenetelman edut kalibroinnissa . . . . 102.1.6 Paakomponenttimenetelman haittoja . . . . . . . . . . 11

2.2 Osittainen pienimman neliosumman menetelma (PLS) . . . . 122.2.1 Yleista . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.2 Datan esikasittely . . . . . . . . . . . . . . . . . . . . . 132.2.3 PLS-regressiomalli . . . . . . . . . . . . . . . . . . . . 142.2.4 Osittaisen pienimman neliosumman regressiomallin

tulkinta . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2.5 Geometrinen tulkinta . . . . . . . . . . . . . . . . . . . 182.2.6 PLS-regressioalgoritmi . . . . . . . . . . . . . . . . . . 182.2.7 Mallin validointi . . . . . . . . . . . . . . . . . . . . . 202.2.8 Puuttuvat havainnot . . . . . . . . . . . . . . . . . . . 212.2.9 Osittaisen pienimman neliosumman menetelman hait-

toja ja etuja . . . . . . . . . . . . . . . . . . . . . . . . 212.2.10 PLS:n yhteydet muihin monimuuttujamenetelmiin . . . 22

3 Sovellus bensiinin oktaaniluvun maaritykseen 243.1 Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2 Tulokset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1

4 Pohdinnat 34

Kirjallisuutta 35

2

Luku 1

Johdanto

Kemometria on tieteenala, jonka tutkimuskohteena on tilastollisten ja mate-maattisten metodien, seka myos metodien, joiden pohjana on matemaattinenlogiikka, soveltaminen kemiaan. [4] On myos vaitetty, etta oikeanlaisen ana-lyyttisen kemian taytyisi sisaltaa myos kemometrinen lahestymistapa, ja ettanain tekemalla saavutetaan huomattavia etuja. [3] Kemometria on tieteenala-na ollut vahvassa kasvussa kolmisenkymmenta vuotta, ja eras sen tarkeimpiaongelmia on kalibrointi. Kalibrointi viittaa prosessiin, jossa maaritetaan suh-teet mittausinstrumentin ulostulojen/vasteiden ja konsentraatioiden valille.Kalibraatio yleisesti viittaa myos usein mittainstrumentin ulostulon tai indi-kaattorin saatamiseen siten, etta indikaattori vastaa tiettya mittastandardiatietylla tarkkuudella. [20] Kalibrointia tarvitaan silloin kun tyolas tai kallismutta tarkka mittaus halutaan korvata halvalla ja nopealla mutta epasuorallatai vahemman tarkalla mittauksella. [9]Kemometrisesta kalibroinnista voidaan erotella monenlaisia osa-alueita: ko-hinan vahentaminen mittauksissa, hairiotekijoiden kasittely, eksploratori-nen datan kasittely seka mahdollisten poikkeavien havaintojen minimointi.Lisaksi myos koesuunnittelulla on erittain suuri painoarvo. [10, 1]Taman tyon tarkoituksena on tarkastella kemometrian kalibrointiongel-maa seka sen erilaisia ratkaisuja sovellettujen regressiomallien avul-la. Ensimmaisessa kappaleessa tarkastellaan yksi- ja moniulotteista ke-mometrian kalibrointiongelmaa, toisessa kappaleessa tutustutaan tarkem-min yleisimpiin kalibrointimenetelmiin, kolmannessa kappaleessa sovelle-taan paakomponenttiregressiota seka PLS-regressiota bensiinin oktaaniluvunmaaritykseen. Viimeisessa kappaleessa on hieman pohdintaa aiheeseen liit-tyen.

1

1.1 Yhden muuttujan kalibrointi

Kalibrointi voidaan suorittaa seka yhdelle etta monelle muuttujalle. Yhdenmuuttujan kalibroinnissa datasta valikoituu kaikkein kayttokelpoisin muut-tuja, joka kuvaa datan vaihtelua parhaiten.Monissa kemiallisissa tutkimuksissa halutaan selvittaa yhden tai useammanainesosan konsentraatiot mittaamalla systeemin ominaisuuksia. Tassa voi-daan kayttaa hyvaksi Beer-Lambertin lakia elektromagneettiselle sateilylle,joka antaa yhteyden absorboituneen sateilyn aallonpituuden ja konsentraa-tion valille:

I(λ)

I0(λ)= e−ελcl (1.1)

jossa I(λ) on valon intensiteetti aallonpituudella λ, joka lapaisee naytteen,jonka paksuus on l. I0(λ) on tulevan valon intensiteetti aallonpituudella λ, ελ

on moolinen haviamiskerroin (molar extinction coefficient), eli absoptiivisuusmoolia kohden, ja c on aineen konsentraatio. Systeemin kalibrointi tapahtuumittaamalla sarja naytteita valon absorptiosta kun aineen konsentraatio ontunnettu:

log

[I0(λ)

I(λ)

]= αλ = εcl (1.2)

missa α on absorption maara tietylla aallonpituudella. [12]Jos oletetaan, etta mittausvirheet ovat odotusarvoltaan nolla ja korreloimat-tomia, voidaan mitattuihin arvoihin sovittaa lineaarinen funktio tavallisenpienimman neliosumman menetelman (OLS) avulla. Mallin osat ovat talloin[6]

� Malli:yi = B + Axi + eyi = E(yi) + eyi (1.3)

� Estimaatti:yi = B + Axi (1.4)

� Residuaali:dyi = yi − yi = yi − B − Axi (1.5)

jossa E(yi) on yi:n odotusarvo. Yleinen neliosummakriteeri ilmaistaan ne-liovirhesummana

SSD =m∑

i=1

[(yi − yi)/σi]2 =

m∑i=1

(dyi/σi)2 (1.6)

jossa σi on keskihajonta havaintopisteelle i ja m on kalibrointimittaustenmaara. Tehtavana on siis minimoida neliovirhesummaa 1.6. Kriteeri muuttuumikali jokin seuraavista ehdoista tayttyy: [6]

2

1. Virheet esiintyvat vain mitatuissa arvoissa y:

Aσx � σy (1.7)

ja lisaksi jos virheet σy ovat vakioita useissa kalibrointipisteissa (ho-moskedastisuus):

σ2y1 = σ2

y2 = ... = σ2yh = σ2

y (1.8)

tai ilmaistuna naiden estimaateilla, jolloin taytyy ottaa huomioon vir-heen tilastollinen riski α

s2y1 = s2

y2 = ... = s2yn = s2

y (1.9)

Mikali virheet ovat homoskedastisia ja x:n virheet voidaan jattaa huo-miotta, saadaan pienimman neliosumman minimoitavaksi kriteeriksi

SSD =m∑

i=1

d2yi (1.10)

2. Mikali mittausvirheet σy vaihtelevat (σx edelleen pieni verrattuna mit-tausvirheisiin), taytyy olettaa heteroskedastisuus, ja minimoitava kri-teeri on muotoa 1.6.

3. Yleisessa tapauksessa molemmat muuttujat sisaltavat virhetta, jatalloin yhtalo 1.7 ei pade, virhe on muotoa

σ2i = σ2

yi + A2σ2xi (1.11)

jolloin summa d2x+y taytyy minimoida ortogonaalisesti regressiosuoran

suhteen, eika koordinaattiakselin suuntaisesti.

Yhtalon 1.7 mukaan virheet mittauksissa ovat haviavan pienia ja konsent-raatiot ovat taten “todellisia”. Taman ehdon tayttyessa kalibrointifunktioksitulee

y = Bx + Axx + ey (1.12)

jonka parametrit Ax ja Bx saadaan estimoitua normaalisella pienimman ne-liosumman algoritmilla homoskedastisessa tapauksessa:

Ax = Qxy/Qxx (1.13)

Bx =(∑

y − Ax

∑x

)/m (1.14)

Qxx =∑j

(xj − x)2 (1.15)

Qyy =∑j

(yj − y)2 (1.16)

Qxy =∑j

(xj − x) (yj − y) (1.17)

3

Korrelaatiokertoimella yllamainitussa regressiossa ei ole merkitysta, silla ar-vot x eivat ole satunnaismuuttujia kalibroinnissa (x:n virhe on merkityk-seton).Koska yhden muuttujan kalibrointi suoritetaan yhden muuttujan lineaarisel-la regressiolla, datan tarvitsee tayttaa joitakin oletuksia, jotka ovat [3]

� Selektiivisyys: yhden muuttujan kalibraatiomalli voi tarjota tarkkojatuloksia vain silloin, kun mitattuun signaaliin ei vaikuta mikaan muulahde. Toisin sanoen vain tutkimuksen kohteena olevan analyytin tuli-si vaikuttaa mittaustuloksiin. Yhden muuttujan signaalista on vaikeatarkistaa ovatko tulokset oikeita, ja tulosten oikeellisuus jaa uskonva-raiseksi.

� Lineaarisuus: analyytin konsentraation ja signaalin valilla taytyy ol-la lineaarinen riippuvuus. Tama on selvaa kun kaytetaan lineaarisiamenetelmia.

1.2 Usean muuttujan kalibrointi

1.2.1 Klassinen suora ja epasuora kalibrointi

Kun naytteessa on enemman kuin yhta ainetta, ongelma tulee vaikeammaksisilla systeemissa useat eri aineet saattavat absorboida samalla aallonpituu-della. Tietylla aallonpituudella useiden eri aineiden seoksen absorptio kiin-nitetyn matkan l yli voidaan tulkita yksittaisten ainesosien absorptioidenpainotettuna summana, kun useaa absorboivaa ainesosaa mitataan m eritaajuudella:

yj(λi) = ε1(λi)c1jl + ε2(λi)c2jl + ... + εp(λi)cpjl =p∑

k=1

εk(λi)ckjl (1.18)

jossa i on indeksi aallonpituuksille 1, ...,m, j on indeksi naytteille 1, .., j jakomponenttien maara, joka siis tulee maarittaa ongelmassa, on p. Yhtalo 1.18saadaan kirjoitettua matriisimuotoon:

Y = XA (1.19)

jossa Y on n × m-matriisi, joka sisaltaa riippuvat muuttujat – absorptiotm eri aallonpituudella tai vasteet m eri sensorille; X on n× p-matriisi, jokasisaltaa riippumattomat muuttujat – konsentraatiot n eri ainesosalle; ja Aon p ×m-matriisi, joka sisaltaa kalibrointikertoimet (nk. herkkyysmatriisi).

4

n on kalibrointistandardien lukumaara (seokset), joka on sama kuin mittaus-ten lukumaara. [7]Klassista kalibrointia voidaan kayttaa vain kun kaikki ainesosat, jotka vai-kuttavat spekrin muotoon ovat tunnettuja. Lisaksi voimassa on rajoite, jo-ka kieltaa ainesosien reaktiot toisten ainesosien tai analyyttien valilla, sekanaiden vaikutukset (esim. lampotilanmuutokset).Konsentraatioiden estimaatit saadaan pienimman neliosumman mene-telmalla: X = YA+, missa A+ on yleistetty Moore-Penrosen m × p-pseudoinverssimatriisi

A+ = (ATA)−1AT (1.20)

Mikali puhtaan ainesosan spektria ei voida mitata suoraan, kalibraatiodatavoidaan keskittaa (ts. poistaa keskiarvot: yi − y, xi − x). Vaikka puhtaanainesosan spektria ei voisikaan suoraa mitata, voidaan A-matriisi estimoidaepasuorasti spektrista olettaen etta kaikki ainesosat analyytista tunnetaan:

A = (XTX)−1XTY (1.21)

Taman jalkeen analyyttisten arvojen estimointi toimii samalla tavalla pie-nimman neliosumman estimaatteina: [7]

X = YAT

(1.22)

Kalibrointiongelman ratkaisemiseen on yhden komponentin tapauksessakaytetty tavallista lineaarista regressiota, joka toimiikin erittain hyvin.Usean komponentin tapauksessa ongelmaksi muodostuvat kollineaarisuus,vierekkaisten aallonpituuksien korrelaatio ja mittausvirheet. [12] Naiden te-kijoiden valttamiseksi kaytetaan yleensa biasoituja regressiometodeja, joitayleisesti kutsutaan usean muuttujan kalibrointimenetelmiksi.Suoraa kalibrointia voidaan kayttaa kun kalibrointikertoimet ovat tunnet-tuja, muutoin kaytetaan hyvaksi epasuoraa kalibrointia. Epasuorassa kali-broinnissa kalibrointikertoimet lasketaan kokeellisesti maaritettyjen spektri-konsentraatio-relaatioiden avulla.

1.2.2 Kaanteinen kalibrointi

Kuten jo aiemmin on todettu, klassinen suora tai epasuora kalibrointi tapah-tuu pienimman neliosumman menetelmalla. Analyyttiset arvot x oletetaan(mittaus)virheettomiksi, tai ainakin erittain pieniksi verrattuna y:n virhei-siin. Lisaksi systeemin kaikkien ainesosien taytyy olla tunnettuja ja muka-na kalibroinnissa. Mikali naita ehtoja ei ole taytetty, joudutaan kayttamaankaanteista kalibrointia. [7]

5

Kaanteisessa kalibroinnissa analyyttiset arvot x (konsentraatiot) regressoi-daan mitatuille (spektrin) arvoille y. Vaikka pienimman neliosumman vir-heettomysvaatimusta rikotaankin, silla mittaukset y eivat ole virheettomia,voidaan silti osoittaa Monte Carlo -simuloinneilla, etta kaanteisen kalibroin-nin – konsentraatio = f(mittaus) – tuottamat ennusteet ovat tarkempia kuinklassisen kalibroinnin – mittaus = f(konsentraatio) – tuottamat ennusteet.[5] Tama patee erityisesti monen muuttujan kalibroinnissa. [7]Kaanteista kalibraatiomallia kutsutaan usein myos m×n P-matriisimalliksi:X = YP. Matriisin P alkiot ovat kalibraatiokertoimia, jotka voidaan esti-moida:

P = Y+X = (YTY)−1YTX (1.23)

Tuntematon nayte voidaan analysoida (ts. selvittaa konsentraatiot) sen mi-tatusta spektrista y:

x = yP (1.24)

On epaedullista, etta kalibraatiokertoimet, eli matriisin P alkiot, eivat omaaminkaanlaista fysikaalista merkitysta silla ne eivat heijasta yksittaisen ai-nesosan spektria. Lisaksi voi esiintya multikollineaarisuuksia jotka tekevatmatriisin Y kaantamisesta vaikeaa.Toisaalta kaytettaessa latenttimuuttujia alkuperaisten muuttujien tilal-la, voidaan kayttaa “pehmeita mallinnusmetodeja”, jotka perustuvatkaanteiseen kalibrointiin jossa analyyttiset arvot regressoidaan spektraali-datalle:

X = YB (1.25)

jossa B on kalibrointikertoimien m × n-matriisi. Toisin kuten P-matriisinkanssa, kaikkia spektrin Y dimensioita ei kayteta, vaan ainoastaan ne, jot-ka on havaittu tarkeiksi tiettyjen paakomponenttien suhteen. Talloin B-matriisin kertoimien estimointi voidaan suorittaa paakomponenttiregression(PCR) tai osittaisen pienimman neliosumman regression (PLS) avulla.

6

Luku 2

Kalibrointimenetelmista

2.1 Paakomponenttianalyysi ja -regressio

Paakomponenttiregressio (PCR) on kaksiosainen menetelma spektroskoop-pidatan kalibrointiongelman ratkaisemiseksi. Ensimmaisessa osassa datal-le suoritetaan paakomponenttianalyysi (PCA). Mitatut muuttujat, esim.spektrin absorptiot eri aallonpituuksilla, muunnetaan uusiksi muuttujiksi,esim. latenttimuuttujien paakomponenttipisteiksi. Tata vaihetta seuraa mo-nen muuttujan lineaarinen regressiovaihe (MLR), jossa PCA:n tuottamatpaakomponenttipisteet liitetaan yhteen analyyttisten arvojen (konsentraa-tioiden) kanssa lineaarisella mallilla.

2.1.1 Yleista

Paakomponenttianalyysi kuuluu dimensionvahennystekniikoihin, ja mene-telman tarkoituksena on loytaa havaitusta datasta pienempi maara ilmiontakana piilevia ”oikeita”satunnaismuuttujia, jotka selittavat havaitut tulok-set (niiden varianssin) mahdollisimman hyvin perustuen datan kovarianssi-tai korrelaatiomatriisiin.Paakomponenttianalyysi suorittaa koordinaattiakselien ortogonaalisen kier-ron siten, etta havaintopisteiden varianssi on mahdollisimman suuri en-simmaisen akselin suhteen, ja jaannosvarianssi on aina suurin mahdolli-nen seuraavan seuraavan koordinaattiakselin suhteen. Uudet muuttujat ovattaysin korreloimattomia, ja kukin uusi koordinaattiakseli on lineaarikombi-naatio alkuperaisista muuttujista.

7

2.1.2 Datan esikasittely

Ennen paakomponenttien etsimista dataa yleensa esikasitellaan. Tama tar-koittaa datan nollakeskiarvoistamista poistamalla siita keskiarvo. Eras ylei-simmista metodeista on tehda datasta sarakekeskeista, eli vahentaa jokai-sesta alkiosta kyseisen sarakkeen keskiarvo, joka vastaa siis kyseista spekt-rin aallonpituutta. Tama on yleinen menettely kun kalibrointitehtava liittyyspektroskoopilla saatuihin arvoihin, ja se on kyseisessa tapauksessa yleensamyoskin ainoa tarvittava. [15]Toinen tapa esikasitella dataa on suorittaa autoskaalaus, jossa sarakekeskis-tyksen lisaksi jokainen alkio jaetaan vastaavan sarakkeen keskihajonnalla,jolloin sarakkeiden varianssiksi tulee 1. Tamantyyppista skaalausta voidaankayttaa kun tutkitaan muuttujien suhteellista tarkeytta, mutta sita ei suosi-tella yleisesti kaytettavaksi, silla se lisaa kohinan maaraa tietyilla alueilla.

2.1.3 Paakomponenttien maaraaminen

Paakomponentit voidaan ratkaista singulaariarvohajotelmalla (SVD), omi-naisarvohajotelmalla (EVD) tai tahan tarkoitukseen kaytettavilla sekventi-aalisilla algoritmeilla kuten NIPALS tai POWER. Tarkastelkaamme tassaominaisarvohajotelmaa.Olkoon x = (x1, x2, ..., xp) satunnaisvektori, jolle patee E(x) = 0 ja Cov(x)= Σ. Kovarianssimatriisi Σ on ei-negatiivisesti definiitti: Σ ≥ 0. Nollaodo-tusarvo ei ole rajoittava, silla aina voidaan maaritella satunnaisvektori, jonkaodotusarvo on nolla ts. datasta vahennetaan keskiarvo.Tehtavana on etsia edella maaritellyn satunnaisvektorin x alkioiden lineaa-rikombinaatio βTx =

∑pi=1 βixi, jonka varianssi on suurin mahdollinen. Va-

rianssi D2(βTx) toteuttaa talloin normeerausehdon ‖βTx‖2 = βTβ = 1.Voidaan osoittaa, etta

maxβTβ=1

D2(βTx) = βT1 Σβ1 = λ1 (2.1)

jossa λ1 on kovarianssimatriisin Σ suurin ominaisarvo ja β1 kovarians-simatriisin Σ suurinta ominaisarvoa vastaava ominaisvektori. Yhtalo 2.1patee myos seuraaville paakomponenteille, mutta talloin yhtalolle taytyyasettaa lisarajoitusehto, jossa jokainen seuraava ominaisvektori on kohtisuo-rassa edellisia vektoreita vastaan. Itse paakomponenttivektoria merkitaany1 = βT

1 x.Paakomponenttianalyysin tulokset esitetaan yleensa p × rpaakomponenttimatriisissa: Fr =

[√λ1β1

√λ2β2...

√λrβr

]= BrΛ

1/2r ,

jota kutsutaan yleisesti myos latausmatriisiksi. Paakomponenttipisteet

8

saadaan kertomalla havaintovektoreita x paakomponentteja vastaavillaominaisvektoreilla: yj = BT

r xj, jossa Br on kovarianssimatriisin Σ r suurintaominaisarvoa vastaavien ominaisvektoreiden muodostama p× r-matriisi.

2.1.4 Paakomponenttiregressio (PCR)

Paakomponenttiregressio on kaanteinen kalibrointimenetelma, ja kalibrointisuoritetaankin luvussa 1.1.2 kerrotulla tavalla. Paakomponenttianalyysi an-taa uudet latenttimuuttujat X:n singulaariarvohajotelmalla:

X = UΛPT = TPT (2.2)

jossa X on riippumattomien muuttujien eli konsentraatioiden n × p-matriisi, jonka sarakkeet ovat konsentraatioita eri aallonpituuksilla. Uon painottamattomien (normalisoitujen) paakomponenttipisteiden n × p-matriisi ja T (kokoa n × p) sisaltaa painotetut (normalisoimattomat)paakomponenttipisteet. Nama matriisit edustavat mittauksia uudessa latent-timuuttujien muodostamassa koordinaatistossa.Paakomponenttipistematriisilla on seuraavat ominaisuudet: [2]

1. Rivien lukumaara on yhta suuri kuin alkuperaisessa datamatriisissa,joka on yleensa naytteiden lukumaara.

2. Sarakkeiden lukumaara on yhta suuri kuin merkitsevien tekijoiden lu-kumaara datassa, ja se voi olla mika tahansa ykkosta suurempi koko-naisluku. Ideaalitapauksessa sarakkeiden lukumaara on alkuperaisendatajoukon ainesosien lukumaara, mutta kohina ja spektrin saman-kaltaisuus yhdessa vaaristavat lukumaaraa. Jokainen sarake vastaapaakomponenttia.

3. Jokaisen sarakkeen alkion nelioiden summa liittyy matriisin omi-naisarvoon. Mita suurempi ominaisarvo, sita suurempi merkitys onpaakomponentilla. Paakomponentit ratkaistaan tarkeysjarjestyksessa.

P on p × p-latausmatriisi, jonka sarakkeet sisaltavat paakomponentit. Mat-riisin P alkiot ovat alkuperaisten muuttujien ja ominaisvektorien valisia la-tauksia (painokertoimia). Λ on p × p-diagonaalimatriisi, joka sisaltaa sin-gulaariarvot λi, jotka ovat kovarianssimatriisin (XT

0 X0) ominaisarvojen ne-liojuuria. Edella matriisi X0 on esikasitelty keskistamalla alkuperaisesta da-tamatriisista X. [15]Latausmatriisilla on seuraavat ominaisuudet:

9

1. Sarakkeiden lukumaara on yhta suuri kuin alkuperaisen datamatriisinsarakkeiden lukumaara, joka on yleensa aallonpituuksien tai havaitsi-joiden lukumaara.

2. Rivien lukumaara on yhta suuri kuin merkitsevien tekijoiden lu-kumaara datassa. Jokainen rivi vastaa paakomponenttia.

3. Jokaisen sarakkeen alkioiden neliosumma on 1.

HUOM! Matemaattisesti menetelman johtamisessa tehdaan useasti oletus,etta n ≥ p. Koska spektroskopiassa yleensa mittauksia on vahemman kuinaallonpituuksia eli n < p, joudutaan yhtalon 2.2 dimensioita muuttamaansiten, etta size(X) = n×p, size(U) = (n−1)×(n−1), size(Λ) = (n−1)×(n−1),size(P) = p× (n−1) ja size(T) = n× (n−1). Edella operaattori size() kuvaamatriisin/vektorin kokoa. Tama johtuu datasta, silla siita on mahdollistasaada vain n− 1 paakomponenttia kun n < p. [15]Kun PCA on suoritettu, muodostetaan lineaarinen malli

Y = Tb + e (2.3)

jolla on ratkaisu

b =(TTT

)−1TTY (2.4)

Uudelle naytteelle saadaan ennusteteina paakomponenttipisteet (konsentraa-tiot) kayttamalla kalibrointidatasta saatuja kertoimia

x = yb (2.5)

jossa size(x) = 1× (n− 1), size(y) = 1× p ja size(b) = p× (n− 1). [15]

2.1.5 Paakomponenttimenetelman edut kalibroinnissa

Eras usean muuttujan kalibroinnissa saavutettava etu on kohinanvahentyminen. Talloin kaytetaan yleensa paakomponenttianalyysia tai vas-taavaa korrelaatio-/kovarianssimatriisia hyvaksikayttavaa menetelmaa, mikapaljastaa datasta suurimman paakomponentin, eli latenttimuuttujan, jokaselittaa suurimman osan datan vaihtelusta. Lisaksi data on ortogonaalista,jolloin matriisien kaantaminen ei enaa tuota vaikeuksia.Paakomponenttianalyysia kaytettaessa kalibraatiomalli jakautuu talloin kol-meen osaan: [3]

� lataukset kertovat yleisesti kaikkien mittausten muodon

10

� paakomponenttipisteet ovat naytekohtaista informaatiota

� residuaalit ovat se osa mittauksista joka eroaa yleisesta muodosta

Ideaalitapauksessa residuaalit ovat mittauskohinaa. Mallia kutsutaan myosyksikomponenttiseksi, silla paakomponenttipistevektoria kohti on vain yksilatausvektori. Malli, eli lataukset ja paakomponenttipisteet, maaritellaanpainotettuna keskiarvona kaikkien alkuperaisten muuttujien yli. Painot onannettu latausvektorissa, joka kuvaa minkalaista informaatiota naytteetsisaltavat.Paakomponenttipisteita hyvaksikayttavia kalibraatiomalleja kutsutaanpaakomponenttiregressiomalleiksi. [3] Ennustettaessa uuden naytteen ha-luttujen analyyttien konsentraatioita naytteesta mitataan sekoiteprofiili(spektri). Kalibrointivaiheessa saaduista latausvektoreista voidaan laskeauuden naytteen lataukset ja paakomponenttipisteet. Nama syotetaan senjalkeen regressioyhtaloon ja nain ollaan saatu konsentraatioiden estimaatit.Paakomponenttiregression tuottama data on hyvaksikaytettavissa myosmuilla tavoin kuin pelkastaan konsentraatioiden estimoinnissa. [3] Esimer-kiksi latauksia tutkimalla voidaan selvittaa mikali jotkin mitatut muuttujateivat kayttaydy osotetulla tavalla, esimerkiksi tilanteessa, jossa sensori onvioittunut. Aarimmainen paakomponenttipisteen arvo viittaa aarimmaiseennaytteeseen, mahdollisesti poikkeavaan havaintoon. Paakomponenttipisteistasaadaan selville myos mallin toimivuus, ja tiedolla voidaan myos yrittaaparantaa mallia. Lisaksi voidaan tutkia eri mittausten eroavaisuuksia, esi-merkiksi pistediagrammien avulla. Kaikki nama ja muut visualisointikeinotauttavat ymmartamaan miksi malli toimii tai miksi se ei toimi.

2.1.6 Paakomponenttimenetelman haittoja

PCR on metodi, jotka perustuu pienimman neliosumman menetelmaan jatasta syysta se on herkka poikkeaville havainnoille. Poikkeavia havaintoja onmonenlaisia, mallin poikkeavia havaintoja, X:n ja y:n poikkeavia havainto-ja seka naiden kombinaatioita. Ennen mallin luontia ei voida tietaa mitkahavainnot ovat mallin suhteen poikkeavia, mutta X:n ja y:n suhteen naitavoidaan tarkastella. X:n suhteen poikkeavien havaintojen etsimiseen voidaankayttaa esimerkiksi Grubbsin tai Dixonin testeja. [15]

11

2.2 Osittainen pienimman neliosumman me-

netelma (PLS)

2.2.1 Yleista

PLS-regressio on usean muuttujan lineaarisen regression (MLR) yleistys, jo-ka kykenee, toisin kuten MLR, analysoimaan voimakkaasti kollineaarista jakohinaista dataa seka useita X- ja Y-muuttujia sisaltavia malleja. [22]PLS on painotettu regressiometodi, jota kaytetaan tiivistamaan prediktorien(n kpl) datamatriisi X = [x1,x2, ...,xp] A kappaleen latenttimuuttujajoukok-si tai faktoripisteiksi, jossa A ≤ p. Kalibrointiongelmassa PLS pyrkii siis en-nustamaan vastemuuttujat Y prediktorien X avulla. Painotettujen regressio-menetelmien etuja on etta ne eivat edellyta aallonpituuksien valintaa ennenkalibrointiregressiovektorin maaritysta. Talloin menetelmat sallivat kayttaaenemman aallonpituuksia kuin naytteita on, ja ne tarjoavat edun signaalinkeskiarvoistuksen muodossa, joka vahentaa virheita mitatuissa vasteissa. [10]Monesti puhutaan PLS1:sta seka PLS2:sta. Tama tarkoittaa vain vastemuut-tujan Y kokoa. PLS1:n tapauksessa Y on vektori, PLS2 taas tarkoittaa, ettakalibroitavana on useampia vastemuuttujia, ja Y on matriisi. Algoritmi toi-mii edelleen kuitenkin samalla tavalla molemmissa tapauksissa.Seuraavissa PLS:aa kasittelevissa kappaleissa kaytan seuraavanlaista notaa-tiota:

12

a komponenttien indeksi (mallin dimensiot), a = 1, 2, ..., AA mallin komponenttien kokonaislukumaarai havaintojen/tapausten indeksi, i = 1, 2, ..., NN havaintojen lukumaarak X-muuttujien indeksi, k = 1, 2, ..., Km Y-muuttujien indeksi, m = 1, 2, ...,MX prediktorimuuttujien N ×K-matriisiY vastemuuttujien N ×M -matriisibm Y:n m:s K × 1-regressiokerroinvektroriB kaikkien Y:den K ×M -regressiokerroinmatriisica komponentin a PLSR Y-painotC Y-painojen M × A-matriisi, ca ovat taman sarakkeetE X-residuaalien N ×K-matriisiF Y-residuaalien N ×M -matriiisipa komponentin a PLSR X-latauksetP K × A-latausmatriisi, pa ovat taman sarakkeetR2 korrelaatiokerroin eli selitysaste, kuinka paljon Y -muuttujien

vaihtelua on selitettyra PLSR-painot jotka on muunnettu komponenteista riippumattomiksiR muunnettujen painojen K × A-matriisi, jonka sarakkeet ovat ra

Q2 ristivalidoitu R2, kuinka hyvin Y-muuttujia on ennustettuta komponentin a X-komponenttipisteetT N × A-komponenttipistematriisi, jonka sarakkeet ovat ta

ua komponentin a Y-komponenttipisteetU N × A-komponenttipistematriisi, jonka sarakkeet ovat ua

wa komponentin a PLSR X-painotW X-painojen K × A-matriisi, jonka sarakkeet ovat wa

2.2.2 Datan esikasittely

Ennen analyysia X- ja Y-muuttujat usein ajetaan muunnoksen lapi, jottaniiden jakaumista tulisi symmetrisempia. Muuttujat, joiden vaihtelu onuseita dekadeja muunnetaan usein logaritmisesti.Projektiometodien, kuten PLSR, tulokset riippuvat datan skaalauksesta.Standardi menettelytapa on ollut (i) skaalata jokaisen muuttujan varianssiykkosen suuruiseksi jakamalla jokainen muuttuja keskihajonnallaan, seka(ii) keskittaa muuttujat vahentamalla niista keskiarvonsa. Tama vastaajokaiselle muuttujalle saman painon antamista (prioritarkeys). [22]

13

2.2.3 PLS-regressiomalli

PLS etsii annetusta datasta pienemman maaran uusia muuttujia ta, a =1,2,...,A. Seka X etta Y oletetaan ainakin osittain olevan mallinnettu sa-moilla latenttimuuttujilla. Muuttujien ta oletetaan olevan ortogonaalisia.Ne estimoidaan alkuperaisten muuttujien xk lineaarikombinaatioina, joidenpainokertoimet ovat rka, a = 1,2,...,A

tia =∑k

rkaXik (2.6)

joka voidaan esittaa matriisimuodossa

T = XR (2.7)

PLS-regression kaksi paayhtaloa ovat matriisien X ja Y latenttimuuttujienavulla ilmaistut hajotelmat:

Xik =∑a

tiapak + eik, (2.8)

jayim =

∑a

cmatia + fim, (2.9)

jotka ovat matriisimuodossa ilmaistuna

X = TPT + E (2.10)

sekaY = TCT + F (2.11)

Oheisissa yhtaloissa matriisit P ja C ovat latausmatriiseja.Vastemuuttujamatriisille Y on olemassa viela oma relaationsa, jonka avullase voidaan hajoittaa Y-latausmatriisin C avulla:

yim =∑a

uiacam + gim, (2.12)

joka on matriisimuodossaY = UCT + G (2.13)

Ottamalla huomioon yhtalo 2.6, saadaan yhtalo 2.9 nayttamaan regressio-mallilta:

yim

∑a

cma

∑k

rkaxik + fim =∑k

bmkxik + fim (2.14)

14

joka voidaan esittaa matriisimuodossa

Y = XRCT + F = XB + F (2.15)

PLS-regression ”regressiokertoimet”bmk voidaan kirjoittaa

bmk =∑a

cmarka (2.16)

matriisimuodossaB = RCT (2.17)

Yhtalossa 2.12 uia on Y-matriisin PLS-komponenttipisteet ja cam (mones-ti merkitaan myos q:lla) Y-matriisin lataukset. Vastaavasti yhtalossa 2.8pak on X-matriisin lataukset ja tia X-matriisin PLS-komponenttipisteet. La-taukset tassakin pyrkivat selittamaan selittavan muuttujan variaatioita. X-komponentit pyrkivat selittamaan variaatioita eri aallonpituuksien valilla.Yhtalossa 2.17 esiintyy muunnettujen X-painojen matriisi R. Alempanamaaritelty PLS-algoritmi laskee ainoastaan painot W. Muunnetut painotsaadaan alkuperaisista seuraavasti:

R = W(PTW)−1 (2.18)

Kun kertoimet B on maaritetty, on mahdollista estimoida uuden naytteenkonsentraatiot, kun naytteelle on mitattu spektri x (vaakavektori):

y = xB (2.19)

Regressiokertoimet B tulkitaan usein virheellisesti Y:ssa ilmaistujen aine-sosien spektriprofiiliksi. Kertoimet B ovat kuitenkin Y-matriisiin liittyvatregressiokertoimet, eivatka ne liity matriisiin X.

Suora PLS

PLS-malli on mahdollista jarjestaa uudelleen niin, etta malli ennustaakinY:ta X:n sijaan. [18] Yhtalo 2.15 voidaan uudelleenjarjestaa:

Y − F = XB (2.20)

ja kertomalla molemmat puolet (BTB)−1BT :lla, saadaan

(Y − F)(BTB)−1BT = XB(BTB)−1BT (2.21)

Korvaamalla XB(BTB)−1BT = X− E, saadaan

(Y − F)(BTB)−1BT = X− E (2.22)

15

ja kun maaritellaan KT = (BTB)−1BT seka Y = (Y − F), saadaan

YKT = X− E (2.23)

josta lopulta siirtelemalla termeja saadaan

X = YKT + E (2.24)

Tasta nahdaan, etta epasuorat kalibrointimenetelmat, kuten PLS, kykenevatennustamaan myos puhtaiden ainesosien spektriprofiileja suoran kalibroinnintavoin.

2.2.4 Osittaisen pienimman neliosumman regressio-mallin tulkinta

Eras PLS-regression tulkinta on, etta se muodostaa ”uudet”x-muuttujat ta

vanhojen x:ien lineaarikombinaationa, ja taman jalkeen malli kayttaa naitauusia muuttujia ennustamaan Y:ta. Uusia muuttujia muodostetaan vain sel-lainen maara, joka on ennustamisessa merkitseva.Kaikki mallin osat, t,u,w (ja r), p ja c maarittyvat allakuvatun algorit-min perusteella. PLS-regressiomallin tulkinnan kannalta tarkeat muuttujatovat PLS-komponenttipisteet t ja u, jotka sisaltavat informaatiota annetunongelman ja mallin suhteen. Painot wa (tai ra) seka ca kuvaavat kuinkamuuttujat muodostavat kvantitatiivisen relaation X:n ja Y:n valille. Suuretpainokertoimien arvot kertovat mitka X-muuttujat ovat tarkeita, seka mitkaX-muuttujat sisaltavat samaa informaatiota (samanlaiset kertoimet). [22]Residuaalit ovat datan se osa, jota malli ei selita, ja siksi ne ovatkin tarkeitatutkimuskohteita. Suuret Y-residuaalit viittaavat siihen, etta malli on huo-no, ja normaalipaperikuvat ovat hyva keino selvittaa poikkeavien havainto-jen olemassaolo T:n ja Y:n valilla. X:n residuaaleja ei kayteta hyvaksi Y:nmallintamisessa, vaikka X-residuaaleista saakin selville poikkeavat havainnotX-avaruudessa, eli molekyylit joiden rakenne ei sovi malliin seka prosessinosat jotka eroavat ”normaaleista”prosessioperaatioista.PLS-regressiomallin tulkintaan on olemassa muutamia ohjeita: [22]

� Hanki hyva tuntemus kasiteltavasta ongelmasta etenkin mitka vaste-muuttujat Y ovat tarkasteltavana mittauksissa ja mallissa, seka mitaprediktoreja X tulisi mitata ja varioida. Mikali X-muuttujien koeolo-suhteita voidaan muuttaa, on hyva kayttaa hyvaksi koesuunnitteluaX-matriisin konstruoinnissa.

� Hanki hyvaa dataa niin prediktoreista kuin vasteista. Monen muuttujatY:t tarjoavat huomattavasti enemman informaatiota, silla ne voidaan

16

kaikki analysoida erikseen paakomponenttianalyysilla. Tama antaa ku-van systemaattisesta variaatiosta Y:n sisalla, mitka Y-muuttujat tulisianalysoida yhdessa jne.

� Ensimmainen tieto mallista on sen asteluku A, ts. kuinka monta merkit-sevaa komponenttia mallissa on. Komponenttien lukumaara antaa ala-rajan sille lukumaaralle vaikutuksia, jotka aiheuttavat muutoksia tar-kasteltavassa systeemissa. Latenttimuuttujien kasitteen voidaan nahdaolevan yhtalainen em. vaikutusten kanssa.

� Mallin sovitteen hyvyys saadaan selitysasteesta R2 seka Q2 (ristivali-doitu R2). Usean Y-muuttujan tapauksessa on mahdollista maarittaaR2

m ja Q2m jokaiselle ym. Selitysasteet R2 antavat ylarajan sille kuin-

ka hyvin malli selittaa dataa ja ennustaa uusia havaintoja, Q2 antaavastaavan alarajan.

� (u, t)-kuvaajat mallin ensimmaisen kahden tai kolmen dimension suh-teen paljastavat datan kaarevuuden, ryhmat seka poikkeavat havain-not.

� (t, t)-kuvaajista on mahdollista nahda datan homogeenisuudet, ryhmatja muut ilmiot. (r, c)-kuvaajat antavat naista loytyville ilmioille tulkin-nan.

� Etenkin spektroskopiassa kaytetty datan visualisointitapa on piirtaalataukset pa aallonpituuden funktiona, jolloin saadaan jokaisen kom-ponentin spektri esiin. Latauksia kaytetaan alkuperaisten muuttujienja PLS-komponenttipisteiden valisen suhteen tulkinnassa.

� Latauksia erikseen tarkasteltaessa positiiviset piikit kuvaajassa aiheu-tuvat yleensa tarkasteltavan komponentin spektripiikeista, kun taas ne-gatiiviset piikit vastaavat hairiokomponentteja. [11]

� Jos esiintyy ongelmia, ts. pienia R2:n tai Q2:n arvoja, poikkeavia ha-vaintoja, ryhmia tai kaarevuuksia PLS-komponenttipisteiden kuvaajis-sa, ongelma kannattaa yrittaa korjata. Residuaalien kuvaajista (nor-maalipaperikuvat, DModX, DModY) saattaa loytya lisainformaatiotaongelman aiheuttajasta.Yksittaiset poikkeavat havainnot tulee tarkastaa datan paikkansa-pitavyyden varmistamiseksi, ja jos tama ei auta, poistaa analyysista(kuitenkin vain jos ne eivat ole kiinnostavia).(u, t)-kuvaajan kaarevuutta voidaan korjata muuntamalla data esim.logaritmisesti tai lisaamalla malliin neliollisia tai kuutiollisia termeja.

17

� Mikali yllamainittuja ongelmia ei esiinny, eli selitysasteet ovat kunnossaja malli on tulkittavissa, voidaan yrittaa parantaa mallia poistamallaei-tarkeita termeja, esim. pienet regressiokertoimet. Kun malli on saatukuntoon ja validoitu, sita voidaan kayttaa.

2.2.5 Geometrinen tulkinta

PLSR on projektiometodi, ja taten silla on yksinkertainen geometrinen tul-kinta X-matriisin (N pisteen joukko K-ulotteisessa avaruudessa) projektio-na A-ulotteiselle hypertasolle siten, etta projektion koordinaatit ta(a =1, 2, ..., A) ovat Y:n hyvia prediktoreja, ts. taso on siihen suuntaan, jossaon paras korrelaatio Y:n kanssa (malli selittaa suurimman osan variaatios-ta).Taso ilmaistaan kulmakertoimien pak (lataukset), jossa jokainen komponent-ti on ilmaistu erikseen koordinaattiakselien xk suhteen. Kulmakertoimet ovatkoordinaattiakselien ja pinnan komponenttien valisten kulmien kosineita. [22]

2.2.6 PLS-regressioalgoritmi

Varsinaisia mallin laskemiseen tarkoitettuja algoritmeja on useita. Eras al-kuperaisista algoritmeista on NIPALS (Non-linear Iterative PArtial LeastSquares), joka kasittelee alkuperaisia datamatriiseja X ja Y (skaalattuna jakeskitettyna). Vaihtoehtoisesti regression laskemiseksi on kaytettavissa myosnk. kernel-algoritmeja, jotka kayttavat hyvaksi (ko)varianssimatriiseja XTX,YTY ja XTY (tai XXT ja YYT ), joka on edullista silloin, kun havaintojenlukumaara N eroaa huomattavasti muuttujien lukumaarista K ja M . [22]Alkuperaisen yksinkertaisen NIPALS-algoritmin ovat esittaneet Wold et al,[21] joka esitetaan seuraavaksi.Alussa matriisit X ja Y on mahdollisesti skaalattu ja keskitetty. Tamanjalkeen suoritetaan jokaiselle a:lle komponentille:

1. Valitse aloitusvektori u, Y:n a:s sarakevektori. Mikali kyseessa on yh-den muuttujan kalibrointi, u = y.

2. Maaritetaan X-painot: w = XT uuT u

, normeerataan w.

3. Maaritetaan X-komponenttipisteet: t = Xw.

4. Maaritetaan Y-painot: c = YT ttT t

, normeerataan c.

5. Lopuksi paivitetaan Y-komponentit: u = YT ccT c

18

6. Tarkistetaan algoritmin konvergoituminen t:n muutoksesta:||tvanha−tuusi||

||tuusi|| < ε. ε on pieni, luokkaa 10−6 tai 10−8. Jos algorit-mi ei ole konvergoitunut, palataan kohtaan 2. Muussa tapauksessamennaan kohtaan 7. Mikali y-muuttujian on vain yksi, eli M = 1,algoritmi konvergoi yhdella ainoalla iteraatiokierroksella.

7. Tyhjennetaan (deflate) X ja Y tamanhetkisista komponenteis-ta, ja kaytetaan tyhjennettyja matriiseja seuraavan komponentinmaarittamisessa:

p =XT t

tT tX = X− tpT

Y = Y − tcT

Y:n tyhjentaminen on vapaaehtoista, tulokset patevat vaikka tyhjen-nysta ei tehtaisikaan. [22]

8. Jatketaan seuraavaan komponenttiin (takaisin kohtaan 1) kunnesristivalidointi kertoo ettei X:sta loydy enaa merkittavaa tietoa Y:sta.

Algoritmia on mahdollista modifioida kunhan kohdat 3-8 pysyvat samoina.Muunnellun algoritmin ominaisuudet, kuten mallin komponenttien valinenortogonaalisuus, pysyvat samoina. Tata ominaisuutta voidaan kayttaahyvaksi, kun mallin tuottamaan ratkaisuun halutaan lisaa pehmeytta, taikun halutaan tuottaa PLS-regressiomalli, jossa suurin osa kertoimista onnollia, seka moniin muihin tarkoituksiin.PLS-regressioalgoritmista nahdaan, etta algoritmin tuottama ensimmainenpainovektori w1 on yhdistetyn varianssi-kovarianssimatriisin XTYYTXensimmainen ominaisarvovektori, ja seuraavat vektorit ovat saman yo. mat-riisin tyhjennettyja versioita, eli ZT

a YYTZTa , jossa Za = Za−1 − Ta−1P

Ta−1.

Samalla tavoin ensimmainen PLS-komponenttipistevektori t1 on ominais-vektori matriisille XXTYYT , ja seuraavat X:n PLS-komponenttipisteet ta

ovat ominaisvektoreita matriisille ZaZTa YYT . [22]

Ominaisvektorien relaatioista nahdaan, etta vektorit wa muodostavatortonormaalin joukon, ja etta vektorit ta ovat keskenaan ortogonaalisia.Latausvektorit pa eivat ole keskenaan ortogonaalisia, mutta ne ovat or-togonaalisia w:n suhteen. Myoskaan Y-komponenttipisteet ua eivat olekeskenaan ortogonaalisia, mutta ne ovat ortogonaalisia t:n suhteen. Naillepatee uT

b ta = 0 ja pTb wa = 0 jos b > a. Lisaksi patee wT

a tpa = 1.

19

2.2.7 Mallin validointi

Jokainen malli taytyy validoida ennen kuin sita voidaan kayttaa ennusta-miseen, jotta ollaan varmistuttu siita, etta mallin asteluku on paras mah-dollinen. Paras todiste onnistuneesta validoinnista on se, etta malli ennus-taa havaitut Y-arvot validointijoukon X-arvoilla. Edustava ja riippumatonvalidointojoukko on kuitenkin harvinaisuus. Koska hyvaa validointijoukkoaon vaikea loytaa, on mallin validointi mahdollista suorittaa ristivalidoinnilla(CV).Eras tapa tarkastella mallin astelukua on piirtaa ||b||-RMSEC -kuvaaja. RM-SEC tarkoittaa kalibroinnin keskimaaraista neliovirhetta (root mean squareerror of calibration):

RMSEC =

√∑mi=1(ci − ci)2

m(2.25)

jossa c on mallin avulla tuotettu estimaatti ja c on mallin luomiseen kaytetynopetusdatajoukon alkio, kun malli on luotu opetusjoukolla, jonka koko on m.[14]

Ristivalidointi

Ristivalidointi on kayttokelponen tapa testata mallin toimivuutta. Ristivali-doinnin toimintaperiaate on, etta data jaetaan G:hen joukkoon, ja muodos-tetaan erilaisia malleja eri asteluvuilla siten, etta osa joukoista poistetaan.Kun mallit on muodostettu, lasketaan ennusteiden ja oikeiden Y-arvojen ero-tusten neliosumma jokaiselle mallille (PRESS, predictive residual sum ofsquares). Malli, jolla on suurin Q2 = 1 − PRESS/SS, jossa SS on Y:njaannosneliosumma, valitaan.Ristivalidointiin on mahdollista perustaa myos muuttujien tilastollisen mer-kittavyyden testaus. Tama perustuu nk. Jack-knife-menetelmaan, jossa esti-moiduille kertoimille B lasketaan kaikkien kertoimien ja muiden kertoimien,kun yksi muuttuja on jatetty pois (leave-one-out, LOO), keskineliovirhe.Taman estimaatin neliojuurta voidaan testata t-testilla (N vapausastetta),ja nain saada kuva muuttujan tilastollisesta tarkeydesta kalibrointimallissa.Ongelmana on, etta latenttimuuttujien rotaatio aiheuttaa malliin moniselit-teisyytta. Ongelmaa ei kuitenkaan tarkastella tassa tarkemmin. [16]

VIP (Variable Influence on Projection)

PLSR-mallinnuksessa muuttuja (xk) saattaa olla tarkea Y:n mallinnuksessa.Tallaiset muuttujat tunnistaa yleensa regressiokertoimien bmk suurista ar-voista. Muuttuja saattaa olla tarkea myos x:n mallinnuksessa, jonka huomaa

20

suurista latausten pak arvoista. Muuttujan tarkeys molemmille seka X:lleetta Y:lle saadaan VIP:n avulla. Muuttujan tarketys projektiossa (VIP)maaritellaan PLS-painojen rak painotettuna neliosummana, jossa painotlasketaan jokaisen PLS-komponentin a selittamasta Y-varianssista. Mikaliselittavan muuttujan VIP-arvo on pieni, voidaan se harkinnan mukaanpoistaa mallista, mikali taman kertoimet eivat ole suuria. VIP-arvot, jotkaovat alle 0.8 voidaan tulkita pieniksi.

2.2.8 Puuttuvat havainnot

PLSR:n tapaiset projektiometodit sietavat jonkin verran puuttuvaa dataaseka X:n etta Y:n suhteen. Mita suurempia ovat matriisit X ja Y, sitaenemman malli sietaa puuttuvaa dataa.NIPALS-algoritmi automaattisesti kasittelee puuttuvat havainnot iteratiivi-sesti korvaamalla puuttuvat havainnot mallin ennusteilla. Tama vastaa tilan-netta, jossa puuttuvalle datalle annetaan komponenteittain arvo jonka resi-duaali on nolla, ja silla ei nainollen ole vaikutusta komponentin parametreihinta tai pa. [22]

2.2.9 Osittaisen pienimman neliosumman menetelmanhaittoja ja etuja

Koska PCR ja PLS perustuvat molemmat datan hajottamiseenpaakomponentteihinsa, ovat kyseisten menetelmien edut ja haitat saman-suuntaisia molemmilla. Ylhaalla on kasitelty jo paakomponenttiregressiota.Seuraavassa joitakin PLS:n haittoja ja etuja kalibrointiongelman ratkaise-misessa. [1]

Haittoja

� Yleisesti PLS/PCR:n heikkoutena on pidetty, etta mallin konstruoi-miseen vaaditaan yleensa paljon naytteita. Yleisesti ottaen PLS-mallinkonstruoimiseen vaaditaan enemman naytteita kuin klassisen kalibroin-timallin rakentamiseen. Tama kuitenkin johtuu kaanteisten mallienominaisuudesta korjata sellaisia vaikutuksia, joita ei voida mallintaaklassisin menetelmin. Mallin luomiseen ei kuitenkaan tarvita satojanaytteita. Peukalosaantona voidaan pitaa, etta naytteita tulisi olla noinkolme kertaa latenttimuuttujien maara.

21

� Mallin asteluvun, ts. latenttimuuttujien lukumaaran, maarittaminen eiole aina helppoa.

� PCR ja PLS ovat monimutkaisia malleja, mallien sisaistaminen ei olehelppoa verrattuna vaikkapa perinteiseen lineaariseen regressioon.

� Mallien diagnostiikassa on paljon muistettavaa. Taman takia vie hetkenaikaa kehittya taitavaksi mallien validoinnissa.

� Ennen analyysin alkua on jo tehtava paljon valintoja (datanesikasittely, ristivalidointi, asteluku).

Etuja

� Klassisten menetelmien suurin heikkous on se, etta datan taytyy nou-dattaa oletettua mallia. Kaikkien komponenttien taytyy olla tunnet-tuja, mittausten taytyy olla lineaarisia konsentraatioiden suhteen jasekoitespektrin taytyy olla puhtaiden ainesosien spektrien lineaarikom-binaatio. PLS ja PCR eivat karsi tallaisesta heikkoudesta.

� Mallidiagnostiikan mahdollisuudet ovat erinomaiset. Nama auttavatmallin luotettavuuden arvioinnissa.

� Suurten vaihteluiden aiheuttajat on mahdollista ottaa huomioon ilmanetta lahteet eristetaan ja maaritetaan. Ainoa vaatimus on, etta namavaihtelevat suhteellisen paljon kalibraatiovaiheen aikana. Implisiitti-sen mallintamisen kyky antaa kaanteisille kalibrointimetodeille vahvanedun klassisiin menetelmiin verrattuna.

� Myos ennustamisen helpottamiseksi on olemassa diagnostiikkoja, joillavoidaan arvioida ennusteen luotettavuutta.

2.2.10 PLS:n yhteydet muihin monimuuttujamenetel-miin

PLS pyrkii etsimaan datan alta loytyvat piilomuuttujat, nk. latenttimuuttu-jat, aivan samaan tapaan kuten faktorianalyysikin. PLS on siis faktoriana-lyysimenetelma. Monesti PLS:n muissa sovellutuksissa pyritaan ensin eksplo-ratiivisella faktorianalyysilla selvittamaan mitka latenttimuuttujat vaikutta-vat tarkasteltaviin piilomuuttujiin latauksien kautta. Nain voidaan eliminoi-da tarpeettomat faktorit analyysista ja kasitella vain haluttuja latenttimuut-tujia regression avulla.

22

PLS pyrkii maksimoimaan X- ja Y-muuttujien valisen lineaarisen korre-laation, aivan kuten kanoninen korrelaatio. [17] Kanoninen korrelaatio onkuitenkin kaksisuuntainen menetelma, ts. X voidaan ennustaa Y:sta ja toi-sinpain. PLS toimii vain yksisuuntaisesti. Lisaksi, kanoninen analyysi on lin.regressiopohjainen menetelma ja karsii taman ongelmista. Esimerkiksi kol-lineaarisuus, kohina muuttujissa, puuttuvat havainnot, multinormaalisuusseka havaintojen pieni lukumaara suhteessa muuttujiin vaikuttavat kaikkikanonisen analyysin onnistumiseen. [19]

23

Luku 3

Sovellus bensiinin oktaaniluvunmaaritykseen

3.1 Data

Tarkastellaan kalibrointimenetelmien toimivuutta kaytannossa ja sovelletaanniita kalibroimaan bensiinin oktaanilukumittaukset. Datajoukko sisaltaa 60bensiininaytetta, joille kaikille on maaritetty oktaaniluku. Naytteet on NIR-mitattu kayttaen diffuusioreflektanssia asteikolla log (1/R) aallonpituuksienollessa 900 nanometrista 1700 nm:iin 2 nm valein. [13]Jaetaan data kahteen joukkoon, jossa ensimmaista 50 naytetta kaytetaan ka-librointimallin luontiin, ja loput 10 naytetta toimivat validointijoukkona. Ku-vassa 3.1 on nahtavissa kaikkien 60 naytteen koko spektri. Kuten havaitaan,naytteet eivat vaihtele paljoakaan toisistaan. Kuvassa 3.2 on nahtavissa mal-lin luontiin kaytetyt oktaaniluvut, kun taas kuvassa 3.3 on nahtavissa mallinvalidointiin kaytetyt oktaaniluvut.

Estimoidaan datalle kalibrointimalli, jossa vasteina y ovat oktaani-luvut, ja riippumattomina muuttujina X ovat spektrinaytteet kayttaenpaakomponenttiregressiota seka osittaisen pienimman neliosumman mene-telmaa.

24

Kuva 3.1: Kaikki 60 spektrinaytetta.

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●●

●

●

●

●●

●●

●

●●

●

●

●

●●

●●

●●

●

●

●

●

●

●

●

0 10 20 30 40 50

8485

8687

8889

nÃ¤yte

okta

anilu

ku

Kuva 3.2: Mallin luomiseen kaytetytoktaanilukunaytteet

●

●

●

● ●

●

●

●

●

●

2 4 6 8 10

8586

8788

89

nÃ¤yte

okta

anilu

ku

Kuva 3.3: Mallin validointiin kaytetytoktaanilukunaytteet

25

3.2 Tulokset

Mallien estimointi suoritettiin R:n versiolla 2.6.1 kayttaen lisapakettia pls2.1. Mallien validointiin kaytettiin ristivalidointia LOO-periaatteella latent-timuuttujien maksimimaaran ollessa 8. PCR-komponenttien estimointi ta-pahtuu singulaariarvohajotelmalla. PLS-komponentteja estimoitaessa on va-raa valita useasta eri metodista, mutta tassa estimointi tehtiin S. de Jon-gin SIMPLS-menetelmalla. [8] Kaytannossa algoritmeilla ei ole mitaan eroa,ja ne tuottavat saman tuloksen kaytettiin sitten NIPALS:a, SIMPLS:a taikernel-menetelmaa.PCR:a kayttamalla saadaan ristivalidoinnin tulokseksi kuva 3.4 selitysasteenollessa 3.5. Ristivalidoinnissa kaytetaan RMSEP-disgnostiikkaa (root meansquared error of prediction). Kuvassa 3.4 on nahtavissa RMSEP estimoidunkomponenttimaaran funktiona. Havaitaan, etta komponenttien maarilla 4 ja7 on pienimmat RMSEP-arvot. Lukuja tarkastellessa huomataan 7 kompo-nentin mallin omaavan pienimman RMSEP-luvun.Kuvassa 3.5 on nakyvissa selitysaste mallin asteluvun funktiona. Havaitaan,

0 2 4 6 8

0.2

0.4

0.6

0.8

1.0

1.2

1.4

octane

number of components

RM

SE

P

CVadjCV

Kuva 3.4: PCR-mallin ristivalidoinnintulokset komponenttimaaran funktio-na

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

octane


R2

CV

Kuva 3.5: PCR-mallin selitysaste kom-ponenttimaaran funktiona

etta selitysaste nousee viela neljas komponentti mukaan otettaessa, muttatasta eteenpain selitysaste ei kasva enaa merkittavasti.PLS:aa kayttamalla saadaan ristivalidoinnin tulokseksi kuva 3.6. Kuvastahavaitaan, etta komponenttien maarilla 4 ja 6 on pienimmat RMSEP-arvot.Pienin RMSEP-arvo on mallissa kuudella komponentilla. Kuvassa 3.7 onnahtavissa selitysaste mallin asteluvun funktiona. Havaitaan, etta jo kolmel-

26

la komponentilla saavutetaan yli 0.90 selitysaste.RMSEP-kuvaajien tulkintaan optimaalisen mallin asteen valinnassa on an-nettu monenlaisia ohjeita. Monestikaan kaikkein pienin RMSEP-arvo ei oleoptimaalisin, vaan optimaalisuusehtoon kuuluu myos mallin yksinkertai-suus, ts. mallissa on mahdollisimman vahan komponentteja. Talloin voidaankayttaa myos jonkinlaista informaatiokriteeria valitsemaan komponenttienmaara, joka antaa parhaan ratkaisun toisaalta malin kompleksisuuden muttamyos toisaalta ennustevirheen suhteen. Tassa esimerkissa molempien mallienRMSEP-kuvaajat ovat jo kolmen komponentin kohdalla niin lahella nollaa,etta mallien asteluvuksi voitaisiin valita 3. Kun dataa tulee enemman ja so-vitettava malli monimutkaistuu, on monesta lahes yhta suuresta RMSEP-arvosta kannattavinta valita se, joka on saatu pienimmalla maaralla kompo-nentteja.Kummankin mallin komponenttien selittama osuus varianssista on esitettytaulukossa 3.1.Varsinaiset erottuneiden komponenttien muodot saadaan tarkastelemal-

Taulukko 3.1: Mallien komponenttien selittama osuus varianssianssista pro-sentteina

Comp 1 Comp 2 Comp 3 Comp 4PCR 72.8425986 17.4823678 5.4857508 1.4366002PLS 64.3084199 20.9295824 10.5493167 1.4347647

Comp 5 Comp 6 Comp 7 Comp 8PCR 0.8411655 0.4570431 0.3645626 0.2966573PLS 0.3635939 0.6030689 0.4219250 0.1307144

la menetelmien tuottamia latauksia. Nama voidaan tulkita myos aineso-sien komponenttien spektrimuodoiksi. Kuvassa 3.8 on nakyvissa kahdenensimmaise latenttimuuttujan lataukset. Kuvaan on myos piirretty viivanollan kohdalle. Talla voidaan erottaa komponentin kontribuutio spektriinhairiosta. Kuvasta nahdaan, etta suurin paakomponentti selittaa spektripii-kit aallonpituuksilla 1118-1158 nm seka 1620-1690 nm. Kuvaan se on mer-kitty sinisella viivalla. Seuraava paakomponentti nakyy kuvassa punaisellakatkoviivalla. Toinen paakomponentti viittaa kaikkiin kolmeen spektripiik-kiin 1200nm, 1400nm ja 1600nm paikkeilla. Kolmas paakomponentti vaikut-taa jo pienempiin vaihteluihin, eika siita voida enaa erottaa selkeita piirteitaalkuperaisen spektrin suhteen. Kuvassa se nakyy mustana pisteviivana.PLS:n tuottamat kahden ensimmaisen komponentin lataukset on nahtavissakuvassa 3.9. Ensimmainen PLS-komponentti on hyvin paljon samannakoinen

27

0 2 4 6 8

0.2

0.4

0.6

0.8

1.0

1.2

1.4

octane


RM

SE

P

CVadjCV

Kuva 3.6: PLS-mallin ristivalidoinnintulokset komponenttimaaran funktio-na

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

octane


R2

CV

Kuva 3.7: PLS-mallin selitysaste kom-ponenttimaaran funktiona

kuin PCR:n tuottama. Spektripiikin ovat samoilla kohdin. Kuitenkin toisessaPLS-komponentissa on jo nahtavissa enemman painoarvoa kaikille spektri-piikeille, mutta myos spektrin alkupaassa oleville aallonpituuksille. KolmasPLS-komponentti vaikuttaa enemman kahteen keskella olevaan spektripiik-kiin, mutta ei pahemmin 1600nm alueella olevaan piikkiin.Tarkastellaan seuraavaksi menetelmien tuottamia komponenttipisteita (sco-res). Naita tutkimalla mallista on mahdollista loytaa poikkeavia havaintojatai datan sisalta loytyvia ryhmia. PCR:n tuottamat komponenttipisteet onnahtavissa kuvassa 3.10. Koska neljannen komponentin selitysaste varians-sista on alle 2%, tarkastellaan kolmea ensimmaista komponenttia. Poikkea-via havaintoja erottuu komponenttipisteiden suhteen vahan. Ensimmaisen jakolmannen komponentin valisessa suhteessa on huomattavissa epalineaarinentrendi: pisteet kaantyvat paraabelinmuotoiselle kaarelle.PLS:n tuottamat komponenttipisteet on nahtavissa kuvassa 3.11. MyoskaanPLS:n komponenttipisteista ei ole eroteltavissa huomattavia erillisia ryhmia.Kuten PCR:n kanssa, ensimmaisen ja kolmannen latenttimuuttujan suhteenon havaittavissa kaareutunut pistekuvaaja, joka kertoo epalineaarisesta tren-dista.Malli todetaan hyodylliseksi vasta kun silla voidaan ennustaa. Kuvassa 3.12on esitetty mallin ennusteet validointijoukolla, kun komponenttien maaravaihtelee yhdesta kahdeksaan. Malli nayttaa ennustavan hyvin kaikilla kom-ponenttimaarilla neljasta eteenpain. Ristivalidoinnilla saadaan taulukko 3.2.Kuvassa 3.13 on nakyvissa ennusteet validointijoukolla mallin asteluvun

28

−0.

15−

0.10

−0.

050.

000.

050.

100.

15

aallonpituus

lata

us

1098 nm 1298 nm 1498 nm 1698 nm

Comp 1 (72.8 %)Comp 2 (17.5 %)Comp 3 (5.5 %)

Kuva 3.8: Kahden ensimmaisen PCR-latenttimuuttujan lataukset.

Taulukko 3.2: PCR:n ristivalidoinnin tulokset

(Intercept) 1 comps 2 comps 3 comps 4 compsCV 1.545 1.517 1.438 0.3458 0.2325

adjCV 1.545 1.517 1.437 0.3455 0.2320

5 comps 6 comps 7 comps 8 compsCV 0.2376 0.2451 0.2304 0.2357

adjCV 0.2372 0.2448 0.2299 0.2355

vaihdellessa yhdesta kahdeksaan. Kuten PCR, myos PLS:n ennustuskykyon hyva. Kuvista nahdaan, etta mallin asteluvut 4 ja 6 nayttavat tuottavanparhaan tuloksen. Alussa pienemmalla maaralla komponentteja ennustevirheon suuri, mutta neljannen komponentin mukaantulon jalkeen mallin ennus-tuskyky ei muutu paljoakaan. Ristivalidoinnilla saadaan taulukko 3.3.Ei ole kovinkaan vaikeaa nahda, etta PLS-mallin ennustuskyky on yleisestiparempi kuin PCR-mallin. Tama nakyy jo ristivalidointitaulukoista, silla neperustuvat mallin ennusteiden virheisiin.Kuvassa 3.14 on nahtavissa PCR-mallin treenijoukon residuaalit eri mal-

lin asteluvuilla. Jokaisen mallin asteluku on kuvaajassa ilmaistu numerolla.

29

−6

−4

−2

02

46

aallonpituus

lata

us

1098 nm 1298 nm 1498 nm 1698 nm

Comp 1 (64 %)Comp 2 (21 %)Comp 3 (11 %)

Kuva 3.9: Kahden ensimmaisen PLS-latenttimuuttujan lataukset.

Taulukko 3.3: PLS:n ristivalidoinnin tulokset

(Intercept) 1 comps 2 comps 3 comps 4 compsCV 1.545 1.321 0.7857 0.2869 0.2254

adjCV 1.545 1.322 0.7848 0.2866 0.2251

5 comps 6 comps 7 comps 8 compsCV 0.2295 0.2145 0.2287 0.2586

adjCV 0.2287 0.2141 0.2279 0.2567

Kuvasta ei saa enaa pahemmin selvaa keskelta, jossa kaikkien paremmin en-nustavien mallien residuaalit ovat paallekkain. Voidaan kuitenkin nahda, ettapoikkeavia havaintoja ei loydy.Kuvassa 3.15 on nahtavissa PLS-mallin tuottamat residuaalit. Havaitaan,

etta residuaalit ovat pienempia PLS-mallilla kuin PCR-mallilla, joka puoles-taan puhuu PLS-mallin paremmuudesta.

30

Comp 1 (72.8 %)

−10 −5 0 5 10 15 20

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●●

●●●●

●●

●

●

●●

●

●●

●

●

●

●

●●

●

●

●●

●

●

−40

−20

020

40

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●● ●

● ●●●

●●

●

●

●●

●

●●

●

●

●

●

● ●

●

●

●●

●

●

−10

−5

05

1015

20

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●●●

●

● ●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

● ●

Comp 2 (17.5 %)●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●● ●

●

● ●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

−40 −20 0 20 40

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●●

●●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●●

●●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

−10 −5 0 5 10

−10

−5

05

10

Comp 3 (5.5 %)

Kuva 3.10: PCR-mallin paakomponenttipisteet eri komponenttien suhteen.

Comp 1 (64 %)

−0.3 −0.2 −0.1 0.0 0.1 0.2

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●●

●

●

●●●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

−0.

3−

0.1

0.1

0.3

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●●

●

●

●● ●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

−0.

3−

0.1

0.0

0.1

0.2

●●

●

●

●

●

●

●

●● ●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●●●

●

●

●●

●

●

●

● ●

●●

●

●

●

●

●● ●●

Comp 2 (21 %) ●●

●

●

●

●

●

●

●●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

● ●● ●

●

●

●●

●

●

●

●●

● ●

●

●

●

●

● ●●●

−0.3 −0.2 −0.1 0.0 0.1 0.2 0.3

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●●●

●

●

●

●

●●

−0.2 −0.1 0.0 0.1 0.2 0.3 0.4

−0.

20.

00.

20.

4

Comp 3 (11 %)

Kuva 3.11: PLS-mallin komponenttipisteet eri komponenttien suhteen.

31

●●

●

●

●

●

●

●

●

●

85 86 87 88 89

87.0

87.4

87.8

octane, 1 comps, test

●

●

●

●

●

●

●

●

●

●

85 86 87 88 89

86.5

87.0

87.5

88.0


●

●

●

●

●

●

●

●

●

●

85 86 87 88 89

8687

8889

90


●

●

●

●●

●

●

●

●

●

85 86 87 88 89

8586

8788

89


●

●

●

●●

●

●

●

●

●

85 86 87 88 8985

8687

8889


●

●

●

●●

●

●

●

●

●

85 86 87 88 89

8586

8788

89


●

●

●

●●

●

●

●

●

●

85 86 87 88 89

8586

8788

89


●

●

●

●●

●

●

●

●

●

85 86 87 88 89

8586

8788

89


measured

pred

icte

d

Kuva 3.12: PCR-mallilla ennustaminen, kun komponenttien maara vaihtelee.

●

●

●

●●

●

●●

●

●

85 86 87 88 89

87.0

88.0

89.0


●

●

●

●

●

●

●

●

●

●

85 86 87 88 89

8586

8788

89


●

●

●

●●

●

●

●

●

●

85 86 87 88 89

8586

8788

89


●

●

●

●●

●

●

●

●

●

85 86 87 88 89

8586

8788

89


●

●

●

●●

●

●

●

●

●

85 86 87 88 89

8586

8788

89


●

●

●

●●

●

●

●

●

●

85 86 87 88 89

8586

8788

89


●

●

●

●●

●

●

●

●

●

85 86 87 88 89

8586

8788

89


●

●

●

●●

●

●

●

●

●

85 86 87 88 89

8485

8687

8889


measured

pred

icte

d

Kuva 3.13: PLS-mallilla ennustaminen, kun komponenttien maara vaihtelee.

32

1

1

1

1

1

1

1

11

1 11

1

1

1

1

1 1

1

1

1

1

11

1

1

1

11

11

1 11

1

1

1

1 1 11 1

1

1

1

1 1

1

1 1

0 10 20 30 40 50

−3

−2

−1

01

2

nÃ¤yte

resi

duaa

li

2

2

2

2

2

2

2

2

2

2

22

2

2

2

2

2

2

2

2

2 2

2 2

2

2

2

2

2 2 2

22 2

2

2

2

2

2

2

2

22

2

2 22

2

2 2

3 3

3

3 3 3 33 3

3

3 3

33 3 3

33

3

33

3

33

3 33

3

3

33 3 3

3 33

3

33

3

33

3 33

3 3 33

3

4 4 4

4

4

4 44 4 4

44

4 4 4 4

44

4

4 4

44

4 44 4

44

4 44

4 4 4 44

44

4

4 44 4 4

4 4

4 4 45 5 5

5

5

5 55 5 5

5 5

5 5 5 5

55

5

5 5

55

5 55 5

55

5 55

5 5 5 5 55

55

5 55 5 5

5 5

5 5 56 6 6

6

6

6 66 6 6

66

6 6 6 6

66

6

6 6

66

66

6 66

66 6

66 6 6 6 6

66

6

6 66 6 6

6 6

6 6 677

77

7

7 77

7 7

77

77

7 7

77

7

7 7

77

7 77

7 77

7 7 7 77 7 7 7

77 7

7 77 7 7

7 7

77 78

8

88

8

8 88

8 8

88

88

8 8

88

8

8 8

88

8 88

8 88

8 8 88

8 88 8

88 8

8 88 8 8

8 8

88 8

Kuva 3.14: PCR-mallin residuaalit.

1

1

1

1

1

1

11

1

11

11

1

1

1

1 1

1

1

1

1

1 11

1

1

11 1 1

1 1

11

1

1

1

1

1

1

1

1

1

1

1 1

1

11

0 10 20 30 40 50

−2

−1

01

23

nÃ¤yte

resi

duaa

li

2

2

2

2 22

2

2

2

22

2

2

2

2

2

2

2

2

2

2

2

22 2 2

2

2 2 2 2 22 2

2

2

2

2

22

2

22 2

2

22

2

223 3

3

33

3 33 3 3

3 3

3 3 3 3

33

3

3 3

3

33

3 3 33

3

33 3 3

3 3 3

3

33

3

33

3 33

3 33 3

34 4 4

4

4

4 44 4 4

4 4

44

4 4

44

4

4 4

44

4 44 4 4

44 4

44 4 4 4 4

44 4

4 44 4 4

4 4

4 4 455

55 5

5 55 5 5

5 5

55

5 55 5

5

5 55 5

5 55

5 55

5 5 5 55 5

5 55

55

5 55 5

55 5

55 5

6 66

6 6 6 66 6 6

6 6

66

6 6

6 6

6

6 66 6

6 66 6 6

66 6 6

6 6 66 6

66

66

6 6 6 66

6

66 6

77

77

7 7 7 7 7 7

7 7

7 77 7

77

7

7 77 7

7 77 7 7

77 7 7

7 7 77 7

77

77 7

7 7 77

7

7 7 78 8 8 8 88

8 8 8 8

8 88 8

8 88 8

8

8 88 8

8 88 8 8

88 8 8

8 8 88 8

8

88 8 8 8 8 8 8

8

8 8 8

Kuva 3.15: PLS-mallin residuaalit.

33

Luku 4

Pohdinnat

PLS on uudehko tehokas keino kalibrointiongelman ratkaisemiseksi. KoskaPLS sietaa paljon sellaisia elementteja datassa, joita muut menetelmat eivat,tekee tama ominaisuus PLS:sta tehokkaamman muihin kalibrointimenetel-miin verrattuna. Nykyiset tietotekniset ratkaisut tekevat kalibrointitehtavanratkaisun suhteellisen helpoksi myos isoillekin datajoukoille. Myos tiedeyh-teisossa tapahtuva menetelmien jatkuva tutkiminen ja kehittaminen edistaakalibrointiongelman ratkaisua ja tarjoaa lisaa tehokkaita tyovalineita. PLS:aavoidaan kehittaa moneen suuntaan, esim. epalineaariseen mallintamiseen,monen muuttujan hierarkiseen mallintamiseen, useampiulotteiseen dataan(multiway data), aikasarja-analyysiin ja diskriminanttianalyysiin.Tassa tyossa on pyritty havainnollistamaan jotain PCR:n ja PLS:n omi-naisuuksia kalibroinnissa. Kalibrointiongelman ratkaisussa kaytetaan myosmuita menetelmia, kuten lineaarista monimuuttujaregressiota (MLR), mut-ta PLS:n kyky analysoida vasteiden profiileja tekee menetelmasta monipuo-lisemman analyysityokalun monimutkaisia systeemeja tarkasteltaessa. Kutenon tullut esille, on PLS yleisesti tehokkaampi menetelma kalibrointitehtavanratkaisussa kuin PCR. [11] Neljan komponentin mallilla paastaan ennusteenselitysasteessa yli 0.98 variaatiosta, joten tulosta voidaan pitaa vahintaankinhyvana, seka PCR:lla etta PLS:lla.Kasittelematta jaivat kuitenkin tiiviisti kemometriaan ja kalibrointiin liit-tyvat aiheet koesuunnittelusta, luokittelusta, hahmontunnistuksesta, signaa-linkasittelysta seka useampiulotteisesta datasta. Nama kaikki ovat tarkeitaosa-alueita kalibrointia suoritettaessa ja spektreja analysoitaessa.

34

Kirjallisuutta

[1] K.R. Beebe. Chemometrics: A practical guide. Wiley-Interscience, 1998.

[2] R. G. Brereton. Introduction to multivariate calibration in analyticalchemistry. The Analyst, 125:2125–2154, 2000.

[3] R. Bro. Multivariate calibration. what is in chemometrics for the ana-lytical chemist? Anal. Chimica Acta, 500:185–194, 2003.

[4] Steven D. Brown, Robert S. Bear Jr., and Thomas B. Blank. Chemo-metrics. Anal. Chem., 64:22–49, 1992.

[5] V. Centner, D. L. Massart, and S. de Jong. Inverse calibration predictsbetter than classical calibration. Fresenius’ J. Anal. Chem., 361(1):2–9,1998.

[6] K. Danzer and L. A. Currie. Guidelines for calibration in analyticalchemistry part 1. fundamentals and single component calibration. PureAppl. Chem., 70(4):993–1014, 1998.

[7] K. Danzer, M. Otto, and L. A. Currie. Guidelines for calibration inanalytical chemistry part 2. multipart calibration. Pure Appl. Chem.,76(6):1215–1225, 2004.

[8] S. de Jong. Simpls: an alternative approach to partial least squaresregression. Chemom. Intell. Lab. Syst., 18:251–263, 1993.

[9] M. C. Denham and P. J. Brown. Calibration with many variables. Appl.Statist., 42(3):515–528, 1993.

[10] P. Gemperline, editor. Practical guide to chemometrics. CRC Press, 2ndedition, 2006.

[11] David M. Haaland and Edward V. Thomas. Partial least-squares met-hods for spectral analyses. 1. relation to other quantitative calibration

35

methods and the extraction of qualitative information. Anal. Chem.,60:1193–1202, 1988.

[12] P.K. Hopke. The evolution of chemometrics. Anal. Chimica Acta,500:365–377, 2003.

[13] J. H. Kalivas. Two data sets of near infrared spectra. Chemom. Intell.Lab. Syst., 37:255–259, 1997.

[14] John H. Kalivas. Pareto calibration with built-in wavelength selection.Anal. Chimica Acta, 505:9–14, 2004.

[15] R. De Maesschalck, F. Estienne, J. Verdu-Andres, A. Candolfi, V. Cent-ner, F. Despagne, D. Jouan-Rimbaud, B. Walczak, S. de Jong, O. E.de Noord, C. Puel, B. M. G. Vandeginste, and D. L. Massart. The de-velopment of calibration models for spectroscopic data using principalcomponent regression. http://www.vub.ac.be/fabi/tutorial/PCR.pdf,13.08.2007.

[16] H. Martens and M. Martens. modified jack-knife estimation of parame-ter uncertainty in bilinear modelling by partial least squares regression(plsr). Food Quality and Preference, 11:5–16, 2000.

[17] M. Stone and R. J. Brooks. Continuum regression: Cross-validatedsequentially constructed prediction embracing ordinary least squares,partial least squares and principal components regression. J. R. Statist.Soc. B, 52(2):237–269, 1990.

[18] J. Trygg. Prediction and spectral profile estimation in multivariate ca-libration. J. Chemometrics, 18:166–172, 2004.

[19] J. Trygg. Pls vs canonical correlation and relation to the o2pls method.http://www.chemometrics.se, 2007.

[20] Wikipedia. Calibration. http://en.wikipedia.org/wiki/Calibration,08.07.2007.

[21] S. Wold, A. Ruhe, H. Wold, and W.J. Dunn III. The collinearity problemin linear regression: The partial least squares approach to generalizedinverses. SIAM J. Sci. Stat. Comput., 5:735–743, 1984.

[22] S. Wold, M. Sjostrom, and L. Eriksson. Pls-regression: a basic tool of che-mometrics. Chemometrics and Intelligent Laboratory Systems, 58:109–130, 2001.

36

Health & Medicine

PLS-REGRESSIO KEMOMETRIAN KALIBROINTIONGELMASSA