59
Petar Žuvela, Mario Meheš, Ivana Ana Papić, Saša Braičić ANALIZA GLAVNIH KOMPONENTI 1 Autori:

ANALIZA GLAVNIH KOMPONENTI

  • Upload
    pero88

  • View
    335

  • Download
    0

Embed Size (px)

Citation preview

1

ANALIZA GLAVNIH KOMPONENTI

Autori: Petar uvela, Mario Mehe, Ivana Sever, Ana Papi, Saa Braii

Analiza glavnih komponenti2

Analiza glavnih komponenti je metoda koja je dio posebne grane analitike kemije kemometrije. Kemometrija je posebna grana analitike kemije koja se bavi primjenom matematikih ili statistikih metoda na analitiko-kemijske podatke. Njezini poeci datiraju jo od tridesetih godina dvadesetog stoljea kada se pojavila u obliku faktorske analize.

Faktorska analiza3

U poetku se koristila u psihologiji pri prouavanju inteligencije, a rezultate istraivanja se pokuavalo poistovjetiti sa ostalim faktorima.

X SL EX = faktor uspjenosti testa S = individualni rezultati L = instristiki faktori inteligencije E = rezidualna pogreka

Polazna pretpostavka je bila sljededa:

(1-1)

Analiza glavnih komponenti4

Koristedi rotaciju svojstvenih vektora, mogude je rastaviti matricu X iz relacije (1-1) u seriju opteredenja i rezultata. Intristiki faktori vezani uz inteligenciju mogli su se tako detektirati. U kemijskoj analizi, ovaj pristup moe se primijeniti dijagonalizacijom korelacijske ili kovarijantne matricu (Analiza glavnih komponenti).

Analiza glavnih komponenti5

Analiza glavnih komponenti se uglavnom provodi koritenjem: 1. Kovarijantne matrice 2. Autoskaliranih podataka

1 T Kovarijantna matrica X' X' NV 1

(1-2)

Navedenu matricu tada dijagonaliziramo koristedi rotaciju svojstvenih vektora.(tipino su nam samo najvedi svojstveni vektori vani)

Kovarijanca i korelacija6

Kovarijanca: Mjera asocijacije izmeu dvaju varijabli.

Kovarijanca =

( x x ) ( y y ) (1-3)i i

Korelacija: Kovarijanca izmeu (autoskaliranih) varijabli.

dvaju

z-transformiranih

Kovarijanca r Sx S y

(1-4)

Analiza glavnih komponenti7

No, ne moramo vriti kompletnu dijagonalizaciju ved je premisa ta da je vedina naih varijabli korelirana te da su kasnije varijable ostatak.

Pronalazak kompletnog rjeenja za veliki set podataka bio bi vrlo dugotrajan proces tako da esto koristimo alternativnu metodu kako bi ga ubrzali.

Metode analize glavnih komponenti8

1.

2.

Dvije osnovne alternativne metode su u upotrebi: Nelinearna iterativna metoda parcijalnih najmanjih kvadrata (NIPALS) Sukcesivna prosjena ortogonalizacija (SAO) - bra metoda no poprilino je manje u upotrebi. Obje de sekvencijalno rijeiti problem za individualne komponente, no mi demo se fokusirati na NIPALS.

NIPALS metoda9

Iterativno demo rastaviti nau matricu u seriju opteredenja i rezultata.

NIPALS metoda10

Termini: n broj sluajeva ili uzoraka m broj varijabli ili mjerenja X originalna ili autoskalirana matrica ta rezultati za glavnu komponentu a pa opteredenja za glavnu komponentu a E rezidualna ili matrica pogreke

NIPALS algoritam11

1. Uzmemo vektor xi iz matrice X te nazovimo ga th.

2. Izraunamo ph prema relaciji:

t 'h X p'h t 'h t 'h

(1-5)

to je naa prva procjena kako de prvi set opteredenja izgledati.

NIPALS algoritam12

3. Normaliziramo ph na vrijednost 1.

p'h-novi

p 'h stari p 'h stari

(1-6)

Ovim korakom smo autoskalirali nau sadanju procjenu svojstvenog vektora.

NIPALS algoritam13

4. Izraunamo th po sljededoj relaciji:

Xph th (1-7) p 'h phSada imamo procjenu za na prvi set rezultata baziran na naem procjenjenom setu opteredenja.

NIPALS algoritam14

5. Sada moemo razmatrati sumu kvadrata u svrhu

pronalaska pogreke izmeu naih novih i originalnih th rezultata.Ako je SS vedi od odreene toke tolerancije (105-106) tada trebamo ponoviti korake 2-5 sa novom vrijednodu th. Ako je SS manji od ili pak jednak odreenoj toki tolerancije (105-106) moemo nastaviti na sljededi korak.

NIPALS algoritam15

6. Efekte

prve glavne komponente uklanjamo oduzimanjem vanjskih produkata naih rezultata te opteredenja.

Proces se tada ponavlja dok se ne odredi potrebni broj glavnih komponenti.

NIPALS algoritam16

Konano, dobivamo seriju opteredenja te rezultata i ostatak odreen sljededom relacijom:

2 GK1

2 GK2

...

2 GKn

(1-8)

pri emu ostatak sadri nasuminu pogreku u naim podacima. No, kako vrlo vjerojatno nismo rijeili problem za sve mogude glavne komponente, ostatak takoer moe i sadravati dodatne informacije.

Varimax rotacija17

Provodimo dodatno podeavanje glavnih komponenti radi bolje obzervacije pojedinih veza izmeu njih. U sutini to je pokuaj promicanja cijele varijance iz individualnih varijabli u zasebne komponente sekundarnom rotacijom podataka koja se naziva Varimax rotacija. Dosta esto pomae pri boljem razumijevanju efekata originalnih podataka.

Varimax rotacija18

Pretpostavimo da smo poeli sa pet varijabli te rijeili problem za prvih triju glavnih komponenti.GK1 GK2 GK3

Originalne varijable

Postotak varijance

Postotak varijance

Postotak varijance

Varimax rotacija19

Nakon Varimax rotacije, rezultati bi mogli izgledati na sljededi nain:GK1 GK2 GK3

Originalne varijable

Postotak varijance

Postotak varijance

Postotak varijance

(Sada je vrlo lako uoiti vanost svake varijable u glavnoj komponenti.)

Primjeri rezultata AGK20

Najbolji nain na koji pokazati vanost analize glavnih komponenti jest na primjeru. Pokazati demo kakvi se tipovi informacija mogu dobiti te kako se mogu najbolje iskoristiti putem ovih primjera: Klasifikacija arheolokih artifakata

Klasifikacija viskija Smanjenje

ostatka pri GC/MS

GC/MS Plinska kromatografija/Masena spektrografija

AGK arheolokih artifakata21

Podaci koriteni u ovom primjeru su iz: Kowalski, Schatzki, Stross; Analitycal Chemistry (1972). Kompletna evaluacija istih podataka jest takoer koritena u Chemometrics grupe autora: Sharaf, Illman i Kowalski u izdanju tvrtke John Wiley & Sons, 1986.

AGK arheolokih artifakata22

Sadraj istraivanja: Indijanski artifakti izgraeni od obsidijskog stakla uzeti su sa pet nalazita u sjevernoj Kaliforniji. Dodatno, uzorci iz etiri obsidijska kamenoloma su uzeti u istom podruju. Svih 75 uzoraka podvrgnuto je fluorescentnoj analizi rendgenskim zrakama u svrhu identifikacije 10 elemenata (Fe, Ti, Ba, Ca, K, Mn, Rb, Sr, Y te Zr).

AGK arheolokih artifakata23

Glavna pitanja na kojima se istraivanje temeljilo bila su: 1. Mogu li se razliiti izvori obsidija diferencirati bazirajudi se na provedenim kemijskim mjerenjima? 2. Moe li se na temelju izvora iz kojeg naeni artifakti potjeu neto redi o migraciji i trgovakoj strukturi Indijanaca?

AGK arheolokih artifakata24

Poeti demo sa pridruivanjem klase svakom pojedinom tipu uzorka za lake raspoznavanje na grafikim prikazima.1-4 uzorci iz obsidijskog kamenoloma 5-7 artifakti sa indijanskih nalazita

Pogledajmo sad neskalirane te autoskalirane podatke za prve etiri glavne komponente.

AGK arheolokih artifakata25

Poetna analiza glavnih komponenti provodi se na sirovim podacima sa sljededim dobivenim svojstvenim vrijednostima:GK 12 3 4

Svojstveni vektor 1639751682505262 1534449 170154

Postotak varijance 97,45%1,49% 0,91% 0,10%

Iz ovoga vidimo da je skoro cijela varijanca u prvoj glavnoj komponenti.

AGK arheolokih artifakata26

Nadalje smo spremni za izradu grafikog prikaza naih komponenata. Grafikon rezultata za GK1 vs. GK2 pokazati de otprilike 99% prikazanih originalnih podataka. Grafikon opteredenja L1 vs. L2 pokazati de vanost originalnih varijabli u izgradnji GK1 te GK2.

AGK arheolokih artifakata27

S1 vs. S2 Uzorci iz kamenoloma 1 i 4 tee grupiranju.

Uzorak iz kamenoloma 3 te uzorak 4 sa indijanskog nalazita (broj 7) izgledaju usko povezani.

AGK arheolokih artifakata28

L1 vs. L2

Opteredenja pokazuju da i kalcij (Ca) te eljezo (Fe) oboje imaju efekt na GK1. Ostale varijable imaju manji efekt.

AGK arheolokih artifakata29

Sada demo autoskalirati nae podatke te tada provesti analizu glavnih komponenti.GK 1 2 3 Svojstveni vektor 393,9 155,9 81,1 Postotak varijance 55,5% 20,8% 10,8%

4

62,9

2,9%

Sada kada svaka varijabla ima jednako opteredenje, varijanca vie nije toliko koncentrirana samo u prvoj komponenti.

AGK arheolokih artifakata30

Jo uvijek dobivamo isto generalno grupiranje uzoraka, centrirano oko mjesta podrijetla.

S1 vs. S2

AGK arheolokih artifakata31

Na graf opteredenja sada upuduje na korelirane varijable.

Takoer pokazuje kako Itrij (Y) ima mali efekt na nae rezultate. L1 vs. L2

AGK arheolokih artifakata32

Dakle, to to sve znai? U ovome sluaju, oboje i skalirani i autoskalirani pokazuju grupiranje povezanih uzoraka rezultati fluorescencijske analize rendgenskim zrakama se mogu sada koristiti za identifikaciju povezanih uzoraka.

Moemo li ita redi o artifaktima samim?

AGK arheolokih artifakata33

ini se kako nijedan artifakt nije sa kamenoloma broj etiri.

Vrlo je dobro razlueno od ostalih uzoraka.

AGK arheolokih artifakata34

Izgleda kako su artifakti sa nalazita 6 potjekli iz kamenoloma 2, premda su rezultati raspreni. Artifakti sa nalazita 7 potjekli su iz kamenoloma 3. ini se da su artifakti sa nalazita 5 doli iz cijelog podruja te je mogude da je ovo bilo nomadsko pleme.

Koritenje opteredenja35

Opteredenja ukazuju na to da je mnotvo naih varijabli usko povezano. Nadalje, ini se kako Y ima vrlo mali utjecaj na nae rezultate. Moemo ih preprocesirati nakon eliminiranja Y te eliminiranja nekoliko naih koleriranih varijabli. Vrlo je vjerojatno kako demo time poboljati rezultate, a najmanje to demo time postidi su jednostavnija subsekventna istraivanja manje podataka za skupiti.

Koritenje opteredenja36

Iskoristiti demo samo Kalij (K). Iskoristiti demo samo Kalcij (Ca).

Eliminirati demo Itrij (Y).

Iskoristiti demo samo eljezo (Fe).

Iskoristiti demo Cirkonij (Zr).

Modificirano istraivanje37

Sada kada imamo samo etiri varijable namedu nam se sljededa pitanja: Je li dovoljno varijabli za dati istu karakterizaciju kao i sa svih deset? Poboljava li nam rezultate?

Modificirano istraivanje38

Rezultati su gotovo identini naem grafu baziranom na deset varijabli.

S1 vs. S2

Modificirano istraivanje39

L1 vs. L2

Klasifikacija viskija40

Sljededi primjer analize glavnih komponenti jest klasifikacija kompleksnih kromatografskih podataka. Bazira se na istraivanju koje je ukljuivalo karakterizaciju viskija baziranu na metodama plinske kromatografije/masene spektrografije. Ovaj primjer pokazati de to je potrebno napraviti kako bi uinili podatke pogodne za evaluaciju analizom glavnih komponenti.

Klasifikacija viskija41

Ekstrakti metilen klorida za seriju viskija ekstrahirani su koritenjem metoda plinske kromatografije (GC) te masene spektrografije (MS).

Iz ovih tragova bilo je potrebno konstruirati varijable.

Preprocesiranje podataka42

Svaki kromatograf sastojao se od otprilike 1800 toaka to bi bilo previe za obraditi. Varijable su konstruirane sumiranjem reakcije u jednominutnim intervalima to je rezultiralo sa trideset varijabli.

Preprocesiranje podataka43

U cilju poboljanja stabilnosti varijabli: Najmanja reakcijska vrijednost tretirana je kao osnova za pozadinske korekcije.

Unutarnji standard je koriten normaliziranja detektorske reakcije.

u

svrhu

Unutarnji standard je takoer koriten u svrhu ukljuivanja varijacija kratkih intervala.

Preprocesiranje podataka44

Svi podaci su bili autoskalirani prije provoenja AGK, a poetna pitanja su bila sljededa:1. Mogu li se vrste viskija klasificirati? 2. Moe li se ovaj pristup koristiti pri detektiranju:

razrijeenja uzorka? mijeanja uzoraka? zagaenja sa nekim sintetskim spojem?

Poetna AGK45

GK2

S Scotch B Bourbon C Canadian L mijeani T - Tennessee

GK1

Mijeanje viskija46

Postotak vrste Y u mjeavini.

GK2

GK1

Kontaminacija viskija47

GK1

ppm metilbenzoata vs. GK1

ppm

Razrijeenje viskija48

Postotak po V, viski.

GK2

GK1

AGK u svrhu uklanjanja ostatka49

Primjenom analize glavnih komponenti korelirani podaci ekstrahiraju se u seriju parova rezultata i opteredenja.

Nasumini ostatak je nekoreliran te tei ostanku u rezidualnoj matrici. Ova karakteristika moe se iskoristiti u svrhu poboljanja S/N u setu 2D podataka.

AGK u svrhu uklanjanja ostatka50

GS/MS primjer: GS/MS set podataka je ved prikladna matrica za primjenu analize glavnih komponenti jer ved postoji kao skalirana matrica. Analiza glavnih komponenti moe se primijeniti tako da se ekstrahiraju svi znaajni podaci, a ne ukljui ostatak. Datoteka sa podacima se tada moe rekonstruirati iz tih opteredenja i rezultata.

GC/MS primjer51

GC/MS Ostatak podaci

Novi GC/MS podaci

GC/MS primjer52

Za evaluaciju pristupa, smjesa est komponenti jest pripremljena. Komponente: Benzen, toluen, etilbenzen, diklorometan, triklorometan te tetraklorometan. Raspon koncentracija: 0.005-1% V/V

Broj potrebnih komponenti53

Normalizirano vrno podruje

Optimalni broj komponenti odreen je mjerenjem vrnog podruja svih 6 komponenti.

Osam glavnih komponenti naeno je adekvatno za ekstrakciju svih informacija vrnog podruja.Broj komponenti

Broj potrebnih komponenti54

PBM kvaliteta poklapanja

Isti tip evaluacije izraen je i za kvalitetu masene spektrografije.

Opet, kod osam komponenti odreena je optimalna kvaliteta poklapanja.

Broj komponenti

Efekt na kvalitetu krom. podataka55

0.005% V/V original

Znaajno smanjenje ostatka je primjetno.S/N se poboljao za faktor od 1.88.

Procesuirano analizom glavnih komponenti

Poboljanja masene spektrografije56

Originalan uzorak diklorometana 0.005% V/V

Uzorak procesuiran analizom glavnih komponenti

Poboljanja masene spektrografije57

Originalan uzorak etilbenzena 0.005% V/V

Uzorak procesuiran analizom glavnih komponenti

Poboljanja masene spektrografije58

Kvaliteta poklapanja podataka se globalno povedala za prosjenu vrijednost od 17%. Glavni razlog tome lei u injenici da su sitne povezane linije ostatka eliminirane. Dodatna prednost ove metode jest smanjenje datoteke sa podacima za ak 30%.

Saetak59

Analiza glavnih komponenti Faktorska analiza Korelacija i kovarijanca NIPALS algoritam VARIMAX rotacija Primjeri i upotreba analize glavnih komponenti