Upload
pero88
View
335
Download
0
Embed Size (px)
Citation preview
1
ANALIZA GLAVNIH KOMPONENTI
Autori: Petar uvela, Mario Mehe, Ivana Sever, Ana Papi, Saa Braii
Analiza glavnih komponenti2
Analiza glavnih komponenti je metoda koja je dio posebne grane analitike kemije kemometrije. Kemometrija je posebna grana analitike kemije koja se bavi primjenom matematikih ili statistikih metoda na analitiko-kemijske podatke. Njezini poeci datiraju jo od tridesetih godina dvadesetog stoljea kada se pojavila u obliku faktorske analize.
Faktorska analiza3
U poetku se koristila u psihologiji pri prouavanju inteligencije, a rezultate istraivanja se pokuavalo poistovjetiti sa ostalim faktorima.
X SL EX = faktor uspjenosti testa S = individualni rezultati L = instristiki faktori inteligencije E = rezidualna pogreka
Polazna pretpostavka je bila sljededa:
(1-1)
Analiza glavnih komponenti4
Koristedi rotaciju svojstvenih vektora, mogude je rastaviti matricu X iz relacije (1-1) u seriju opteredenja i rezultata. Intristiki faktori vezani uz inteligenciju mogli su se tako detektirati. U kemijskoj analizi, ovaj pristup moe se primijeniti dijagonalizacijom korelacijske ili kovarijantne matricu (Analiza glavnih komponenti).
Analiza glavnih komponenti5
Analiza glavnih komponenti se uglavnom provodi koritenjem: 1. Kovarijantne matrice 2. Autoskaliranih podataka
1 T Kovarijantna matrica X' X' NV 1
(1-2)
Navedenu matricu tada dijagonaliziramo koristedi rotaciju svojstvenih vektora.(tipino su nam samo najvedi svojstveni vektori vani)
Kovarijanca i korelacija6
Kovarijanca: Mjera asocijacije izmeu dvaju varijabli.
Kovarijanca =
( x x ) ( y y ) (1-3)i i
Korelacija: Kovarijanca izmeu (autoskaliranih) varijabli.
dvaju
z-transformiranih
Kovarijanca r Sx S y
(1-4)
Analiza glavnih komponenti7
No, ne moramo vriti kompletnu dijagonalizaciju ved je premisa ta da je vedina naih varijabli korelirana te da su kasnije varijable ostatak.
Pronalazak kompletnog rjeenja za veliki set podataka bio bi vrlo dugotrajan proces tako da esto koristimo alternativnu metodu kako bi ga ubrzali.
Metode analize glavnih komponenti8
1.
2.
Dvije osnovne alternativne metode su u upotrebi: Nelinearna iterativna metoda parcijalnih najmanjih kvadrata (NIPALS) Sukcesivna prosjena ortogonalizacija (SAO) - bra metoda no poprilino je manje u upotrebi. Obje de sekvencijalno rijeiti problem za individualne komponente, no mi demo se fokusirati na NIPALS.
NIPALS metoda9
Iterativno demo rastaviti nau matricu u seriju opteredenja i rezultata.
NIPALS metoda10
Termini: n broj sluajeva ili uzoraka m broj varijabli ili mjerenja X originalna ili autoskalirana matrica ta rezultati za glavnu komponentu a pa opteredenja za glavnu komponentu a E rezidualna ili matrica pogreke
NIPALS algoritam11
1. Uzmemo vektor xi iz matrice X te nazovimo ga th.
2. Izraunamo ph prema relaciji:
t 'h X p'h t 'h t 'h
(1-5)
to je naa prva procjena kako de prvi set opteredenja izgledati.
NIPALS algoritam12
3. Normaliziramo ph na vrijednost 1.
p'h-novi
p 'h stari p 'h stari
(1-6)
Ovim korakom smo autoskalirali nau sadanju procjenu svojstvenog vektora.
NIPALS algoritam13
4. Izraunamo th po sljededoj relaciji:
Xph th (1-7) p 'h phSada imamo procjenu za na prvi set rezultata baziran na naem procjenjenom setu opteredenja.
NIPALS algoritam14
5. Sada moemo razmatrati sumu kvadrata u svrhu
pronalaska pogreke izmeu naih novih i originalnih th rezultata.Ako je SS vedi od odreene toke tolerancije (105-106) tada trebamo ponoviti korake 2-5 sa novom vrijednodu th. Ako je SS manji od ili pak jednak odreenoj toki tolerancije (105-106) moemo nastaviti na sljededi korak.
NIPALS algoritam15
6. Efekte
prve glavne komponente uklanjamo oduzimanjem vanjskih produkata naih rezultata te opteredenja.
Proces se tada ponavlja dok se ne odredi potrebni broj glavnih komponenti.
NIPALS algoritam16
Konano, dobivamo seriju opteredenja te rezultata i ostatak odreen sljededom relacijom:
2 GK1
2 GK2
...
2 GKn
(1-8)
pri emu ostatak sadri nasuminu pogreku u naim podacima. No, kako vrlo vjerojatno nismo rijeili problem za sve mogude glavne komponente, ostatak takoer moe i sadravati dodatne informacije.
Varimax rotacija17
Provodimo dodatno podeavanje glavnih komponenti radi bolje obzervacije pojedinih veza izmeu njih. U sutini to je pokuaj promicanja cijele varijance iz individualnih varijabli u zasebne komponente sekundarnom rotacijom podataka koja se naziva Varimax rotacija. Dosta esto pomae pri boljem razumijevanju efekata originalnih podataka.
Varimax rotacija18
Pretpostavimo da smo poeli sa pet varijabli te rijeili problem za prvih triju glavnih komponenti.GK1 GK2 GK3
Originalne varijable
Postotak varijance
Postotak varijance
Postotak varijance
Varimax rotacija19
Nakon Varimax rotacije, rezultati bi mogli izgledati na sljededi nain:GK1 GK2 GK3
Originalne varijable
Postotak varijance
Postotak varijance
Postotak varijance
(Sada je vrlo lako uoiti vanost svake varijable u glavnoj komponenti.)
Primjeri rezultata AGK20
Najbolji nain na koji pokazati vanost analize glavnih komponenti jest na primjeru. Pokazati demo kakvi se tipovi informacija mogu dobiti te kako se mogu najbolje iskoristiti putem ovih primjera: Klasifikacija arheolokih artifakata
Klasifikacija viskija Smanjenje
ostatka pri GC/MS
GC/MS Plinska kromatografija/Masena spektrografija
AGK arheolokih artifakata21
Podaci koriteni u ovom primjeru su iz: Kowalski, Schatzki, Stross; Analitycal Chemistry (1972). Kompletna evaluacija istih podataka jest takoer koritena u Chemometrics grupe autora: Sharaf, Illman i Kowalski u izdanju tvrtke John Wiley & Sons, 1986.
AGK arheolokih artifakata22
Sadraj istraivanja: Indijanski artifakti izgraeni od obsidijskog stakla uzeti su sa pet nalazita u sjevernoj Kaliforniji. Dodatno, uzorci iz etiri obsidijska kamenoloma su uzeti u istom podruju. Svih 75 uzoraka podvrgnuto je fluorescentnoj analizi rendgenskim zrakama u svrhu identifikacije 10 elemenata (Fe, Ti, Ba, Ca, K, Mn, Rb, Sr, Y te Zr).
AGK arheolokih artifakata23
Glavna pitanja na kojima se istraivanje temeljilo bila su: 1. Mogu li se razliiti izvori obsidija diferencirati bazirajudi se na provedenim kemijskim mjerenjima? 2. Moe li se na temelju izvora iz kojeg naeni artifakti potjeu neto redi o migraciji i trgovakoj strukturi Indijanaca?
AGK arheolokih artifakata24
Poeti demo sa pridruivanjem klase svakom pojedinom tipu uzorka za lake raspoznavanje na grafikim prikazima.1-4 uzorci iz obsidijskog kamenoloma 5-7 artifakti sa indijanskih nalazita
Pogledajmo sad neskalirane te autoskalirane podatke za prve etiri glavne komponente.
AGK arheolokih artifakata25
Poetna analiza glavnih komponenti provodi se na sirovim podacima sa sljededim dobivenim svojstvenim vrijednostima:GK 12 3 4
Svojstveni vektor 1639751682505262 1534449 170154
Postotak varijance 97,45%1,49% 0,91% 0,10%
Iz ovoga vidimo da je skoro cijela varijanca u prvoj glavnoj komponenti.
AGK arheolokih artifakata26
Nadalje smo spremni za izradu grafikog prikaza naih komponenata. Grafikon rezultata za GK1 vs. GK2 pokazati de otprilike 99% prikazanih originalnih podataka. Grafikon opteredenja L1 vs. L2 pokazati de vanost originalnih varijabli u izgradnji GK1 te GK2.
AGK arheolokih artifakata27
S1 vs. S2 Uzorci iz kamenoloma 1 i 4 tee grupiranju.
Uzorak iz kamenoloma 3 te uzorak 4 sa indijanskog nalazita (broj 7) izgledaju usko povezani.
AGK arheolokih artifakata28
L1 vs. L2
Opteredenja pokazuju da i kalcij (Ca) te eljezo (Fe) oboje imaju efekt na GK1. Ostale varijable imaju manji efekt.
AGK arheolokih artifakata29
Sada demo autoskalirati nae podatke te tada provesti analizu glavnih komponenti.GK 1 2 3 Svojstveni vektor 393,9 155,9 81,1 Postotak varijance 55,5% 20,8% 10,8%
4
62,9
2,9%
Sada kada svaka varijabla ima jednako opteredenje, varijanca vie nije toliko koncentrirana samo u prvoj komponenti.
AGK arheolokih artifakata30
Jo uvijek dobivamo isto generalno grupiranje uzoraka, centrirano oko mjesta podrijetla.
S1 vs. S2
AGK arheolokih artifakata31
Na graf opteredenja sada upuduje na korelirane varijable.
Takoer pokazuje kako Itrij (Y) ima mali efekt na nae rezultate. L1 vs. L2
AGK arheolokih artifakata32
Dakle, to to sve znai? U ovome sluaju, oboje i skalirani i autoskalirani pokazuju grupiranje povezanih uzoraka rezultati fluorescencijske analize rendgenskim zrakama se mogu sada koristiti za identifikaciju povezanih uzoraka.
Moemo li ita redi o artifaktima samim?
AGK arheolokih artifakata33
ini se kako nijedan artifakt nije sa kamenoloma broj etiri.
Vrlo je dobro razlueno od ostalih uzoraka.
AGK arheolokih artifakata34
Izgleda kako su artifakti sa nalazita 6 potjekli iz kamenoloma 2, premda su rezultati raspreni. Artifakti sa nalazita 7 potjekli su iz kamenoloma 3. ini se da su artifakti sa nalazita 5 doli iz cijelog podruja te je mogude da je ovo bilo nomadsko pleme.
Koritenje opteredenja35
Opteredenja ukazuju na to da je mnotvo naih varijabli usko povezano. Nadalje, ini se kako Y ima vrlo mali utjecaj na nae rezultate. Moemo ih preprocesirati nakon eliminiranja Y te eliminiranja nekoliko naih koleriranih varijabli. Vrlo je vjerojatno kako demo time poboljati rezultate, a najmanje to demo time postidi su jednostavnija subsekventna istraivanja manje podataka za skupiti.
Koritenje opteredenja36
Iskoristiti demo samo Kalij (K). Iskoristiti demo samo Kalcij (Ca).
Eliminirati demo Itrij (Y).
Iskoristiti demo samo eljezo (Fe).
Iskoristiti demo Cirkonij (Zr).
Modificirano istraivanje37
Sada kada imamo samo etiri varijable namedu nam se sljededa pitanja: Je li dovoljno varijabli za dati istu karakterizaciju kao i sa svih deset? Poboljava li nam rezultate?
Modificirano istraivanje38
Rezultati su gotovo identini naem grafu baziranom na deset varijabli.
S1 vs. S2
Modificirano istraivanje39
L1 vs. L2
Klasifikacija viskija40
Sljededi primjer analize glavnih komponenti jest klasifikacija kompleksnih kromatografskih podataka. Bazira se na istraivanju koje je ukljuivalo karakterizaciju viskija baziranu na metodama plinske kromatografije/masene spektrografije. Ovaj primjer pokazati de to je potrebno napraviti kako bi uinili podatke pogodne za evaluaciju analizom glavnih komponenti.
Klasifikacija viskija41
Ekstrakti metilen klorida za seriju viskija ekstrahirani su koritenjem metoda plinske kromatografije (GC) te masene spektrografije (MS).
Iz ovih tragova bilo je potrebno konstruirati varijable.
Preprocesiranje podataka42
Svaki kromatograf sastojao se od otprilike 1800 toaka to bi bilo previe za obraditi. Varijable su konstruirane sumiranjem reakcije u jednominutnim intervalima to je rezultiralo sa trideset varijabli.
Preprocesiranje podataka43
U cilju poboljanja stabilnosti varijabli: Najmanja reakcijska vrijednost tretirana je kao osnova za pozadinske korekcije.
Unutarnji standard je koriten normaliziranja detektorske reakcije.
u
svrhu
Unutarnji standard je takoer koriten u svrhu ukljuivanja varijacija kratkih intervala.
Preprocesiranje podataka44
Svi podaci su bili autoskalirani prije provoenja AGK, a poetna pitanja su bila sljededa:1. Mogu li se vrste viskija klasificirati? 2. Moe li se ovaj pristup koristiti pri detektiranju:
razrijeenja uzorka? mijeanja uzoraka? zagaenja sa nekim sintetskim spojem?
Poetna AGK45
GK2
S Scotch B Bourbon C Canadian L mijeani T - Tennessee
GK1
Mijeanje viskija46
Postotak vrste Y u mjeavini.
GK2
GK1
Kontaminacija viskija47
GK1
ppm metilbenzoata vs. GK1
ppm
Razrijeenje viskija48
Postotak po V, viski.
GK2
GK1
AGK u svrhu uklanjanja ostatka49
Primjenom analize glavnih komponenti korelirani podaci ekstrahiraju se u seriju parova rezultata i opteredenja.
Nasumini ostatak je nekoreliran te tei ostanku u rezidualnoj matrici. Ova karakteristika moe se iskoristiti u svrhu poboljanja S/N u setu 2D podataka.
AGK u svrhu uklanjanja ostatka50
GS/MS primjer: GS/MS set podataka je ved prikladna matrica za primjenu analize glavnih komponenti jer ved postoji kao skalirana matrica. Analiza glavnih komponenti moe se primijeniti tako da se ekstrahiraju svi znaajni podaci, a ne ukljui ostatak. Datoteka sa podacima se tada moe rekonstruirati iz tih opteredenja i rezultata.
GC/MS primjer51
GC/MS Ostatak podaci
Novi GC/MS podaci
GC/MS primjer52
Za evaluaciju pristupa, smjesa est komponenti jest pripremljena. Komponente: Benzen, toluen, etilbenzen, diklorometan, triklorometan te tetraklorometan. Raspon koncentracija: 0.005-1% V/V
Broj potrebnih komponenti53
Normalizirano vrno podruje
Optimalni broj komponenti odreen je mjerenjem vrnog podruja svih 6 komponenti.
Osam glavnih komponenti naeno je adekvatno za ekstrakciju svih informacija vrnog podruja.Broj komponenti
Broj potrebnih komponenti54
PBM kvaliteta poklapanja
Isti tip evaluacije izraen je i za kvalitetu masene spektrografije.
Opet, kod osam komponenti odreena je optimalna kvaliteta poklapanja.
Broj komponenti
Efekt na kvalitetu krom. podataka55
0.005% V/V original
Znaajno smanjenje ostatka je primjetno.S/N se poboljao za faktor od 1.88.
Procesuirano analizom glavnih komponenti
Poboljanja masene spektrografije56
Originalan uzorak diklorometana 0.005% V/V
Uzorak procesuiran analizom glavnih komponenti
Poboljanja masene spektrografije57
Originalan uzorak etilbenzena 0.005% V/V
Uzorak procesuiran analizom glavnih komponenti
Poboljanja masene spektrografije58
Kvaliteta poklapanja podataka se globalno povedala za prosjenu vrijednost od 17%. Glavni razlog tome lei u injenici da su sitne povezane linije ostatka eliminirane. Dodatna prednost ove metode jest smanjenje datoteke sa podacima za ak 30%.
Saetak59
Analiza glavnih komponenti Faktorska analiza Korelacija i kovarijanca NIPALS algoritam VARIMAX rotacija Primjeri i upotreba analize glavnih komponenti