ANALIZA GLAVNIH KOMPONENATA I PRIMENE · 5 Jedan od problema deskriptivnih tehnika za podatke...

Preview:

Citation preview

UNIVERZITET U NIŠU

PRIRODNO MATEMATIČKI FAKULTET

DEPARTMAN ZA MATEMATIKU

ANALIZA GLAVNIH KOMPONENATA I

PRIMENE

Master rad

Mentor: Student:

Prof. dr Aleksandar Nastić Bojan Lakić

Niš, 2018.

2

Sadržaj

1. Osnovni pojmovi i metode za smanjenje dimenzija podataka ..................................................... 4

1.1. Kovarijansa ............................................................................................................................ 7

1.2. Korelacija .............................................................................................................................. 8

1.3. Statistički pregled podataka .................................................................................................. 9

1.3.1. Linearne transformacije ................................................................................................ 14

1.3.2. Mahalanobis transformacija ........................................................................................ 15

2. Analiza glavnih komponenata .................................................................................................... 15

2.1. Standardizovana linearna kombinacija ................................................................................ 15

2.2. Uzoračke glavne komponente ............................................................................................. 20

2.3. Interpretacija glavnih komponenata .................................................................................... 22

2.4. Asimptotska svojstva glavnih komponenata ....................................................................... 26

2.5. Analiza normalizovanih glavnih komponenata ................................................................... 28

2.6. Metod glavnih komponenata kod faktorske analize ............................................................ 29

2.6.1. Ortogonalni faktorski model ........................................................................................ 30

2.6.2. Kovarijansna struktura za ortogonalni faktorski model ............................................... 31

2.6.3. Metod glavnih komponenata ........................................................................................ 33

2.6.4. Rešenje faktorskog modela metodom glavnih komponenata ....................................... 36

2.7. Primer bostonskih nekretnina .............................................................................................. 38

3. Primena analize glavnih komponenata ....................................................................................... 41

DODATAK A ................................................................................................................................ 62

LITERATURA ............................................................................................................................... 72

3

Uvod

Multivarijaciona statistička analiza podataka zahteva tehnike koje se razlikuju od tehnika

predviđenih za ispitivanje jednodimenzionalnih podataka. Pri ispitivanju višedimenzionalnih

podataka koriste se metode koji nisu standardne i uključuju matrice. Multivarijaciona analiza nam

pomaže da zaobiđemo standardnu proceduru i da na određeni način brže dođemo do šire slike

datih podataka, tj. njihovih osobina.

U prvom delu rada biće predstavljeni neki osnovni pojmovi kao i metode koje se koriste za

smanjenje dimenzije podataka.

U drugom delu biće predstavljena sama analiza glavnih komponenata (kao i analiza

normalizovanih glavnih komponenata) kao jedna od metoda smanjenja dimenzija podataka.

Analiza glavnih komponenata se bavi objašnjavanjem varijansno-kovarijansne strukture skupa

slučajnih promenljivih kroz nekoliko linearnih kombinacija ovih slučajnih promenljivih. Njeni

opšti ciljevi su smanjenje broja promenljivih i njihovo tumačenje. Iako je, na primer, p

komponenata potrebno da bi se reprodukovala ukupna varijabilnost sistema, često se većina ove

varijabilnosti može objasniti manjim brojem k glavnih komponenata.

Kroz različite primere u trećem delu master rada biće predstavljena analiza glavnih

komponenata kao metoda koja se pokazala veoma korisnom u praksi. Analiza glavnih

komponenata često otkriva odnose koji nisu prethodno bili uočeni i time omogućava neka nova

tumačenja. Analiza glavnih komponenata služi i kao posredni korak u mnogo većim

istraživanjima.

4

Glava 1

Osnovni pojmovi i metode za smanjenje dimenzija

podataka

Multivarijaciona statistička analiza se bavi analizom i razumevanjem podataka velikih

dimenzija. Pretpostavimo da je dat skup xi, i=1,…,n slučajno odabranih vektora slučajne

promenljive X u prostoru Rp, odnosno pretpostavimo da svaki slučajan vektor xi ima p dimenzija:

xi = (xi1, xi2, ..., xip),

koje predstavljaju posmatranu vrednost vektora slučajne promenljive X prostora Rp. Stoga,

slučajna promenljiva X je sačinjena od p proizvoljnih slučajnih promenljivih:

X = (X1, X2, ..., Xp),

gde je Xj, j=1,...,p, jednodimenzionalna slučajna promenljiva.

Postavlja se pitanje kako početi sa analizom ovakvog tipa podataka. Najpre treba posmatrati

date podatke, da bi kasnije izvukli određene zaključke iz njih. Ovakav vid posmatranja uključuje

deskriptivne tehnike. Pitanja na koja se mogu dobiti odgovori uz pomoć pomenutih tehnika su:

Postoje li komponente u X sa većom disperzijom od drugih?

Da li se od nekih elemenata slučajne promenljive X mogu napraviti određene podgrupe datih

podataka?

Postoje li suvišni elementi među komponentama slučajne promenljive X?

Koliko je “normalna” raspodela podataka?

Postoje li “malodimenzionalne” linearne kombinacije slučajne promenljive X koje ispoljavaju

“neuobičajeno” ponašanje?

5

Jedan od problema deskriptivnih tehnika za podatke velikih dimenzija, jeste način na koji

ljudski mozak vrši opažanje. Dvodimenzionalne podatke je lako predstaviti i posmatrati. Uz

pomoć modernih, interaktivnih računarskih tehnologija, moguće je videti 3D rotacije u realnom

vremenu i tako posmatrati trodimenzionalne podatke.

Veći problem kod ovih tehnika nastaje kod dimenzija većih ili jednakih 5, osim u slučaju

kada se višedimenzionalne komponente mogu predstaviti kao malodimenzionalne komponente.

Međutim, suvišne podgrupe mogu se prepoznati isključivo grafičkom analizom.

Napomenućemo neke osnovne deskriptivne i grafičke tehnike koje omogućavaju prostu

analizu podataka.

Kutija dijagram je jednostavna tehnika koja se koristi kod jednodimenzionalnih slučajnih

promenljivih, a koja može da uporedi raspodele slučajnih promenljivih između različitih grupa

elemenata. Kutija dijagram je grafička tehnika koja, prema tome, daje sliku o slučajnih

promenljivih.

Zatim, postoji nekoliko tehnika multivarijacione analize, npr. Endrjuove krive i dijagram

paralelnih koordinata, koje omogućavaju grafičke prikaze kao odgovore na gore navedena

pitanja. Suvišni elementi i elementi uzoraka koji zahtevaju posebnu pažnju, mogu se otkriti uz

pomoć Endrjuovih krivih (predstavljanje podataka pomoću krive) i dijagrama paralelnih

koordinata.

Dijagram paralelnih koordinata predstavlja tehniku zasnovanu na nedekartovom

koordinatnom sistemu i samim tim dozvoljava uvid u više od četiri dimenzije kod slučajnih

promenljvih. Ideja je jednostavna: umesto iscrtavanja uzoraka u ortogonalnom koordinatnom

sistemu, crtaju se koordinate uzoraka u sistemu paralelnih osa.

Osnovni problem grafičkih prikaza multivarijacionih podataka jeste dimenzionalnost.

Dijagrami rasejanja su se pokazali veoma korisnim za iscrtavanje dvodimenzionalnih ili

trodimenzionalnih slučajnih promenljivih jednih pored drugih; pomažu razumevanje odnosa

među promenljivama u skupu podataka. Rasejanje u silaznoj putanji pokazuje da, kako raste

vrednost slučajne promenljive po horizontalnoj osi, tako se vrednost slučajne promenljive po

6

vertikalnoj osi smanjuje. Analogno se tumači uzlazno rasejanje. Dijagrami rasejanja se koriste

onda kada slučajne promenljive imaju do tri dimenzije.

Slika 1.1. Dijagram rasejanja za komponente X5 i X6 iz primera 2.1. Prave novčanice su kružići, a lažne novčanice

su zvezdice.

Prethodno opisane jednostavne grafičke tehnike mogu pomoći shvatanje strukture podataka i

zavisnosti među njima. Grafičke tehnike su zasnovane ili na jednodimenzionalnim

(dvodimenzionalnim) oblicima podataka ili na transformacijama miltivarijacionih podataka koji

se lako mogu posmatrati. Većina tehnika je veoma korisna u fazi modelovanja, ali na žalost, ne

daju punu sliku o njima. Jedan od razloga jeste taj što predstavljeni grafičke tehnike obuhvataju

samo određene dimenzije podataka i ne fokusiraju se na dimenzije ili delove analiziranih

podataka koji nose glavnu strukturu podataka. U ovom delu biće predstavljene moćne tehnike za

smanjenje broja dimenzija podataka.

Za početak, koristiće se osnovne i jednostavne tehnike za opisivanje zavisnosti, konstruisani

od elementarnih činjenica iz teorije verovatnoće i osnova statistike (na primer, kovarijansa i

korelacija između dve slučajne promenljive).

Multivarijaciona analiza se može primeniti za smanjenje dimenzija podataka i korišćenjem

matrica. Odeljak 1.3 pokazuje kako se matrične operacije koriste za definisanje statističkog

pregleda skupa podataka. Rezultati će se pokazati veoma korisnim za veći deo trećeg poglavlja.

7

1.1 Kovarijansa

Kovarijansa je mera zavisnosti između slučajnih promenljivih. Za dve slučajne promenljive X

i Y, kovarijansa se definiše sa:

),)E(E()E(),Cov(σXY YXXYYX (1.1)

gde je E f-ja matematičkog očekivanja slučajnih promenljivih X i Y.

Kovarijansa slučajne promenljive X sa samom sobom je varijansa

).,Cov()Var(σXX XXX (1.2)

Ako je X p-dimenzionalna slučajna promenljiva, tj. X = (X1 ,…, Xp)T onda se od kovarijansi

pojedinačnih komponenata vektora formira kovarijansna matrica:

PP1P

P111

XXXX

XXXX

σσ

σσ

. (1.3)

Uzoračke verzije ovih vrednosti su:

n

1i

2

iXX

n

1i

iiXY xxn

1s,yyxx

n

1s (1.4)

gde su

n

1i

ixn

1x i

n

1i

iyn

1y .

Za p-dimenzionalnu proizvoljnu slučajnu promenljivu, može se dobiti uzoračka kovarijansna

matrica (odeljak 1.3).

8

PP1P

P111

XXXX

XXXX

SS

SS

S . (1.5)

1.2 Korelacija

Koeficijent korelacije između dve slučajne promenljive X i Y se definiše na osnovu

kovarijanse na sledeći način:

,

VarVar

,CovρXY

YX

YX (1.6)

gde važi da je 1.ρ1 XY

Koeficijent korelacije ρ se ne menja ukoliko se slučajne promenljive X i Y zamene

proizvoljnim linearnim funkcijama ξ = aX+b, η = cY+d. Samim tim, korelacija je korisnija od

kovarijanse kao mera povezanosti između dve proizvoljne slučajne promenljive.

Uzoračka verzija XYρ za je sledeća

YYXX

XYXY

ss

sr . (1.7)

Apsolutna vrednost korelacije je uvek manja ili jednaka 1, dok ima vrednost nula ako je

kovarijansa nula i obrnuto. Za p-dimenzionalne vektore (X1,..., Xp)T postoji korelaciona matrica

PP1P

P111

XXXX

XXXX

ρρ

ρρ

ρ

. (1.8)

Njena uzoračka verzija, uzoračka korelaciona matrica je predstavljena na sledeći način

PP1P

P111

XXXX

XXXX

rr

rr

R . (1.9)

9

Teorema 1.1 omogućava ispitivanje nezavisnosti među komponentama proizvoljne normalne

dvodimenzionalne slučajne promenljive. Odnosno, može se proveriti da li je korelacija nula.

Nažalost, raspodela statistike rXY za proizvoljnu dvodimenzionalnu slučajnu promenljivu (X,Y) je

komplikovana. Raspodela statistike XYr se lakše određuje ako je (X,Y) normalna

dvodimenzionalna slučajna promenljiva.

Teorema 1.1 Ako su X i Y nezavisne, onda je ρ(X,Y) = Cov(X,Y) = 0.

Dokaz. Kako su X i Y nezavisne, tada je E(XY) = E(X)E(Y), pa odavde direktno sledi da je

Cov(X,Y) = E(XY) – E(X)E(Y) = E(X)E(Y) – E(X)E(Y) = 0. ■

Uopšteno gledano, obrnuto ne važi, što pokazuje sledeći primer.

Primer 1.1 Posmatraćemo slučajnu promenljivu X sa standardnom normalnom raspodelom i

slučajnu promenljivu Y = X2, koja sigurno nije nezavisna od slučajne promenljive X.

Imamo da je

Cov(X,Y) = E(XY) − E(X)E(Y) = E(X3) = 0 (zato što je E(X) = 0 i E(X2) = 1).

Zato je takođe ρ(X,Y) = 0. ■

Napomena 1.1 Za dve proizvoljne slučajne promenljive sa normalnom raspodelom, važi

Teorema 1.1 i u drugom smeru: ako je za dve proizvoljne slučajne promenljive sa normalnom

raspodelom kovarijansa jednaka nuli, onda su te dve slučajne promenljive nezavisne.

1.3 Statistički pregled podataka

Rad se dalje fokusira na reprezentaciju osnovnih deskriptivnih statistika (srednje vrednosti,

uzoračke kovarijanse i uzoračke korelacije) u matričnom obliku, s obzirom na to da se često

primenjuju linearne transformacije nad podacima. Matrični oblik dozvoljava direktno dobijanje

odgovarajuće karakteristike transformisanih slučajnih promenljivih.

10

Osnovne karakteristike matrice

Matrica X je sistem brojeva od n vrsta i p kolona

npn2n1

2p2221

1p1211

xxx

xxx

xxx

X . (1.10)

Matricu X drugačije obeležavamo sa pnX ili ijxX gde je i=1,…,n i j=1,…,p.

Rang matrice pnX , u oznaci r(X) je maksimalan broj linearno nezavisnih vektora vrsta

(kolona). Skup od k vrsta xj matrice pnX je linearno nezavisan ako iz pj

k

1j

j 0xc

sledi da je

cj=0, k1,...,jj, , gde su c1,…,ck skalari.

Trag matrice pnX je suma njenih dijagonalnih elemenata

p

1i

iixtr X .

Transponovana matrica matrice pnX je matrica npT X . Vrste (kolone) matrice X su

kolone (vrste) matrice TX . Odavde važi XX

TT . Ako je data matrica npY , tada važi da je

TTTXYXY .

Kvadratna matrica je matrica kod koje je broj vrsta jednak broju kolona, tj. n=p i oznaka

kvadratne matrice je ppX .

Dijagonalna matrica je kvadratna matrica reda p kod koje su elementi van glavne dijagonale

jednaki nuli xij=0, i,j=1,…,p.

Idempotentna matrica je kvadratna matrica reda p kod koje važi XXX .

Ortogonalna matrica je kvadratna matrica reda p kod koje važi p

TTIXXXX .

Simetrična matrica je kvadratna matrica reda p kod koje su elementi simetrično raspoređeni u

odnosu na glavnu dijagonalu, tj. jiij xx za sve uređene parove (i,j).

11

Determinanta kvadratne matrice ppX se definiše na sledeći način

ppτ11τ

τ...xx1det XX ,

gde se sumiranje vrši po svim permutacijama τ od {1,2,…,p}, gde je 0τ ako se permutacija

može napisati kao proizvod parnog broja transpozicija, dok je u suprotnom 1τ .

Ako je 0X i ppX , onda postoji inverzna matrica matrice X, u oznaci 1

X i važi da je

p

11IXXXX .

Sopstvene vrednosti i sopstveni vektori

Neka je data matrica ppX . Ako postoji scalar λ i vektor γ tako da je

γXγ λ , (1.11)

onda je λ sopstvena vrednost, a γ sopstveni vektor matrice X.

Pretpostavimo da matrica X ima p sopstvenih vektora λ1,λ2,…,λp i neka je data dijagonalna

matrica )λ,...,diag(λ p1Λ . Tada je

p

1j

jλΛX , (1.12)

p

1j

jλtrtr ΛX . (1.13)

Spektralna dekompozicija

Svaka simetrična matrica ppX može biti zapisana u obliku

p

1j

T

jjj

T λ γγΓΛΓX (1.14)

12

gde je )λ,...,diag(λ p1Λ i gde je ),...,( p1 γγΓ ortogonalna matrica koja se sastoji od sopstvenih

vektora γj matrice X. Izraz (1.14) se naziva spektralna dekompozicija matrice X.

Kvadratna forma

Kvadratna forma )Q(n simetrične matrice p)(pX i vektora pRn je

ji

p

1i

p

1j

ij

T nnx)Q(

Xnnn (1.15)

Ako je 0)Q( n za svako 0n , tada je kvadratna forma pozitivno definitna.

Ako je 0)Q( n za svako 0n i postoji neko 0n0 tako da je 0)Q( n , tada je kvadratna

forma pozitivno semidefinitna.

Matrica X je pozitivno definitna (semidefinitna) ako je njena odgovarajuća kvadratna forma

)Q( pozitivno definitna (semidefinitna). Ovo obeležavamo sa 0)0(X .

Sada kada su predstavljene osnovne karakteristike matrice kao i određene osobine, statistike

obrađene u odeljcima 1.1 i 1.2 mogu se predstaviti i u matričnoj formi. ,,Centar gravitacije” za

uzorak obima n u Rp je definisan vektorom x čije su komponente srednje vrednosti p slučajnih

promenljivih

n1XxTT

p1n

1)x,...,x( , (1.16)

gde je T

n

1,1,...,1n1 .

Varijansa uzorka obima n se može okarakterisati kao matrica kovarijansi za p slučajnih

promenljivih. Uzoračke kovarijanse definisane u (1.4) su elementi sledeće matrice:

X11XXXxxXXS nn

TTTTT

n

1

n

1

n

1. (1.17)

Ova matrica se ekvivalentno definiše na sledeći način:

13

Tn

1in

1ii xxxxS

. (1.18)

Formula kovarijanse (1.18) se može napisati kao HXXST

n

1 sa matricom centriranja

T

n

1nnn 11IH . (1.19)

Matrica centriranja je simetrična i idempotentna

TTTTTT2

n

1

n

1

n

1

n

1

n

1

n

1nnnnnnnnnnnnnnn 11111111I11I11IH

H11I nnn T

n

1. (1.20)

Kao posledica, S je pozitivno semidefinitna matrica, tj. S ≥ 0.

Zaista, za sve a ∈ Rp,

0yn

1

n

1

n

1

n

1 p

1j

2

j

TTTTTT

yyHXaHXaHXaXaSaaT (1.21)

za .HXay

Dobro je poznato, iz jednodimenzionalnog slučaja, da uzoračka varijansa 2n

1j

i xxn

1

pokazuje pristrasnost reda .n

1

Koeficijent korelacija uzorka između i-te i j-te slučajne promenljive je XiXjr , (1.9). Tada se

uzoračka korelaciona matrica R može napisati u obliku

R = D-1/2SD-1/2 (1.22)

gde je D-1/2 dijagonalna matrica sa elementima 1/2

XiXi )(S na glavnoj dijagonali.

14

1.3.1 Linearne transformacije

Mnoge praktične primene nameću proučavanje linearnih transformacija početnih podataka,

što pokreće pitanje kako izračunati konačnu statistiku posle tolikih linearnih transformacija.

Neka je A matrica dimenzija (q × p) i neka je Y matrica transformisanih podataka date

matrice

T

n1

T )y,...,(y XAY (1.23)

gde je X matrica dimenzija pn .

Vektor yi = (yi1,..., yiq) ∈ Rq se može posmatrati kao i-ti uzorak q-dimenzionalne proizvoljne

slučajne promenljive XY A . U stvari, imamo da je .T

ii Axy Direktno se dobijaju srednje

vrednosti i uzoračke kovarijanse slučajnih promenljivih (kolona) iz matrice podataka Y :

xA1AX1Yy nn TT

n

1

n

1 (1.24)

T

X

TTT

Yn

1

n

1AASHXAAXHYYS . (1.25)

U slučaju da je linearna transformacija nehomogena, tj,

,ii bAxy (1.26)

gde je b vektor dimenzija 1q , samo se izraz (1.24) menja, tj. bxAy . Formule (1.24) i

(1.25) su korisne u slučaju kada je q = 1, tj. i

T

i xy aXay ⇔ yi = aTxi, i = 1,..., n:

xayT ,

aSaS X

T

Y .

15

1.3.2 Mahalanobis transformacija

Poseban slučaj prethodno objašnjenih linernih transformacija je

n1,...,i,xxz i

1/2

i S . (1.26)

Za transformisanu matricu podataka T

n1 )z,...,(zZ uzoračka kovarijansna matrica je

p

T

Zn

1IHZZS . (1.27)

Dakle, Mahalanobis transformacija eliminiše korelacije između slučajnih promenljivih i

standardizuje varijansu svake slučajne promenljive. Ako se primeni izraz (1.24), koristeći

1/2 SA , dobija se matrica kovarijansi, na način pokazan u izrazu (1.27).

Glava 2

Analiza glavnih komponenata

Analiza glavnih komponenti predstavlja statističku analizu redukcije dimenzionalnosti skupa

podataka, koji sadrže veliki broj međusobno povezanih promenljivih, tako da bude obuhvaćena

što veća količina varijanse podataka. To se postiže izračunavanjem novog skupa nekorelisanih

promenljivih, zvanih glavne komponente, koje predstavljaju linearne kombinacije originalnih

promenljvih. Prvih nekoliko glavnih komponenti obuhvata najveći deo varijanse sadržane u

originalnim promenljivama.

2.1 Standardizovana linearna kombinacija

Analiza glavnih komponenata postoji sa ciljem smanjenja broja datih dimenzija. Prost način

za smanjenje dimenzija je upotreba samo jednog elementa posmatranog vektora i odbacivanje

16

svih ostalih elemenata. Zbog mogućnosti smanjenja tačnosti u tumačenju podataka, prethodno

opisani metod nije najpraktičniji. Alternativni metod podrazumeva posmatranje srednje vrednosti

1p

1j

j

1 Xp svih elemenata vektora X=(X1,…,Xp). Kako svi elementi vektora X imaju isti značaj, ni

ovaj metod nije baš pogodan za smanjenje dimenzija.

Pristupačniji metod jeste posmatranje ponderisane srednje vrednosti, tj.

p

1j

jj

T XδXδ tako da je 1δp

1j

2

j

(2.1)

Vektor δ=(δ1,…,δp)T u ovom slučaju može biti prilagođen traženju i otkrivanju specifičnih

svojstava. Formulu (2.1) nazivamo standardizovana linearna kombinacija (SLK).

Slika 2.1. Proizvoljna standardizovana linearna kombinacija.

Postavlja se pitanje koju SLK izabrati? Odgovor može biti npr. maksimiziranje varijanse za

δTX tj. odabir δ prema

17

δXδXδ VarmaxVarmax T

1δ:δ

T

1δ:δ . (2.2)

Pri traženju vrednosti za δ preko spektralne dekompozicije kovarijacione matrice Ʃ=Var(X)

otkriva se mogućnost više načina za izračunavanje iste.

Na slikama 2.1 i 2.2 prikazane su dve projekcije sa srednjom vrednošću nula. Slika 2.1

prikazuje proizvoljnu projekciju. U gornjem delu se nalazi ,,skupˮ tačaka i linija projektovanih

podataka. U srednjem delu prikazane su projektovane vrednosti u izabranom pravcu. Donji deo

pokazuje varijacije stvarne projekcije, kao i procenat ukupne varijanse.

Slika 2.2 pokazuje projekciju koja obuhvata većinu varijanse podataka.

Slika 2.2 Najinteresantnija standardizovana linearna kombinacija.

Standardizovana linearna kombinacija sa najvećom varijansom, dobijenom iz maksimiziranja,

jeste prva glavna komponenta .γy 11 X Standardizovana linearna kombinacija sa drugom

najvećom varijanso ,γy 22 X predstavlja drugu glavnu komponentu. Na ovaj način, zapisivanjem

vrednosti u matrici, rezultat za slučajnu promenljivu X, sa očekivanjem E(X)=µ i varijansom

Var(X)=Ʃ=ΓΛΓT, gde je Γ=(γ1,γ2,…,γp) i Λ=diag(λ1,λ2,…,λp), predstavlja transformaciju

glavnih komponenata, koja je definisana sa

18

Y = ΓT(X-µ). (2.3)

Centrirana slučajna promenljiva X u prethodnoj formuli se koristi u cilju dobijanja nulte

vrednosti glavnih komponenata promenljive Y.

Definicija 2.1 Multinormalna raspodela slučajne promenljive X sa očekivanjem E(X)=µ i

varijansom Var(X)=Ʃ ima gustinu

μ)(xμ)(x

2

1exp2πf(x) 1T1/2

ΣΣ . (2.4)

Ovakvu raspodelu obeležavamo sa X~Np(µ,Ʃ).

Teorema 2.1 Za datu slučajnu promenljivu X~Np(µ,Ʃ) neka je Y=ΓT(X-µ) transformacija

glavnih komponenata. Onda je

(i) EYj = 0, j = 1,…,p (2.5)

(ii) Var(Yj) = λj, j = 1,…,p (2.6)

(iii) Cov(Yi, Yj ) = 0, i≠j (2.7)

(iv) Var(Y1) ≥ Var(Y2) ≥ … ≥ Var(Yp) ≥ 0 (2.8)

(v) ΣtrYVarp

1j

j

(2.9)

(vi) Σ

p

1j

jYVar (2.10)

Dokaz. (i) 0γEγEγγEEY T

j

T

j

T

j

T

jj μμμXμXμX .

(ii) jjj

T

jj

T

jj

T

jj

T

jj λλγγΣγγγVarγγVarγYVar XμX .

(iii) Koristićemo γi da označimo i-tu kolonu od Γ. Onda sledi

j

T

ij

T

iji γVarγγμVarγY,YCov XX .

Kako je Var(X) = Ʃ = ΓΛΓT, ΓΓT = I dobijamo onda preko ortogonalnosti Γ

19

ji

ji

λ

0γγ

i

j

TT

i

,

,ΓΛΓ .

Kako su koordinate sopstvenog vektora koje odgovaraju različitim sopstvenim vrednostima

međusobno ortogonalne i kako je Yi=γiT(X-µ) koordinata sopstvenog vektora koja je

odgovarajuća za γi , direktno vidimo da su Yi i Yj međusobno ortogonalne, tj. njihova kovarijansa

je nula.

(iv) Kako je λ1≥λ2≥…≥λp≥0 i Var(Y1)=λ1,Var(Y2)=λ2,…,Var(Yp)=λp odakle sledi da je

Var(Y1)≥…≥Var(Y2)≥Var(Yp)≥0.

(v) ΣΓΛΓΛΓΓΛ trtrtrtrλYVar TTp

1j

j

p

1j

j

.

(vi) ΣΛ

p

1j

j

p

1j

j λYVar . ■

Teorema 2.2 Za datu slučajnu promenljivu X~N(µ,Ʃ) neka je Y=ΓT(X-µ) transformacija

glavnih komponenata. Ne postoji nijedna standardizovana linearna kombinacija koja ima veću

varijansu od sopstvene vrednosti λ1 = Var(Y1).

Dokaz. Neka su (λ1,e1),…,(λp,ep) parovi sopstvenih vrednosti i sopstvenih vektora matrice Ʃ.

Tada je ii

,

ii λeeYVar Σ za i=1,…,p. Imamo da je 1,

i

,

i

0a

λaa

aamax

Σ(dostignuto ako je a=e1) uz

uslov je 1ee ,

11 , jer su sopstveni vektori normalizovani. Odavde dobijamo da je

111

,

111

,

1

1

,

1

1

,

11,

i

,

i

0a

YVarλeeλΣeeee

eeλ

aa

aamax

ΣΣ, (2.11)

pri čemu je Ʃe1=λe1. ■

Teorema 2.3 Ako je Yk+1=aTX standardizovana linearna kombinacija koja nije u korelaciji sa

prvih k komponenata od X, tada je varijansa za Yk+1 maksimalna, birajući da je (k+1)-va glavna

komponenta.

20

Dokaz. Slično kao u dokazu prethodne teoreme imamo da je 1ke,...,e,ea

λaa'

aa'max

k21

Σ

, k=1,…,p

(dostignuto ako je a=ek+1 uz uslov da je 0ee i

,

1k za i=1,…,k). Odavde dobijamo

1k1k

,

1k

1k

,

1k

1k

,

1k1k YVaree

ee

eeλ

Σ

Σ. (2.12)■

2.2 Uzoračke glavne komponente

Realizovane vrednosti izračunate preko transformacije glavnih komponenata imaju sledeća

obeležja u praksi: očekivanje µ postaje x , a varijansa Ʃ postaje S. Ako g1 predstavlja prvi

sopstveni vektor za S, onda je prva glavna komponenta predstavljena sa 1

T

n1 gx1γ X .

Uopšteno, ako je S=GLGT spektralna dekompozicija za S, pri čemu je G=(g1,g2,…,gp) i

L=diag(l1,l2,…,lp) matrica sopstvenih vrednosti za S, onda su glavne komponente predstavljene

sa

(2.13)

Sa centriranom matricom T

nnnn

1I 11H i 0x1 T

n H može se zapisati

GXHXGYHYS T

n

TT

n

TT

Y x1x1n

1

n

1

LSGGGXHXG TTT

n

1. (2.14)

Tada je varijansa za yi jednaka sopstvenoj vrednosti li .

GXYT

n x1

21

Tehnika glavnih komponenata je osetljiva na promenu obima podataka. Dovoljno je

pomnožiti neku od slučajnih promenljivih nekim brojem i kao rezultat dobiće se različite

sopstvene vrednosti, kao i sopstveni vektori. Ovo je posledica toga što se dekompozicija

sopstvenih vrednosti vrši na kovarijacionoj, a ne na korelacionoj matrici.

Primer 2.1 Upotrebimo ovu tehniku na primeru bankarskih podataka iz Tabele A.1

Bankovne novčanice (u ovom primeru ne radi se standardizacija podataka). Slika 2.3 pokazuje

neke tačke glavnih komponenata za bankarske podatke. Originalne novčanice i falsifikati su

obeleženi sa “o” i “+” redom.

Vektor srednjih vrednosti matrice X je

T140.510.6,9.4,129.9,130.1,214.9,x .

Vektor sopstvenih vrednosti matrice S je

T0.0350.085,0.194,0.242,0.931,2.985,l .

Slika 2.3. Glavne komponente bankarskih podataka.

22

Sopstveni vektori gj su predstavljeni preko kolona matrice G. Prva kolona za G prikazuje prvi

sopsteni vektor i daje vrednosti koje su korišćene u linearnoj kombinaciji početnih podataka za

prvu glavnu komponentu.

T

0.0460.0850.2580.5920.4890.579

0.0350.1020.4510.5570.6590.202

0.0220.1000.1860.2180.5630.768

0.6320.5350.4150.3450.0660.139

0.7670.3470.4550.2590.0710.112

0.0980.7530.5620.3260.011.0.044

G .

2.3 Interpretacija glavnih komponenata

Glavna ideja jeste transformacija glavnih komponenata u cilju pronalaženja najvećeg broja

projekcija koje maksimiziraju varijansu. Standardizovana linearna kombinacija sa najvećom

sopstvenom vrednošću je predstavljena preko prvog sopstvenog vektora. U ranijem primeru 2.1,

sopstveni vektori su izračunati za bankarske podatke. Posebno, sa koordinatama centrirane

slučajne promenljive x, važi da je:

y1 = −0.044x1 + 0.112x2 + 0.139x3 + 0.768x4 + 0.202x5 − 0.579x6

y2 = 0.011x1 + 0.071x2 + 0.066x3 − 0.563x4 + 0.659x5 − 0.489x6

gde je x1-dužina novčanice, x2-leva visina novčanice, x3-desna visina novčanice, x4-udaljenost

unutrašnjeg okvira do donje ivice, x5-udaljenost unutrašnjeg okvira do gornje ivice, x6-dužina

dijagonale.

Stoga, prva glavna komponenta opisuje razliku između promenljivih sa donje ivice i

dijagonale; dok druga glavna komponenta predstavlja razliku izmedju promenljivih gornje ivice i

sume promenljivih sa donje ivice i dijagonale.

23

Vrednost glavnih komponenata nam pokazuje na koji način se dolazi do najboljeg objašnjenja

varijanse. Pokazatelj značaja prvih q glavnih komponenata u objašnjavanju varijanse je iskazana

preko proporcije

p

1j

j

p

1j

j

q

1j

j

q

1j

j

q

)Var(Y

)Var(Y

λ

λ

ψ (2.15)

Primenjujući bankovne podatke iz primera 2.2, proporcije dobijene varijanse su date u tabeli

2.1. Prva glavna komponenta (q=1) objašnjava 67% varijacije. Prve tri glavne komponente (q=3)

objašnjavaju 93% varijacije.

U prethodnom slučaju bitno je naglasiti da, glavne komponente izvedene iz korelacione

matrice daju drugačije rezultate od rezultata glavnih komponenata izvedenih iz kovarijansne

matrice.

Sopstvene vrednosti Proporcija varijanse Kumulirane proporcije

2.985 0.67 0.67

0.931 0.21 0.88

0.242 0.05 0.93

0.194 0.04 0.97

0.085 0.02 0.99

0.035 0.01 1.00

Tabela 2.1. Proporcija varijanse glavnih komponenata.

Grafički prikaz mogućnosti glavnih komponenata da objasne varijaciju u podacima, je

predstavljen preko grafika u donjem desnom uglu na slici 2.3. Grafik može biti prilagođen,

koristeći proporcije na y-ima, na način prikazan na slici 2.4 za bankovni skup podataka.

Kovarijansa između glavne komponente vektora Y i početnog vektora X se može izračunati

Cov(X,Y) = E(XYT) − EXEYT = E(XYT) = E(XXTΓ) – μμTΓ

= Var(X)Γ = ΣΓ = ΓΛΓTΓ (2.16)

= ΓΛ.

24

Sledi da je korelacija ρXiYj između promenljive Xi i glavne komponente Yj

1/2

XX

j

ij1/2

jXX

jij

YX

iiii

ji σ

λγ

)λ(σ

λγρ

(2.17)

Slika 2.4. Relativna proporcija varijanse objašnjena preko glavnih komponenata.

Koristeći podatke iz uzoraka, dolazi se do sledećeg zaključka

1/2

XX

j

ijYX

ii

ji s

lgr

. (2.18)

Korelacije se mogu koristiti za procenu relacija glavnih komponenata Yj gde je j=1,…,q i

početnih promenljivih Xi gde je i=1,…,p. Primetimo da je

1s

s

s

glΣr

XiXi

XiXi

XiXi

2

ijj

p

1jp

1j

2

YX ji

. (2.19)

Zaista i

T

i

2

ijj

p

1j LggglΣ je (i,i) element matrice GLGT=S, pa se rXiYj2 može biti posmatran

kao proporcija varijanse za Xi objašnjena preko Yj.

25

Na mestu prve dve glavne komponente postavićemo proporcije rXiY1 i rXiY2 . Slika 2.5

pokazuje sledeće na primeru bankovnih podataka. Grafik prikazuje koje su početne promenljive u

najvećoj korelaciji sa glavnim komponentama Y1 i Y2. Iz (2.19) sledi da rXiY1+rXiY2<1 tako da su

tačke uvek u krugu prečnika 1. U primeru bankovnih novčanica promenljive X4, X5 i X6

odgovaraju korelacijama blizu periferije kruga i na ovaj način su dobro objašnjene preko prve

dve glavne komponente.

Podsetimo se da smo prvu glavnu komponentu predstavili kao suštinsku razliku između X4 i

X6. To se može primetiti na slici 2.5, gde se tačke koje odgovaraju ovim promenljivama nalaze sa

različitih strana vertikalne ose. Analogno važi za drugu glavnu komponentu koja je predstavljena

kao razlika između X5 i sume za X4 i X6.

Slika 2.5. Korelacije početnih promenljivih i glavnih komponenata.

Sada se rezultat može videti opet preko slike 2.5 s obzirom na to da tačke koje odgovaraju X5

leže iznad horizontalne ose, a tačke koje odgovaraju X4 i X6 leže ispod nje.

U tabeli 2.2 su date korelacije početnih promenljivih Xi i prve dve glavne komponente, sa

kumuliranim procentom varijanse svake promenljive objašnjene preko Y1 i Y2 .

26

rXiY1 rXiY2 r2XiY1+r2

XiY2

X1 -0.201 0.028 0.041

X2 0.538 0.191 0.326

X3 0.597 0.159 0.381

X4 0.921 -0.377 0.991

X5 0.435 0.794 0.820

X6 -0.870 -0.410 0.926

Tabela 2.2. Korelacija između početnih slučajnih promenljivih i glavnih komponenata.

Tabela iznad potvrđuje da je procenat varijanse za X1, objašnjen preko prve dve glavne

komponente relativno mali i zbog toga su njihove vrednosti na grafičkom prikazu za pojedinačne

bankarske novčanice na mestu prve dve komponente. Uporedimo li sliku 2.6 i gornji levi grafik

na slici 2.3, videćemo da su originalne novčanice grubo okarekterisane preko velikih vrednosti za

X6 i malih vrednoati za X4. Falsifikati, sa druge strane pokazuju visoke vrednosti za X5.

2.4 Asimptotska svojstva glavnih komponenata

Praktično, glavne komponente se računaju preko uzoraka. Sledeća teorema pokazuje rezultate

asimptotske raspodele glavnih komponenata, ali ćemo pre toga definisati Uišartovu raspodelu.

Definicija 2.2 Ako je X~Np(µ,Ʃ) i ako je µ = 0, tada matrica

n

1i

T

ii

T xxp)(p XXM ima

Uišartovu raspodelu Wp(Ʃ,n).

Teorema 2.4 Neka je Ʃ pozitifno definitna matrica sa različitim sopstvenim vrednostima i

neka matrica U ima Uišartovu raspodelu n),(Wn

1p Σ . Neka su Λ i L dijagonalne matrice i neka

su spektralne dekompozicije matrica Ʃ i U redom Ʃ=ΓΛΓT i U=GLGT, gde su Γ=(γ1,γ2,...,γp) i

G=(g1,g2,…,gp) ortogonalne matrice i λ1>λ2 >...>λp, l1≥l2 ≥... ≥lp, γ1i≥0, g1i≥0, i=1,...,p. Neka su

matrice C i D definisane sa ΓGC n i ΛLD n .Tada matrice C i D imaju

asimptotski normalnu raspodelu, nezavisne su i dijagonalni elementi matrice D su nezavisni, tj.

2r 0,2Nn ΛΓGC i 2r 0,2Nn ΛΛLD kad n . (2.20)

Element dijagonale matrice D, element di, ima asimptotski normalnu raspodelu 2

i0,2λN .

27

Kovarijansna matrica za element ci u asimptotskoj raspodeli matrice C=(c1,c2,...,cp) je

Tp

ik

1k2

ki

ki

λλ

λλVar kki γγc

. (2.21)

Kovarijansna matrica za elemente ci i cj u asimpototskoj raspodeli je

T

2

ji

ji

λλ

λλ,Cov ijji γγcc

. (2.22)

Dokaz. Raspodela za matricu UΓΓTTnn je određena preko Uišartove raspodele W(Λ,n).

Neka je

TYLYT (2.23)

gde je Y ortogonalna matrica. Ovde ćemo zahtevati da je y1i≥0 da bismo odredili jedinstveno Y.

Neka je ΛTV n i IYW n . Onda (2.23) možemo napisati u sledećem obliku

T

W1

ID1

ΛW1

IV1

Λ

nnnn . (2.24)

Prethodni izraz u (2.24) je ekvivalentan sa

TTTT

nWDW

1DWWWWD

n

1ΛWDWΛV . (2.25)

Iz

TT

nnW

1IW

1IYYI dobijamo da je

TT

nWW

1WW0 . (2.26)

Ako zanemarimo sabirke reda n

1i

n

1redom u (2.25) i (2.26) dobijamo da je

TΛWDWΛV i (2.27)

TWW0 . (2.28)

Kako iz relacije (2.28) zaključujemo da je WW T , kada ovo zamenimo u (2.27) i

prikažemo rezultate kroz komponente dobijamo da je

28

p1,...,i,dv0,w iiiii (2.29)

p1,...,ji,j,i,λλ

vw

ij

ij

ij

. (2.30)

Iz Teoreme 2.5 zaključujemo da je iz asimptotske raspodele matrice V za funkcionalno

nezavisne elemente očekivanje jednako 0 i 2

iii 2λvVar i jiij λλvVar , i≠j. Odavde

zaključujemo i da matrice D i W imaju asimptotsku normalnu raspodelu i da su elementi

d1,…,dp,w12,w13,…,wp-1,p nezavisni sa očekivanjem 0 i varijansama 2

ii 2λdVar , p1,...,i ,

2

ij

ji

ijλλ

λλwVar

, 1p1,...,ip,1,...,ij . Kako IY

r

imamo da je ΓΓYr sa

velikom verovatnoćom da je svaka kolona od Γ skoro identična odgovarajućoj koloni u ΓY.

Odavde ΓGC n ima asimptotsku raspodelu za ΓWIYΓ n . Odavde slede i

odgovarajuće asimptotske varijanse i kovarijanse. ■

Teorema 2.5 Neka je TNα

N

Nαn XXXXA

, gde su X1,X2,…nezavisni vektori sa

normalnom raspodelom N(µ,Ʃ) i 1Nn . Tada je asimptotska raspodela za

ΣAG nnn

1n normalna sa očekivanjem 0 i kovarijansama

.jkiljlikklij σσσσngngE

2.5 Analiza normalizovanih glavnih komponenata

Početne slučajne promenljive u određenim situacijama mogu biti heterogene, bez obzira na

njihove varijanse. Ovo dolazi do izražaja kada se promenljive posmatraju na heterogenim

skalama (kao što su godine, kilogrami, dolari,…). Tada, opis informacija sadržanih u podacima,

ima zadatak da obezbedi koja informacija je bolja, bez obzira na kojoj skali se promenljive mere.

Ovo može biti postignuto kroz standardizaciju promenljivih, odnosno

1/2HXDXS , (2.31.)

29

gde je )s,...,diag(sPP11 XXXXD . Ranije je pomenuto da je 0xS i RS

SX , uzoračka korelaciona

matrica za X. Transformacija glavnih komponenata matrice Xs se naziva analiza

normalizovanih glavnih komponenata (ANGK) . Spektralna dekompozicija od R je

T

RRR GLGR , (2.32)

gde je R

p

R

1 l,...,ldiagRL i R

p

R

1 l...l su sopstvene vrednosti za R koje odgovaraju sopstvenim

vektorima g1R,…,gp

R .

Normalizovane glavne komponente Zj, obezbeđuju reprezentaciju svake promenljive i

predstavljene su sa

p1 z,...,z RSGXZ . (2.33)

Posle transformacije promenljivih, sledi da je

0z , (2.34)

.RRRRRRRRRRXRZ LIILGGLGGRGGGSGSS

TTTT (2.35)

2.6 Metod glavnih komponenata kod faktorske analize

Faktorska analiza opisuje kovarijansu između što većeg broja promenljivih preko nekoliko

osnovnih, ali neopažljivih veličina zvanih faktori. Pretpostavimo da promenljive mogu biti

grupisane preko njihovih korelacija. Na primer, pretpostavimo da promenljive imaju veliku

međusobnu korelaciju unutar određene grupe, ali ne i sa promenljivama neke druge grupe. Zatim,

može se pretpostaviti da svaka grupa promenljivih predstavlja jedan faktor koji je zadužen za

posmatrane korelacije.

Faktorska analiza se može posmatrati kao produžetak analize glavnih komponenata. Obe

analize se mogu posmatrati kao pokušaji aproksimiranja kovarijansne matrice. Međutim,

aproksimacija preko faktorske analize je dosta detaljnija, što će biti dalje prikazano.

30

2.6.1 Ortogonalni faktorski model

Slučajni vektor X sa p komponenata ima očekivanje µ i kovarijansnu matricu Ʃ. Faktorski

model pretpostavlja da je X linearno zavisan od nekoliko neopažljivih slučajnih promenljivih

F1,...,Fm koje se zovu zajednički faktori i p dodatnih izvora varijacija ε1,...,εp koji se zovu greške

ili specifični faktori. Faktorski model je predstavljen preko slučajnih promenljivih na sledeći

način

pmpm2p21p1pp

2m2m22212122

1m1m21211111

εFl...FlFlμX

εFl...FlFlμX

εFl...FlFlμX

(2.36)

ili u matričnom obliku

εLFμX (2.37)

Koeficijent lij predstavlja i-tu komponentu j-tog faktora, pa se matrica F drugačije naziva

faktorska matrica. Specifični faktor εi je u korelaciji samo sa promenljivom Xi. Odstupanja X1-µ1,

X2-µ2,..., Xp-µp su izražena preko p+m slučajnih promenljvih F1,...,Fm,ε1,...,εp koje su

zanemarljive.

Direktna provera faktorskog modela dobijenog iz posmatranja promenljivih X1,...,Xp sa toliko

mnogo neprimetnih kvantiteta je veoma teška. Međutim, sa nekoliko dodatnih pretpostavki za

slučajne vektore F i ε model predstavljen u (2.37) podrazumeva određene odnose među

kovarijansama.

Pretpostavimo da važi

p

2

1

T

T

ψ00

0ψ0

00ψ

ЕCovE

ECovE

Ψεεε0ε

IFFF0F

(2.38)

31

i da su slučajni vektori F i ε nezavisni, tj.

0εFFε E,Cov . (2.39)

Ortogonalni faktorski model određuje strukturu kovarijansne matrice za matricu X. Iz

matričnog oblika ortogonalnog faktorskog modela (2.37) dobijamo da je

TTεLFεLFμXμX

TTεLFεLF (2.40)

TTTTεεLFεLFεLFLF

pa odavde imamo da je

TECov μXμXXΣ

TTTTTT EEEE εεFεLLεFLFFL (2.41)

ΨLL T .

Iz (2.37) dobijamo i da je TTTTεFLFFFεLFFμX .

Takođe iz (2.37) imamo da je LεFFFLFμXFX TTT EEE,Cov .

2.6.2 Kovarijansna struktura za ortogonalni faktorski model

Iz izraza (2.37) uz navedene pretpostavke u izrazima (2.38) i (2.39) dobija se

1. ΨLLX TCov ili

kmimk1i1ki

i

2

im

2

i1i

ll...llX,XCov

ψl...lXVar

(2.42)

2. LFX ,Cov ili

ijji lF,XCov (2.43)

32

Model εLFμX je linearan što se tiče zajedničkih faktora. Ukoliko su p slučajnih

promenljivih Xi, i=1,..,p, povezane sa osnovnim faktorima, ali su veze nelinearne, kao na primer

1311111 εFFlμX i slično, onda kovarijansna struktura u (2.42) možda nije adekvatna.

Pretpostavka linearnosti je veoma bitna kod tradicionalnog faktorskog modela.

Deo varijanse i-te promenljive dobijene od m zajedničkih faktora se zove i-ti komunalitet.

Deo varijanse Var(Xi) = σii zbog specifičnog faktora se često naziva unikvitet ili specifična

varijansa. Iz (2.42) imamo da je

.i2

im

2

i2

2

i1ii ψl...llσ (2.44)

Drugačiji zapis za (2.44) je

2

im

2

i2

2

i1

2

i l...llh (2.45)

i

.i2

iii ψhσ (2.46)

Suma kvadrata i-te promenljive koja ukljućuje m zajedničkih faktora predstavlja komunalitet

i-te promenljive.

Faktorski model pretpostavlja da se iz pm faktorskih opterećenja lij i p specifičnih varijansi ψi

mogu dobiti p(p+1)/2 varijansi i kovarijansi matrice X. Kada je m = p, svaka kovarijansna

matrica Ʃ može biti predstavljena kao TLL , pa Ψ može biti nula matrica. Faktorska analiza je

najkorisnija kada je m veoma malo u odnosu na p. Faktorski model tada opisuje varijaciju

matrice X sa manje parametara nego p(p+1)/2 parametara matrice Ʃ.

Kada je m>1, uvek postoji neka neodređenost kod faktorskog modela. Neka je

m)(mT ortogonalna matrica tako da je ITTTT TT . Izraz (2.37) se sad može predstaviti kao

εFLεFLTTεLFμX T , (2.47)

gde je LTL i FTFT .

33

Kako je 0FETFE T i ITTTFTF TTCovCov nemoguće je na osnovu

posmatranja matrice X razlikovati matricu opterećenja L od matrice opterećenja L . U stvari,

faktori F i FTFT imaju iste statističke osobine i iako se matrica opterećenja

L generalno

razlikuje od matrice opterećenja L, i jedna i druga daju istu kovarijansnu matricu Ʃ. U stvari je

ΨLLΨLLTTΨLLΣ TTTT . (2.48)

Matrica opterećenja L je određena samo preko ortogonalne matrice T. Zbog toga, matrice

opterećenja LTL i L daju istu reprezentaciju.

Faktorska analiza se dalje nastavlja zadavanjem uslova na osnovu kojih se jedinstveno mogu

odrediti matrice L i Ψ. Kada se jednom dobiju opterećenja kao i specifične varijanse, utvrđuju se

faktori i često se računaju ponderisane vrednosti faktora (takozvani faktorski skorovi).

2.6.3 Metod glavnih komponenata

Faktorska analiza nastoji da odgovori na pitanje da li faktorski model (2.37) sa malim brojem

faktora na odgovarajući način opisuje podatke. U suštini, treba naći adekvatan statistički model

koji će predstaviti podatke. Uzoračka kovarijansna matrica S je ocena kovarijansne matrice Ʃ.

Ako su elementi koji se nalaze van dijagonale uzoračke kovarijansne matrice S mali ili elementi

van dijagonale uzoračke korelacione matrice R skoro jednaki nuli, slučajne promenljive nisu u

korelaciji, pa samim tim faktorska analiza nije od nekog značaja. Specifični faktori su sad

izuzetno bitni i sada je glavni cilj faktorske analize da odredi nekoliko važnih zajedničkih faktora.

Ako kovarijansna matrica Ʃ značajno odstupa od dijagonalne matrice, tada kod faktorskog

modela treba odrediti faktore opterećenja lij i specifične faktore ψi. Ovde ćemo razmotriti metod

glavnih komponenata kao jedan od najviše korišćenih metoda za procenu parametara.

Spektralna dekompozicija obezbeđuje nam faktorizaciju kovarijansne matrice Ʃ. Neka Ʃ ima

uređene parove (λj,ej) sopstvenih vrednosti i sopstvenih vektora redom, gde je λ1≥ λ2≥…≥λp≥0.

34

Sada imamo da je

T

ppp

T

222

T

111 eeλ...eeλeeλ Σ

T

pp

T

22

T

11

pp2211

eλeλeλ

. (2.49)

Ovo odgovara kovarijansnoj strukturi kada faktorski model ima isti broj faktora i

promenljivih (m = p) i specifične varijanse ψi=0 za i . Matrica opterećenja ima j-tu kolonu

određenu sa jjeλ . Matrični oblik je predstavljen na sledeći način

TTLL0LLΣ . (2.50)

Faktorska opterećenja j-tog faktora su koeficijenti j-te glavne komponente.

Faktorska analiza predstavljena u (2.49) nije naročito korisna, jer uključuje onoliko

zajedničkih faktora koliko ima promenljivih i ne predviđa nikakvu varijaciju što se tiče

specifičnih faktora. Metod glavnih komponenata objašnjava kovarijansnu strukturu preko samo

nekoliko zajedničkih faktora.

Jedan od načina određivanja kovarijansne strukture je kada su poslednjih p-m sopstvenih

vrednosti male i tada zanemarujemo deo T

ppp

T

1m1m1m eeλ...eeλ za matricu Ʃ. Na ovaj način

dobijamo aproksimaciju kovarijansne matrice Ʃ

T

T

mm

T

22

T

11

mm2211

eλeλeλ LLΣ

. (2.51)

Aproksimacija kovarijansne matrice Ʃ u (2.51) pretpostavlja da su specifični faktori od malog

značaja i takođe mogu biti zanemareni u faktorizaciji matrice Ʃ. Ako su specifični faktori

35

uključeni u model, njihove varijanse mogu biti dijagonalni elementi matrice TLLΣ , gde je

TLL definisana u (2.51).

Uzimajući u obzir specifične faktore, aproksimacije kovarijansne matrice Ʃ postaje

ΨLLΣ T

p

2

1

T

mm

T

22

T

11

mm2211

ψ00

0ψ0

00ψ

eλeλeλ

, (2.52)

gde je

m

1j

2

ijiii lσψ za i = 1,...,p.

Ovaj pristup se primenjuje na skup podataka x1, ..., xn tako što se realizovani uzorci centriraju

oduzimajući srednju vrednost x .

Centrirani realizovani uzorci

n1,...,j

xx

xx

xx

x

x

x

x

x

x

pjp

2j2

1j1

p

2

1

jp

j2

j1

xx j , (2.53)

imaju istu uzoračku kovarijansnu matricu S kao početna posmatranja.

Kada komponente promenljivih uzimaju vrednosti sa velikim međusobnim odstupanjima,

radi se sa standardizovanim promenljivama

n1,...,j

s

xx

s

xx

s

xx

pp

pjp

22

2j2

11

1j1

jZ . (2.54)

36

čija je kovarijansna matrica u stvari uzoračka korelaciona matrica R za realizovane uzorke x1,...,

xn.

Kako promenljive sa velikom varijansom imaju uticaja na određivanje faktorskih opterećenja,

standardizovanjem promenljivih ovde se taj problem rešava.

2.6.4 Rešenje faktorskog modela metodom glavnih komponenata

Analiza glavnih komponenata kod faktorskog modela za uzoračku kovarijansnu matricu S je

veoma specifična što se tiče njenih uređenih parova sopstvenih vrednosti i sopstvenih vektora

)e,λ(),...,e,λ(),e,λ( pp2211ˆˆˆˆˆˆ , gde je p21 λ...λλ ˆˆˆ . Neka je m < p broj zajedničkih faktora. Tada

je matrica ocena faktorskih opterećenja )l( ijˆ data sa

mm2211 eλeλeλ ˆˆˆˆˆˆˆ L . (2.55)

Ocene specifične varijanse su dobijene preko dijagonalne matrice TLLS ˆˆ tj.

p

2

1

ψ00

0ψ0

00ψ

ˆ

ˆ

ˆ

ˆ

Ψ gde je

m

1j

2

ijiii lsψ ˆˆ . (2.56)

Sada imamo da su komunaliteti

2

im

2

i2

2

i1

2

i l...llh ˆˆˆˆ . (2.57)

Analiza glavnih komponenata za faktorski model se primenjuje tako što se umesto uzoračke

kovarijansne matrice S uzima uzoračka korelaciona matrica R.

Procenjena opterećenja za određeni faktor se ne menjaju bez obzira na to da li se broj faktora

povećava kad je u pitanju metod glavnih komponenata. Na primer, ako je m=1, onda

je )eλ( 11ˆˆˆ L , a ako je m=2, tada je )eλeλ( 2211

ˆˆˆˆˆ L ,gde su )eλ( 11̂ˆ i )e,λ( 22

ˆˆ uređeni parovi

sopstvenih vrednosti i sopstvenih vektora matrice S (ili R).

37

Po definiciji, dijagonalni elementi matrice S su jednaki dijagonalnim elementima matrice

ΨLL ˆˆˆ T. Međutim, elementi van dijagonale matrice S se ne dobijaju preko matrice ΨLL ˆˆˆ T

, pa

se postavlja pitanje kako biramo broj faktora m.

Ako u ranijim razmatranjima broj zajedničkih faktora nije određen, taj broj se može dobiti

preko odnosa sopstvenih vrednosti slično kao kod glavnih komponenata. Posmatrajmo rezidualnu

matricu

)( TΨLLS ˆˆˆ . (2.58)

Rezidualna matrica je rezultat aproksimacije matrice S metodom glavnih komponenata.

Elementi dijagonale rezidualne matrice su jednaki nuli po definiciji. Za elemente van glavne

dijagonale važi da je

2

p

2

1mij

2

ij

p

1i

p

ij

1j

ij λ...λ)ψl((s ˆˆˆˆ

. (2.59)

Ovo pokazuje da iz male vrednosti sume kvadrata zanemarenih sopstvenih vrednosti sledi

mala vrednost sume kvadrata grešaka aproksimacije.

Doprinos prvog zajedničkog faktora uzoračkoj varijansi sii je 2

ijl̂ , a kod totalne uzoračke

varijanse )tr(s...ss pp2211 S doprinos prvog zajedničkog faktora je

111

T

11

2

p1

2

21

2

11 λeλeλl...ll ˆˆˆˆˆˆˆˆ

. (2.60)

Uopšteno, udeo j-tog faktora u totalnoj uzoračkoj varijansi je

Str

λ

s...s

λ j

pp11

jˆˆ

, (2.61)

kada je u pitanju uzoračka kovarijansna matrica S. Kada se umesto S uzme uzoračka korelaciona

matrica R imamo da je tr(R)=p.

38

2.7 Primer bostonskih nekretnina

U ovom delu poglavlja će biti pokazana korisnost analize glavnih komponenata ukoliko se

ista primeni na skup podataka velikih dimenzija. Konkretno ćemo to primeniti na skup podataka

bostonskih nekretnina, koju su analizirali Harison i Rubinfeld (1980) želeći da ispitaju da li “čist

vazduh” utiče na cenu nekretnina.

Korišćeni su sledeći parametri za posmatranje i analiziranje 506 nekretnina: X1-stopa

kriminala po glavi stanovnika, X2-procenat stambenog zemljišta za velike parcele, X3-procenat

poslovnog zemljišta za velikoprodaju, X4-blizina ili udaljenost reke Čarls, X5-koncentracija

azotnih oksida, X6-prosečan broj soba po stanu, X7-procenat stambenih zgrada izgrađenih pre

1940. godine, X8-udaljenost od bostonskih poslovnih centara, X9-pristup glavnim autoputevima,

X10-puna stopa poreza na imovinu po 10000 dolara, X11-odnos učenika i nastavnika, X12-procenat

Afroamerikanaca, X13-procenat stanovništva nižeg statusa i X14-srednja vrednost zakupljenih

nekretnina u hiljadama dolara.

Slučajna promenljiva X4 je odbačena zato što je diskretna promenljiva, iako će kasnije biti

grafički prikazana. Različitost preostalih 13 slučajnih promenljivih nameće korišćenje analize

normalizovanih glavnih komponenata sa korelacionom matricom.

Sopstvene vrednosti Procenti Kumulativni procenti

7.2852 0.5604 0.5604

1.3517 0.1040 0.6644

1.1266 0.0867 0.7510

0.7802 0.0600 0.8111

0.6359 0.0489 0.8600

0.5290 0.0407 0.9007

0.3397 0.0261 0.9268

0.2628 0.0202 0.9470

0.1936 0.0149 0.9619

0.1547 0.0119 0.9738

0.1405 0.0108 0.9846

0.1100 0.0085 0.9931

0.0900 0.0069 1.000

Tabela 2.3. Sopstvene vrednosti i procenti objašnjene varijanse za bostonske nekretnine.

39

GK 1 GK 2 GK 3

X1 -0.9076 0.2247 0.1457

X2 0.6399 -0.0292 0.5058

X3 -0.8580 0.0409 -0.1845

X5 -0.8737 0.2391 -0.1780

X6 0.5104 0.7037 0.0869

X7 -0.7999 0.1556 -0.2949

X8 0.8259 -0.2904 0.2982

X9 -0.7531 0.2857 0.3804

X10 -0.8114 0.1645 0.3672

X11 -0.5674 -0.2667 0.1498

X12 0.4906 -0.1041 -0.5170

X13 -0.7996 -0.4253 -0.0251

X14 0.7366 0.5160 -0.1747

Tabela 2.4. Korelacija između prve tri glavne komponente i početnih promenljivih.

Sopstvene vrednosti i procenat objašnjene varijanse je predstavljen u Tabeli 2.3.

Prva glavna komponenta objašnjava 56% ukupne varijanse, dok prve tri glavne komponente

objašnjavaju preko 75%. Ovaj rezultat ukazuje da je dovoljno posmatrati 2, maksimum 3

komponente.

Tabela 2.4 pokazuje korelacije između prve tri glavne komponente i početnih slučajnih

promenljivih, što se može videti na Slici 2.5.

Jasan obrazac se može videti u prikazu korelacije sa prvom glavnom komponentom. Slučajne

promenljive X2, X6, X8, X12 i X14 su u visokoj pozitivnoj korelaciji sa prvom glavnom

komponentom, dok su preostale slučajne promenljive u visokoj negativnoj korelaciji. Minimalna

korelacija po apsolutnoj vrednosti je 0,5.

Prva glavna komponenta može biti prikazana kao pokazatelj kvaliteta kućnog života. Druga

glavna komponenta može biti prikazana kao socijalni faktor, objašnjavajući samo 10% ukupne

varijanse.

Slika 2.6 prikazuje crvene tačke ako je vrednost promenljive X14 veća od srednje vrednosti.

Jasno je da su prva i druga glavna komponenta povezane sa vrednošću samih kuća.

40

Slika 2.5. ANGK za bostonske nekretnine, korelacije početnih promenljivih sa prve tri glavne komponente.

Slika 2.6. ANGK za Bostonske nekretnine, prikaz za prve dve GK. Skuplje kuće su obeležene crvenom bojom.

41

Glava 3

Primena analize glavnih komponenata

Treće poglavlje se bavi primerima vezanim za smanjenje dimenzija multivarijacione slučajne

promenljive pomoću linearnih kombinacija (glavne komponente). Identifikovane glavne

komponente su poređane u opadajućem redosledu po važnosti. Primenjene u praksi na matrici

podataka, glavne komponente će biti faktori transformisane matrice podataka. Za slučajni vektor

X sa E(X)=µ i Var(X)=Σ=ΓΛΓT, transformacija glavnih komponenata je definisana sa

Y=ΓT(X−µ). Prethodno objašnjeno će biti predstavljeno u Primeru 3.1. gde će komponente

slučajnog vektora Y imati korelaciju 0. Štaviše, može se pokazati i da je suma varijansi

standardizovanih linearnih kombinacija Y1,…,Yp jednaka sumi varijansi od X1,…,Xp, tj.

p

1i

i

p

1i

i XVarYVar .

U praksi, glavna komponenta transformacije računa se koristeći oznake x i S umesto µ i Σ.

Ako je S=GLGT spektralna dekompozicija uzoračke kovarijansne matrice S, glavne komponente

su dobijene na sedeći način:

GXY T

n x1 . (3.1)

Teorema 2.4. opisuje vezu između sopstvenih vrednosti matrice Var(X)=Σ=ΓΛΓT i

sopstvenih vrednosti uzoračke varijansne ili kovarijansne matrice S.

Primer 3.1 Izračunati očekivanu vrednost i varijansu transformacije glavnih komponenata Y

definisane u (3.2.), a zatim interpretirati dobijene rezultate.

Za očekivanu vrednost EY važi da je

.)(E)E()(EЕ TTT0μXΓμXΓμXΓY . (3.2)

Varijansna matrica Var(Y) se računa kao

.)(Var()Var( TTTTΛΓΓΛΓΓΣΓΓμXΓY (3.3)

42

Sledi, slučajni vektor Y je centriran i njegova varijansna matrica je dijagonalna. Sopstvene

vrednosti λ1,...,λp su varijanse glavnih komponenti Y1,..., Yp.

Primetimo da je

.

p

1i

i

p

1i

i

TTp

1i

i )Var(Yλ)tr()tr()tr(trXVar ΛΛΓΓΓΛΓΣ . (3.4)

Stoga, varijanse od Xi su razložene u varijanse od Yi, koje su dobijene od sopstvenih

vrednosti sume Ʃ. Suma varijansi prvih q glavnih komponenti

q

1i

iλ meri varijanse slučajnog

vektora X izražene preko Y1,...,Yp. Proporcije izraženih varijansi,

p1

q1

qλ....λ

λ....λψ

biće važne za interpretaciju rezultata praktične analize predstavljene u sledećim primerima.

Primer 3.2 Izračunati korelaciju između slučajnog vektora X i transformacije glavnih

komponenata Y.

Kovarijansa izmedju glavnih komponenata vektora Y i prvobitnog vektora X je

. ) ,Cov( ))-( ,Cov( Y),Cov( TTΓΛΓΓΛΓ ΣΣΓYXμXΓXX

Korelacija XiYjρ između promenljive Xi i glavne komponente Yj je

.

1/2

XiXi

j

ij1/2

jXiXi

jij

XiYjσ

λγ

)λ(σ

λγ ρ

Korelacije opisuju odnose između glavnih komponenata i početnih slučajnih promenljivih.

Zapazimo da je i

Τ

i

2

ijj

p

1j γγγλΣ Λ (i,i) element matrice Σ = ΓΛΓT, iz čega sledi da je

1.σ

σ

σ

γλΣρ

XiXi

XiXi

XiXi

2

ijj

p

1jp

1j

2

XiYj

43

Korelacija 2

XiYjρ se sada može posmatrati kao proporcija varijansi i-te slučajne promenljive Xi

izražene preko j-te glavne komponente Yj.

Procenat varijanse od Xi je izražen preko prvih q glavnih komponenata Y1,…,Yq

.1ρq

1j

2

XiYj

Primer 3.3 Odrediti, analizom glavnih komponenata, podatke o ocenama automobila iz

tabele A.2. Prikazati prve dve glavne komponente. Ispitati da li je potrebno posmatrati treću

glavnu komponentu.

Sopstvene vrednosti kovarijacione matrice

,ˆ T),0.04,0.02,0.08,0.05,0.37,0.10(5.56,1.15λ

vode do sledećih proporcija objašnjenih varijansi

T),1.00,1.00,0.99,0.99,0.96,0.98(0.76,0.91ψ ˆ .

Budući da prve dve glavne komponente objašnjavaju više od 90% datih podataka, nije

potrebno uključiti i treću glavnu komponentu koja objašnjava oko 5% promenljivosti datih

podataka. Grafički prikaz sopstvenih vrednosti predstavljen je u donjem desnom uglu na slici 3.1.

Prva dva sopstvena vektora kovarijacione matrice su

T

1 0.01)0.39,0.42,0.48,0.33,0.44,0.22,0.31,(γ ˆ

i .ˆ T

2 0.49)0.16,0.46,0.14,,,0.22,0.30(0.54,0.28γ

Zbog toga, prve dve glavne komponente su definisane sa:

Y1 = − 0.22×ekonomičnost + 0.31×servisiranje + 0.44×vrednost − 0.48×cena + 0.33×dizajn +

0.39×sportske karakteristike + 0.42×sigurnost − 0.01×lako rukovanje,

Y2 = 0.54×ekonomičnost + 0.28×servisiranje + 0.22×vrednost + 0.30×cena − 0.14×dizajn −

0.16×sportske karakteristike + 0.46×sigurnost + 0 .49×lako rukovanje.

44

Slika 3.1. Dijagrami rasipanja zavisnosti prve tri glavne komponente i Katelijev dijagram sopstvenih vrednosti za

ocene automobile iz tabele A.2.

Tumačenje samo koeficijenata glavnih komponenata dovodi do pogrešne odluke, u

zavisnosti, ako se slučajne promenljive posmatraju na različitim merenjima. Zbog toga je

preporučljivo da se tumačenja baziraju na korelacijama glavnih komponenata prikazanim na slici

3.2.

Za ocene automobila iz date tabele podataka, oba koeficijenta glavnih komponenata, kao i

njihove korelacije sa početnim slučajnim promenljivima na slici 3.2. ukazuju da prva glavna

komponenta razlikuje skupe i dizajnirane od jeftinih automobila, kao i od automobila sa manje

sportskih karakteristika.

45

Prethodno rečeno je potvrđeno pozicijom prve glavne komponente Y1 na slici 3.1. Na desnoj

strani, posmatramo brendove kao Wartburg, Trabant, Lada ili Fiat, dok na levoj strani vidimo

Jaguar, Ferrari, BMW i Mercedes-Benz.

Druga glavna komponenta razlikuje ekonomične automobile koji su laki za rukovanje (kao

što su Volkswagen i Opel), od automobila koji troše puno goriva i kojima rukovanje predstavlja

veći izazov (Ferrari, Wartburg, Jaguar i Trabant).

Slika 3.2 Grafik prve dve komponente sa početnim slučajnim promenljivama u skupu podataka tipova automobila.

Slika 3.2 pokazuje da su početne slučajno promenljive vrlo dobro prikazane preko prve dve

glavne komponente, pošto se sve tačke mogu naći u neposrednoj blizini jedinice kruga.

Primer 3.4 Uzeti atletske rekorde 55 zemalja datih u Tabeli A.3 i primeniti analizu

normalizovanih glavnih komponenata, a potom prikazati dobijene rezultate.

Tabela podataka sa atletskim rekordima sadrži nacionalne rekorde u 8 disciplina (100m,

200m, 400m, 800m, 1500m, 5km, 10km i maraton) za n=55 država. Očigledno, vremena, a

46

samim tim i razlike između zemalja, biće znatno veće za duže deonice. Zbog toga, pre korišćenja

analize glavnih komponenata, skup podataka biće normalizovan deljenjem svake slučajne

promenljive njenom uzoračkom standardnom devijacijom.

Isti rezultati mogu biti dobijeni računanjem spektralne dekompozicije uzoračke korelacione

matrice sa prvobitnim podacima. Međutim, treba biti pažljiv i imati na umu da se izvedeni

koeficijenti glavnih komponenata mogu primeniti na normalizovanim slučajnim promenljivama.

Kombinovanje ovih koeficijenata sa početnim slučajnim promenljivama može dovesti do

pogrešnih zaključaka.

Sopstvene vrednosti i proporcije objašnjenih varijansi su

T),0.05,0.02,0.10,0.07,0.60,0.13(6.04,0.99λ ˆ

i T),1.00,1.00,0.98,0.99,0.95,0.97(0.75,0.88ψ ˆ .

Primetimo da je suma svih sopstvenih vrednosti 8. Ovo sledi iz činjenice da su varijacije

standardizovanih slučajnih promenljivih jednake 1 i veze

p

1j

p

1j

i 8p1)tr(λ Sˆ .

S obzirom na gore dobijene sopstvene vrednosti i proporcije razloženih slučajnih

promenljivih, poželjno je pronaći samo jednu glavnu komponentu (Slika 3.3). Opšte prihvaćeno

pravilo kaže da je dovoljno zadržati samo one glavne komponente koje opisuju više od polovine

varijanse ukupnog broja slučajnih promeljivih.

Tokom analize normalizovanih glavnih komponenata, zaključuje se da je više od polovine

varijanse ukupnog broja slučajnih promenljivih, opisano preko glavnih komponenata sa

odgovarajućim sopstvenim vrednostima većim od 1.

Svejedno, druga sopstvena vrednost λ2 = 0.99 je vrlo blizu 1, pa odlučujemo da ispitamo i

drugu glavnu komponentu. Koeficijenti linearnih kombinacija su predstavljeni preko sopstvenih

vektora

T

1 ),0.39,0.37,0.39,0.39,0.37,0.38(0.32,0.16γ ˆ i

T

2 0.22)0.17,0.16,0.13,0.04,,0.03,(0.39,0.85γ ˆ .

47

Na slici 3.3 možemo videti velike vrednosti “srednjih vrednosti rekorda” komponenata koje

su dobijene na Kukovim ostrvima, Zapadnoj Samoi i Mauricijusu. Sa druge strane, najbrža

vremena se pojavljuju u Sjedinjenim Američkim Državama.

Slika 3.3. Grafik veza prve tri glavne komponente i grafik sopstvenih vrednosti skupa podataka atletskih rekorda.

U ovom primeru, važno je imati na umu značenje svih merenja. Veće vrednosti odgovaraju

dužim tj. gorim vremenima.

Prva glavna komponenta dobro opisuje sve početne slučajne promenljive i može biti

predstavljena kao srednja vrednost rekorda, sa nešto manjim ponderom na dužini od 200m (Slika

3.4).

Druga glavna komponenta je vrlo pozitivno korelirana sa rezultatima na 200m i ona izdvaja

Mauricijus i Holandiju, države koje pokazuju slabe rezultate na 200m.

48

Na slici 3.4 vidimo da te dve glavne komponente dobro opisuju sve početne promenljive.

Koristeći samo jednu glavnu komponentu možemo imati slaba objašnjenja o ishodima trka na

200m.

Slika3.4. Grafik prve dve komponente sa početnim slučajnim promenljivim iz skupa podataka atletskih rekorda.

Primer 3.5 Primeniti analizu glavnih komponenata na kovarijansnu matricu

ρ1Σ , gde

je 0<ρ<1. Nakon toga promeniti vrednosti za X1, tj. razmatrati varijansu za cX1 i X2 gde je c>1.

Ispitati i kako se menja pravac glavnih komponenata.

Spektralna dekompozicija matrice Ʃ je

11

11

2

1

ρ10

0ρ1

11

11

2

1ΤΓΛΓΣ .

Kako je ρ>0, glavne komponente su Y1 =(X1 + X2)/ i Y1 =(X1 –X2)/ .

Množenjem X1 konstantom c>0 dobija se kovarijaciona matrica:

49

1cρ

cρccΣX,cXVar

2

T

21 .

Sopstvene vrednosti matrice Ʃ(c) su rešenja za

0λ1cρ

cρλc2

,

stoga su sopstvene vrednosti

22222

1,2 ρ4c1c1c2

1cλ .

Sopstveni vektor koji odgovara λ1 se može izračunati preko sistema linearnih jednačina:

2

1

1

2

12

X

X

X

1cρ

cρc.

Odavde sledi da je X1 = X2(λ1 −1)/cρ i prva glavna komponenta postaje (cX1)(λ1 −1)/cρ + X2.

Sledeće, primetimo da je λ1>1 i da je funkcija λ1(c)/c rastuća po c. Stoga x1>x2 i odnos

izmedju x1 i x2 je rastuća funkcija po c.

Sumirajući prethodne rezultate, možemo reći da, sa porastom c, prva sopstvena vrednost λ1

postaje veća, a slučajna promenljiva cX1 dobija sve veći značaj u prvoj glavnoj komponenti.

Na vrednosti glavnih komponenata može uticati izbor skala vrednosti slučajnih promenljivih.

Preporučuje se primena analize normalizovanih glavnih kompenenata tj. standardizovanje

svake slučajne promenljive njenom standardnom devijacijom, u cilju dobijanja adekvatnih

vrednosti.

Primer 3.6 Pretpostaviti da postoje neki standardizovani podaci koji su dobijeni

Mahalanobis transformacijom. Razmotriti da li je potrebno primeniti analizu glavnih

komponenata.

Standardizovani podaci X Mahalanobis transformacijom postaju podaci Z=XS-1/2 sa

kovarijansnom matricom SZ=S-1/2 SS S-1/2 =Ip .

50

Prethodno istaknuto odmah pokazuje da su sve sopstvene vrednosti za SZ jednake 1 i da

glavne komponente za Z imaju upravo iste varijanse kao i početne slučajne promenljive. Sa tim u

vezi, takva analiza bila bi potpuno beznačajna.

Analiza glavnih komponenata za Z uvek vodi do istih nezanimljivih rezultata.

Primer 3.7 Primeniti analizu normalizovanih glavnih komponenata na skup podataka o

kriminalu u Sjedinjenim Američkim Državama prikazanoj u Tabeli A.4, a zatim prikazati

dobijene rezultate. Razmotriti da li je potrebno ispitati i treću glavnu komponentu. Ovde se

nameće i pitanje da li može primetiti razlika između četiri regiona.

Skup podataka o kriminalu u Sjedinjenim državama se sastoji od broja zabeleženih zločina u

50 država SAD 1985. godine. Zločini su svrstani u 7 kategorija: ubistvo, silovanje, pljačka,

napad, provala, krađa i krađa automobila. Skup podataka takođe razlikuje zločine prema

regionima: severoistok, srednji zapad, jug i zapad.

Analiza normalizovanih glavnih komponenata znači da su, pre korišćenja analize, sve

slučajne promenljive smeštene u istu tabelu.

Sopstvene vrednosti korelacione matrice su

T,0.13),0.25,0.14,0.63,0.64(4.08,1.43λ ˆ ,

iz čega slede proporcije objašnjenih varijansi

T,1.00),0.96,0.98,0.88,0.93(0.58,0.79ψ ˆ .

Skup podataka je dobro opisan preko prve dve normalizovane glavne komponente i svaka od

njih opisuje više od polovine varijanse slučajnih promenljivih. Prve dve normalizovane glavne

komponente zajedno opisuju 79% ukupne varijanse (Slika 3.5).

Prva dva sopstvena vektora su

T

1 ),0.36,0.35,0.39,0.44(0.28,0.42γ ˆ i

T

2 0.40,0.37)0.46,0.26,0.12,0.05,0.64,(γ ˆ .

51

Slika 3.5. Grafik prve dve komponente sa početnim slučajnim promenljivama u skupu podataka zločina u Americi.

Na slici 3.5 označen je svaki od četiri regiona različitim simbolom. Uočava se da se simboli

približavaju u pravcu druge komponente. U gornjem delu grafika vide se uglavnom krugovi,

kvadrati i krstići koji odgovaraju prvom, drugom i četvrtom regionu. U donjem delu predstavljeni

su većinom trouglovi koji odgovaraju trećem regionu. Stoga, čini se da se u regionu 3 dešava više

ubistva i napada, a manje provala, krađa i krađa automobile, nego u ostalim regionima SAD.

Slika 3.6. Grafik prve dve glavne komponente sa početnim slučajnim promenljivama u skupu podataka zločina u

Americi.

52

Prva glavna komponenta kombinuje broj svih zločina sa približno konstantnom težinom, što

se može tumačiti kao ukupna stopa kriminala (videti korelacije na slici 3.6)

Druga glavna komponenta je u negativnoj korelaciji sa prvom i četvrtom slučajnom

promenljivom (ubistvo i napad) i u pozitivnoj je korelaciji sa petom, šestom i sedmom slučajnom

promenljivom (provala, krađa i krađa automobila). Druga normalizovana glavna komponenta

može biti prikazana kao komponenta pod nazivom “vrsta zločina”.

Primer 3.8 Ponoviti prethodno vežbanje koristeći zdravstvenu bazu podataka u SAD iz

Tabele A.5.

Zdravstvena baza podataka SAD se sastoji od prijavljenih smrtnih slučajeva u 50 država SAD

razvrstanih u 7 kategorija: nesreće, kardiovaskularne bolesti, rak, plućne bolesti, grip, dijabetes i

bolesti jetre.

Ovde smo se odlučili za primenu klasične analize glavnih komponenata. Normalizovana baza

podataka može značiti, u izvesnom smislu, da su svi uzroci smrti podjednako važni.

Bez normalizacije može se očekivati da će slučajne promenljive koje predstavljaju najveći

broj smrtnih ishoda imati najbitniju ulogu u našoj analizi.

Sopstvene vrednosti kovarijacione matrice su

T.47).45,5.76,33,25.21,1089.22,76.0(8069.40,1λ ˆ .

Prva velika sopstvena vrednost pokazuje važnost prve glavne komponente. Računajući

proporcije objašnjenih varijansi

T,1.00),1.00,1.00,0.99,1.00(0.96,0.99ψ ˆ ,

vidimo da prva glavna komponenta opisuje 96% ukupne varijanse. Grafik je predstavljen na slici

3.7.

Prvi (najvažniji) sopstveni vektor je

.ˆ T

1 0.01)0.02,0.03,0.34,0.03,0.06,0.94,(γ

53

Prva glavna komponenta pokazuje da su vodeći uzroci smrti kardiovaskularne bolesti, a

potom i rak.

Slika 3.7. Grafik prve dve komponente sa početnim slučajnim promenljivama u skupu podataka zdravstva u Americi.

Drugi sopstveni vektor

T

2 0.11)0.11,0.09,0.01,0.34,0.86,0.34,(γ ˆ

je u značajno pozitivnoj korelaciji sa brojem smrtnih ishoda prouzrokovanih rakom, a u manje

izraženoj negativnoj korelaciji sa brojem smrtnih ishoda prouzrokovanim kardiovaskularnim i

plućnim bolestima (Slika 2.7). Prva glavna komponenta opisuje na zadovoljavajuć način samo

slučajne promenljive koje opisuju broj smrtnih ishoda prouzrokovanim kardiovaskularnim

bolestima i rakom.

Na slici 3.8 prikazane su vrednosti za prve dve glavne komponente za 50 posmatranih država

SAD. Imajući u vidu značenje glavnih komponenti, primećuje se da se države sa visokom stopom

smrtnosti zbog kardiovaskularnih bolesti i raka nalaze sa desne strane (Florida, Njujork,

Pensilvanija). S tačke gledišta prve glavne komponente, najbolji uslovi za život su u Arkanzasu,

na Havajima, u Novom Meksiku, Vajomingu i Koloradu.

Druga, manje značajna glavna komponenta pokazuje da je rak značajniji uzrok smrti u

Merilendu nego u Južnoj Dakoti.

54

Slika 3.8. Grafik prve dve komponente skupa podataka zdravstva u Americi.

Primer 3.9 Primeniti analizu normalizovanih glavnih komponenata na geopolitički skup

podataka iz Tabele A.6 koja poredi 41 zemlju sa različitim aspektima njihovog razvoja. Ispitati

da li je analiza glavnih komponenata ovde upotrebljiva.

Geopolitički skup podataka sadrži poređenje 41 zemlje prema 10 političkih i ekonomskih

parametara. Mi ćemo izvršiti analizu bez prve slučajne promenljive, veličine populacije. Slučajne

promenljive koje će biti analizirane od X2 do X10 su: bruto unutrašnji proizvod po stanovniku,

stopa rasta stanovništva, stopa gradskog stanovništva, stopa nepismenosti, stopa studenata,

očekivani životni vek, stopa realizovanih prehrambrenih potreba, broj novina i časopisa na 1000

stanovnika i broj televizija na 1000 stanovnika. Očigledno, ove slučajne promenljive se mere na

različitim skalama i kako bi dobili verodostojne podatke baza podataka mora biti normalizovana.

U ovom vežbanju mora se koristiti analiza normalizovanih glavnih komponenata.

Sopstvene vrednosti korelacione matrice su

T,0.08),0.15,0.12,0.43,0.18,0.70,0.54(5.94,0.87λ ˆ ,

a proporcije objašnjene varijanse

T),0.99,1.00,0.94,0.98,0.83,0.89(0.66,0.76ψ ˆ .

55

Slika 3.9. Grafik prve dve komponente i grafik sopstvenih vrednosti skupa podataka geopoliticke karte.

Koeficijenti prve tri normalizovane glavne komponente su predstavljeni preko prva tri

sopstvena vektora

T

1 0.33,0.37)0.37,0.28,0.36,0.30,0.34,0.29,(0.34,γ ˆ ,

T

2 0.19)0.61,0.36,0.20,,0.16,,0.23,0.20(0.41,0.38γ ˆ ,

i T

3 0.49,0.06)0.05,0.14,0.02,0.66,0.34,0.18,0.37,(γ ˆ .

56

Slika 3.10. Grafik prve tri komponente sa početnim promenljivama datim u tabeli A.3.

Korelacije za Y1, Y2, Y3 sa početnim slučajnim promenljivama su prikazane na slici 3.10.

Iz korelacija koje su predstavljane na slici 3.10 može se tumačiti prva glavna komponenta kao

komponenta kvaliteta života. Ova komponenta je u pozitivnoj relaciji sa svim slučajnim

promenljivama osim onih koje prikazuju stopu rasta stanovništva i stopu nepismenosti. Na slici

3.9 može se videti da su visoke vrednosti ove komponente postignute u bivšoj Zapadnoj

Nemačkoj, Kanadi i SAD. Najniže vrednosti ove komponente zabeležene su u Keniji, Kamerunu,

Gabonu i Indiji.

Druga glavna komponenta se uglavnom prikazuje u pravcu suprotnom od pravca stope

realizovanih prehrambenih potreba.

57

Treća glavna komponenta je u pozitivnoj korelaciji sa stopom studenata, a u negativnoj

korelaciji sa brojem novina i časopisa. Sa slike 3.9 može se uočiti da je već jedna glavna

komponenta dovoljna da objasni značajan deo varijanse svih slučajnih promenljivih.

Primer 3.10 Posmatrati slučajnu promenljivu U sa uniformnom raspodelom na [0,1] i vektor

konstanti a=(a1,a2,a3)T ϵ R3. Pretpostaviti da je X=(X1, X2, X3)

T = aU. Ispitati koje vrednosti

normalizovanih glavnih komponenata vektora X se očekuju.

Pretpostavimo da ai≠0, i=1,2,3. Normalizacijom slučajnog vektora X, oduzimanjem njegove

očekivane vrednosti i deljenjem njegovom standardnom devijacijom, dobija se normalizovani

slučajni vektor Z:

,EσdiagEσdiag1/22

U

21/22

U

2UUaaXXaZ

sa varijansnom matricom

.a,asign

aabsaabs

aa

σdiagσσdiag

σdiagVarσdiagVar

1,2,3ji,ji

1,2,3ji,ji

ji

1/22

U

2T2

U

1/22

U

2

1/22

U

21/22

U

2

aaaa

aXaZ

Jasno, rang varijansne matrice Var(Z) ima vrednost 1, iz čega sledi da postoji samo jedna

nenula sopstvena vrednost. Stoga, spektralna dekompozicija Var(Z) dovodi do toga da postoji

samo jedna glavna komponenta koja objašnjava 100% ukupne varijanse vektora Z.

Normalizovana glavna komponenta se može napisati kao

.

3

aabsaabsaabsU

UaasignUaasignUaasign3

1

ZasignZasignZasign3

1Y

321

332211

3322111

58

Zaključujemo da nas analiza normalizovanih glavnih komponenata za X=aU vraća do

jednodimenzionalne slučajne promenljive U.

Primer 3.11 Posmatrati dve nezavisne slučajne promenljive U1 i U2 sa uniformnom

raspodelom na [0,1]. Pretpostaviti da je X=(X1, X2, X3,X4)T gde je X1=U1, X2=U2, X3=U1+U2,

X4=U1-U2 . Odrediti korelacionu matricu ρ vektora X. Koliko postoji glavnih komponenata od

značaja? Pokazati da suT

1 ,1,0)2

1,

2

1(γ ˆ i

T

2 ,0,1)2

1,

2

1(γ ˆ sopstveni vektori od ρ koji

odgovaraju netrivijalnim sopstvenim vrednostima λ1 i λ2. Predstaviti i prve dve normalizovane

glavne komponente.

Za slučajne promenljive U1 i U2 ~ U[0,1] je 2

1)E(U1 i

12

1)Var(U)Var(U 21 . Zatim

sledi da 12

1)Var(X)Var(X 21 .

Za varijansu za X3=U1+U2 i X4=U1-U2 dobija se

6

1)Var(U)Var(U)Var(X)Var(X 2143 ,

jer su U1 i U2 nezavisne.

Kovarijanse se mogu izračunati kao

12

1)U,Cov(U)Var(U)UU,Cov(U)X,Cov(X 21121131 i

0)Var(U)Var(U)UU,UCov(U)X,Cov(X 21212143 .

Preostali elementi varijacione matrice se mogu izračunati na isti način, što dovodi do

.

2011

0211

1110

1101

12

1Var X

59

Ukoliko podelimo svaku vrstu i svaku kolonu kvadratnim korenom odgovarajućeg

dijagonalnog elementa, dobija se sledeća korelaciona matrica

.

102

1

2

1

012

1

2

12

1

2

110

2

1

2

101

ρ

Sada je lako potvrditi da su γ1 i γ2 zaista sopstveni vektori korelacione matrice ρ jer

.11 2γ

0

2

2

2

0

12

12

1

102

1

2

1

012

1

2

12

1

2

110

2

1

2

101

γρ

Slično tome, 22 2γγρ . Ovo, usput, ukazuje da je 2121 γγ2γγρ zbog čega je bilo

koja linearna kombinacija γ1 i γ2 takođe sopstveni vektor od ρ sa istom sopstvenom vrednošću.

Dakle, λ1=λ2=2. Preostale dve sopstvene vredosti λ3 i λ4 su jednake nuli jer je rang

korelacione matrice jednak 2.

Prve dve normalizovane glavne komponente nisu jednako određene. Ukoliko izaberemo

koeficijente γ1 i γ2 i imamo na umu da ovi koeficijenti odgovaraju normalizovanim slučajnim

promenljivama, proističe

)U(U2X2

1X

2

1X

2

1Y 213211 i ).U(U2X

2

1X

2

1X

2

1Y 214212

Normalizovane glavne komponente Y1 i Y2 sada mogu da budu predstavljene kao zbir i

razlika U1 i U2.

60

Primer 3.12 Simulirati uzorak veličine n=50 za slučajnu promenljivu X u primeru 3.11 i

analizirati dobijene rezultate.

Pri izvođenju analize normalizovanih glavnih komponenata za dati skup podataka, dobijaju se

sopstvene vrednosti:

Τ0.00) 0.00, 1.89, (2.11,λ ˆ

i proporcije objašnjene varijanse:

T1.00) 1.00, 1.00, (0.53,ψ ˆ .

Dati brojevi odgovaraju vrednostima λ1=λ2=2 izvedenim u primeru 3.11. Preostale dve

sopstvene vrednosti su jednake nuli zbog linearne zavisnosti u bazi podataka. Grafik je

predstavljen na slici 3.11, gde je jasno pokazano da prve dve normalizovane glavne komponente

objašnjavaju svaka približno 50% varijanse, dok preostale dve ne objašnjavaju ništa.

Slika 3.11. Grafik prve dve komponente i grafik sopstvenih vrednosti simuliranog skupa podataka.

Prva dva sopstvena vektora su

T1 0.650.26,0.64,0.32,γ ˆ

i T2 0.230.67,0.28,0.65,γ ˆ .

61

Dobijene vrednosti za 50 normalizovanih glavnih komponenata su prikazane na Slici 3.11.

Ukoliko se prepišu dobijene normalizovane glavne komponente, tako da odgovaraju početnim

slučajnim promenljivim i zaokružimo koeficijente, dolazi se do toga da je prva normalizovana

glavna komponenta usmerena približno u pravcu U1-2U2, dok je druga normalizovana glavna

komponenta u pravcu 2U1+U2. Rezultat se razlikuje od sopstenih vektora γ1 i γ2 izračunatih u

primeru 3.11, jer γ1 i γ2 nisu jedinstveno određene.

Na slici 3.12 grafički je predstavljena korelacija normalizovanih glavnih komponenti sa

normalizovanim promenljivama X1,…,X4. Korelacije odgovaraju koeficijentima normalizovanih

glavnih komponenti.

Slika 3.12. Grafik prve dve komponente sa početnim promenljivama u simuliranom skupu podataka.

Sve početne slučajne promenljive su savršeno objašnjene dvema normalizovanim glavnim

komponentama, jer sve četiri tačke leže na jediničnom krugu. Izgled simulirane baze podataka se

menja sa svakom simulacijom. Primećuje se da se jedinstvene vrednosti λ̂ ne razlikuju mnogo

pri različitim postavljanjima simulacije.

62

DODATAK A

Tabela A.1 Bankovne novčanice

Slučajne promenljive su sledeće: X1-dužina novčanice, X2-leva visina novčanice, X3-desna

visina novčanice, X4-udaljenost unutrašnjeg okvira do donje ivice, X5-udaljenost unutrašnjeg

okvira do gornje ivice, X6-dužina dijagonale

X1 X2 X3 X4 X5 X6

214.8 131.0 131.1 9.0 9.7 141.0

214.6 129.7 129.7 8.1 9.5 141.7

214.8 129.7 129.7 8.7 9.6 142.2

214.8 129.7 129.6 7.5 10.4 142.0

215.0 129.6 129.7 10.4 7.1 141.8

215.7 130.8 130.5 9.0 10.1 141.4

215.5 129.5 129.7 7.9 9.6 141.6

214.5 129.6 129.2 7.2 10.7 141.7

214.9 129.4 130.2 8.2 11.0 141.9

215.2 130.4 129.6 7.2 10.0 140.7

215.3 130.4 129.8 7.9 11.7 141.8

215.1 129.5 128.6 7.7 10.5 142.2

215.2 130.8 130.0 7.9 10.8 140.6

214.7 129.7 130.2 7.7 10.9 140.2

215.1 129.8 130.6 7.7 10.5 141.2

214.5 129.9 130.4 8.6 9.6 140.3

214.6 129.5 129.8 8.9 10.8 140.6

215.0 129.9 129.4 9.1 10.7 140.1

215.2 130.2 129.3 7.8 11.2 141.3

214.7 130.1 129.6 7.6 9.6 141.2

215.0 129.9 130.2 8.6 9.8 140.7

215.6 129.8 130.5 8.3 10.4 140.6

215.3 129.8 130.6 9.2 10.6 140.5

215.7 130.2 129.6 9.5 10.2 140.2

215.1 129.5 130.3 8.8 10.3 141.1

215.3 129.6 130.4 7.9 10.1 141.0

215.5 129.7 129.8 8.6 10.0 140.3

215.1 129.4 129.6 9.4 9.8 140.2

215.1 129.6 129.8 8.5 11.0 140.5

214.8 130.2 129.6 8.7 10.4 140.6

215.2 129.4 130.4 8.8 10.6 140.2

214.8 129.3 130.5 8.6 10.5 140.3

215.0 129.2 129.4 9.1 10.3 140.8

215.6 129.6 130.2 7.9 10.5 141.2

215.9 129.9 129.6 7.7 10.7 140.3

214.6 129.0 130.2 8.5 10.9 139.8

215.3 129.6 130.5 8.3 9.9 139.6

215.3 130.5 129.5 8.6 10.0 139.3

215.3 130.1 130.5 8.9 9.8 141.2

213.9 129.6 130.4 8.4 10.4 140.3

214.4 129.6 130.5 8.5 10.6 139.6

214.8 129.6 130.6 7.6 10.2 139.7

63

214.8 129.5 130.5 9.5 9.4 140.4

214.9 129.5 130.4 9.4 10.6 140.5

214.8 129.8 130.5 9.2 10.3 140.3

214.3 129.4 130.4 8.7 10.3 139.6

214.8 129.2 130.6 8.8 9.7 139.2

214.8 129.8 129.8 7.9 10.6 139.7

214.6 129.3 129.4 9.3 10.5 141.2

214.5 129.6 130.1 8.6 9.5 141.3

214.6 129.6 129.8 8.2 10.8 141.6

215.3 129.9 129.4 8.3 9.6 139.9

214.5 129.5 129.1 8.7 10.5 140.5

215.4 129.3 129.3 9.3 10.6 140.3

214.3 130.2 129.6 9.5 10.3 141.6

215.2 130.2 129.8 7.7 10.4 139.5

215.7 130.5 130.4 9.0 10.6 139.6

215.0 130.4 129.4 8.9 10.5 141.2

215.1 130.2 130.2 8.4 10.8 141.0

215.1 129.5 130.5 8.7 9.8 139.5

215.1 130.0 130.5 8.6 9.9 140.5

215.3 130.4 130.6 9.5 11.2 140.6

215.3 129.8 129.8 7.6 11.0 140.7

215.4 129.6 129.4 7.9 10.3 139.9

214.5 129.9 129.4 8.9 10.6 139.6

215.0 129.6 129.6 8.6 10.5 139.4

215.2 129.9 130.2 8.4 10.4 139.1

214.6 129.6 130.2 8.3 10.4 139.2

214.8 129.6 130.5 9.1 10.6 140.2

215.1 129.6 130.6 9.0 10.9 140.3

214.9 130.2 130.4 8.9 10.6 139.6

213.8 130.1 130.5 8.5 9.7 139.7

214.2 130.1 130.4 8.7 9.4 139.6

215.0 130.1 129.8 8.3 9.6 140.5

214.4 129.6 129.8 9.2 10.5 140.3

215.2 129.9 130.1 9.1 10.6 140.2

214.1 129.8 130.5 8.6 10.4 139.5

214.9 129.6 130.6 8.1 10.5 139.6

214.6 129.1 130.5 8.0 10.5 141.1

215.2 130.1 130.6 8.9 10.9 139.5

214.1 130.7 130.4 9.1 11.2 139.6

214.9 129.8 130.6 9.0 11.1 141.2

215.2 129.6 129.8 8.7 10.4 141.5

214.2 129.9 129.9 8.3 10.6 141.3

214.4 130.2 129.4 9.1 10.9 140.2

214.1 130.5 129.6 8.6 9.8 140.2

215.2 130.2 130.5 9.2 9.3 140.3

215.0 130.4 130.6 8.5 10.3 141.2

214.9 129.6 130.4 8.7 10.5 141.0

214.6 129.6 130.5 8.8 10.6 139.6

214.8 129.9 130.6 9.1 9.4 139.5

214.6 129.7 129.6 9.2 9.8 139.6

215.0 129.8 129.4 9.0 10.4 140.5

215.4 129.3 129.4 9.2 10.6 140.3

215.2 129.6 129.8 8.6 10.3 140.2

214.6 129.4 130.5 8.3 10.6 139.8

64

214.7 129.7 130.2 7.9 10.6 139.7

214.8 129.6 130.0 8.6 9.8 139.4

215.1 129.8 130.6 9.4 9.7 139.5

215.6 129.9 130.6 9.5 10.5 139.6

214.8 129.4 130.5 7.9 10.4 139.5

214.9 130.0 130.5 8.7 10.6 139.6

215.2 130.2 130.5 8.8 10.5 139.5

214.6 129.6 130.4 8.5 10.4 140.2

213.9 129.3 130.2 8.6 10.6 140.6

215.0 129.9 129.8 8.9 10.5 140.3

214.8 129.4 129.3 9.1 10.5 140.8

214.6 129.4 129.6 8.6 10.8 139.6

215.1 129.6 129.9 9.3 10.6 139.9

215.9 129.7 129.4 9.5 9.8 141.2

214.7 129.5 129.4 8.6 9.7 140.3

215.3 129.9 130.5 9.2 9.6 140.5

214.6 129.7 130.6 9.3 9.4 139.8

214.7 129.9 129.6 7.9 9.8 139.9

214.8 129.5 129.4 8.5 9.6 140.5

215.2 129.6 128.6 8.6 10.5 140.6

214.7 129.6 129.6 8.1 11.2 140.3

215.4 129.6 130.2 9.3 11.0 139.5

215.3 129.3 130.6 9.5 10.7 139.5

214.5 130.2 130.4 9.4 10.4 139.5

214.6 130.2 130.6 9.1 10.6 139.7

214.3 130.7 130.8 8.8 10.4 140.2

214.9 130.6 129.8 8.6 9.8 140.5

215.2 130.5 129.6 8.7 9.6 140.3

214.5 129.8 130.0 8.5 10.4 140.6

214.6 129.6 130.5 8.4 10.2 139.5

213.5 129.3 130.4 8.6 10.6 139.6

214.7 129.6 130.6 7.9 10.4 141.2

214.8 129.7 129.6 9.1 10.5 140.5

214.6 129.9 129.4 8.0 10.5 140.3

215.6 129.9 129.4 9.0 10.8 140.6

214.5 129.8 129.6 8.6 10.9 140.7

214.9 129.7 129.6 8.5 9.6 140.5

215.1 129.6 130.5 8.4 10.4 140.2

215.0 129.3 130.6 8.3 9.8 139.5

215.3 129.6 129.4 8.2 10.3 139.6

215.0 129.9 129.3 8.4 9.7 139.4

214.8 129.6 130.5 8.5 9.6 140.5

214.7 130.1 130.6 8.6 9.4 140.8

214.8 130.2 129.8 8.7 9.7 140.6

214.3 130.2 129.5 8.9 10.0 140.3

214.6 130.4 129.6 8.5 10.2 140.7

215.2 129.9 129.5 8.6 9.6 139.5

215.1 129.6 129.4 8.4 10.5 139.6

215.1 129.9 129.6 8.7 11.0 139.8

214.8 129.5 130.0 8.9 10.3 139.7

215.7 129.4 130.0 8.8 10.6 139.5

215.0 129.9 130.0 9.4 9.5 140.5

214.9 129.3 130.6 9.5 10.5 140.7

215.2 129.7 130.4 8.6 10.4 140.8

65

214.7 129.5 129.6 8.7 9.8 139.6

215.3 129.6 129.3 9.4 9.6 139.8

214.9 129.6 129.4 9.4 10.5 139.6

214.6 129.9 129.6 9.3 10.6 139.8

214.8 .130.0 129.4 9.0 10.4 140.4

214.5 130.5 129.6 8.5 10.4 140.2

214.5 130.1 129.3 8.6 10.6 140.5

214.3 129.6 129.6 9.4 10.3 140.6

215.3 129.6 129.6 9.6 10.8 140.3

214.7 129.9 130.3 8.7 10.7 140.7

214.8 129.3 130.0 8.1 10.9 140.8

214.9 129.7 130.2 8.2 11.0 140.6

215.2 129.5 130.2 8.5 9.8 139.8

215.6 129.6 130.4 8.6 9.4 139.6

214.7 129.6 130.6 8.8 9.6 139.5

214.7 129.6 130.5 8.6 10.6 139.6

214.6 129.9 130.4 8.5 10.2 139.4

214.5 129.4 129.5 9.2 10.1 140.4

215.2 129.1 129.6 9.1 10.7 140.3

214.9 129.3 129.4 9.2 10.4 139.9

215.2 129.5 129.7 9.3 9.8 139.6

214.7 129.5 129.5 9.4 8.9 139.5

214.3 129.6 129.6 8.7 9.6 140.2

215.3 129.5 130.0 8.5 10.4 140.6

214.6 130.2 130.6 8.6 10.3 140.5

215.3 130.1 130.4 8.0 9.5 139.5

215.6 130.6 129.6 9.1 10.4 139.6

213.8 129.8 129.8 8.5 10.2 139.4

214.5 129.9 129.9 7.9 10.6 139.5

214.6 129.8 130.5 7.8 9.6 139.6

214.9 130.5 129.7 9.1 10.4 139.2

215.0 129.6 129.8 9.4 10.5 139.8

215.3 130.0 130.5 8.3 10.8 139.4

215.4 130.2 130.6 8.6 9.8 139.6

215.2 130.5 130.6 8.5 9.9 140.2

214.3 129.4 129.8 8.4 10.4 140.3

214.6 129.6 129.6 8.7 10.2 140..6

214.9 129.6 130.4 9.5 10.3 140.2

214.6 129.6 129.6 8.6 10.8 140.5

214.6 129.3 129.4 8.2 10.7 140.2

214.8 129.6 130.2 8.3 11.2 139.6

214.9 129.6 130.1 8.4 9.8 139.5

215.0 129.5 130.2 8.7 10.4 140.2

215.2 129.5 130.5 8.8 10.5 139.6

215.4 129.6 129.6 9.0 10.4 139.4

214.8 129.6 129.4 9.1 10.6 140.0

215.3 129.6 129.6 8.6 10.2 140.0

214.9 129.6 129.3 8.5 9.8 .139.5

215.6 129.6 129.3 8.7 9.6 139.4

215.3 129.9 129.7 8.5 9.8 139.6

66

Tabela A.2 Ocene automobila

Slučajne promenljive su sledeće: X1-ekonomičnost, X2-servisiranje, X3-vrednost, X4-cena,

X5-dizajn, X6-sportske karakteristike, X7-sigurnost i X8-lako rukovanje.

Tip Model X1 X2 X3 X4 X5 X6 X7 X8

Audi 100 3.9 2.8 2.2 4.2 3.0 3.1 2.4 2.8

BMW 5 series 4.8 1.6 1.9 5.0 2.0 2.5 1.6 2.8

Citroen AX 3.0 3.8 3.8 2.7 4.0 4.4 4.0 2.6

Ferarri 5.3. 2.9 2.2 5.9 1.7 1.1 3.3 4.3

Fiat Uno 2.1 3.9 4.0 2.6 4.5 4.4 4.4 2.2

Ford Fiesta 2.3 3.1 3.4 2.6 3.2 3.3 3.6 2.8

Hyundai 2.5 3.4 3.2 2.2 3.3 3.3 3.3 2.4

Jaguar 4.6 2.4 1.6 5.5 1.3 1.6 2.8 3.6

Lada Samara 3.2 3.9 4.3 2.0 4.3 4.5 4.7 2.9

Mazda 323 2.6 3.3 3.7 2.8 3.7 3.0 3.7 3.1

Mercedes 200 4.1 1.7 1.8 4.6 2.4 3.2 1.4 2.4

Mitsubishi Galant 3.2 2.9 3.2 3.5 3.1 3.1 2.9 2.6

Nissan Sunny 2.6 3.3 3.9 2.1 3.5 3.9 3.8 2.4

Opel Corsa 2.2 2.4 3.0 2.6 3.2 4.0 2.9 2.4

Opel Vectra 3.1 2.6 2.3 3.6 2.8 2.9 2.4 2.4

Peugeot 306 2.9 3.5 3.6 2.8 3.2 3.8 3.2 2.6

Renault 19 2.7 3.3 3.4 3.0 3.1 3.4 3.0 2.7

Rover 3.9 2.8 2.6 4.0 2.6 3.0 3.2 3.0

Toyota Corolla 2.5 2.9 3.4 3.0 3.2 3.1 3.2 2.8

Volvo 3.8 2.3 1.9 4.2 3.1 3.6 1.6 2.4

Trabant 601 3.6 4.7 5.5 1.5 4.1 5.8 5.9 3.1

VW Golf 2.4 2.1 2.0 2.6 3.2 3.1 3.1 1.6

VW Passat 3.1 2.2 2.1 3.2 3.5 3.5 2.8 1.8

Wartburg 1.3 3.7 4.7 5.5 1.7 4.8 5.2 5.5 4.0

Tabela A.3 Atletski rekordi

Zemlja 100m

sekunde

200m

sekunde

400m

sekunde

800m

minuti

1500m

minuti

5000m

minuti

10000m

minuti

Maraton

Minuti

Argentina 10.39 20.81 46.84 1.81 3.70 14.34 29.36 137.71

Australia 10.31 20.06 44.84 1.74 3.57 13.28 27.66 128.30

Austria 10.44 20.81 46.82 1.79 3.60 13.26 27.72 135.90

Belgium 10.34 20.68 45.04 1.73 3.60 13.22 27.45 129.95

Bermuda 10.28 20.58 45.91 1.80 3.75 14.68 30.55 146.61

Brazil 10.22 20.43 45.21 1.73 3.66 13.62 28.62 133.13

Burma 10.64 21.52 48.30 1.80 3.85 14.45 30.82 139.95

Canada 10.17 20.22 45.68 1.76 3.63 13.55 28.09 130.15

Chile 10.34 20.80 46.20 1.79 3.71 13.61 29.30 134.03

China 10.51 21.04 47.30 1.81 3.73 13.90 29.13 133.53

Columbia 10.43 21.05 46.10 1.82 3.74 13.49 27.88 131.35

Cook Is. 12.18 23.20 52.94 2.02 4.24 16.70 35.38 164.70

Costa R. 10.94 21.90 48.66 1.87 3.84 14.03 28.81 136.58

Czech R. 10.35 20.65 45.64 1.76 3.58 13.42 28.19 134.32

Denmark 10.56 20.52 45.89 1.78 3.61 13.50 28.11 130.78

Dom R. 10.14 20.59 46.80 1.82 3.82 14.91 31.45 154.12

Finland 10.43 20.69 45.49 1.74 3.61 13.27 27.52 130.87

67

France 10.11 20.38 45.28 1.73 3.57 13.34 27.97 132.30

GDR 10.12 20.33 44.87 1.73 3.56 13.17 27.42 129.92

FRG 10.16 20.37 44.50 1.73 3.53 13.21 27.61 132.23

GB 10.11 20.21 44.93 1.70 3.51 13.01 27.51 129.13

Greece 10.22 20.71 46.56 1.78 3.64 14.59 28.45 134.60

Guatemala 10.98 21.82 48.40 1.89 3.80 14.16 30.11 139.33

Hungary 10.26 20.62 46.02 1.77 3.62 13.49 28.44 132.58

India 10.60 21.42 45.73 1.76 3.73 13.77 28.81 131.98

Indonesia 10.59 21.49 47.80 1.84 3.92 14.73 30.79 148.83

Ireland 10.61 20.96 46.30 1.79 3.56 13.32 27.81 132.35

Israel 10.71 21.00 47.80 1.77 3.72 13.66 28.93 137.55

Italy 10.01 19.72 45.26 1.73 3.60 13.23 27.52 131.08

Japan 10.34 20.81 45.86 1.79 3.64 13.41 27.72 128.63

Kenya 10.46 20.66 44.92 1.73 3.55 13.10 27.80 129.75

Korea 10.34 20.89 46.90 1.79 3.77 13.96 29.23 136.25

P. Korea 10.91 21.94 47.30 1.85 3.77 14.13 29.67 130.87

Luxemburg 10.35 20.77 47.40 1.82 3.67 13.64 29.08 141.27

Malaysia 10.40 20.92 46.30 1.82 3.80 14.64 31.01 154.10

Mauritius 11.19 33.45 47.70 1.88 3.83 15.06 31.77 152.23

Mexico 10.42 21.30 46.10 1.80 3.65 13.46 27.95 129.20

Netherlands 10.52 29.95 45.10 1.74 3.62 13.36 27.61 129.02

NZ 10.51 20.88 46.10 1.74 3.54 13.21 27.70 128.98

Norway 10.55 21.16 46.71 1.76 3.62 13.34 27.69 131.48

PNG 10.96 21.78 47.90 1.90 4.01 14.72 31.36 148.22

Philippines 10.78 21.64 46.24 1.81 3.83 14.74 30.64 145.27

Poland 10.16 20.24 45.36 1.76 3.60 13.29 27.89 131.58

Portugal 10.53 21.17 46.70 1.79 3.62 13.13 27.38 128.65

Romania 10.41 20.98 45.87 1.76 3.64 13.25 27.67 132.50

Singapure 10.38 21.28 47.40 1.88 3.89 15.11 31.32 157.77

Spain 10.42 20.77 45.98 1.76 3.55 13.31 27.73 131.57

Sweden 10.25 20.61 45.63 1.77 3.61 13.29 27.94 130.63

Switzerland 10.37 20.45 45.78 1.78 3.55 13.22 27.91 131.20

Tapei 10.59 21.29 46.80 1.79 3.77 14.37 30.07 139.27

Thailand 10.39 21.09 47.91 1.83 3.84 15.23 32.56 149.90

Turkey 10.71 21.43 47.60 1.79 3.67 13.56 28.58 131.50

USA 9.93 19.75 43.86 1.73 3.53 13.20 27.43 128.22

SSSR 10.07 20.00 44.60 1.75 3.59 13.20 27.53 130.55

W Samoa 10.82 21.86 49.00 2.02 4.24 16.28 34.71 161.83

68

Tabela A.4 Kriminal u Sjedinjenim Američkim Državama

Slučajne promenljive su sledeće: X1-površina teritorije, X2-populacija stanovništva, X3-

ubistvo, X4-silovanje, X5-pljačka, X6-napad, X7-provala, X8-krađa, X9-krađa automobila, X10-broj

regiona države i X11-broj divizije države.

Divizija Broj divizije Region Broj regiona

Nova Engleska 1 Severoistok 1

Srednji Atlantik 2 Srednji zapad 2

SI Centralna 3 Jug 3

SZ Centralna 4 Zapad 4

Južni Atlantik 5

JI Centralna 6

JZ Centralna 7

Planinska 8

Pacifik 9

Država X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11

ME 33265 1164 1.5 7.0 12.6 62 562 1055 146 1 1

NH 9279 998 2.0 6.0 12.1 36 566 929 172 1 1

VT 9614 535 1.3 10.3 7.6 55 731 969 124 1 1

MA 8284 5822 3.5 12.0 99.5 88 1134 1531 878 1 1

RI 1212 968 3.2 3.6 78.3 120 1019 2186 859 1 1

CT 5018 3174 3.5 9.1 70.4 87 1084 1751 484 1 1

NY 49108 17783 7.9 15.5 443.3 209 1414 2025 682 1 2

NJ 7787 7562 5.7 12.9 169.4 90 1041 1689 557 1 2

PA 45308 11853 5.3 11.3 106.0 90 594 11 340 1 2

OH 41330 10744 6.6 16.0 145.9 116 854 1944 493 2 3

IN 36185 5499 4.8 17.9 107.5 95 860 1791 429 2 3

IL 56345 11535 9.6 20.4 251.1 187 765 2028 518 2 3

MI 58527 9088 9.4 27.1 346.6 193 1571 2897 464 2 3

WI 56153 4775 2.0 6.7 33.1 44 539 1860 218 2 3

MN 84402 4193 2.0 9.7 89.1 51 802 1902 346 2 4

IA 56275 2884 1.9 6.2 28.6 48 507 1743 175 2 4

MO 69697 5029 10.7 27.4 2.8 167 1187 2074 538 2 4

ND 70703 685 0.5 6.2 6.5 21 286 1295 91 2 4

SD 77116 708 3.8 11.1 17.1 60 471 1396 94 2 4

NE 77355 1606 3.0 9.3 57.3 115 505 1572 292 2 4

KS 82277 2450 4.8 14.5 75.1 108 882 2302 257 2 4

DE 2044 622 7.7 18.6 105.5 196 1056 2320 559 3 5

MD 10460 4392 9.2 23.9 338.6 253 1051 2417 548 3 5

VA 40767 5706 8.4 15.4 92.0 143 806 1980 297 3 5

WV 24231 1936 6.2 6.7 27.3 84 389 774 92 3 5

NC 52669 6255 11.8 12.9 53.0 293 766 1338 169 3 5

SC 31113 3347 14.6 18.1 60.1 193 1025 1509 256 3 5

GA 58910 5976 15.3 10.1 95.8 177 9 1869 309 3 5

FL 58664 11366 12.7 22.2 186.1 277 1562 2861 397 3 5

KY 40409 3726 11.1 13.7 72.8 123 704 1212 346 3 6

TN 42144 4762 8.8 15.5 82.0 169 807 1025 289 3 6

AL 51705 4021 11.7 18.5 50.3 215 763 1125 223 3 6

MS 47689 2613 11.5 8.9 19.0 140 351 694 78 3 6

AR 53187 2359 10.1 17.1 45.6 150 885 1211 109 3 7

69

LA 47751 4481 11.7 23.1 140.8 238 890 1628 385 3 7

OK 69956 3301 5.9 15.6 54.9 127 841 1661 280 3 7

TX 266807 16370 11.6 21.0 134.1 195 1151 2183 394 3 7

MT 147046 826 3.2 10.5 22.3 75 594 1956 222 4 8

ID 83564 15 4.6 12.3 20.5 86 674 2214 144 4 8

WY 97809 509 5.7 12.3 22.0 73 646 2049 165 4 8

CO 104091 3231 6.2 36.0 129.1 185 1381 2992 588 4 8

NM 121593 1450 9.4 21.7 66.1 196 1142 2408 392 4 8

AZ 1140 3187 9.5 27.0 120.2 214 1493 3550 501 4 8

UT 84899 1645 3.4 10.9 53.1 70 915 2833 316 4 8

NV 110561 936 8.8 19.6 188.4 182 1661 3044 661 4 8

WA 68138 4409 3.5 18.0 93.5 106 1441 2853 362 4 9

OR 97073 2687 4.6 18.0 102.5 132 1273 2825 333 4 9

CA 158706 26365 6.9 35.1 206.9 226 1753 3422 689 4 9

AK 5914 521 12.2 26.1 71.8 168 790 2183 551 4 9

HI 6471 1054 3.6 11.8 63.3 43 1456 3106 581 4 9

Tabela A.5 Zdravstveni skup podataka u SAD-u

Slučajne promenljive su sledeće: X1-površina zemljišta, X2-populacija stanovništva, X3- broj

smrtnih ishoda uzrokovanim nesrećama, X4-broj smrtnih ishoda uzrokovanim kardiovaskularnim

bolestima, X5- broj smrtnih ishoda uzrokovani rakom, X6- broj smrtnih ishoda uzrokovanim

plućnim bolestima, X7- broj smrtnih ishoda uzrokovanim gripom, X8- broj smrtnih ishoda

uzrokovanim dijabetesom, X9- broj smrtnih ishoda uzrokovanim bolestima jetre, X10-broj

doktora, X11-broj bolnica, X12-broj regiona države i X13-broj divizije države.

Divizija Broj divizije Region Broj regiona

Nova Engleska 1 Severoistok 1

Srednji Atlantik 2 Srednji zapad 2

SI Centralna 3 Jug 3

SZ Centralna 4 Zapad 4

Južni Atlantik 5

JI Centralna 6

JZ Centralna 7

Planinska 8

Pacifik 9

Dr. X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13

ME 33265 1164 37.7 466.2 213.8 33.6 21.1 15.6 14.5 1773 47 1 1

NH 9279 998 35.9 395.9 182.2 29.6 20.1 17.6 10.4 1612 34 1 1

VT 9614 535 41.3 433.1 188.1 33.1 24.0 15.6 13.1 1154 19 1 1

MA 8284 5822 31.1 460.6 219.0 24.9 29.7 16.0 13.0 16442 177 1 1

RI 1212 968 28.6 474.1 231.5 27.4 17.7 26.2 13.4 2020 21 1 1

CT 5018 3174 35.3 423.8 205.1 23.2 22.4 15.4 11.7 876 65 1 1

NY 49108 17783 31.5 499.5 209.9 23.9 26.0 17.1 17.7 49304 338 1 2

NJ 7787 7562 32.2 464.7 216.3 23.3 19.9 17.3 14.2 15120 131 1 2

PA 45308 11853 34.9 508.7 223.6 27.0 20.1 20.4 12.0 23695 307 1 2

OH 41330 10744 33.2 443.1 198.8 27.4 18.0 18.9 10.2 18518 236 2 3

IN 36185 5499 37.7 435.7 184.6 27.2 18.6 17.2 8.4 7339 133 2 3

IL 56345 11535 32.9 449.6 193.2 22.9 21.3 15.3 12.5 22173 279 2 3

MI 58527 9088 34.3 420.9 182.3 24.2 18.7 14.8 13.7 15212 231 2 3

WI 56153 4775 33.8 444.3 189.4 22.5 21.2 15.7 8.7 7899 163 2 3

70

MN 84402 4193 35.7 398.3 174.0 23.4 25.6 13.5 8.1 8098 181 2 4

IA 56275 2884 38.6 490.1 199.1 31.2 28.3 16.6 7.9 3842 140 2 4

MO 69697 5029 42.2 475.9 211.1 29.8 25.7 15.3 9.6 8422 169 2 4

ND 70703 685 48.2 401.0 173.7 18.2 25.9 14.9 7.4 936 58 2 4

SD 77116 708 53.0 495.2 182.1 30.7 32.4 12.8 7.2 833 68 2 4

NE 77355 1606 40.8 479.6 187.4 31.6 28.3 13.5 7.8 2394 110 2 4

KS 82277 2450 42.9 455.9 183.9 32.3 24.9 16.9 7.8 3801 165 2 4

DE 2044 622 38.8 404.5 202.8 25.3 16.0 25.0 10.5 1046 14 3 5

MD 10460 4392 35.2 366.7 195.0 23.4 15.8 16.1 9.6 11961 85 3 5

VA 40767 5706 37.4 365.3 174.4 22.4 20.3 11.4 9.2 9749 135 3 5

WV 24231 1936 46.7 502.7 199.6 35.2 20.1 18.4 10.0 2813 75 3 5

NC 52669 6255 45.4 392.6 169.2 22.6 19.8 13.1 10.2 9355 159 3 5

SC 31113 3347 47.8 374.4 156.9 19.6 19.2 14.8 9.0 4355 89 3 5

GA 58910 5976 48.2 371.4 157.9 22.6 20.5 13.2 10.4 8256 191 3 5

FL 58664 11366 46.0 501.8 244.0 34.0 18.3 16.1 17.2 18836 254 3 5

KY 40409 3726 48.8 442.5 194.7 29.8 22.9 15.9 9.1 5189 120 3 6

TN 42144 4762 45.0 427.2 185.6 27.0 20.8 12.0 8.3 7572 162 3 6

AL 51705 4021 48.9 411.5 185.8 25.5 16.8 16.1 9.1 5157 146 3 6

MS 47689 2613 59.3 422.3 173.9 21.7 19.5 14.0 7.1 2883 118 3 6

AR 53187 2359 51.0 482.0 202.1 29.0 22.7 15.0 8.7 2952 97 3 7

LA 47751 4481 52.3 390.9 168.1 18.6 15.8 17.8 8.3 7061 158 3 7

OK 69956 3301 62.5 441.4 182.4 27.6 24.5 15.3 9.6 4128 143 3 7

TX 266807 16370 48.9 327.9 146.5 20.7 17.4 12.1 8.7 23481 562 3 7

MT 147046 826 59.0 372.2 10.7 33.4 25.1 14.4 11.1 1058 67 4 8

ID 83564 15.0 51.5 324.8 140.4 29.9 22.3 12.4 9.2 1079 52 4 8

WY 97809 509 67.6 264.2 112.2 27.7 18.5 9.2 9.2 606 31 4 8

CO 104091 3231 44.7 280.2 125.1 29.9 22.8 9.6 9.5 5899 98 4 8

NM 121593 1450 62.3 235.6 137.2 28.7 17.8 17.5 13.1 2127 56 4 8

AZ 1140 3187 48.3 331.5 165.5 36.3 21.2 12.6 13.1 5137 79 4 8

UT 84899 1645 39.3 242.0 93.7 17.6 14.5 11.1 7.3 2563 44 4 8

NV 110561 936 57.3 299.5 162.3 32.3 13.7 11.1 15.4 1272 26 4 8

WA 68138 4409 41.4 358.1 171.0 31.1 21.2 13.0 10.9 7768 122 4 9

OR 97073 2687 41.6 387.8 179.4 33.8 23.1 11.2 10.4 4904 83 4 9

CA 158706 26365 40.3 357.8 173.0 26.9 22.2 10.7 16.7 57225 581 4 9

AK 5914 521 85.8 114.6 76.1 8.3 12.4 3.4 11.0 545 26 4 9

HI 6471 1054 32.5 216.9 125.8 16.0 16.8 12.7 6.2 1953 26 4 9

Tabela A.6 Geopolitički skup podataka

Slučajne promenljive su sledeće: X1-veličina populacije, X2-bruto unutrašnji proizvod po

stanovniku, X3-stopa rasta stanovništva, X4-stopa gradskog stanovništva, X5-stopa nepismenosti,

X6-stopa studenata, X7-očekivani životni vek, X8-stopa realizovanih prehrambrenih potreba, X9-

broj novina i časopisa na 1000 stanovnika i X10-broj televizija na 1000 stanovnika.

Zemlja X1 X2 X3 X4 X5 X6 X7 X8 X9 X10

AFS 37 2492 2 58.9 44 1.08 60 120 48 98

ALG 24.6 1960 3 44.7 50.4 0.73 64 112 21 71

BRD 62 19160 0.4 86.4 2 2.72 72 145 585 759

GBR 57.02 14575 0.04 92.5 2.2 1.9 75 128 421 435

ARS 14.4 5980 2.7 77.3 48.9 0.91 63 125 34 269

ARG 32.4 2130 1.6 86.2 6.1 2.96 71 136 82 217

71

AUS 16.81 16830 1.4 85.5 5 2.5 76 125 252 484

AUT 7.61 16693 0 57.7 1.5 2.52 74 130 362 487

BEL 9.93 15243 0.2 96.9 3 2.56 74 150 219 320

CAM 11 1120 2.7 49.4 58.8 0.17 53 88 6 12

CAN 26.25 20780 0.9 76.4 1 6.89 77 129 321 586

CHL 12.95 1794 1.6 85.6 8.9 1.73 71 106 67 183

CHN 1119 426 1.1. 21.4 34.5 0.16 69 111 36 24

CUB 10.5 1050 0.8 74.9 3.8 2.38 75 135 129 203

DAN 5.13 20570 0.4 86.4 1.5 2.38 75 131 359 526

EGY 52.52 665 2.5 48.8 61.8 1.67 59 132 39 84

ESP 39.24 9650 0.4 78.4 4.2 2.55 77 137 75 380

FRA 56.1 16905 0.4 74.1 2 2.63 76 130 193 399

GAB 1.1 3000 4 45.7 60 0.36 52 107 14 23

GRE 10 5370 0.3 62.6 9.5 1.89 76 147 102 175

HOK 5.75 10900 0 100 22.7 1.34 77 121 521 247

HON 10.6 23.30 -0.1 60.3 1.1 0.93 70 135 273 404

IND 810 317 1.9 28 59.2 0.55 57 100 28 7

IDO 179 454 2 28.8 32.7 0.55 60 116 21 41

ISR 4.47 9800 1.4 91.6 8.2 2.62 75 118 253 276

ITA 57.55 15025 0.1 68.6 3.5 2.25 75 139 105 419

JAP 123.2 22825 0.6 77 3 2.1 78 122 566 589

KEN 23.88 400 3.8 23.6 69 0.11 58 92 13 6

MAR 24.51 800 2.2 48.5 78.6 0.86 61 118 12 55

MEX 84.3 2096 2.5 72.6 17 1.55 68 120 124 124

NOR 4.2 22060 0.3 74.4 2 2.74 77 124 551 350

PER 21.75 1899 2.1 70.2 18.1 2.04 61 93 31 85

POL 38 1740 0.9 63.2 1.2 1.3 71 134 184 263

POR 10.5 43.04 0.6 33.3 20.6 1.99 74 128 70 160

SUE 8.47 22455 0.1 84 1.5 2.21 77 113 526 395

SUI 6.7 26025 0.5 59.6 1 1.87 77 128 504 408

THA 55.45 1130 1.9 22.6 12 1.59 65 105 46 104

URS 289 6020 0.8 67.5 2 1.76 69 133 474 319

USA 247.5 20765 1 74 0.5 5.01 75 138 259 812

VEN 19.2 3220 2.5 90 15.3 2.6 69 102 164 147

YOU 23.67 2599 0.7 50.2 10.4 1.44 72 139 100 179

72

LITERATURA

1. An introduction to multivariate statistical Analysis, Third edition, 2003, T.W.Anderson

2. Applied multivariate statistical analysis, Second edition, 2003, W. Härdle, L.Simar

3. Applied multivariate statistical analysis, Sixth edition, 2007, Richard A. Johnson, Dean W.

Wichern

4. Multivariate statistics: Exercises and solutions, 2007, W. Härdle, Z. Hlávka

73

BIOGRAFIJA

Bojan Lakić je rođen 08.07.1988. godine u Nišu. Završio je osnovnu školu ,,Ljupče Nikolić“

u Aleksincu 2003. godine kao nosilac Vukove diplome. Aleksinačku gimnaziju je završio 2007.

godine sa odličnim uspehom. Osnovne akademske studije je upisao 2007. godine na Prirodno-

matematičkom fakultetu u Nišu, studijski program Matematika, koje je završiо 2013. godine. Iste

godine upisao je master akademske studije na istom fakultetu, smer Primenjena matematika,

modul Matematika u finansijama.

74

Прилог 5/1

ПРИРОДНO – MАТЕМАТИЧКИ ФАКУЛТЕТ

НИШ

КЉУЧНА ДОКУМЕНТАЦИЈСКА ИНФОРМАЦИЈА

Редни број, РБР:

Идентификациони број, ИБР:

Тип документације, ТД: монографска

Тип записа, ТЗ: текстуални

Врста рада, ВР: мастер рад

Аутор, АУ: Бојан Лакић

Ментор, МН: Александар Настић

Наслов рада, НР: АНАЛИЗА ГЛАВНИХ КОМПОНЕНАТА И ПРИМЕНЕ

Језик публикације, ЈП: српски

Језик извода, ЈИ: енглески

Земља публиковања, ЗП: Р. Србија

Уже географско подручје, УГП: Р. Србија

Година, ГО: 2018.

Издавач, ИЗ: ауторски репринт

Место и адреса, МА: Ниш, Вишеградска 33.

Физички опис рада, ФО: (поглавља/страна/ цитата/табела/слика/графика/прилога)

73 стр.

Научна област, НО: Математика

Научна дисциплина, НД: Математичка статистика

Предметна одредница/Кључне речи, ПО: Анализа главних компонената, спектрална

декомпозиција матрице

УДК 519.23

519.237.7

519.213.1

512.643

Чува се, ЧУ: библиотека

Важна напомена, ВН:

75

Извод, ИЗ: Анализа главних компонената спада у ред

најзначајнијих метода вишедимензионе сtатистичке

анализе. У овом раду, након упознавања са

фундаменталним резултатима мултиваријационе

анализе, биће размотрен поменути модел, методе за

оцењивање непознатих параметара, као и његова

примена у анализи стварних података.

Датум прихватања теме, ДП:

Датум одбране, ДО:

Чланови комисије, КО: Председник: Др Миодраг Ђорђевић

Члан: Др Мирослав Ристић

Члан, ментор: Др Александар Настић

76

Прилог 5/2

ПРИРОДНО - МАТЕМАТИЧКИ ФАКУЛТЕТ

НИШ

KEY WORDS DOCUMENTATION

Accession number, ANO:

Identification number, INO:

Document type, DT: monograph

Type of record, TR: textual

Contents code, CC: Master thesis

Author, AU: Bojan Lakić

Mentor, MN: Aleksandar Nastić

Title, TI: PRINCIPAL COMPONENT ANALYSIS AND

APPLICATIONS

Language of text, LT: Serbian

Language of abstract, LA: English

Country of publication, CP: Republic of Serbia

Locality of publication, LP: Serbia

Publication year, PY: 2018

Publisher, PB: author’s reprint

Publication place, PP: Niš, Višegradska 33.

Physical description, PD: (chapters/pages/ref./tables/pictures/graphs/appendixes)

73 p.

Scientific field, SF: Mathematics

Scientific discipline, SD: Mathematical statistics

Subject/Key words, S/KW: Principal component analysis, spectral decomposition of

the matrix

UC 519.23

519.237.7

519.213.1

512.643

Holding data, HD: library

Note, N:

77

Abstract, AB: Principal component analysis is one of the most important

methods of multidimensional statistical analysis. In this

paper, after learning about the fundamental results of the

multivariate analysis, this model will be considered,

methods for estimating unknown parameters will be

considered, as well as its application in the analysis of

actual data.

Accepted by the Scientific Board on, ASB:

Defended on, DE:

Defended Board, DB: President: Dr Miodrag Đorđević

Member: Dr Miroslav Ristić

Member, Mentor: Dr Aleksandar Nastić

Recommended