25
1. Geomestrijska interpretacija uzorka. Objasniti odstupanja koja se koriste u multivarijacionoj analizi. (knjiga: Zlatko Kovačić, Multivarijaciona analiza), 2. Objasniti metodu najmanjih kvadrata kod višestruke linearne regresije, 3. Što je to ANOVA? Objasniti pojedinačne elemente ANOVA tablice., 4. Objasniti postupak i rezultate multidimenzionalnog skaliranja. 5. Odabir mjera udaljenosti/sličnosti kod klaster analize, 6. Odabir metoda za povezivanje objekata u klastere. 7. Objasniti veze u postupku faktorske analize, 8. Pretpostavke diskriminacione analize., 9. Procjena diskriminacionog modela, 10. Interpretacija rezultata diskriminacione analize., 11. Tumačenje modela logističke regresije., 12. Klasifikacija metoda multivarijacione analize. PITANJE 1 Matricu podataka možemo dvojako posmatratisa stanovišta njene geometrijske interpretacije. Ako posmatramo po redovima tada svaki red predstavlja jednu tačku u p-dimenzinalnom vektorskom prostoru. Stepen raspršenosti n tačaka u ovom prostoru zavisi od sredine i varijanse promjenljivih , kao i njihove uzajamne povezanosti. Redovi matrice podataka odnose se na osobu ili objekt. Prirodan način poređenja p realizovanih vrijednosti opservacija u dva reda matrice podataka X r i X s je izračunavanje njhovog međusobnog odstojanja. Uobičajena definicija odstojanja je tzv.Euklidsko odstojanje zasnovano na Pitagorinoj teoremi. Prema njemu kvadrat odstojanja između dvije tačke u p-dimenzionom prostoru dat je izrazom: d rs 2 =(x r -x s ) ' (x r -x s )=j=1 p (x rj -x sj ) 2 gdje je (x r -x s) – vektor razlika kordinata r-tog i s-tog vektora. Kako se često ova sredina koristi kao reperna tačka u odnosu na koju posmatramo odstojanje ostalih tačaka uzorka to je kvadrat Euklidskog odstojanja vektora x r u odnosu na sredinu, u oznaci d r 2 dat izrazom:

Pitanja MVA

Embed Size (px)

Citation preview

Page 1: Pitanja MVA

1. Geomestrijska interpretacija uzorka. Objasniti odstupanja koja se koriste u multivarijacionoj analizi. (knjiga: Zlatko Kovačić, Multivarijaciona analiza),2. Objasniti metodu najmanjih kvadrata kod višestruke linearne regresije,3. Što je to ANOVA? Objasniti pojedinačne elemente ANOVA tablice., 4. Objasniti postupak i rezultate multidimenzionalnog skaliranja.5. Odabir mjera udaljenosti/sličnosti kod klaster analize,6. Odabir metoda za povezivanje objekata u klastere.7. Objasniti veze u postupku faktorske analize, 8. Pretpostavke diskriminacione analize., 9. Procjena diskriminacionog modela, 10. Interpretacija rezultata diskriminacione analize., 11. Tumačenje modela logističke regresije., 12. Klasifikacija metoda multivarijacione analize.

PITANJE 1

Matricu podataka možemo dvojako posmatratisa stanovišta njene geometrijske interpretacije. Ako posmatramo po redovima tada svaki red predstavlja jednu tačku u p-dimenzinalnom vektorskom prostoru. Stepen raspršenosti n tačaka u ovom prostoru zavisi od sredine i varijanse promjenljivih , kao i njihove uzajamne povezanosti. Redovi matrice podataka odnose se na osobu ili objekt. Prirodan način poređenja p realizovanih vrijednosti opservacija u dva reda matrice podataka Xr i Xs je izračunavanje njhovog međusobnog odstojanja. Uobičajena definicija odstojanja je tzv.Euklidsko odstojanje zasnovano na Pitagorinoj teoremi. Prema njemu kvadrat odstojanja između dvije tačke u p-dimenzionom prostoru dat je izrazom:

drs2=(xr-xs)'(xr-xs)=∑

j=1

p

❑(xrj-xsj)2

gdje je (xr-xs) – vektor razlika kordinata r-tog i s-tog vektora. Kako se često ova sredina koristi kao reperna tačka u odnosu na koju posmatramo odstojanje ostalih tačaka uzorka to je kvadrat Euklidskog odstojanja vektora xr u odnosu na sredinu, u oznaci dr

2 dat izrazom:

dr2= (xr-xC )'(xr-xC )=∑

j=1

p

❑(xrj-xC j)2

Ako smo odredili međudosbno odstojanje između svaka dva para objekta, tada njihovu prezentaciju u formi (nxn) matrice nazivamo matricom Euklidskih odstojanja i označavamo je sa D

D= 0 d122 d13

2 ..... d1n2

d212 0 d23

2.......d2n2

d312 d32

2 0..........d3n2

.......................................... dn1

2 dn22 dn3

2.......0

Page 2: Pitanja MVA

Slijedeće odstojanje je statističko odstojanje koje uzima u obzir varijansu i kovarijasu posmatranih promjenljivih i primjerna je za statističko izračunavanje slučajnog uzorka u p-dimenzionom prostoru. Bez obzira na definiciju odstojanja matrica odstojanja predstavlja osnovu analize grupisanja i drugih metoda multivarijacione analize koje su orijentisane ka redovima matrice podataka.Kvadrat dužine vektora je jednak:

dj2= ej

' ej= ∑i=1

n

❑(xij-xC j)2 j=1,2,3,....,n

Znači da je proporcionalan uzoračkoj varijansi j-te promjenljive , odnosno, proporcionalan je standardnoj devijaciji . takošer, za bilo koja 2 vektora odstupanja ej i ek imamo unutrašnji ili skalni proizvod:

ej'ej=∑

i=1

n

❑(xij-xC j)(xik-x�k)koji je proporcionalan kovarijansi između j-te i k-te promjenljive. PITANJE 2

Prikupljene podatke, (x1,y1),(x2,y2),…,(xn,yn), prvo prikazujemo u koordinatnoj ravnini. Taj prikaz omogućuje nam da zapazimo moguću funkcijsku ovisnost između podataka.

Metoda najmanjih kvadrata unaprijed pretpostavlja linearnu funkcijsku ovisnost te pronalazi pravac y=aˆx+bˆ koji najbolje aproksimira vezu između prikupljenih podataka. Procjene aˆ i bˆ treba odrediti tako da vrijedi:min(a,b)∈R2∑i=1n(yi−axi−b)2=∑i=1n(yi−aˆxi−bˆ)2.Pokazuje se da ta jednadžba ima jedinstveno rješenje:(6)aˆ=SXYSXX,bˆ=yˉ−aˆxˉ,gdje su SXY, SXX, xˉ i yˉ kao u (3).

Sada kada znamo koji pravac najbolje aproksimira prikupljene podatke, pogledajmo kako izgleda na prikupljenom uzorku. Za početak, pogledajmo kako originalni podaci izgledaju u koordinatnom sustavu:

Page 3: Pitanja MVA

Sa slike možemo uočiti funkcijsku zavisnost ranga na prijamnom ispitu i prosjeka ocjena na prvoj godini. Metodom najmanjih kvadrata odredimo koji pravac najbolje opisuje primijećenu zavisnost. Potrebno je:n=94,xˉ=99.80280264,yˉ=2.62235,SXY=−3236.216722,SXX=425137.155.Dakle, dobivamo aˆ=−0.0076121712, bˆ=3.382066, tj. traženi pravac jey=−0.007621712x+3.382066.Prikažimo dobiveni pravac i grafički:

Metoda najmanjih kvadrata je jedna od najstarijih metoda. Suma kvadrata razlike zavisnogfaktora i njegovog očekivanja za svaki elemenat uzorka treba da je što manja.

∑i=1

n

❑(Yi-β0-β1-xi1-β2-xi2-....-βk-xik) min

Minimum date sume se nalazi diferenciranjem sume po svakom koeficijentu β_i, i=0,...,k iizjednačavanjem s 0. Kada se riješi tako dobijeni sistem od k+1 jednačine dobijaju se ocjene koeficijenataβ_i, i=0,...,k. Dobijeni sistem jednačina se naziva sistem normalnih jednačina. U matričnom zapisu ovaj sistem je dat sa

βˆ(xTx)-1xTy

U opštem slučaju ocjenjeni parametri preko ove metode imaju nepoznate osobine pa se u

Page 4: Pitanja MVA

mnogim slučajevima rijetko koristi. Kod višestruke linearne regresije ovom metodom se dobijaju ocjene koeficijenata β_i, i=0,...,k ali ne i njihove varijanse ili varijansa zavisnog faktora. Ocjene dobijene navedenom metodom imaju sve poželjne osobine.

PITANJE 3

ANOVA je tehnika upotrebe razlika između prosjeka uzoraka u zaključivanju o postojanju (ili ne) razlika između prosjeka populacija. Jedinstveni postupak kojim je moguće raščlaniti i procijeniti varijabilnosti uvjetovane različitim faktorima – izvorima.Analiza varijance podrazumijeva aritmetičko raščlanjivanje varijance slućajne varijable u komponente, prema odredenim izvorima varijacija.H0... aritmetičke sredine triju ili više osnovnih skupova su jednake:

H1... barem jedna populacija ima aritmetičku sredinu različitu od µ

Pretpostavke: varijabla o čijoj se aritmetičkoj sredini provodi test u svakoj populaciji je normalno

distribuirana distribucije populacija imaju jednake varijance (homoskedasticitet)

Pristunost navedene pretpostavke potrebno je testirati, npr. Bartlettov-im testom!

uzorci izabrani iz populacija su nezavisni

Postupak provođenja procedure ANOVA-e

Nakon provođenja Bartlettovog testa, i prihvaćanja pretpostavke kako su razlike među varijancama slučajne, moguče je provesti proceduru ANOVA-e, držeći se sljedečih koraka:

postavljanje hipoteza

H0 ...aritmetičke sredine triju ili više osnovnih skupova su jednake

H1 ....barem jedna populacija ima aritmetičku sredinu različitu od µH1... barem jedna populacija ima aritmetičku sredinu različitu od µ

iz svakog od k osnovnih skupova izabrati jedan uzorak veličine n

provjeriti jednakost varijanci k uzoraka (npr, Bartlettovim testom)

zabilježiti sve vrijednosti obilježja Xij svakog od uzoraka

i – element u uzorku (i=1,2,..,n)j – uzorak kojemu pripada element (j=1,2,3,...,k)

Page 5: Pitanja MVA

u svakom uzorku izračunati aritmetičku sredinu uzorka:

izračunati zajedničku aritmetičku sredinu svih k uzoraka

primjeniti jednadžbu ANOVA-e

Jednadžba ANOVA-e je raščlanjeni zbroj kvadrata odstupanja za svih k*n elemenat

izračunavanje sredina kvadrata odstupanja-Izračunate sume kvadrata odstupanja potrebno je podijeliti pripadajućim stupnjevima slobode kako bi se izračunale sredine kvadrata odstupanja:

izračunavanje F testaAko je Ho istinita, MSB i MSW će biti približno jednake, te će njihov kvocijent biti približno jednak 1.Testovna veličina je empirijski F omjer rasporeden prema F distribuciji sa (K-1) i (n-K) stupnjeva slobode:

donošenje zaključka

Razlika između procjena varijance osnovnih skupova mogu biti rezultat:- razlika između sredina, ili

- razlika između varijanci.Pretpostavljeno je kako su varijance osnovnih skupova jednake, stoga se utvrdene razlike pripisuju razlikama među aritmetičkim sredinama, što u navedenom slučaju znači kako treba odbaciti postavljenu Ho.

PITANJE 4

Page 6: Pitanja MVA

Postupak je slijedeći:

1.Formuliranje problema - Što varijable ne želite usporediti? Koliko varijable ne želite usporediti? Više od 20 se često smatra težak. [ citat potreban ] Manje od 8 (4 para) neće dati valjane rezultate. [ citat potreban ] Koja je svrha studija koji će se koristiti za? 2. Dobivanja ulazne podatke - Ispitanici su zamoljeni niz pitanja. Za svaki par proizvoda, oni su zamoljeni da stopa sličnosti (obično na sedam točaka Likertova ljestvica od vrlo slična vrlo različit). Prvo pitanje koje bi moglo biti za koks / Pepsi na primjer, sljedeći za Koks / unajmljuje rootbeer, sljedeći u Pepsi / Dr. Pepper, sljedeći za Dr Pepper / unajmljuje rootbeer, i sl. broj pitanja je funkcija broja marki i može se izračunati kao gdje je Q broj pitanja, a N je broj brandova. Ovaj pristup se naziva i "Percepcija podataka: direktan pristup". Postoje dva pristupa. Tu je "Percepcija podaci: izvedeni pristup", u kojoj se proizvodi razlaže na atributima koji su ocijenjeni na semantičkoj diferencijalnoj razini. Drugi je "Prednost podaci pristup", u kojoj ispitanici su zamoljeni svoje preferencije nego sličnosti. 3. Pokretanje programa MDS statistički - Software za vođenje postupka je dostupan u mnogim softvera za statistiku. Često je izbor između metričkim MDS (koja se bavi intervala ili omjera razini podataka), te Nonmetric MDS (koja se bavi rednim podataka). 4. Odlučite broj dimenzija - istraživač mora odlučiti o broju dimenzija žele računalo za stvaranje. Što više dimenzija, bolje statističke formi, ali više je teško interpretirati rezultate. 5. Mapiranje rezultata i definiraju dimenzije - Statistički program (ili se odnose modul) će mapirati rezultate. Karta će iscrtati svaki proizvod (obično u dva dimenzionalan prostor).Nadalje, MDS je opsežno koriste u geostatistike za modeliranje prostorne varijabilnosti uzoraka sliku, tako da ih predstavlja kao točke u donjem dimenzionalnom prostoruBlizina proizvoda međusobno upućuju na slično ili kako su oni ili kako preferirani su, ovisno o tome koji pristup je koristiti. Dimenzije moraju biti označen od strane istraživača. To zahtijeva subjektivno presudu i često je vrlo zahtjevna. [ nejasno ] Rezultati moraju se tumačiti (vidi perceptivni mapiranje ). [ nejasno ] 6. Test rezultati za pouzdanost i valjanost - Izračunati R-kvadratna kako bi se utvrdilo što udio varijance skalirane podataka može se uzeti u obzir od strane MDS postupka. R-kvadrat 0,6 se smatra minimalno prihvatljivu razinu. [ citat potreban ] R-kvadrat od 0,8 smatra se dobrom za metrički skaliranje i 0,9 se smatra dobro za ne-metrički skaliranje. Ostali mogući testovi su Kruskal stresa, Split podaci ispitivanja, podaci ispitivanja (npr. stabilnosti, eliminirajući jednu marku) i test-retest pouzdanost.

7. Prijavite rezultate sveobuhvatno - Uz mapiranje, barem mjerenju udaljenosti (npr. Sorenson indeks , Jaccard indeks ) i pouzdanost (npr. stres vrijednost) treba dati. Također je vrlo poželjno dati algoritam (npr. Kruskal, Mather), koji je često definiran program koristi (ponekad zamjene algoritam izvještaj), ako ste dobili početnu konfiguraciju ili je slučajan izbor, broj staza , procjenu dimenzionalnosti, u Monte Carlo metoda rezultatima, broj iteracija, procjena stabilnosti, a proporcionalna varijancu svake osi (r-kvadrat).

Primjene uključuju znanstvenu vizualizaciju i data mining u područjima kao što su kognitivne znanosti i informacijske znanosti i psychophysics i psihometrije i marketinga i ekologije . Nove aplikacije nastaju u okviru autonomnih bežičnih čvorova koji naseljavaju prostor ili prostor. MDS se može prijaviti kao u stvarnom vremenu poboljšanom pristupu praćenje i vođenje takvih populacija.

Nadalje, MDS je opsežno koriste u geostatistike za modeliranje prostorne varijabilnosti uzoraka sliku, tako da ih predstavlja kao točke u donjem dimenzionalnom prostoru

Page 7: Pitanja MVA

PITANJE 5

1. Mjere sličnosti

Koncept sličnosti je fundamentalan u klaster analizi. Sličnost unutar objekta je mjera sličnosti ili sličnost između klasterovanih objekata. U našoj raspravi o faktorskoj analizi, napravili smo matricu korelacija izmedju promenljivih koje se zatim koriste za grupu promenljivih u faktorima. Uporedivi proces se dešava u klaster analizi. Karakteristike su kombinovane unutar kalkulisanih mjera sličnosti za sve parove objekata, kao što smo koristili korelacije između varijabli u faktorskoj analizi. Na taj način bilo koji objekat može biti poređen sa drugim kroz mjere sličnosti. Procedura klaster analize dalje nastavlja u grupu sličnih objekata unutar klastera. Sličnost unutar objekata se može mjeriti na različite načine, ali tri metode dominiraju u okviru klaster analize: korelacione mjere, mjere udaljenosti i mjere udruživanja. Svaka od ovih metoda predstavlja određenu perspektivu sličnosti, u zavisnosti od ciljeva i tipova podataka. Korelacione i mjere udaljenosti zahtijevaju metrične podatke dok mjere udruživanja su za nemetrične podatke.

2. Mjere korelacijeMjera sličnosti unutar objekata koje vjerovatno prva dolazi u obzir je koeficijent korelacije između objekata zasnovana na par promjenljivih. Zapravo, umjesto korelacije dva seta promjenljivih mi konvertujemo objekte i varijable tako da kolone predstavljaju objekte a redovi varijable. Koeficijent korelacije između dvije kolone brojeva je korelacija (sličnost) između profila dva objekta. Visoka korelacija pokazuje sličnost a slaba korelacija označava nedostatak iste. Mjere korelacije koje predstavljaju sličnosti uzoraka putem dijagrama sličnosti prikazan kroz karakteristike (X varijable). To je ilustrovano primjerom od 7 posmatranja. U tabeli 9.3 koja sadrži korelacije između ovih 7 posmatranja možemo vidjeti dvije različite grupe. Prvo, u slučajevima 1, 5 i 7 svi imaju slične obrasce i odgovarajuće visoke pozitivne interkorelacije. Isto tako, slučajevi 2, 4 i 6 imaju visoke pozitivne korelacije između sebe ali I niske ili negativne korelacije sa drugim posmatranjima. Slučaj 3 ima nisku ili negativnu korelaciju sa svim drugim slučajevima, i pri tom sam po sebi formira grupu. Mlere korelacije se međutim rjeđe koriste zato što je naglasak u većini slučajeva klaster analize na veličini objekta a ne na vrijednosti dijagrama.

3. Mjere udaljenostiIako korelacione mjere imaju mnoge kritike i koriste se u drugim multivarijacionim tehnikama, nisu najčešće korištena mjera sličnosti u klaster analizi. Mjera udaljenosti koje reprezentuju sličnost kao blizinu posmatranja između varijabli su najčešće mjere sličnosti koje se koriste. Mjere udaljenosti su zapravo mjere nejednakosti sa većim vrijednostima koje pokazuju manje sličnosti. Jednostavna ilustracija je prikazana na našem hipotetičkom primjeru u kome su klasteri definisani na osnovu jednog posmatranja sa drugim gdje svaki rezultira sa dvije promjenjive koje su grafički prikazane. Razlika između korelacionih i mjera udaljenosti jeste ta što mjere udaljenosti se fokusiraju na veličinu vrijednosti i oslikava slične slučajeve koji su bliski ali mogu imati veoma različite dijagrame promjenljivih. Izbor korelacionih mjera u odnosu na tradicionalne mjere rastojanja zahtijeva prilično različite interpretacije rezultata od strane istraživača. Klasteri bazirani na mjerama korelacije ne moraju imati slične vrijednosti ali umjesto toga imaju slične dijagrame. Klasteri koji se zasnivaju na mjerama udaljenosti imaju slične vijrednosti kroz set promjenljivih ali dijagrami mogu biti različiti.

Page 8: Pitanja MVA

4. Mjere udruživanjaMjere udruživanja se koriste za upoređivanje objekata čije su karakteristike mjerljive jedino u nonmetričnim uslovima (nominalana ili ordinalna mjerenja). Kao na primjer, ispitanici mogu odgovoriti sad ali ne na odgovarajući broj pitanja. Mjere udruživanja moraju procijeniti stepen podudaranja između svakog para ispitanika. Najjednostavniji oblik mjere udruživanja može biti procentualno prikazan odgovor sa da ili ne ispitanika kroz čitav set pitanja. Mjere udruživanja imaju ograničenu podršku računarskih programa i istraživač je mnogo puta prinuđen da prvo izračuna mjere sličnosti a zatim ih uključi u proces klasterizovanja.

Postoji veći broj različitih mjera udaljenosti ili sličnosti između objekata. Upotreba različitih mjera razlikovanja objekata ima za posledicu da se pojedinim karakteristikama podataka pridaje različit značaj (npr. pridavanje većeg značaja većim razlikama; uzimanje u obzir najveće ili najmanje pojedine razlike između dva objekta). Izbor mjere određen je važnošću nekih karakteristika podataka u specifičnoj situaciji u kojoj vršimo klasterizaciju objekata.Osnovna razlika postoji između mjera sličnosti i mjera udaljenosti. Termin sličnost često se koristi kao sinonim za povezanost ili korelaciju.

PITANJE 6

Postoji veći broj metoda za kombiniranje objekata u klastere. U načelu razlikujemo hijerarhijske i nehijerahijske metode klasterizacije. Hijerarhijske metode se dalje mogu podeliti na tzv. "aglomerativne" (agglomerative) - "gomilajuće" , i "divisive" odnosno dijeleće. Ovi prvi polaze od pojedinih objekata koje povezuju u sve veće klastere, dok drugi polaze od svih objekata udruženih u jedan klaster, pa ih zatim dijele do pojedinih objekata.Dominantno se u istraživanjima koristi spomenuta hijerarhijska "aglomerativna" metoda. Neke karakteristike ove metode su: 1) polazi se od matrice sličnosti među objektima k x k 2) Sukcesivno formiranje klastera može se prikazati grafički dijagramom u obliku stabla, koji se naziva dendrogram (grč. dendros - stablo). 3) Metoda zahteva k-1 koraka u formiranju klastera, budući da se na prvom koraku svi pojedinačni objekti tretiraju kao zasebni klasteri. Konačno se dobiva jedan klaster koji sadrži sve objekte. 4) Relativno je lako razumljiva širem krugu potencijalnih korisnika.

Hijerarhijske metode 1) SINGLE LINKAGE ("NEAREST NEIGHBOUR"): Prosto povezivanje (metoda najbližeg susjeda) Postupak prostog povezivanja je zasnovan na minimalnoj udaljenosti. Ona pronalazi dva odvojena objekta putem najkraće udaljenosti i smješta ih u prvi klaster. Zatim pronalazi slijedeću najkraću udaljenost, pa ili se trećina objekta pridružuje i sa prva dva formira klaster ili su formirana nova dva klastera. Proces se nastavlja sve dok svi objekti ne nađu u jednom klasteru. Ovaj proces se naziva još i pristup najbližeg susjeda. Rastojanje između bilo koja dva klastera je najkraća udaljenost između bilo koje tačke u jednom u odnosu na bilo koju tačku u drugom klasteru. Dva klastera su spojena najkraćom ili najjačom vezom među njima. Problemi se javljaju, međutim, kada su klasteri loše obilježeni. U takvim slučajevima, prosta povezanost se može formirati u duge, zmijolike lance i na kraju su svi pojedinci smješteni u

Page 9: Pitanja MVA

okviru jednog. Oni koji se nalaze na krajevima tih lanaca, mogu biti veoma različiti između sebe. 2) COMPLETE LINKAGE ("FURTHEST NEIGHBOUR"): Potpuno povezivanje (metoda najdaljeg susjeda)Postupak potpunog povezivanja je slična prostoj proceduri osim da se klaster zasniva na kriterijumu maksimalne udaljenosti. Iz tog razloga, to je ponekad i nazvano kao pristup najudaljenijeg susjeda ili metod prečnika. Maksimalna udaljenost između pojedinaca u svakom klasteru predstavlja najmanju onu sferu koja može da objedini sve entitete u oba klastera. Ova metoda je nazvana kompletnom zato što su svi entiteti (objekti) u okviru klastera povezani ili maksimalnom udaljenošću ili minimalnom sličnošću. Možemo reći da sličnost unutar grupe je jednaka prečniku grupe. Ova tehnika eliminiše tzv. zmijoliki problem koji je identifikovan pojedinačnom metodom povezanosti.3) UPGMA - AVERAGE LINKAGE BETWEEN GROUPS (unweighted pair-group method using arithmetic averages): Prosječna veza između grupa .Ovo je standardna opcija u SPSS-u.

Definiše udaljenost između dva klastera kao prosjek udaljenosti između svih parova koji se mogu definirati između dva objekta. Npr. ako klaster A čine objekti 1 i 2, a klaster B objekti 3,4 i 5, udaljenost između klastera A i B možemo odrediti kao prosjek udaljenosti između sledećih parova objekata: (1,3), (1,4), (1,5), (2,3), (2,4), (2,5). Tih unakrsnih udaljenosti ima kA x kB.

Ova metoda kao što se vidi uzima u obzir informacije o svim parovima objekata između dva klastera, zbog čega se preferira u odnosu na dvije prethodne metode. 4) AVERAGE LINKAGE WITHIN GROUPS: Prosječna veza unutar grupa.

Ova metoda kombinuje klastere tako da prosječna udaljenost između članova novog klastera bude što manja. Tako se udaljenost između dva klastera definše kao prosečna udaljenost između svih objekata koji bi sačinjavali novi klaster od ta dva postojeća.5) WARD'S METHOD

Za svaki klaster izračunaju se aritmetičke sredine za svaku varijablu. Zatim se za svaki objekt računa kvadratna euklidska udaljenost do aritmetičke sredine klastera. Sumiraju se ove udaljenosti za sve članove klastera. Spajaju se oni klasteri za koje je ukupna (zajednička) suma ovih odstupanja najmanja. U ovoj metodi razdaljina između dva klastera je ustvari suma kvadrata između svih promjenljivih koji su sumirani u dva klastera. U svakoj fazi procesa klasterovanja, unutar-grupna suma kvadrata je minimizirana nad svim podjelama (potpun set razuđenih ili razdvojenih klastera) koja se izvodi kombinacijom dva klastera iz predhodne faze. Ovaj postupak zahtijeva kombinaciju klastera sa malim brojem posmatranja. Takođe je bazirana na praćenje razvoja klastera sa skoro istim brojem posmatranja. 6) CENTROID CLASTERING METHOD

Određuje udaljenost između klastera kao udaljenost između aritmetičkih sredina oba klastera (njihovih centroida). Jedan nedostatak centroidne metode jeste u tome što se početna udaljenost dva klastera može smanjiti između dva sukcesivna koraka analize. Klasteri spojeni u kasnijim fazama su više različiti nego oni spojeni u ranijim koracima. U centroidnoj metodi udaljenost između dva klastera je udaljenost (tipično kvadratna Euklidova ili prosta Euklidova metoda) između njihovih centroida. Centroidni klaster znači srednju vrijednost posmatranih varijabli u klaster promjenljivima. Po ovoj metodi, svaki put kada je su pojedinci grupisani, centroid je preračunat. Postoji promjena u klaster centroidu svaki put kada se jedinka ili grupa jedinki doda postojećem klasteru. Ove metode su najpopularnije kod biologa, ali mogu napraviti nered I često zbunjujuće rezultate. Konfuzija nastaje zbog inverzije ili obrnutosti koja se javlja kada izmjerena udaljenost između jednog para centroida je manja u odnosu na neko ranije mjerenje. Prednost ove metode je da su manji uticaji na outliere u odnosu na neke druge metode.

Page 10: Pitanja MVA

PITANJE 11

Tumačenje modela logističke regresije

Statističko modeliranje binarnih promenljivih odgovora podrazumeva merenje izbora koje za svaki subjekat može biti uspešno ili neuspešno. Binarni podaci su verovatno najčešći oblik kategorijskih podataka. Najrasprostranjeniji model binarnih podataka je logistička regresija. Za binarni izbor Y i kvantitativnu objašnjavajuću promenljivu X, neka π(x) predstavlja verovatnoću uspeha kada X ima vrednost x. Ova verovatnoća je parametar za binomnu distribuciju. Model logističke regresije ima linearni oblik za logit ove verovatnoće.

log it [π ( x ) ]=log( π ( x )

1−π ( x ))=α+βx(Jednačina 1)

Ova formula prikazuje da π(x) raste ili opada sa S-funkcijom od x.Druga formula za logističku regresiju odnosi se direktno na verovatnoću uspeha. Ova formula koristi eksponencijalnu funkciju exp(x) = ex u obliku

π ( x )=exp (α+ βx )

1+exp ( α+βx ) (Jednačina 2)

Tumačenje linearne aproksimacije

Parametar β određuje stopu rasta ili opadanja S-krive. Oznaka β β ukazuje na to da li je kriva opadajuća ili rastuća, kao i na stopu rasta promene kako | β | raste. Kada model ima vrednost β = 0, desna strana Jednačine 2 pojednostavljuje se u konstantu. Zatim, π(x) je identičan sa svim x, te kriva prelazi u horizontalnu pravu liniju. Binarni izbor Y postaje potom konstanta X. Grafik 1 pokazuje S-stranu modela logističke regresije za π(x). Budući da ova funkcija ima zakrivljeni, a ne pravolinijski izgled, zaključuje se da stopa promene u π(x) po jedinici promene u x varira. Prava linija koja predstavlja tangentu na krivi za datu vrednost x prikazuje stopu promene u toj tački. Za parametar β logističke regresije, ta prava ima nagib jednak . Na primer, linija tangente na krivu za vrednost x kod koje je π(x) = 0,5 ima nagib β(0,5)(0,5) = 0,25β; s druge strane, kada je π(x) = 0,9 ili 0,1, nagib iznosi 0,09β. Nagib se približava vrednosti 0 kako se verovatnoća približava vrednosti 1,0 ili 0. Najoštriji nagib krive događa se za vrednost x kada je π(x) = 0,5; ova vrednost x iznosi x = -α / β. (Vrednost π(x) = 0,5 se ovde može proveriti zamenom -α / β za x u Jednačini 2, to jest, zamenom vrednosti π(x) = 0,5 u Jednačini 1 i rešavanjem po x) Ova vrednost x se ponekad naziva srednjim nivoom efektivnosti i označava se sa EL50. Njime se prikazuje nivo kod kojih svaki rezultat ima 50% šanse.

PITANJE 8

Kao i kod svih drugih multivarijacionih tehnika i diskriminaciona analiza bazirana na nekoliko pretpostavki. Ove pretpostavke se odnose i na statističke procese prilikom procjene i klasifikacijskih procedura i na pitanja koja se tiču interpretacije rezultata. U ovom poglavlju govorimo o različitim pretpostavkama i njihovim uticajima na ispravnu primjenu diskriminacione analize.

Page 11: Pitanja MVA

Uticaj na procjene i klasifikaciju

Glavna pretpostavka za derivaciju diskriminacione funkcije jeste višestruka normalnost nezavisne varijable i nepoznata (ali jednaka) disperzija i kovarijansa stukture (matrica) za grupe definisane zavisnom varijablom. Iako su dokazi izmiješani u vezi osjeljitvosti diskriminacione analize na kršenje ovih pretpostavki, istraživač uvijek mora razumjeti uticaj koji mogu imati na očekivani rezultat. Ukoliko su pretpostavke narušene i moguće ispravke nisu prihvatljive ili se ne odnose na problem na pravi način, istraživač bi trebao razmotriti alternative metode (npr. logističku regresiju).

Identifikacija narušavanja pretpostavki. Postizanje univarijacione normalnosti individualnih varijabli će u mnogo slučajeva biti dovoljno da se postigne multivarijaciona normalnost. Istraživaču stoji nekoliko testova normalnosti, zajedno s odgovarajućim ispravkama, najčešće predstavljaju transformaciju varijabli.

Pitanje jednake disperzije nezavisne varijable je slično homoscedasticity između pojedinačnih varijabli. Najčešći test za utvrđivanje značajnosti razlike u matricama između grupa je Box's M test. Ovdje istraživač traži nivo naznačajne vjerovatnoće koji će pokazati da nije bilo razlike između grupe kovarijansi matrice. Dobijenu osjetljivost Box's M testa na veličinu kovarijanse matrice i broja grupa u analizi, istraživači bi trebali koristiti veoma restriktivne nivoe značajne razlike (npr. 0,01 radine nego 0,05) pri određivanju jesu li razlike prisutne. Kada se izgled istraživanja poveća u veličini uzorka ili u smislu grupa ili broja nezavisnih varijabli, čak i restriktivniji nivoi značajnosti se mogu smatrati prihvatljivim.

Uticaj na procjenu. Podaci koji nezadovoljavaju pretpostavku višestruke normalnosti mogu prouzrokovati probleme u procjeni diskriminacione funkcije. Ispravke su moguće putem transformacije podataka da smanji neuporedljivost između kovarijanse matrica. Ali ipak, u mnogim slučajevima ove ispravke su neefikasne. U ovim situacijama, model bi trebalo detaljno pregledati. Ukoliko je zavisna varijabla binarna, logistička regresija bi se trebala koristiti ukoliko je to moguće.

Uticaj na grupisanje. Nejednaka kovarijansa matrice također negativno utiče na proces grupisanja. Ukoliko je veličina uzorka mala i kovarijansa matrice nejednaka, onda je statistička značajnost procesa procjene neupitno pogođena. Češći slučaj je taj da je nejednaka kovarijansa među grupama odgovarajuće veličine uzorka, pri čemu su posmatranja pregrupisana u grupe s većom kovarijansom matrica. Ovaj efekat se može minimizirati povećavajući veličinu uzorka kao i koristeći grupno specifične kovarijanse matrice u svrhu klasifikacije, ali ovaj pristup zahtijeva cross-validation diskriminacionog rezultata. Napokon, tehnike kvadratne klasifikacije su primjenljive u mnogim statističkim programima, ukoliko postoji velika razlika između kovarijansi matrica grupe i ukoliko ispravke nisu minimizirale efekte.

PITANJE 7

Faktorska analiza, Factor Analysis, (FA), statistički je pristup za analizu strukture međusobnih odnosa većeg broja varijabli definiranjem seta zajedničkih skrivenih dimenzija tj. faktora. U faktorskoj analizi, kao i u analizi glavnih komponenata, osnovna je ideja još uvijek da set od p varijabli (i n individua) može biti definiran manjim brojem faktora, pa tako može poslužiti kao redukcijska metoda. No, primarni je cilj identifikacija faktora i

Page 12: Pitanja MVA

određivanje stupnja do kojeg su izvorne varijable objašnjene svakom dimenzijom - faktorom. Za razliku od PCA koja nije bazirana ni na kakvom statističkom modelu, FA određena je specifičnim statističkim modelom. Zajednički (common) faktor nevidljiva je, hipotetska varijabla koja pridonosi varijanci iz barem dvije izvorne varijable. Izraz faktor najčešće se odnosi na zajednički faktor. Jedinstveni ili specifični (unique) faktor, također je nevidljiva, hipotetska varijabla koja pridonosi varijanci u samo jednoj izvornoj varijabli.Dok se pretpostavke za primjenu faktorske analize mogu poistovjetiti sa onima iz analize glavnih komponenata pretpostavka same analize zajedničkih faktora podrazumijeva da zajednički faktori nisu linearne kombinacije izvornih varijabli. Čak i u slučaju analize cjelokupnih podataka neke populacije, faktorske skorove (factor scores) nije moguće izračunati direktno (kako je to bilo moguće u PCA), ali se oni mogu procijeniti na nekoliko načina. Taj problem doveo je do formiranja metoda kojima se mogu proizvesti komponente, aproksimacije zajedničkih faktora (npr. Harisovom komponentnom analizom ili image komponentnom analizom), koje ipak ne daju potpuno rješenje faktora. Interpretacija faktora je pridruživanje imena svakom faktoru tako da ono odražava važnost faktora u predikciji svake izvorne varijable. Taj proces je subjektivan, i baziran je na objašnjavanju vrijednosti opterećenja i komunaliteta. Ipak, nekoliko je vrlo uopćenih, kriterija za otkrivanje značajnosti komunaliteta opterećenja (SHARMA, 1996.): 1. što je veći uzorak, to manju komunalitetu treba smatrati značajnom, 2. što je veći broj varijabli u analizi, to manju komunalitetu treba smatrati značajnom, 3. što je veći broj faktora, to veću komunalitetu na faktorima koji slijede treba smatrati značajnom za interpretaciju. Ukoliko rezultate faktorske analize nije moguće interpretirati, moguće ih je pojasniti i učiniti manje subjektivnim metodama faktorske rotacije. Rotacija faktora se provodi primjenom nesingularne linearne transformacije. Takvu rotiranu matricu, u kojoj svi koeficijenti, iznose 0 ili ±1, lakše je interpretirati nego matricu punu intermedijarnih elemenata. Najviše metoda rotacije nastoje optimizirati funkcije matrice opterećenja koja mjeri koliko su bliski elementi 0 ili ±1. Rotacije mogu biti ortogonalne (orthogonal) ili kose (oblique).

PITANJE 12

Klasifikacije metoda multivarijacione analize zasnovane su na različitim klasifikacionim kriterijumima. Prva klasifikacija metoda pravi razliku među njima prema tome da li su orijentisane ka ispitivanju međuzavisnosti promjenljivih ili im je osnovni zadatak ispitivanje međuzavisnosti objekata. Kada istražujemo međuzavisnost promjenljivih, tada posmatramo kolone matrice podataka. Jedan od načina mjerenja međuzavisnosti promjenjljivih baziran je na izračunatom koeficijentu koleracije među njima. Osnovu ovih metoda multivarijacione analize predstavlja kovarijaciona ili korelaciona matrica. Kod drugog pristupa, u cilju poređenja 2 objekta ili osobe, posmatramo odgovarajuće redove u matrici podataka, odnosno definišemo različite mjere bliskosti između dva objekta ili osobe. Osnovu ovih metoda multivarijacione analize predstavlja matrica odstojanja između objekata.Prema drugoj klasifikaciji, metode dijelimo u 2 grupe: metode zavisnosti i metode međuzavisnosti. Ukoliko smo u istraživanju zainteresovani za ispitivanje zavisnosti između 2 skupa promjenljivih, gdje jedan skup predstavlja zavisne promjenljive, a drugi nezavisne promjenljive, tada se odgovarajuća klasa metoda naziva metode zavisnosti. S druge strane, ako nema apriornog, teorijskog osnova za podjelu svih promjenljivih na dva podskupa promjenljivih (zavisnih i nezavisnih), tada koristimo metode međuzavisnosti.

Metode zavisnosti:

Page 13: Pitanja MVA

1. Multivarijaciona regresija – je najpoznatija metoda multivarijacione analize. Koristimo u njenom nazivu izraz multivarijaciona da bismo i na taj način razlikovali 2 slučaja. Prvi, u okviru koga se bavimo analizom zavisnosti jedne promjenljive (zavisna promjenljiva) od skupa drugih promjenljivih (nezavisne promjenljive). Ovaj metod analize poznatiji je pod nazivom metod višestruke regresije. Drugi slučaj je kad skup zavisnih promjenljivih sadrži više od jendog člana. Za ovaj slučaj kažemo da predstavlja opštiji model multivarijacione regresije. Kod oba modela zadatak nam je ocjenjivanje ili predviđanje srednje vrijednosti zavisne, odnosno srednjih vrijednosti zavisnih promjenljivih na bazi poznatih vrijednosti nezavisnih promjenljivih. 2. Kanonička korelaciona analiza – ova analiza može se smatrati uopštenjem višestruke regresione analize. Naime, njome želimo uspostaviti linearnu zavisnost između skupa nezavisnih i skupa zavisnih promjenljivih. Kod izračunavanja kanoničke korelacije formirano dvije linearne kombinacije, jednu za skup nezavisnih, a drugu za skup zavisnih promjenljivih. Koeficijente ovih linearnih kombinacija određujemo tako da koeficijent korelacije između njih bude maksimalan.3. Diskriminaciona analiza – bavi se problemom razdvajanja grupa i alokacijom opservacija u ranije definisane drupe. Primjena ove analize omogućava identifikaciju promjenljive koja je najviše doprinijela razdvajanju grupa, na osnovu vrijednosti skupa nezavisnih promjenljivih.4. Multivarijaciona analiza varijanse (MANOVA) – je odgovarajuća metoda analize kada nam je cilj ispitivanje uticaja različitih nivoa jedne ili više „eksperimentalnih“ promjenljivih na dvije ili više zavisnih promjenljivih. U tom smislu ona predstavlja uopštenje jednodimenzionalne analize varijanse (ANOVA).5. Logit analiza – kada je u regresionom modelu zavisna promjenljiva dihotomnog tipa, tada takav model nazivamo regresioni model sa kvalitativnom zavisnom promjenljivom. Kod njih je zavisna promjenljiva, tzv. logit funkcija, logaritam količnika vjerovatnoća da će dihotomna zavisna promjenljiva uzeti jednu ili drugu vrijednost. Modele ovog tipa nazivamo i modeli logističke regresione analize.

Metode međuzavisnosti:1. Analiza glavnih komponenti – je metoda za redukciju većeg broja promjenljivih koje razmatramo, ma manji broj novih promjenljivih (nazivamo ih glavne komponente). Osnovni zadatak je konstruisanje linearne kombinacije originalnih promjenljivih (glavnih komponenti) uz uslov da obuhvate što je moguće veći iznos varijanse originalnog skupa promjenljivih. 2. Faktorska analiza – slična je metodi glavnih komponenti po tome što koristi za opis varijacija između promjenljivih na osnovu manjeg broja promjenljivih (nazivamo ih faktori). Međutim, za razliku od nje, pretpostavlja postojanje odgovarajućeg statističkog modela kojim originalnu promjenljivu iskazujemo kao linearnu kombinaciju faktora plus greška modela, odnosno veličina koja odražava stepen nezavisnosti posmatrane promjenljive od svih ostalih. Na taj način se cjelokupna kovarijansa ili korelacija objašnjava zajedničkim faktorima, a neobjašnjeni dio se pridružuje grešci ( naziva se specifičan faktor).3. Analiza grupisanja – je metoda za redukciju podataka, ali za razliku od prethodne dvije metode koje su orijentisane ka kolonama (promjenljivim), ona je orijentisana ka redovima (objektima) matrice podataka. Ovom analizom kombinujemo objekte u drupe relativno homogenih objekata. Zadatak u mnogim istraživanjima je identifikovanje manjeg broja grupa.4. Višedimenzionalno proporcionalno prikazivanje – pripada klasi metoda koji su orijentisani ka objektima, a koristi mjeru sličnosti, odnosno razlike između njih u cilju njihovog prostornog prikazivanja. Izvedena prostorna reprezentacija sadrži geometrijski raspored tačaka na mapi, gdje se svaka tačka odnosi na jedan od objekata.

Page 14: Pitanja MVA

5. Loglinearni modeli – omogućavaju ispitivanje međusobne zavisnosti kvalitativnih promjenljivih koje formiraju višedimenzionalnu tabelu kontingencije. Ukoliko se jedna od promjenljivih u tabeli kontingencije može smatrati zavisnom, tada na osnovu ocijenjenih loglinearnih modela možemo izvesti logit modele.

PITANJE 9

Da bi derivirao diskriminacionu funkciju, istraživač prvo mora odlučiti o metodi procjene i onda odrediti broj funkcija da održi. S procijenjenim funkcijama, sveukupni izgled modela može biti procijenjen. Prvo, diskriminacioni Z score, također poznat i kao Z score, se može izračunati za svaki objekat. Usporedbom značaja grupa (centroida) na Z score-u pruža jednu od mjera diskriminacije među grupama. Tačnost predviđanja se može mjeriti kao broj posmatranja klasifikovanih u prave grupe, sa brojem kriterija raspoloživih za procjenu je li proces grupisanja postigao praktične ili statističke značajnosti. Napokon, dijagnostika u zavisnosti od slučaja može identifikovati preciznost klasifikacije za svaki slučaj, kao i njen relativni uticaj na procjenu cjelokupnog modela.2.4.1. Izbor metode procjene

Prvi zadatak u derivaciji diskriminacione funkcije je taj da izaberemo metodu procjene. Pri ovom izboru, istraživač mora izbalansirati potrebu za kontrolom nad procesom procjenjivanja nasuprot želji za krutosti diskriminacione funkcije. Dvije metode stoje na raspolaganju: simultana (direktna) metoda i etapna metoda, obje metode su obrazložene u nastavku.

Simultana procjena. Simultana procjena podrazumijeva izračunavanje diskriminacione funkcije tako da sve nezavisne varijable smatraju istovremenim. Diskriminaciona funkcija je izračunata na osnovu čitavog seta nezavisnih varijabli, bez obzira na diskriminacionu moć pojedinih nezavisnih varijabli. Simultana metoda je prikladna kada, iz teoretskih razloga, istraživač želi da uključi sve nezavisne varijable u analizu i nije zainteresovan za traženje srednjeg rezultata baziranih samo na najviše diskriminiranim varijablama.

Etapna procjena. Etapna procjena je alternativa simultanom pristupu. On podrazumijeva uključenje nezavisnih varijabli jednu po jednu u diskriminacionu funkciju na bazi njihove diskriminacione moći. Etapni pristup slijedi sekvencijalni proces dodavanja ili eliminisanja varijabli po sljedećem redu:1. Izaberite jednu najbolju diskriminacionu varijablu.2. Uparite inicijalne varijable sa svakom od drugih nezavisnih varijabli, jedno po jednu, i izaberi varijablu koja je u najboljem stanju da poveća diskriminacionu moć funkcije pri kombinaciji sa prvom varijablom.3. Izaberite dodatne varijable na isti način. Kako su dodatne vrijable uključene, neke od prethodno odabranih varijabili mogu biti eliminisane ukoliko je informacija koju one sadrže o diferenciji grupe raspoloživa u nekim kombinacijama drugih varijabli koje su prethodno uključene.4. Smatrajte proces okončanim kada su ili sve nezavisne varijable uključene u funkciju ili isključene varijable ocijenjene kao naznačajne za daljnu diskriminaciju.Etapni metoda je korisna kada istraživač želi da razmatra relativno veliki broj nezavisnih varijabli za uključenje u funkciju. Etapnim izborom sljedeće najbolje diskriminacione varijable u svakom narednom koraku, varijable koje nisu korisne u diskriminaciji između grupa su eliminisane i reducirani broj varijabli je identificiran. Reducirani set je najčešće jednako dobar – ponekad i bolji od – kompletnog seta varijabli.

Page 15: Pitanja MVA

Istraživač bi trebao znati da etapne procjene postaju manje stabilne i generalne kako odnos veličine uzorka i nezavisne varijable padne ispod preporučenog nivoa od 20 posmatranja po nezavisnim varijablama. Veoma je važno da u ovim slučajevima se potvrdi validnost rezultata na što je moguće više načina.

PITANJE 10

Ukoliko je diskriminaciona funkcija statistički značajna i klasifikacijska tačnost prihvatljiva, istraživač bi trebao preći na interpretiranje dobijenih rezultata. Ovaj proces podrazumijeva ispitivanje diskriminacione funkcije da bi odredili relativni značaj svake nezavisne varijable u diskriminaciji između grupa. Najčešće se koriste sljedeće tri metode pri određivanju relativne značajnosti:1. Standarizovana diskriminaciona težina2. Diskriminacioni teret (struktura korelacija)3. Parcijalna F vrijednost

Diskriminaciona težina

Tradicionalni pristup interpretaciji diskriminacione funkcije ispituje veličinu standarizirane diskriminacione težine (također poznatog kao diskriminacioni koeficjent) dodijeljen svakoj varijabli pri izračunavanju diskriminacione funkcije. Kada se znak zanemari, svaki teg predstavlja relativni doprinos njegovih povezanih varijabli diskriminacionoj funkciji. Nezavisne varijable sa relativno velikim tegovima doprinosi više diskriminacionoj moći funkcije nego varijable s malim tegovima. Znak određuje samo da li varijabla ima pozitivan ili negativan doprinos.

Interpretacija diskriminacionih tegova je analogna interpretaciji beta tegova u regresionoj analizi i stoga su predmet iste kritike. Naprimjer, mali teg nam govori da su korespondirajuće varijable irelevantne u određivanju veza ili da je izbačen iz veze zbog velikog stepena multikolinearnosti. Drugi problem pri upotrebi diskriminacionih tegova je ta da su oni podložni značajnoj nestabilnosti. Zbog ovih problema se preporučuje oprez pri upotrebi tegova u interpretaciji rezultata diskriminacione analize.

Diskriminacioni teret

Diskriminacioni teret, poznat i kao stukturna korelacija, se sve češće koristi kao baza za interpretaciju zbog nedostataka pri upotrebi tegova. Mjerenjem jednostavne lienarne koerlacije između svake nezavisne varijble i diskriminacione funkcije, diskriminacioni teret odražava varijansu koju nezavisna varijabla dijeli sa diskriminacionom funkcijom. U tom smislu oni se mogu interpretirati kao tereti faktora u određivanju relativnog doprinosa svake nezavisne varijable diskriminacionoj funkciji.

Jedinstvena karakteristika tereta je ta da se tereti mogu izračunati za sve varijable, bilo da su one korištene u procjeni diskriminacione funkcije ili ne. Ovaj aspekt je posebno važan kada se primjenjuju etapne procedure i kada neke varijable nisu uključene u diskriminacionu funkciju. Radije nego nemati načina da se utvrdi relativni uticaj, tereti nam pokazuju relativni uticaj svake varijable na zajedničku mjeru.

Page 16: Pitanja MVA

Sa teretima, osnovno pitanje je: Koju vrijednost teret mora imati da bi se smatrao značajnim diskriminatorom vrijednim pažnje? I u simultanoj i u etapnoj diskriminacionoj analizi, varijable koje premašuju teret od ±0,40 ili više se smatraju značajnim. Kod etapne procedure, ovo određenje je podržano jer tehnika ne dopušta neznačajnim varijablama da u uđu u funkciju. Ali multikolinearnost i drugi faktori mogu spriječiti varijablu da uđe u jednačinu, a što ne mora da znači da nema značajan efekat.

Diskriminacioni tereti (kao i tegovi) su podložni nestabilnosti. Tereti se smatraju ispravnijom mjerom nego tegovi u smislu interpretiranja diskriminacione moći nezavisnih varijabli, zbog njihove korelacijske prirode. Istraživači ipak moraju biti pažljivi kada koriste terete da interpretiraju diskriminacionu funkciju.

Parcijalna F vrijednost

Kao što smo naveli ranije, dva pristupa – simultani i etapni, se mogu koristiti pri derivaciji diskriminacione funkcije. Kada je etapni metod izabran, dodatne mjere interpretacije relativne diskriminacione moći nezavise varijable su raspoložive pomoću upotrebe parcijalne F vrijednosti. To se postiže ispitujući apsolutno veličinu značajnih F vrijednosti i njihovim rangiranjem. Velike F vrijednosti ukazuju na veliku diskriminacionu moć. U praksi, rangiranje pomoću F vrijednosti su iste kao i rangiranja izvedena iz korištenja diskriminacionih tegova, ali F vrijednost ukazuje povezane nivoe značajnosti za svaku varijablu.

Interpretacija dvije ili više funkcija

U slučaju dvije ili više značajnih diskriminacionih funkcija, suočeni smo s dodatnim problemima pri interpretaciji. Prvo, možemo li pojednostaviti diskriminacione tegove ili terete kako bi profilisali svaku funkciju? Drugo, kako da prikažemo uticaj svake varijable po svim funkcijama? S ovim problemima se susrećemo pri mjerenju ukupnog diskriminacionog efekta po svim funkcijama kao i u određivanju uloge svake varijable u profilisanju odvojeno svake funkcije. Ove probleme rješavamo pomoću koncepta rotiranja diskriminacionih funkcija, potency indeksa, i raširenom vektorskim zastupanjem.