Upload
5estela
View
231
Download
27
Embed Size (px)
DESCRIPTION
literatura o statistici
Citation preview
Multivarijatna statistika Ak.god. 2013./2014.
Tradicionalan pristup poučavanju statistike
1. Univarijatna statistika: karakteristike distribucije rezultata, mjere centralne tendencije, raspršenja ili
varijabiliteta…
2. Bivarijatna statistika: odabir testa ovisi o karakteristikama varijabli (V) u analizi koje često označavamo
kao zavisne varijable (ZV) ili nezavisne varijable (NZV). Npr:
- Kontinuirana V i kontinuirana V-> Pearson ili bivarijatna regresija
- Dihotomna NZV i kontinuirana ZV -> point-biserijalna, t-test
- Dihotomna V i dihotomna V –> “fi”
- Politomna NZV i kontinuirana ZV – ANOVA
- Više kontinuiranih ili dihotomnih NZV i kontinuirana ZV -> Multipla regresija
3. Multivarijatna statistika
- Politomna NZV i više kontinuiranih ZV -> MANOVA
- Više kontinuiranih V i više kontinuiranih V -> Kanonička korelacija (CC)…
Istraživačka pitanja i njima povezane statističke metode
Ako nas zanima...
1. Stupanj povezanosti među varijablama, onda koristimo...
a) Bivarijatni r – procjena stupnja povezanosti između dvije kontinuirane varijable
- mjeri povezanost između dvije varijable bez da pravi razliku između nezavisne i zavisne varijable,
dok bivarijatna regresija predicira rezultat u jednoj varijabli (ZV) na temelju rezultata druge
varijable (NV)
b) Multipli R – procjena stupnja u kojem je jedna kontinuirana varijabla (ZV) povezana sa setom drugih
(najčešće kontinuiranih) varijabli (NV), koje zajedno čine novu, kompozitnu varijablu
- prema tome, multipla korelacija je bivarijatna korelacije između originalne ZV i kompozitne varijable
koju čini set NV
- multipla regresija predicira rezultat u ZV na temelju rezultata u više NV
c) Hijerarhijski R
- u hijerarhijskoj regresijskoj analizi, nekim NV je dana prednost nad drugima , tj. u analizi, efekti onih
NV koje su prve unešene procjenjuje se i uklanja prije procjene NV koje su kasnije unešene
- za svaku NV u hijerarhijskoj regresijskoj analizi, NV većeg prioriteta (one koje su prve unešene)
djeluju kao kovarijati onim NV nižeg prioriteta (koje su kasnije unešene)
- stupanj povezanosti ZV i seta NV procjenjuje se ponovno nakon svakog koraka hijerarhijske analize
d) Kanonički R
e) Višestruka analiza frekvencija
f) Multilevel modeling
2. Značajnost grupnih razlika
Kada se ispitanici po slučaju raspoređuju u skupine, osnovno je istraživačko pitanje u kojoj su mjeri statistički
značajne razlike u ZV povezane sa pripadnošću grupom (tj. sa nivoima NV)
a) Jednosmjerna ANOVA i t-test
- uspoređuje dvije ili više srednjih vrijednosti kako bi utvrdila razlikuju li se statistički značajno
b) Jednosmjerna ANCOVA
- procjenjuje razlike u grupama na jednoj ZV nakon statističkog „otklanjanja“ efekta jednog ili više
kovarijata, koji se bira na temelju njegove povezanosti sa ZV
c) Faktorska ANOVA
- više NV, jedna ZV
d) Faktorska ANCOVA
- faktorska ANCOVA razlikuje se od jednosmjerne ANCOVE samo po tome što u faktorskoj ima više NV
e) Hotelling`s T²
- koristi se kada NV ima 2 skupine (kada je NV na 2 nivoa), a kada imamo više ZV, tj. Hotellingov T² koristi se
kako bi vidjeli razlikuju se dvije skupine na dvije kombinirane ZV
- to je poseban slučaj multivarijatne analiza varijance (MANOVA-e), kao što je t-test poseban slučaj
univarijatne analize varijance (ANOVA-e), kada NV ima samo dva nivoa
f) Jednosmjerna MANOVA
- više ZV, jedna NV
g) Jednosmjerna MANCOVA
- više ZV, jedna NV, kovarijat(i)
h) Faktorska MANOVA
- više ZV, više NV
i) Faktorska MANCOVA
- više ZV, više NV, kovarijat(i)
3. Predikcija pripadnosti grupi
1. Jednosmjerna diskriminantna analiza – procjena pripadnosti grupi (ZV) na temelju seta varijabli (NV)
PREGLED UNIVARIJATNE I BIVARIJATNE STATISTIKE
1. USPOREDBA DVIJU ILI VIŠE SKUPINA NEZAVISNIH REZULTATA
Problem višestrukih usporedbi nezavisnih grupa
- ukoliko želimo usporediti grupe A, B i C na rezultatima neke intervalne ili omjerne varijable, primjena višestrukih t-
testova dovesti će do povećanja vjerojatnosti α- pogreške
- rješenje ovog problema su omnibus testovi, koji istovremeno testiraju razliku između svih skupina (npr. F-test,
analiza varijance)
- ako dobijemo statistički značajan F omjer znamo da se skupine međusobno razlikuju, ALI kako onda znati koje se
skupine međusobno razlikuju jedna od druge?
3 načina
1. Apriori planirane usporedbe (npr. placebo skupina vs. sve eksperimentalne)
2. Kontrasti (linearni, kvadratni, kubični..)
3. Post-hoc testovi višestrukih usporedbi po parovima (sve moguće usporedbe)
Jedna od metoda kontrole α- pogreške je i Bonferroni metoda
1. Odluči koja razina rizika je prihvatljiva (npr. p<0,05)
2. Utvrdi koliko usporedbi želiš napraviti (N). Maksimalan broj usporedbi za k broj grupa je:
( )
3. Izračunaj koliki mora biti p korigirani za svaku usporedbu u paru da bi ostali na prihvatljivoj razini rizika
određenog u prvom koraku:
4. Standardnim testovima napravi višestruke usporedbe, odbaci Ho samo ako dobiješ da je p manji od izračunatog
pkor.
ANALIZA VARIJANCE
Analiza varijance je set analitičkih procedura temeljenih na usporedbi dvije procjene varijance. Jedna procjena
odnosi se na ralike u rezultatima unutar svake skupine, te se ona smatra slučajnom ili varijancom pogreške. Druga
proizlazi iz razlika u rezultatima između skupina, te predstavlja odraz grupnih razlika zbog tretmana plus
pogreške. Ako se ove dvije procjene ne razlikuju značajno, zaključujemo da svi rezultati dolaze iz iste skupine
rezultata, tj. da nema razlike među analiziranim skupinama. Ako i postoje razlike među njima, one su posljedicom
pogreške ili slučaja. S druge strane, ako se skupine razlikuju statistički značajno, zaključujemo da su rezultati iz
pojedinih skupina „izvučeni“ iz različitih skupina.
Omjer ove dvije varijance naziva se F-omjerom.
Kako se "analizira varijanca"? Odgovor u par slika!
Podsjetnik: t-test stavlja u omjer razliku između aritmetičkih sredina grupa i standardnu pogrešku te razlike.
F omjer stavlja u omjer varijance ili prosječne sume kvadratnih odstupanja rezultata.
Kako se izračunava varijanca u analizi varijance?
( )
Suma kvadratnih odstupanja u ANOVA-i je zapravo nazivnik ovog razlomka, tj.
( )
A korijen iz varijance je standardna devijacija.
ANOVA i drugi testovi
Analiza varijance i t-test: nema znatnije razlike! Dokaz:
1. Na dvije nezavisne skupine provedite t-test i analizu varijance.
2. Izračunajte korijen iz F omjera dobivenog analizom varijance i usporedite s rezultatom t-testa (vrijednosti
su iste!)
U novije vrijeme analiza varijance se opisuje preko regresijskog modela. Nema suštinske razlike između analize
varijance i regresijske analize. Razlike su isključivo u istraživačkim tradicijama. Tradicionalno analiza varijance
učestalija je u eksperimentalnim istraživanjima i prirodnim znanostima, a regresijska analiza u opservacijskim
(korelacijskim) istraživanjima i društvenim znanostima.
Terminologija analize varijance, eksperiment i korelacija
Zbog eksperimentalističke tradicije varijable se u analizi varijance uglavnom dijele na nezavisne varijable
(ponegdje nazvane "faktori") i zavisne varijable.
U eksperimentalnom nacrtu pretpostavlja se da nezavisnu varijablu možemo slobodno manipulirati (npr. doza lijeka:
0 ili placebo, 5mg, 10mg, 15mg) te da razina nezavisne varijable utječe (izravno ili posredno) na zavisnu varijablu
(npr. diastolički i sistolički tlak). U navedenom slučaju ispravno je koristiti termine nezavisna, zavisna varijabla i
efekt ili utjecaj nezavisne varijable na zavisnu.
Mnogi nacrti su kvazieksperimentalni jer se nezavisna varijabla ne može slobodno manipulirati. U društvenim
znanostima (i mnogim istraživanjima vezanim uz ljude) moguća su samo opservacijska ili korelacijska istraživanja.
Ako želimo ispitati odnos između rase (postojeće grupe, pripadnost grupi ne može se manipulirati) i inteligencije, u
okviru terminologije analize varijance govorit ćemo o EFEKTU rase na inteligenciju, ali moramo uvijek imati na umu
da ne možemo zaključivati o uzročno-posljedičnim vezama već samo o proporciji varijance zavisne varijable
(inteligencija) koja je povezana ili se može objasniti s varijabilitetom rezultata u nezavisnoj varijabli (rasa). Ako
postoje rasne razlike u inteligenciji, one ne moraju biti posljedica rasne pripadnosti (socio-ekonomski status,
kulturalni utjecaji...).
Iz navedenog vidljiva je povezanost umjetno razdvojenih statističkih metoda. Kakvu interpretaciju rezultata ćemo
koristiti ovisi o metodologiji i nacrtu istraživanja.
Primjena jednosmjerne analize varijance
- Eksperimentalna, kvazieksperimentalna i terenska ("field studies") istraživanja.
- Testira se jesu li aritmetičke sredine u zavisnoj varijabli podjednake za nezavisne skupine određene nezavisnom
varijablom (faktorom).
Varijable u bazi:
1. Zavisna, kvantitativna, kontinuirana (intervalna ili omjerna) varijabla.
2. Nezavisna kvantitativna (broj tableta) ili kvalitativna (rasa) varijabla koja dijeli uzorak na više nezavisnih
skupina (tzv. faktor). Uzorak se dijeli na onoliko grupa koliko ima razina nezavisne varijable.
- Svaka jedinica analize (ispitanik) u retku baze ima navedena dva podatka: rezultat na zavisnoj
varijabli i pripadnost grupi na nezavisnoj varijabli.
Preduvjeti za analizu
1. Neovisnost rezultata: Slučajan uzorak iz populacije i rezultati u mjerenoj varijabli su nezavisni jedan od
drugoga. U suprotnom dobivaju se nepouzdane p vrijednosti.
2. Normalnost distribucije rezultata u zavisnoj varijabli za svaku populaciju jedinica analize definiranu
pojedinom razinom nezavisne varijable (faktora).
Ako preduvjet nije zadovoljen (posebice kod velikih asimetrija i platikurtičnosti) smanjena je snaga testa i p
koeficijent je nepouzdan. Veći uzorci smanjuju nepouzdanost p koeficijenta.
3. Homogenost varijance: varijance rezultata u zavisnoj varijabli trebale bi biti podjednake na svakoj razini
nezavisne varijable.
Ako preduvjet nije zadovoljen i ako skupine jedinica analize na svakoj od razina nezavisne varijable nisu podjednako
brojne p koeficijent je nepouzdan. Mogu se koristiti alternativni testovi (Browne-Forsythe, Welch, a za post-hoc:
Dunnett C ili T3, Games-Howel, Tamhane T2).
Veličina efekta
Ukoliko se analiza varijance provodi u okviru općeg linearnog modela, dostupna je mjera veličine efekta zvana eta-
kvadrat (η2). Predstavlja proporciju varijance rezultata u zavisnoj varijabli koja je povezana s nezavisnom
varijablom. Varira od 0 do 1. Interpretacija veličine efekta ovisi o području istraživanja, ali je uobičajeno vrijednosti
0.01, 0,06 i 0,14 smatrati malim, srednjim i velikim efektom (neslužbeno pojašnjenje: vjerojatno se misli na ove
intervale: do 0,05, 0,06-0,13 te 0,14 i više).
Interpretacija ANOVA-e
(Uvjeti za analizu se ne navode ukoliko su zadovoljeni – samo se napomene da su provjereni i zadovoljeni)
S obzirom da su zadovoljeni svi preduvjeti za parametrijsku analizu, provedena je jednosmjerna analiza
varijance kako bi se utvrdilo postoje li razlike u simptomima prehlade između kontrolne i eksperimentalnih skupina.
Uzimanje vitamina C predstavljalo je nezavisnu varijablu (faktor) prema kojoj su se razlikovale tri nezavisne skupine
ispitanika: placebo-kontrolna skupina i dvije eksperimentalne skupine (uzimanje srednje i velike doze).
Zavisnu varijablu predstavljalo je povećanje ili smanjene simptoma prehlade mjereno u danima skraćenja ili
produljenja prehlade. Utvrđeno je da se grupe statistički značajno razlikuju u mjerenim simptomima prehlade (F(2,
27)=4,84; p<0,05) i da je stupanj povezanosti (η2) između uzimanja C vitamina i simptoma prehlade znatan pri čemu
uzimanje C vitamina može objasniti 26% varijance promjena u simptomima prehlade.
Post-hoc testom višestruke usporedbe u parovima (Bonferroni) utvrđeno je da se statistički značajno
razlikuju placebo grupa (M=3,50; SD=4,14) od obje eksperimentalne grupe koje su imale statistički značajno manje
simptome prehlade (M1=-2,10, SD=4,07; M2= -2,00, SD=5,48). Eksperimentalne grupe nisu imale statistički značajno
različite simptome.
Neparametrijska zamjena za ONEWAY ANOVA s nezavisnim skupinama: Kruskal-Wallis test
- Testira jesu li medijani ZV podjednaki na svim nivoima NZV (faktora).
- Svi rezultati (bez obzira na grupu) rangiraju se. Za svaku grupu računa se prosječan rang. Kruskal-Wallis test
rezultira statistikom označenom slovom H.
- Kada je broj jedinica analize po grupama veći od 5, H statistik ima distribuciju sličnu χ2 distribuciji, što omogućuje
utvrđivanje statističke značajnosti razlika među grupama (p). U tom slučaju koristi se χ2 statistika kako bi provjerili
nul-hipotezu o jednakosti medijana u svim grupama.
Preduvjeti za analizu
1. Neovisnost rezultata: Slučajan uzorak iz populacije i rezultati u mjerenoj varijabli su nezavisni jedan od
drugoga. U suprotnom dobivaju se nepouzdane p vrijednosti.
2. Distribucije rezultata moraju biti podjednake u svim grupama. U suprotnom test ne odražava samo razliku
u medijanima, već i u oblicima distribucija.
3. Vezani rangovi predstavljaju problem (programi koriste korekciju za vezane rangove)
4. Veličina uzorka: χ2 statistika za ovaj test tek je aproksimativna i povećava joj se točnost na većim uzorcima
(N>29; broj ispitanika u svakoj grupi mora biti veći od 5)
Veličina efekta
Rezultati se mogu pretvoriti u rangove i potom se može izračunati η2 iz ANOVA-e.
η2 može se izračunati i izravno iz χ2 koeficijenta prema ovoj formuli:
Post-hoc usporedbe
Kako bi utvrdili koje grupe se statistički značajno razlikuju mogu se provesti Mann-Whitney U testovi za svaki par, uz
Bonferroni metodu kontrole alpha pogreške.
Interpretacija
Proveden je Kruskal-Wallis test kako bi se utvrdile razlike u medijanima simptoma prehlade između grupa koje su
uzimale različite količine vitamina C (placebo, srednja i velika doza). Uzimanje vitamina C predstavljalo je nezavisnu
varijablu. Zavisnu varijablu predstavljalo je povećanje ili smanjene simptoma prehlade mjereno u danima skraćenja
ili produljenja prehlade.
Utvrđeno je da se grupe statistički značajno razlikuju u mjerenim simptomima prehlade (χ2(2, N=30)=6,92; p<0,05).
Uzimanje vitamina C objasnilo je znatnu proporciju varijance rangirane zavisne varijable kojom su mjereni simptomi
prehlade (η2=0.24), što ukazuje na značajnu povezanost između uzimanja vitamina C i smanjenja simptoma
prehlade.
Testovi višestrukih usporedbi provedeni su Mann-Whitney U testom uz Bonferroni korekciju za kontrolu alpha
pogreške. Rezultati su pokazali da se statistički značajno razlikuje placebo grupa (C0 = 3; Q3-1=3) od prve
eksperimentalne grupe koja je imale statistički značajno manje simptome prehlade (C1 = -2,5; Q3-1=4), ali ne i od
druge eksperimentalne grupe (C2 = -5; Q3-1=11). Eksperimentalne grupe nisu imale statistički značajno različite
simptome.
Iz priloženog vidimo:
- neparametrijske zamjene ne moraju rezultirati istim zaključcima kao parametrijski testovi
- na značajnost razlike ne utječu samo parametri poput mjera centralne tendencije već i standardne pogreške
parametara koje su usko vezane uz raspršenje rezultata oko mjere centralne tendencije (npr. Q3-1=11)
2. USPOREDBA DVIJE ILI VIŠE SKUPINA ZAVISNIH REZULTATA
Zavisne i nezavisne skupine rezultata. U čemu je razlika?
Želite znati kako različite količine konzumiranog alkohola utječu na fluentnost govora?
NACRT A: Po zakonu slučaja podijelite ispitanike u nekoliko skupina i svakoj date različitu količinu alkohola. Potom
mjerite fluentnost govora.
Na rezultat će tek u određenoj mjeri utjecati alkohol. Dio varijance rezultata koji se neće moći objasniti
razlikama u konzumiranom alkoholu (npr. puno alkohola i fluentan ili bez alkohola i ne baš fluentan) može
se povezati sa spolom, tolerancijom na alkohol i drugim RELEVANTNIM INDIVIDUALNIM RAZLIKAMA.
Sve to donekle kompenzira razvrstavanje ispitanika u grupe po zakonu slučaja.
NACRT B: Svakom ispitaniku mjerite fluentnost govora nakon konzumacije različite količine alkohola, npr. 0, 1, 2, 3,
4 čaše vina. Dobivate pet zavisnih skupina rezultata. Kontroliraju se individualne razlike (nema ih jer u različitim
mjerenjima sudjeluju isti ispitanici). Reducira se nesistematski varijabilitet. Povećava se snaga testa.
Zašto se ne može koristiti formula analize varijance za nezavisne skupine?
Zato jer je narušen jedan od preduvjeta: Neovisnost rezultata. Rezultati u mjerenoj varijabli nisu nezavisni jedan od
drugoga. Rezultati dobiveni u različitim eksperimentalnim uvjetima najvjerojatnije su međuovisni i povezani jer
dolaze od iste jedinice analize (istog ispitanika).
Preduvjet: sferičnost rezultata
S obzirom da je očekivano da će ponovljena mjerenja imati određen stupanj povezanosti, mora se pretpostaviti
podjednak stupanj povezanosti među ponovljenim mjerenjima (1.-2.; 2.-3. i 1.-3.).
Nešto stroži uvjet ("compound symmetry") zahtjeva da varijance skupina rezultata budu podjednake (isto kao
homogenost varijance kod ANOVA-e za nezavisne skupine) i da kovarijance parova zavisnih skupina rezultata budu
podjednake.
Iako ANOVA za zavisne rezultate nema preduvjet neovisnosti rezultata, javlja se novi preduvjet: SFERIČNOST
REZULTATA (ε - epsilon).
Taj preduvjet se testira samo ako imamo više od dva ponovljena mjerenja (više od dvije zavisne skupine rezultata)
Preduvjet sferičnosti sličan je preduvjetu homogenosti varijance u ANOVA-i za nezavisne skupine. Odnosi se na
homogenost varijance razlika među ponovljenim mjerenjima. Ako se izračunaju razlike između svakog para
ponovljenih mjerenja (1.-2.; 2.-3. i 1.-3.), varijance dobivenih razlika trebale bi biti podjednake.
Testiranje preduvjeta sferičnosti: Testira se Mauchley testom sferičnosti (značajan p ukazuje da je narušen
preduvjet sferičnosti). Test provjerava nul-hipotezu po kojoj su varijance razlika u rezultatima različitih ponovljenih
mjerenja homogene.
Ako preduvjet nije zadovoljen mogu se koristiti korekcije (ε-epsilon, Greenhouse-Geisser; Huynh-Feldt) ili
multivarijatni test (MANOVA, λ lamda). Multivarijatni test zahtjeva multivarijatnu normalnost distribucije
rezultata.
Takođe, ispitanici odabrani iz populacije po zakonu slučaja; rezultati različitih ispitanika (usporedba po
redovima) su nezavisni (rezultat ispitanika A na prvom mjerenju je nezavisan od rezultata ispitanika B na
prvom mjerenju).
Analiza varijance za zavisne uzorke
F omjer stavlja u omjer varijance ili prosječne sume kvadratnih odstupanja rezultata.
Veličina efekta
Za ANOVA-u s ponovljenim mjerenjima navodi se parcijalni eta-kvadrat (η2). Izračun:
Kod primjene multivarijatnog Wilks' lambda (Λ) koristi se multivarijatni eta-kvadrat. Izračun:
Variraju od 0 do 1.
Primjena jednosmjerne analize varijance za zavisne rezultate
Eksperimentalna, kvazieksperimentalna, terenska ("field studies") istraživanja i longitudinalna istraživanja.
Testira se jesu li aritmetičke sredine u zavisnoj varijabli podjednake na svim skupinama zavisnih rezultata
(ponovljenih mjerenja). Svaka skupina rezultata predstavlja jednu razinu faktora po kojem se razlikuju
eksperimentalni nivoi ili ponovljena mjerenja ("within subject factor").
LONGITUDINALNI NACRTI: isti ispitanici, isti instrumenti i metoda, različito vrijeme pribavljanja podataka
(efekt vremena, maturacije…)
EKSPERIMENTALNI NACRTI: isti ispitanici, isti instrumenti i metoda, sukcesivno uzimanje podataka pod
različitim eksperimentalnim uvjetima (uz rotaciju redoslijeda eksperimentalnih uvjeta). Efekt
eksperimentalne manipulacije.
Rjeđe: ekvivalentni parovi ili različiti instr. s istom metrikom mjerenog fenomena.
Varijable u bazi:
Za razliku od ANOVA-e za nezavisne skupine, u bazi ne postoji posebna nezavisna varijabla (faktor) koja određuje
razine ponovljenih mjerenja već samo veći broj zavisnih varijabli koje, svaka u svome stupcu, sadrže rezultate
zavisne mjere. Broj varijabli (stupaca) jednak je broju razina faktora po kojemu su mjerenja ponovljena:
U bazi postoje samo zavisne, kvantitativne, kontinuirane (intervalne ili omjerne) varijable od kojih svaka predstavlja
po jednu skupinu zavisnih rezultata ili razinu faktora po kojemu su mjerenja ponovljena.
Svaka jedinica analize (ispitanik) u retku baze ima navedeno onoliko podataka koliko ima ponovljenih mjerenja tj.
"zavisnih varijabli".
Interpretacija
S obzirom da su zadovoljeni svi preduvjeti za parametrijsku analizu (Mauchly W=0,79; Hi2(2, N=15)=3,09; p>0,05)*,
provedena je jednosmjerna analiza varijance za zavisne skupine rezultata kako bi se utvrdilo osjećaju li profesori
podjednak stupanj stresa kada su suočeni s različitim stresorima koji se odnose na interakciju sa studentima,
roditeljima i administracijom. Faktor po kojemu se razlikuju zavisne skupine rezultata bio je izvor stresa, a zavisna
varijabla bila je razina stresa povezana sa svakim od navedenih izvora.
Rezultati ANOVA-e ukazuju da postoji statistički značajan efekt izvora stresa na stupanj doživljenog stresa (F(2,
28)=6,03; p<0.01). Izvor stresa objašnjava znatan dio varijance stupnja stresa kojeg doživljavaju profesori (η2=0,30).
Ovi rezultati podržavaju hipotezu da profesori doživljavaju različiti stupanj stresa kada se suoče s različitim izvorima
stresa.
Usporedbom rezultata dobivenih za različite izvore stresa (uz Bonferroni metodu kontrole alpha pogreške) utvrđeno
je da profesori navode statistički značajno viši stupanj stresa uzrokovan administracijom (M=62,53; SD 18.04) u
odnosu na stupanj stresa uzrokovan studentima (M=49.60; SD=15.69) ili roditeljima (M=52.27; SD=14.84). Stupanj
stresa uzrokovan studentima i roditeljima ne razlikuje se statistički značajno.
*Preduvjeti su navedeni samo kao primjer navođenja Mauchly testa; ti se podaci ne moraju navesti ukoliko su preduvjeti
zadovoljeni.
Neparametrijska zamjena za ONEWAY ANOVA-u sa zavisnim skupinama: Friedman test
Ekstenzija Wilcoxson-ovog testa: ima istu logiku i preduvjete (Modul 1)
Zavisna varijabla mora biti barem na ordinalnom mjernom nivou.
Testira se nul-hipoteza po kojoj su medijani u populaciji jednaki za svaku razinu faktora koji dijeli rezultate na više
zavisnih skupina.
Preduvjeti za analizu
1. Neovisnost rezultata: Slučajan uzorak iz populacije
2. Distribucije rezultata razlika među parovima nivoa faktora moraju biti kontinuirane i simetrične. U
suprotnom test ne odražava samo razliku u medijanima, već i u oblicima distribucija.
3. Veličina uzorka: χ2 statistika za ovaj test tek je aproksimativna i povećava joj se točnost na većim uzorcima
(N>29)
Veličina efekta
Veličina efekta izražava se Kendall-ovim koeficijentom konkordance (Kendall W).
To je indeks snage povezanosti i varira od 0 do 1, pri čemu više vrijednosti ukazuju na veću povezanost.
Post-hoc usporedbe
Kako bi utvrdili koje grupe se statistički značajno razlikuju mogu se provesti Wilcoxon testovi za svaki par, uz
Bonferroni metodu kontrole alpha pogreške.
Interpretacija
Proveden je Friedman test kako bi se utvrdile razlike u medijanima doživljenog stresa profesora izloženih različitim
stresorima. Test je ukazao da postoje statistički značajne razlike u stupnju doživljenog stresa ( χ2(2, N=15)=13,66,
p<0,01), a Kendallov koeficijent konkordance (0,46) ukazuje na postojanje znatne povezanosti između izvora stresa i
stupnja doživljenog stresa.
Wilcoxonovim testom uz Bonferroni kontrolu alpha pogreške provedene su post-hoc analize usporedbe po parovima
za svaki par izvora stresa. Utvrđeno je da profesori navode statistički značajno viši stupanj stresa uzrokovan
administracijom (C=62; Q3-1=34) u odnosu na stupanj stresa uzrokovan studentima (C=45; Q3-1=18) ili roditeljima
(C=55; Q3-1=19). Stupanj stresa izazvan studentima i roditeljima ne razlikuje se statistički značajno.
o C=medijan; Q3-1=kvartilni raspon
Prosjeci, post-hoc usporedbe (označene slovima) i F omjeri u tablici
Prosjeci i post-hoc usporedbe (označene slovima) u tablici
Stupnjevi slobode
Jednosmjerna analiza varijance sa zavisnim uzorcima
df total = df wg + df bg
df total = N – 1 (broj rezultata)
df wg = N – k (k-broj grupa)
df bg = k - 1
3. NACRT S JEDNOM ZAVISNOM VARIJABLOM I VIŠE DISKONTINUIRANIH FAKTORA (FAKTORSKA ANOVA)
Mogući nacrti s faktorskom analizom varijance
Faktorske ANOVAe dijelimo na dvosmjerne, trosmjerne… ovisno o broju faktora čije efekte na zavisnu varijablu
sagledavamo.
Nezavisni faktorski nacrti: zavisna varijabla i dva ili više faktora koji dijele jedinice analize na nezavisne
skupine. Primjer dvosmjerne 2x3 ANOVAe: ukupna godišnja primanja zaposlenika različitog spola (2) i rase
(3).
Zavisni faktorski nacrti: ponovljena mjerenja na dva ili više faktora. Primjer dvosmjerne 2x4 ANOVAe:
mjera anksioznosti kao stanja i kao osobine (2) u četiri naleta (“waves” npr: “A four-wave longitudinal
study”). Zavisna varijabla je anksioznost.
Mješoviti nacrti: po nekim (jednom ili više) faktorima jedinice analize se dijele u nezavisne skupine, a po
drugim (jednom ili više) faktorima se razlikuju ponovljena mjerenja zavisne varijable. Primjer trosmjerne
3x3x2 ANOVAe: Porast plaće kroz tri godine (3) kod zaposlenika različite rase (3) i spola (2)
Efekti faktora i interakcija
Svaka faktorska ANOVA daje za interpretaciju rezultata važne informacije o:
1. GLAVNIM EFEKTIMA faktora kojih ima onoliko koliko ima faktora u modelu i
2. INTERAKCIJSKE EFEKTE – u dvosmjernoj axb ANOVAi postoji jedna dvosmjerna interakcija (AxB); u
trosmjernoj axbxc ANOVAi postoje tri dvosmjerne (AxB; AxC; i BxC) i jedna trosmjerna interakcija (AxBxC) –
malim slovima označen je broj nivoa faktora, a velikim slovima označeni su faktori.
Podsjetimo se: u eksperimentalnim nacrtima primjereno je govoriti o efektima faktora; u opservacijskim nacrtima
ispravno je govoriti o povezanostima faktora i ZV ili o prosječnim razlikama u ZV među grupama koje su određene
faktorom.
Složenost nacrta
Složeni nacrti mogu biti problematični zbog najmanje dva razloga:
1. INTERPRETACIJA: dvosmjerne interakcije su zahtjevne za interpretaciju, trosmjerne interakcije je teško
interpretirati, a složenije interakcije je još teže interpretirati
2. BROJ jedinica analize (ispitanika) po kombinacijama faktora (ćelijama) poželjno je da bude 30 ili veći. Kod
2x3 nacrta imamo 6 ćelija; kod 3x3x2 nacrta imamo 18 ćelija
Interpretacije
U punom modelu ANOVAe uključeni su istovremeno glavni efekti i interakcije.
GLAVNI EFEKTI:
Glavni efekti pojedinog faktora ukazuju na značajnost razlika u zavisnoj varijabli između grupa koje određuje upravo
taj faktor, uz kontrolu efekata svih ostalih faktora i interakcija (Sume kvadrata Tip III i više -> Tip IV do VI odnosi se
na nacrte s nedostajućim podacima i praznim ćelijama; kada ih nema rezultati su identični SS Tipu III).
Glavnim efektima pojedinog faktora testira se nul hipoteza da se grupe određene tim faktorom ne razlikuju
statistički značajno u prosječnim grupnim rezultatima na zavisnoj varijabli (uz istovremenu kontrolu efekata ostalih
faktora i interakcija.
Za interpretaciju glavnih efekata potrebno je izračunati aritmetičke sredine i standardne devijacije rezultata u ZV po
grupama i napraviti planirane usporedbe ili post-hoc testove.
INTERAKCIJSKI EFEKTI
Dvosmjernom interakcijom testira se nul-hipoteza da su efekti jednog faktora na zavisnu varijablu podjednaki na
svim razinama drugog faktora.
Ukoliko vam je osnovni zadatak utvrditi je li:
- povezanost između zavisne varijable A i faktora B ili
- efekt faktora B na zavisnu varijablu A
... podjednak na svim razinama faktora C
onda provjeravate je li faktor C moderator tj. moderira li efekte (ili povezanost) faktora A na ZV.
Ponekad (često?) istraživači nemaju tako fokusirano istraživačko pitanje i ne mogu odrediti koji je faktor moderator
(npr. u analizi efekata spola i rase na inteligenciju) . Tada je proizvoljno hoće li interpretacija ići u smislu efekata
faktora B na ZV na različitim razinama faktora C ili efekata faktora C na ZV na različitim razinama faktora B.
Nakon značajne interakcije najčešće se provjeravaju jednostavni glavni efekti ("simple main effects") tj. efekti faktora
A zasebno na svakoj razini faktora B (koji teorijski može biti određen kao moderator).
Crtanje interakcija u faktorskoj ANOVAi
Statistički značajne interakcije prikazuju se grafički i najlakše ih je interpretirati pregledom grafa (puno teže ih je
interpretirati iz aritmetičkih sredina grupa dobivenih kombinacijom faktora u interakciji).
Najlakše je provjeriti jesu li linije koje predstavljaju rezultate ispitanika na ZV paralelne (nema statistički
značajne interakcije) ili su pod kutom (ima statistički značajne interakcije).
Trosmjerne interakcije se mogu grafički prikazati samo pomoću više grafova (po jedan za svaku razinu trećeg
faktora; potrebno ujednačiti skalu na "y" osi) ili s više linija na istom grafu, pri čemu se svaka linija koja predstavlja
razinu drugog faktora crta posebno za svaku razinu trećeg faktora (drugi i treći faktor su uneseni u legendu).
Vrlo lako se može dogoditi da glavni efekti faktora ne budu statistički značajni, a da bude statistički značajna
samo interakcija. Tada bi interpretacija glavnih efekata, bez podatka o interakciji dovela do krivog zaključka.
Primjer neznačajnih glavnih efekata i značajne interakcije
Istraživači su na skali od 1 do 5 mjerili zadovoljstvo muškaraca i žena (faktor sa nezavisnim skupinama rezultata)
sudjelovanjem u kompetitivnom i kooperativnom grupnom zadatku (zavisni rezultati; primjer mješovitog nacrta).
Željeli su utvrditi postoje li spolne razlike u zadovoljstvu sudjelovanjem u grupnom zadatku i postoje li razlike u
zadovoljstvu sudjelovanjem u raznim tipovima zadatka
Zasebni testovi za nezavisne skupine utvrdili su da nema spolnih razlika u zadovoljstvu sudjelovanjem u zadacima
kada se ne uzima informacija o tipu zadatka (Mž=Mm=3).
Zasebni testovi za zavisne skupine rezultata utvrdili su da nema razlike u zadovoljstvu sudjelovanjem u različitim
tipovima zadatka, kada se ne uzima u obzir informacija o spolu ispitanika Mkomp = Mkoop = 3)
Kada se provjeri interakcija faktora spol i tip zadatka, tj. kada se zadovoljstvo ispitanika kompetitivnim i
kooperativnim zadatkom sagleda zasebno na poduzorcima ispitanika različitog spola, dobivaju se nove važne
informacije.
Ispitanici različitog spola ne preferiraju podjednako kompetitivni i kooperativni zadatak. Muškarci više vole
kompetitivni zadatak (5) u usporedbi s kooperativnim zadatkom (1), dok žene manje vole kompetitivni (1) u
usporedbi s kooperativnim zadatkom (5).
Primjer grafičkog prikaza interakcija i glavnih efekata
Neparametrijske zamjene
Faktorska analiza varijance nema standardnu neparametrijsku zamjenu, ali u slučaju da nisu zadovoljeni svi uvjeti za
faktorsku ANOVAu, glavni efekti (i jednostavni glavni efekti) mogu se provjeriti zasebnim neparametrijskim
testovima.
Odabir neparametrijskog testa ovisi o broju skupina i ponovljenih mjerenja koji se uspoređuju -> Moduli 1 i 2).
Dvije nezavisne skupine: Mann-Whitney
Više od dvije nezavisne skupine: Kruskal-Wallis
Dva ponovljena mjerenja: Wilcoxon
Više od dva ponovljena mjerenja: Friedman
Veličina efekta
Ukoliko se analiza varijance provodi u okviru općeg linearnog modela, dostupna je mjera veličine efekta zvana
parcijalni eta-kvadrat (η2).
Predstavlja proporciju varijance rezultata u zavisnoj varijabli koja je povezana s nezavisnom varijablom. Varira od 0
do 1. Interpretacija veličine efekta ovisi o području istraživanja.
Preduvjeti za analizu
1. Neovisnost rezultata: Slučajan uzorak iz populacije i rezultati u mjerenoj varijabli su nezavisni jedan od
drugoga. U suprotnom dobivaju se nepouzdane p vrijednosti.
2. Normalnost distribucije rezultata u zavisnoj varijabli za svaku populaciju jedinica analize definiranu
pojedinom razinom nezavisne varijable (faktora).
Ako preduvjet nije zadovoljen (posebice kod velikih asimetrija i platikurtičnosti) smanjena je snaga testa i p
koeficijent je nepouzdan. Veći uzorci smanjuju nepouzdanost p koeficijenta.
3. Homogenost varijance: varijance rezultata u zavisnoj varijabli trebale bi biti podjednake na svakoj razini
nezavisne varijable.
Ako preduvjet nije zadovoljen i ako skupine jedinica analize na svakoj od razina nezavisne varijable nisu podjednako
brojne p koeficijent je nepouzdan. Mogu se koristiti alternativni testovi (Browne-Forsythe, Welch, a za post-hoc:
Dunnett C ili T3, Games-Howel, Tamhane T2).
Nejednaki broj ispitanika po ćelijama (grupama)
Ako nemate nedostajuće podatke i broj ispitanika po grupama je podjednak, primjereno je koristiti SS Tip III.
U slučaju da nedostaju podaci za neke ispitanike ili da su neke ćelije potpuno prazne primjereno je koristiti SS tip IV
do VI (program Statistica preferira još uvijek nestandardan Tip IV)
U slučaju različitog broja ispitanika u grupama koje se dobivaju kombinacijom razina faktora (često u
opservacijskim-korelacijskim istraživanjima ili kombinacijama takvih istraživanja i eksperimenta: vidi Primjer 1)
također je primjereno koristiti SS Tip IV do VI.
U takvim situacijama (SS Tip IV do VI) treba pri interpretaciji koristiti ponderirane aritmetičke sredine ("weighted
means" ili "estimated marginal means")
Aritmetičke sredine se ponderiraju tako da se se aritmetička sredina ćelije pomnoži s frekvencijom rezultata u toj
ćeliji, a umnožak se podijeli s ukupnom frekvencijom rezultata u svim ćelijama (brojem jedinica analize tj.
ispitanika).
Interpretacija
S obzirom da su zadovoljeni svi preduvjeti za parametrijsku analizu provedena je faktorska (3x2) ANOVA kako bi
provjerili efekte različitih metoda poučavanja (kontrolna grupa; individualni rad; grupni rad) na promjenu u općem
školskom postignuću učenica i učenika.
Rezultati su ukazali na statistički značajan efekt metoda poučavanja (F(2,54)=17.81, p<0,01, parcijalni η2=0.40) na
promjenu u općem školskom postignuću. Učenici i učenice u skupini s intenzivnijim grupnim radom (M=0,473;
SD=0,249) imali su statistički značajno veći napredak od skupine s intenzivnijim individualnim radom M=0,253;
SD=0,178) i kontrolne skupine (M=0,135; SD=0,147). Skupina s intenzivnijim individualnim radom ne razlikuje se
značajno u napretku u usporedbi s kontrolnom skupinom. Razlike među grupama utvrđene su uz Bonferroni metodu
kontrole alpha pogreške.
Rezultati su pokazali da ne postoji statistički značajan efekt spola na promjenu u općem školskom postignuću
(F(1,54)=0.61, p>0,05, parcijalni η2=0.01), ali je utvrđena značajna interakcija metode i spola u njihovim efektima na
promjene postignuća (F(2,54)=10.54, p<0,01, parcijalni η2=0.28) .
S obzirom na značajnu interakciju odlučili smo provjeriti jednostavne efekte ("simple main efects") metode na
uspjeh, zasebno za svaku podskupinu učenika i učenica. S obzirom na testiranje dva jednostavna efekta postavili smo
graničnu alpha razinu na 0.025. Utvrđeno je da različite metode nemaju statistički značajan efekt na uspjeh za
podskupinu učenika (F(2,54)=2.50, p>0,05), ali imaju za podskupinu učenica (F(2,54)=25.86, p<0,01).
Post-hoc testovi razlika u uspjehu učenica koje su bile razvrstane u tri različite grupe prema metodi poučavanja uz
kontrolu alpha pogreške postavljanjem granične alpha razine na 0,008 (0,025/3) pokazali su da statistički značajno
veći napredak postižu učenice u grupi intenzivnijeg grupnog rada (M=0.64, SD=0,15), u usporedbi s učenicama u
grupi intenzivnijeg individualnog rada (M=0,17, SD=0,18) i u kontrolnoj grupi (M=0,11, SD=0,15), među kojima nije
utvrđena statistički značajna razlika.
Rezultati podržavaju hipotezu o spolu učenika kao moderatoru odnosa između metoda poučavanja i napretka u
prosječnom školskom uspjehu. Metoda intenzivnijeg grupnog rada dovodi do boljeg uspjeha samo kod učenica, ali ne
i kod učenika.
GENERAL LINEAR MODEL
Jednostavna multivarijatna forma GLMa
1. Multipla regresija: svi X-evi kontinuirani ili dihotomni, Y kontinuiran
2. ANOVA: svi Xevi diskontinuirani, Y kontinuiran
3. ANCOVA: neki X-evi kontinuirani, a neki diskontinuirani, Y kontinuiran
4. Diskriminantna analiza s dvije grupe: svi X-evi kontinuirani, Y dihotoman
5. Višesmjerna analiza frekvencija (Multiway frequency analysis): svi X-evi diskontinuirani, Y dihotoman (u
“logit” analizi)
6. Logistička regresijska analiza s 2 grupe: X-evi kontinuirani i/ili diskontinuirani, Y dihotoman 24
Puna multivarijatna forma GLMa
Karakteristika pune multivarijatne forme jeste veći broj varijabli i s lijeve i s desne strane jednadžbe.
Cilj je utvrditi maksimalnu moguću povezanost između dva skupa vatijabli.
Tada ne postoji jedan linearni kompozit, već više linearnih kompozita (najmanje po jedan sa svake strane jednadžbe:
jedan par linearnih kompozita). Također, ti linearni kompoziti nisu jedinstveni jer se varijable mogu na različiti
način ponderirati i kombinirati kako bi se dobila maksimalna korelacija među skupovima varijabli, pa se može
napraviti više parova linearnih kompozita koji se tjekom analize izdvajaju tako da svaki par objašnjava preostali dio
povezanosti među skupovima varijabli. Dakle parovi linearnih kompozita su međusobno ortogonalni
Tako punim multivarijatnim GLM-om možemo opisati ove analize:
I. Kanonička korelacija (u užem smislu): svi X-evi kontinuirani, svi Y-i kontinuirani
2. MANOVA: svi X-evi diskontinuirani, svi Y-i kontinuirani
3. MANCOVA. neki X-evi kontinuirani, a neki diskontinuirani. svi Y-i kontinuirani
4. Diskriminantna analiza: svi X-evi kontinuirani, svi Y-i diskontinuirani
5. Višesmjerna analiza frekvencija: svi X-evi diskontinuirani, Y diskontinuiran
6. Politomna logistička regresija: svi Xevi kontinuirani i/ili diskontinuirani, y diskontinuiran
REGRESIJSKA ANALIZA
- set statističkih postupaka kojima se procjenjuje odnos ZV i NV
Jednostavna regresijska analiza- prognoziranje rezultata u kriteriju na temelju poznatog rezultata u jednom
kontinuiranom prediktoru
Y= a+ bX + e
Multipla regresijska analiza ekstenzija je bivarijatne regresije u kojoj se kombinira više NV kako bi se predvidjela
vrijednost ZV, tj. prognoziranje rezultata u kriteriju na temelju poznatih rezultata u više prediktora
Y´= A + B1X1 + B2X2 + ... + BkXk + e
gdje je
Y' predviđeni rezultat ZV,
A je intercept ili konstanta (vrijednost Y kada su sve X vrijednosti 0),
X različite NV (kojih ima k broj),
B je koeficijent pridodan svakoj NV tijekom regresije, tj. promjena rezultata u ZV za jediničnu promjenu rezultata u
prediktoru (nagib pravca)
e – standardna pogreška
β – standardizirani regresijski koeficijent – promjena u terminima standardnih devijacija
Malo o koeficijentima...
Nestandardizirani regresijski koeficijent b
- promjena rezultata u ZV za jediničnu promjenu rezultata u prediktoru ( u metrici ZV)
- jedinična promjena u prediktorskoj indikator varijabli odražava razliku među grupama pa b predstavlja
razliku između aritmetičke sredine ZV za grupu označenu brojem 1 i grupu označenu brojem 0
- predznak pokazuje je li aritmetička sredina grupe označene brojem 1 veća (+) ili manja (-) od aritmetičke
sredine grupe označene nulom
- apsolutna vrijednost pokazuje kolika je razlika između aritmetičkih sredina
Standardizirani koeficijent β
- standardizirana promjena rezultata u ZV za standardiziranu promjenu rezultata u prediktoru (nije u
metrici ZV)
- kod bivarijatne regresije β je po apsolutnom broju i po predznaku jednaka Pearsonovoj r korelaciji
Cilj regresijske analize je izvesti set vrijednosti B za NV kojim će vrijednost Y biti što je moguće sličnija Y
vrijednostima dobivenim mjerenjem
Regresijski koeficijenti (npr. B) tako:
1. minimiziraju sumu kvadriranih derivacija između predviđenih i opaženih Y vrijednosti
2. optimiziraju korelaciju između predviđenih i opaženih Y vrijednosti
Za što sve nam služi regresijska analiza?
1. ispitivanje odnosa između ZV i nekoliko NV
2. ispitivanje odnosa između ZV i nekoliko NV, uz statističku kontrolu kovarijata
3. procjeniti koji set NV bolje predicira rezultat na ZV
- regresijska analiza može se provodit na kontinuiranim, ali i dihotomnim varijablama
- ANOVA je poseban slučaj regresijske analize u kojoj su glavni efekti i interakcije serije dihotomnih NV – možemo
provesti ANOVA-u u regresijskoj analizi, ali često ne i obrnuto – ANOVA zahtijeva diskretne kategorije (npr. niska,
srednja i visoka razina NV, ili dummy kodiranje 0,1), ako se kontinuirana varijabla „sreže“ u te kategorije često se
gube informacije, uz nejednak broj rezultata po ćelijama, dok se u regresijskoj analizi zadržava pun raspon
kontinuirane NV
Tako, regresijska odgovara na brojna statistička pitanja, kao što su stupanj povezanosti, važnost NV, dodavanje
NV, promjena NV, kontingencije između NV, usporedba seta NV, predikcija rezultata na ZV za članove novog
skupa te procjene parametara.
Ograničenja regresijske analize - Berry (1993), Fox (1991)
a) Teoretska pitanja
1. Regresijska analiza često otkriva odnos među varijablama, ali ne implicira da su ti odnosi kauzalni
2. Pitanje odabira varijabli u analizi, mjerenje istih – preporuka: koristiti NV koje su međusobno u niskim
korelacijama, ali su u visokoj korelaciji s kriterijem. Time je cilj regresijske analize utvrditi najmanji broj NV
potrebnih za predviđanje rezultata u ZV, pri čemu svaka NV predviđa odvojen i nezavisan dio varijabiliteta ZV
3. Regresijska analiza iznimno osjetljiva na kombinaciju varijabli koje su u nju uključenje, tj. je li određena NV važna
za rješenje regresijske analize, ovisi o setu NV
4. Regresijska analiza pretpostavlja da su NV mjerene bez pogreške, što je gotovo nemoguće u društvenim i
bihevioralnim znanostima
b) Praktična pitanja
1.Broj ispitanika s obzirom na broj NV (omjer ispitanika i NV)
Veličina uzorka ovisi o željenoj snazi, razini α- pogreške, broju prediktora i očekivanoj veličini efekta
Greenova (1991) jednostavna pravila:
1. za testiranje multiple korelacije: N ≥ 50 + 8m (pri čemu je m broj NV)
2. za testiranje individualnih prediktora : N ≥ 104 + m
pod uvjetom da je umjerena povezanost između NV i DV, da je α=0,05, a β=0,20
3. za testiranje i multiple korelacije i individualnih prediktora- izračunati oba N-a i odabrati veći
Ipak, veći broj ispitanika potreban je kada je ZV skewed, kada se očekuje mala veličina efekta ili kada se očekuje
znatna pogreška mjerenja u manje pouzdanim varijablama
ALI, ako imamo prevelik broj ispitanika, gotovo svaka multipla korelacija biti će značajna
4. kod stepwise regresijske analize, omjer ispitanika i NV mora biti 40:1
2. Izostanak multikolineranosti i singularnosti
- izračun regresijskih koeficijenata zahtijeva inverziju matrice korelacija između NV, koja je nemoguća ako su NV
singularne, te nestabilna ako su multikolinearne – to se može javiti ako su NV međusobno u visokim korelacijama
Koja je razlika između multikolinearnosti i singularnosti?
Multikolinearnost i singularnost su problemi u korealcijskoj matrici koji se događaju kada su varijable previsoko
koreliranje. Kod multikolinearnosti, varijable su previsoko korelirane (npr. iznad 0,9), kod singularnosti su varijable
redundantne – jedna od varijabli je kombinacija dvije ili više drugih varijabli
Znaci multikolinearnosti i singularnosti
- vrlo nizak Tolerance (koji se izračunava kao 1-SMC, a SMC su squared multiple correlations, ili kvadrirane multiple
korelacije među NV)
- u regresijskoj analizi, veoma visoke standardne pogreške regresijskih koeficijenata
Berry (1993): kada je r 0.9, standardne pogreške regresijskih koeficijenata poduplaju se, ali ako je prisutna
multikolinearnost, niti jedan od regresijskih koeficijenata neće biti značajan zbog visokih standardnih pogrešaka
Tolerance je vrijednost koja mjeri korelaciju između prediktora i varira od 0 do 1. Što je broj bliže 0, to je jača
veža između nje i ostalih varijabli.
VIF je alternativna mjera kolinearnosti, samo u suprotnom smjeru od Tolerancea- što je veći broj, to je jača
veza.
3.Normalnost, linearnost, homoscedascitet reziduala
Pregled Scatter dijagrama reziduala daje nam informacije o normalnosti, linearnosti i komoscedascitetu između
predviđenih rezultata na ZV i pogreške u predviđanju. Tj. dijagramom raspršenja rezultata možemo provjeriti
sljedeće preduvjete regresijske analize: normalnost, homoscedascitet, linearnost, ekstremne vrijednosti i
nezavisnost pogreške.
Pretpostavka analize je da su reziduali (razlika između opažnih i predviđenih vrijednosti ZV) normalno
distribuirani oko predviđenih vrijednosti ZV, da su u linearnom odnosu sa predviđenim vrijednostima na ZV, te da je
varijanca reziduala oko predviđenih vrijednosti na ZV ista za sve predviđene vrijednosti.
Što se događa sa Scatter dijagramima kada ti preduvjeti nisu zadovoljeni?
Heteroscedascitet –kada je raspršenje standardnih devijacija
reziduala oko predviđenih vrijednosti puno veće za najduži raspon
u odnosu na najuži raspon - Fox, (1991) kaže da je to oko 3 puta
4.Nezavisnost pogrešaka
Pretpostavka regresijske analize, koja se može testirati na temelju
analize reziduala je da su pogreške predviđanja nezavisne jedna od
druge. Testira se Durbin Watson testom.
Koeficijent determinacije
R- maksimalna moguća povezanost između kriterija i prediktora, jednaka je Pearsonovom koeficijentu korelacije
R²- koeficijent determinacije, proporcija objašnjene varijance
F,df, i p- testiraju značajnost R koeficijenta, tj. nul-hipotezu
- testira značajnost razlike između grupnih aritmetičkih sredina u ZV, tj. značajnost razlike između
aritmetičke sredine grupe 0 i grupe 1 u ZV
- u bivarijatnoj regresiji, F je identičan onome iz ANOVA-e
Kako možemo izračunati koeficijent determinacije (R²)?
Razlike između opažnih vrijednosti Zv (Y), srednja vrijednost Y i predviđena vrijednosti Y zbrajaju se i kvadiraju,
čime dobivamo procjenu varijacije koja se može pripisati različitim izvorima. Tako, ukupna suma kvadrata za Y može
se podijeliti u sumu kvadrata zbog regresije i sumu kvadrata reziduala, tj.
SSy= SSreg + SSres
Ukupna suma kvadrata za Y je:
SSy=Σ (Y-M)²
zapravo suma kvadiranih razlika između, za svakog ispitanika, opaženog rezultata Y i srednje vrijednosti Y dobivene
na temelju svih N ispitanika (M)
Suma kvadrata za regresiju je:
SSreg = Σ (Y' – M)²
zapravo dio varijacije u Y koja može biti objašnjena NV kao prediktorom, tj. suma kvadrata razlika između
predviđene vrijednosti Y' i srednje vrijednosti Y, jer je srednja vrijednost Y najbolji prediktor prave vrijednosti Y
kada nemamo korisnih nezavisnih varijabli.
Suma kvadrata reziduala:
Ssres= Σ (Y – Y')²
je zapravo suma kvadriranih razlika između opaženih (Y) i predviđenih vrijednosti (Y'), te predstavlja pogrešku u
predikciji.
Tako, kvadrirana multipla korelacija, iliti R² je
Tj. kvadrirana multipla korelacija je proporcija kvadrirane sume za regresiju u ukupnoj sumi kvadrata za Y. Ona je
proporcija varijacije u ZV koja se može objasniti najboljom linarnom kombinacijom nezavisnih varijabli, ili
prediktora, tj. ona je korelacija između opaženih i predviđenih Y vrijednosti
R= r yy'
Ali, koeficijent determinacije možemo izvesti i na temelju korelacija između svake od NV sa ZV. Kvadrirana multipla
korelacije je suma kroz sve NV koje su produkt korelacije između ZV i NV te standardiziranih regresijskih
koeficijenata za NV, tj.
∑
gdje je svaki ryi korelacija između ZV i NV, a βi je standardizirani regresijski koeficijent, ili beta ponder.
Standardizirani regresijski koeficijent je onaj koeficijen koji se primjeni na standardiziranu Xi vrijednost- tj. z-
rezultat od Xi vrijednosti- kako bi se predvidila standardizirana vrijednost u Y'.
Adjusted R²- uzima u obzir broj varijabli modela i broj ispitanika, stupnjeve slobode
- pošto je R često prenaglašen, koristi se korekcija koja odražava realniju sliku stanja u populaciji. R ne uzima
u obzir broj ispitanika, pa tako što je broj ispitanika manji, R je umjetno veći
Kako izračunati Adj. R²?
( )(
)
N – veličina uzorka
k- broj nezavisnih varijabli ili prediktora
R²- koeficijent determinacije
Pravac regresije
- određuje se na temelju najmanje sume kvadrata odstupanja pojedinačnih rezultata u varijabli Y od pravca
- prognozirana vrijednost nalazi se na pravcu
- rezidual: razlika između prognozirane vrijednosti i stvarne vrijednosti u varijabli
Kako izračunavamo pogrešku?
Tako da kvadriramo reziduale (a to smo napravili tako da od predviđene vrijednosti oduzmemo opaženu vrijednost),
podijelimo ih sa brojem ispitanika, i to sve korjenujemo.
PRIMJERI REGRESIJSKIH ANALIZA
1. LINEARNI MODELI S JEDNIM KONTINUIRANIM PREDIKTOROM
Problem: ispitati može li se predvidjeti cijena automobila na temelju njegove starosti.
a) Pearsonov koeficijent korelacije
b) Regresijska analiza
Koeficijent determinacije iznosi 0.937, što znači da je 93,7% varijance cijene objašnjeno godinama
- u ovom slučaju, R je jednak r
Cijena = 2916,942 – (27902,913)(Godine)
Rezulatati ukazuju da postoji statistički značajna povezanost između godina starosti auta i njegove cijene (R=0,97;
F(1,8)=118,53; p<0,01).
Problem: Ispitati može li se predvidjeti srčani ritm s obzirom na visinu tjelesne temperature
a) Pearsonov koeficijent korelacije : r = 0,25, p<0,01
b) Regresijska analiza
Rezultati ukazuju da postoji statistički značajna povezanost između tjelesne temperature i srčanog ritma (R=0,25;
F(1,128)=8,80 p<0,01)
Broj otkucaja u minuti = -88,10 + 4,40x tjelesna temperatura
Ukoliko bi varijable standardizirali – intercept bi nam bio nula
2. LINEARNI MODELI S VIŠE KONTINUIRANIH PREDIKTORA
Problem: ispitati može li se predvidjeti cijena automobila na temelju godina i broja kilometara?
Koristeći ENTER metodu, dobili smo statistički značajan model (F2,16=26.14, p<0.01. Adj R square= 0.74, značajan
prediktor su kilometri: beta=-0.59 , p<0.05).
TIPOVI REGRESIJSKIH ANALIZA
Hijerarhijska regresijska analiza
- istraživač bira red unosa, na temelju teorijskih pretpostavki najčešće, uglavnom se prvo uključuju oni prediktori čiji
je efekt poznat, nakon čega se dodaju novi
- služi testiraju eksplicitnih hipoteza
sr1² + r2² = R²
Statistička regresijska analiza
– redoslijed unošenja prediktora temelji se na statističkim kriterijima
- uspoređuju se dva prediktora i prediktori se unose redom po visini korelacije s kriterijem
1. Forward selection- inicijalni model sadrži samo b. Računalo odabire među ponuđenim prediktorima onaj koji
objašnjava najveći postotak varijance, odnosno onaj koji je u najvećoj korelaciji s kriterijem, te ga u analizu
zadržava ako je značajan. U daljnjim koracima uključuju se varijable koje imaju najvišu semiparcijalnu
korelaciju s ostatkom i zadržavaju se one značajnog doprinosa
2. Stepwise regression- uključuje nove prediktore po istom kriteriju, ali nakon unosa novog provjerava
korisnost prethodno uključenih prediktora, te ih izbacuje ukoliko su redundantni s naknadno uključenima
3. Backward deletion - uključuju se svi prediktori u prvom koraku, izračunava se značajnost njihova doprinosa,
značajnost se uspoređuje sa kriterijem odbacivanja i isključuju se prediktori koji ga ne zadovoljavaju te se
model ponovno procjenjuje
1. Standardna multipla regresija
2. Hijerarhijska regresija
3. Statistička regresija
Standardna regresijska analiza
- svi prediktori uneseni u analizu istodobno
- svaki prediktor se ispituje kao da je unesen u RA
nakon svih prediktora- svaki je procjenjen u
terminima koliko doprinosi predikciji kriterija
- svi se prediktori odjednom uključuju u model, suma
sr² nije jednaka R² ako su prediktori u korelaciji
- može se dogoditi da NV nije značajna u rješenju
regresijske analize, iako je visoko povezana s
kriterijem (ZV). Točnije, ako se te korelacija
pokrivena drugim NV, jedinstveni doprinost te NV je
često vrlo malen, usprkos značajnoj korelaciji s
kriterijem.
3. HIJERARHIJSKA REGRESIJSKA ANALIZA
Problem: Ispitati može li se predvidjeti osjećaj nekompetentnosti studenata pomoću varijabli neuroticizma,
samopoštovanja, straha od negativne evaluacije, osamljenosti, samopoštovanja i socijalne osjetljivosti.
Iako je modelom objašnjeno 48,6% varijance kriterija (R=0,486; F(7,345)=46,60; p<0,01), ovom metodom nije jasan
doprinos svakog pojedinog prediktora u objašnjenju varijance kriterija!
Problem: Ukoliko kontroliramo efekte neuroticizma i samopoštovanja mogu li ostale varijable prediktori značajno
doprinijeti objašnjenju kriterija?
KODIRANJE VARIJABLI U REGRESIJSKOJ ANALIZI
VRSTE KODIRANJA
1. Indikator (dummy) kodiranje
2. Efekt kodiranje
3. Ortogonalno kodiranje
- odabir vrste kodiranja NE mijenja R i F, ali mijenja b i interpretaciju rezultata!
EFEKT KODIRANJE
Referentna grupa je uvijek -1, druga grupa je 1, a ostale 0
Interpretacija
b- kod pojedine efekt varijable ukazuje na razliku između aritmetičke sredine ZV za grupu koja je u toj varijabli
označena brojem 1 i aritmetičke sredine ZV za sve ostale grupe (predznak- jeli ta aritmetička sredina veća ili manja
od one svih grupa)
t-test – testira je li razlika aritmetičke sredine koja na efekt varijabli ima vrijednost 1 i aritmetičke sredine svih
grupa statistički značajna – nakon što se izdvoji efekt ostalih prediktora na ZV (multivarijatna regresija)
Referentna grupa je u potpunosti izostavljena iz interpretacije!
INDIKATOR KODIRANJE
Nominalna varijabla, 2 nivoa
0- referentna skupina, s njom se uspoređuju rezultati grupe koja u toj indikator varijabli ima oznaku 1
- zbog interpretacije neophodno naglasiti koja je grupa 0, a koja 1
Kako odabrati referentnu skupinu?
a) kada imamo nominalnu varijablu na dva nivoa – svejedno nam je
b) kada imamo nominalnu varijablu sa više nivoa:
1. kontrolna grupa (eksperiment)
2. grupa s najvećim brojem ispitanika
3. grupa sa srednje velikom aritmetičkom sredinom
Koraci dummy kodiranja
1. Prebroji broj kategorija (k)
2. Od broja kategorija oduzmi 1 – dobio si broj dummy varijabli
3. Odaberi jednu grupu kao baseline – referentna grupa
4. Rekodiraj varijable
- dodijeli 0 referentnoj skupini u svim dummy varijablama
- u prvoj dummy varijabli dodijeli 1 prvoj grupi koju želiš uspoređivati sa referetnom (sve druge su 0)
- ponovi dok ne kodiraš sve dummy varijable
5. Provedi regresijsku analizu sa svim dummy varijablama!
4.PRIMJER REGRESIJSKE ANALIZE SA KODIRANIM VARIJABLAMA
Problem: Može li odabir glazbe (music affiliation) predvidjeti higijenu (change in hygiene) tijekom glazbenog
festivala?
ZV: Mjera higijene kroz tri dana festivala
NV : Glazbena afilijacija, na 4 nivoa (indie, metalci, crusty i bez afilijacije)
Modelom s tri dummy (indikator) varijable objasnili smo 7.6% ukupne varijance promjene u higijeni (R² = .076, F
(3,119) = 3.27, p < .05), odnosno 7.6% varijance promjene higijene može se objasniti glazbenim opredjeljenjem.
Kako interpretirati svaku dummy varijablu posebno?
Ako u RA uključimo sve tri dummy varijable u isto vrijeme, naša baseline kategorija je uvijek 0, što znači da
dobivamo 3 nove informacije:
1. Promjena u higijeni Crusty vs No affiliation
2. Promjena u higijeni Metaller vs No affiliation
3. Promjena u higijeni Indie Kid vs No affiliation
RAZLIKA U ARITMETIČKIM SREDINAMA IZMEĐU NAVEDENIH GRUPA!
Crusty – No affiliation = (-0.966) – (-0.554) = - 0.412
Metaller – No affiliation = (-0.526) – (-0.554) = 0.028
Indie Kid – No affiliatin = (-0.964) – (-0.554) = - 0.410
Promjena u higijeni Crusty vs No affiliation
U usporedbi sa osobama bez afilijacije, Crusty postaju sve smrdljiviji kroz tri dana festivala (B=-0.410, t=-2.46, p<0.05).
Promjena u higijeni Metaller vs No affiliation
U odnosu na osobe bez glazbene afiliijacije, kod Metallera nije došlo do promjene u higijeni (B=0.028, t=0.18, p>0.05).
Promjena u higijeni Indie Kid vs No affiliation
U usporedbi sa osobama bez afilijacije, Indie Kid postaju sve smrdljiviji kroz tri dana festivala (B=-0.410, t=-2.00,
p<0.05).
Problem: dovodi li uzimanje stimulanta do promjene u libidu?
ZV/KRITERIJ: Objektivna mjera libida
NV/PREDIKTOR: Doza stimulanta (količina)
1. Placebo grupa (sugar pill)
2. Niska doza Viagre
3. Visoka doza Viagre
Modelom sa dvije dummy (indikator) varijable objasnili smo 46% ukupne varijance libida (R² = .460, F (2,12) = 5.12,
p < .05), odnosno 46% varijance promjene libida može se objasniti količinom stimulansa.
Promjena u libidu Low dose vs Placebo
U usporedbi sa osobama u kontrolnoj skupini, osobe iz Low dose grupe imaju veći libido (B=1.00, t=1.13, p>0.05).
Promjena u libidu High dose vs Placebo
U odnosu na osobe iz kontrolne skupine, osobe iz High dose grupe imaju veći libido (B=2.80, t=3.16, p<0.01).
SUPRESOR VARIJABLE
Neke NV dobro prediciraju rezultat na ZV i povećavaju koeficijent determinacije na temelju njihove povezanosti sa
drugim NV. To se naziva supresorskim efektom, jer takva varijabla supresira (potiskuje) varijancu koja je irelevantna
u predikciji rezultata na ZV. Time je supresorska varijabla definirana ne vlastitom regresijskom težinom, već njenim
povećavanjem efekta drugih varijabli u setu NV.
Cohen i sur. (2003) Tipovi supresije
1. Klasična supresija
1 NV slabo predviđa rezultat na ZV, druga uopće ne predviđa rezultat na ZV, ALI druga služi kao supresor varijabla
jer otklanja varijancu, pa je predviđanje rezultata na ZV od strane prve NV povećano
2. Kooperativna ili recipročna supresija
Nezavisne varijable su pozitivno povezane sa ZV, a međusobno negativno povezane (ili obrnuto), ALI obje imaju veće
korelacije sa ZV kada je svaka NV prilagođena drugoj
3. Negativna supresija
Kada je znak regresijskog pondera suprotan od onog kojeg bi očekivali na temelju njegove korelacije sa ZV
Odnos beta koeficijenata i personove korelacije između ZV i prediktora mora biti sljedeći da bi mogli reći da
je došlo do supresije:
1. Pearsonova korelacija između NV i ZV je značajno manja od bete NV
2. Personova korelacija NV i ZV imaju različite predznake
ANCOVA MODELI
KONTROLA "TREĆE VARIJABLE" PRI RAČUNANJU EFEKTA DISKONTINUIRANE VARIJABLE (FAKTORA) NA
KONTINUIRANU VARIJABLU (ZV)
Svrha ANCOVAe
ANCOVA se koristi kada želimo utvrditi razlikuju li se aritmetičke sredine rezultata u zavisnoj varijabli dobivene od
različitih grupa jedinica analize (ispitanika), nakon kontrole kovarijata (ili: kada bi sve jedinice analize imale jednak
rezultat na kovarijatu; ili: nakon izdvajanja efekta kovarijata na zavisnu varijablu).
ANCOVA F testom testiraju se grupne razlike (faktor) aritmetičkih sredina zavisne varijable koje su prilagođene s
obzirom na grupne razlike u kovarijatu. Prilagođene aritmetičke sredine nazivaju se i: "adjusted means" ili "Least
squares means"
Koja je razlika u F-omjeru u ANOVA-i i ANCOVA-i?
ANCOVA F-testom testiraju se grupne razlike (faktor) aritmetičkih sredina ZV koje su prilagođene s obzirom na
grupne razlike u kovarijatu. Tj. F omjer u ANCOVI, za razliku od ANOVA-e koja u omjer stavlja varijance ili prosječne
sume kvadratnih odstupanja rezultata, stavlja prilagođene sume kvadratnih odstupanja, prilagođena prosječna
kvadratna odstupanja i prilagođene aritmetičke sredine grupa
Kako se "prilagođavaju" grupne aritmetičke sredine? Konceptualne osnove izračuna
U osnovi analize kovarijance je regresijska analiza kojom predviđamo rezultate zavisne varijable temeljem rezultata
kovarijata. Nakon toga se prilagođavaju rezultati u zavisnoj varijabli za (hipotetsku) situaciju u kojoj bi kovarijat bio
kontroliran (u kojoj se ispitanici ne bi razlikovali prema rezultatima u kovarijatu).
"Prilagodba" svakog pojedinačnog rezultata u zavisnoj varijabli:
(Y-Y')=(Y-MY)- βy,x(X-MX)
Prilagodba svakog pojedinačnog rezultata (Y-Y') utvrđuje se na sljedeći način: razlika rezultata konkretnog
ispitanika na kovarijatu i aritmetičke sredine svih rezultata na kovarijatu ponderira se s regresijskim koeficijentom
predviđanja zavisne varijable temeljem kovarijata βy,x(X-MX), a navedeni izraz se oduzme od razlike između
originalnog rezultata konkretnog ispitanika u zavisnoj varijabli i aritmetičke sredine svih rezultata u zavisnoj
varijabli (Y-MY).
Računaju se prilagođene sume kvadratnih odstupanja, prilagođena prosječna kvadratna odstupanja i prilagođene
aritmetičke sredine grupa (koje služe za interpretaciju glavnih efekata ANCOVAe).
Kovarijatom prilagođeni glavni efekt se računa ovako:
Stupnjevi slobode vezani uz SSbg su k-1; stupnjevi slobode vezani uz SSwg su N-k-c (k=broj nivoa faktora, c=broj
kovarijata, N=broj ispitanika)
Veličina efekta
Od primarnog interesa je parcijalni η2 za faktor, a ne kovarijat. Računa se:
bg=model; wg=greška
Zašto su izmislili ANCOVAu? Svrha kovarijata!
1. Reducirati varijabilitet rezultata unutar grupe (varijancu pogreške), što uglavnom u eksperimentima
omogućava točniju procjenu efekata NV (faktora). Tada se povećavaju F omjeri faktora (kovarijat je u
većoj mjeri povezan sa zavisnom varijablom nego s faktorima koji su najčešće razine eksperimentalne
manipulacije i definiraju grupe u koje su ispitanici razvrstani po zakonu slučaja).
2. Smanjiti mogućnost pogrešnih zaključaka u neeksperimentalnim nacrtima uslijed problema "treće
varijable" koja sistematski kovarira s razinama faktora i zavisnom varijablom. Tada možemo reći da se
analizom kovarijance pokušava utvrditi samostalan doprinos faktora objašnjenju zavisne varijable, uz
kontroliran utjecaj kovarijata. F omjeri faktora (glavni efekti) nakon uvođenja kovarijata mogu biti manji,
posebno u neeksperimentalnim nacrtima u kojima kovarijat kovarira i s faktorom i s kriterijem. Primjer: ZV
Inteligencija, NV Rasa i SES kao kovarijat (SES=socioekonomski status; SES se ne može modelirati kao
zajednički uzrok, ali može biti jedan od mogućih medijatora u odnosu između rase i inteligencije)
Korištenje analize kovarijance u neeksperimentalnim, opservacijskim nacrtima je teorijski i statistički diskutabilno.
Iako predstavlja pokušaj poboljšanja zaključaka, nije zamjena eksperimentu i ne omogućuje uzročno-posljedične
zaključke. Ne mogu se sa dovoljnom sigurnošću procijeniti prilagođene aritmetičke sredine. U opservacijskim
nacrtima preferiraju se regresijski modeli (nacrt s inteligencijom, rasom i SESom mnogi lakše prihvaćaju u kontekstu
regresijske analize s nominalnim i kontinuiranim prediktorima, iako su te analize u okviru GLMa matematički i
konceptualno identične ANCOVAi; pitanje eksperimentalnih i korelacijskih istraživačkih tradicija).
Neka (relativno) primjerena istraživačka pitanja
Eksperimentalna istraživanja s predtestom i slučajnim rasporedom ispitanika u različite nivoe faktora
(eksperimentalne i kontrolne skupine):
Svi ispitanici sudjeluju u pred-testu i potom se po zakonu slučaja (ili temeljem njihovih rezultata na pred-
testu) razvrstavaju u grupe (nivoi faktora). Primjenjuje se eksperimentalna manipulacija (po zakonu slučaja
može se odrediti koja grupa dobiva koju vrstu manipulacije) nakon koje svi ispitanici sudjeluju u post-testu
(koji može biti ista mjera kao pred-test, ali i bilo koja druga mjera).
Ukoliko su zadovoljeni preduvjeti ANCOVA test može uspješno prilagoditi rezultate zavisne varijable (post-
testa) temeljem rezultata kovarijata (pred-testa).
U neeksperimentalnim nacrtima ispitanici pripadaju različitim grupama (u koje nisu raspoređeni po zakonu slučaja
ili prema rezultatima na pred-testu), što otvara mogućnost da se grupe razlikuju i prema drugim varijablama koje su
povezane sa zavisnom varijablom, a ne samo po odlici po kojoj su razvrstani u grupe.
Čak i ako u nacrt uključimo kovarijat, nismo sigurni u doprinos drugih varijabli. S obzirom da u takve nacrte mogu
biti umiješani nekontrolirani čimbenici ("confounded designs") nije moguće doći do pouzdanih zaključaka o grupnim
razlikama i nakon korigiranja aritmetičkih sredina prema vrijednostima kovarijata. Rezultati ANCOVAe u takvim
nacrtima mogu navesti na pogrešne zaključke.
Preduvjeti, ograničenja i specifičnosti
1. Normalnost distribucije rezultata u zavisnoj varijabli za svaku razinu faktora i svaku specifičnu vrijednost
kovarijata.
2. Homogenost varijanci rezultata u zavisnoj varijabli za svaku razinu faktora i svaku specifičnu vrijednost
kovarijata.
3. Slučajan uzorak i nezavisnost rezultata dobivenih od različitih jedinica analize.
Kovarijat je linearno i u podjednakoj mjeri (nagib regresijske linije) povezan sa zavisnom varijablom na svim
razinama faktora: uvjet linearnosti i homogenosti nagiba regresijske linije (“homogeneity of. reg. slopes”).
Nakon unošenja kovarijata ne interpretiraju se klasične grupne aritmetičke sredine već aritmetičke sredine
prilagođene rezultatima kovarijata. Grupne aritmetičke sredine mijenjaju se nakon unošenja kovarijata koji može
smanjiti varijancu pogreške ili umanjiti problem sistematskog kovariranja "treće varijable" s zavisnom varijablom i
eksperimentalnim manipulacijama.
Zbog toga nakon unošenja kovarijata u nekim programima nisu dostupni klasični post hoc testovi razlika između
običnih aritmetičkih sredina (npr. SPSS-u je primjereno koristiti post-hoc dostupan u dodatnim opcijama: Bonferroni
ili liberalniji, ali snažniji Sidak).
S obzirom da se kovarijati uvode s ciljem utvrđivanja glavnih efekata faktora uz kontrolu kovarijata, efekti kovarijata
se često ne navode u interpretacijama, već samo prilagođeni glavni efekti, prilagođene aritmetičke sredine i
standardne devijacije.
Varijable u uobičajenoj ANCOVA analizi
1. Jedna zavisna (kriterijska) varijabla (kontinuirana, intervalna ili omjerna)
2. Jedna ili više nezavisnih (prediktorskih) varijabli koje možemo zvati i faktori i koje dijele jedinice analize na
dvije ili više podskupina (kvalitativna, nominalna)
3. Jedan ili više kovarijata čije efekte na zavisnu varijablu želimo kontrolirati prije testiranja efekata koje
nezavisne varijable (faktori) imaju na zavisnu varijablu (kontinuirana intervalna ili omjerna varijabla).
Kada se u eksperimentalnim istraživanjima unosi kovarijat u analizu, prije ili nakon NV? Zašto? Kada i u
kojim uvjetima se taj uvijet ne mora poštovati?
Kovarijat se unosu u analizu prije NV, kako bi kontrolirao njegov efekt na ZV, tj. da utvrdimo da su se promjene u ZV
dogovdile zbog variranja NV. Taj uvjet se ne mora poštivati kada su prirodne grupe ili kada se može napraviti
raspodjela ispitanika u skupine po slučaju.
Homogenost regresijskih nagiba - uvod u logiku moderatora
- Analizom moderatora provjerava se je li:
a) povezanost između varijable A i B ili
b) regresijski nagib prognoze rezultata varijable A prediktorom B ili
c) efekt faktora B na zavisnu varijablu A
... podjednak na svim razinama moderatorske varijable C
Moderatorski efekt najčešće se statistički testira interakcijom varijable B i C (B*C). Ukoliko interakcija nije značajna,
odgovor na prethodna pitanja je DA i prihvaćamo navedene nul-hipoteze. Ukoliko je interakcija značajna,
odbacujemo navedene nul-hipoteze. Za konkretno pitanje homogenosti regresijskih nagiba zaključili bi da regresijski
nagibi modela s A kriterijem i C kovarijatom nisu podjednaki na svim razinama faktora B te da navedeni preduvjet
ANCOVAe nije zadovoljen.
Interpretacija ANCOVA-e
Provedena je jednosmjerna analiza kovarijance (ANCOVA) kako bi utvrdili postoje li razlike u simptomima prehlade
između grupa ispitanika koje su uzimale različite količine C vitamina, nakon kontrole simptoma prehlade u
prethodnoj godini. Uzimanje C vitamina predstavljalo je nezavisnu varijablu s tri nivoa (placebo, mala i velika doza),
dok je zavisnu varijablu predstavljao broj dana sa simptomima prehlade u godini tretmana. Broj dana sa
simptomima prehlade u godini prije tretmana uzet je kao kovarijat.
Preliminarnom analizom provjerena je pretpostavka o homogenosti regresijskih nagiba i utvrđeno je da je
povezanost između kovarijata i zavisne varijable podjednaka na svim razinama nezavisne varijable (F(2,24)=1.47;
p>0.05; parcijalni η2=0.11)*.
Utvrđen je statistički značajan efekt doze C vitamina na broj dana prehlade nakon kontrole broja dana prehlade u
prošloj godini (F(2,26)=6.45; p<0.01). Postoji znatna povezanosti između uzimanja vitamina C i zavisne varijable, na
što ukazuje parcijalni η2 prema kojem uzimanje vitamina objašnjava 33% varijance zavisne varijable, držeći
konstantnim broj dana sa simptomima prehlade prije tretmana koji objašnjavaju znatan dio varijance zavisne
varijable (F(1,26)=14,53; p<0,01)*.
* Ovi podaci se ponekad ne navode (ekstremna ekonomičnost prikaza samo neophodnih rezultata u znanstvenim radovima) već se samo
konstatira da su preduvjeti zadovoljeni i da je kovarijat statistički značajno povezan sa ZV.
Post hoc usporedba (Bonferroni korekcija) aritmetičkih sredina broja dana sa simptomima prehlade, prilagođenih za
inicijalne razlike među ispitanicima u simptomima, ukazuje da je placebo grupa imala statistički značajno višu
aritmetičku sredinu (M=12.01; SE=1.12) od grupa s niskom (M=7.71; SE=1.12), i visokom dozom (M=6.67; SE=1.11)
koje su imale podjednake rezultate.
Neparametrijske zamjene
Kao i za većinu složenih statističkiha analiza, neparametrijske zamjene za ANCOVAu nisu lako dostupne u mnogim
statističkim programima. Neke mogućnosti iznosi Huitema, B. E. (1980).The analysis of covariance and alternatives.
New York: John Wiley.
Kada je kovarijat pred-test, analiza (i neparametrijska) može se provesti na razlici rezultata "post-test minus
pred-test", ali ANCOVA ima veću snagu od navedene procedure.
TEHNIKA BLOKIRANJA kao zamjena za ANCOVA-u
Kada su kovarijati (CV) mjereni na drugoj skali, dopuštene su i druge alternative : randomiziranje po blokovima i
blokiranje. Kod tehnike blokiranja predmeti su mjereni na CV i onda grupirani s obzirom na njihove rezultate (pr.
skupine visokog, srednjeg i niskog samopoštovanja na osnovu prijašnjih rezultata). Grupe subjekata (predmeta)
postaju nivoi, razine druge skale NV koja je prešla s razine prve NV u faktorski dizajn.
PRIMJER ANCOVA-e I REGRESIJSKE ANALIZE SA VIŠE KATEGORIJALNIH I KONTINUIRANIH PREDIKTORA
Problem: ispitati postoji li utjecaj konzumacije viagre na libido, uz kontrolu varijable parnterovog libida
Tests of Between-Subjects Effects
Dependent Variable: Libido
31,920a 3 10,640 3,500 ,030
76,069 1 76,069 25,020 ,000
15,076 1 15,076 4,959 ,035
25,185 2 12,593 4,142 ,027
79,047 26 3,040
683,000 30
110,967 29
SourceCorrected Model
Intercept
partner
dose
Error
Total
Corrected Total
Type III Sum
of Squares df Mean Square F Sig.
R Squared = ,288 (Adjusted R Squared = ,205)a.
Parameter Estimates
Dependent Variable: Libido
4,014 ,611 6,568 ,000 2,758 5,270
,416 ,187 2,227 ,035 ,032 ,800
-2,225 ,803 -2,771 ,010 -3,875 -,575
-,439 ,811 -,541 ,593 -2,107 1,228
0a . . . . .
ParameterIntercept
partner
[dose=1]
[dose=2]
[dose=3]
B Std. Error t Sig. Lower Bound Upper Bound
95% Confidence Interval
This parameter is set to zero because it is redundant.a.
ANCOVA je pokazala da postoji statistički značajan utjecaj partnerovog libida (kovarijata) na libido ispitanika
(F1,26=4,96, p<0,05).
Uz kontrolu efekata partnerovog libida, statistički je značajan utjecaj količine Viagre na libido ispitanika (F2,26=4,14,
p<0,05). Oni ispitanici koji su uzeli veliku dozu Viagre imaju statistički značajno veći libido od onih pod utjecajem
placeba (p<0,05), pritom kontrolirajući efekt partnerovog libida.
Pairwise Comparisons
Dependent Variable: Libido
-1,786 ,849 ,136 -3,959 ,388
-2,225* ,803 ,031 -4,279 -,171
1,786 ,849 ,136 -,388 3,959
-,439 ,811 1,000 -2,515 1,637
2,225* ,803 ,031 ,171 4,279
,439 ,811 1,000 -1,637 2,515
(J) Dose of Viagra
Low Dose
High Dose
Placebo
High Dose
Placebo
Low Dose
(I) Dose of Viagra
Placebo
Low Dose
High Dose
Mean
Difference
(I-J) Std. Error Sig.a
Lower Bound Upper Bound
95% Confidence Interval for
Differencea
Based on estimated marginal means
The mean difference is significant at the ,05 level.*.
Adjustment for multiple comparisons: Bonferroni.a.
Isti problem ispitan regresijskom analizom:
Model Summary
,246a ,061 ,027 1,929 ,061 1,809 1 28 ,189
,536b ,288 ,205 1,744 ,227 4,142 2 26 ,027
Model
1
2
R R Square
Adjusted
R Square
Std. Error of
the Estimate
R Square
Change F Change df1 df2 Sig. F Change
Change Statistics
Predictors: (Constant), Partner's Libidoa.
Predictors: (Constant), Partner's Libido, Dummy Variable 1 (Placebo vs. Low), Dummy Variable 2 (Placebo vs. High)b.
ANOVAc
6,734 1 6,734 1,809 ,189a
104,232 28 3,723
110,967 29
31,920 3 10,640 3,500 ,030b
79,047 26 3,040
110,967 29
Regression
Residual
Total
Regression
Residual
Total
Model
1
2
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Partner's Libidoa.
Predictors: (Constant), Partner's Libido, Dummy Variable 1 (Placebo vs. Low),
Dummy Variable 2 (Placebo vs. High)
b.
Dependent Variable: Libidoc.
Coefficientsa
3,657 ,634 5,764 ,000
,260 ,193 ,246 1,345 ,189
1,789 ,867 2,063 ,049
,416 ,187 ,395 2,227 ,035
1,786 ,849 ,411 2,102 ,045
2,225 ,803 ,573 2,771 ,010
(Constant)
Partner's Libido
(Constant)
Partner's Libido
Dummy Variable 1
(Placebo vs. Low)
Dummy Variable 2
(Placebo vs. High)
Model
1
2
B Std. Error
Unstandardized
Coefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: Libidoa.
Tests of Between-Subjects Effects
Dependent Variable: Libido
52,346a 5 10,469 4,286 ,006
53,542 1 53,542 21,921 ,000
36,558 2 18,279 7,484 ,003
17,182 1 17,182 7,035 ,014
20,427 2 10,213 4,181 ,028
58,621 24 2,443
683,000 30
110,967 29
Source
Corrected Model
Intercept
dose
partner
dose * partner
Error
Total
Corrected Total
Type I II Sum
of Squares df Mean Square F Sig.
R Squared = ,472 (Adjusted R Squared = ,362)a.
Problem: Ispitati kako se osobe osjećaju dan nakon pijanstva kada im se daju različiti napitci (coca-cola, voda i
energetsko piće), uz kontrolu koliko se osoba napila.
Isti problem kroz regresijsku analizu:
Tests of Between-Subjects Effects
Dependent Variable: How Well Does The Person Feel?
13,320a 3 4,440 11,068 ,001
145,006 1 145,006 361,456 ,000
11,187 1 11,187 27,886 ,000
3,464 2 1,732 4,318 ,041
4,413 11 ,401
477,000 15
17,733 14
Source
Corrected Model
Intercept
drunk
drink
Error
Total
Corrected Total
Type I II Sum
of Squares df Mean Square F Sig.
R Squared = ,751 (Adjusted R Squared = ,683)a.
Parameter Estimates
Dependent Variable: How Well Does The Person Feel?
7,116 ,377 18,861 ,000 6,286 7,947
-,548 ,104 -5,281 ,000 -,777 -,320
-,142 ,420 -,338 ,741 -1,065 ,781
,987 ,442 2,233 ,047 ,014 1,960
0a . . . . .
Parameter
Intercept
drunk
[drink=1,00]
[drink=2,00]
[drink=3,00]
B Std. Error t Sig. Lower Bound Upper Bound
95% Conf idence Interv al
This parameter is set to zero because it is redundant.a.
Model Summary
,746a ,556 ,522 ,77842 ,556 16,266 1 13 ,001
,867b ,751 ,683 ,63338 ,195 4,318 2 11 ,041
Model
1
2
R R Square
Adjusted
R Square
Std. Error of
the Estimate
R Square
Change F Change df 1 df 2 Sig. F Change
Change Statistics
Predictors: (Constant), How Drunk was the Person the Night Beforea.
Predictors: (Constant), How Drunk was the Person the Night Before, water vs. lucozade, water v s. colab.
Coefficientsa
7,114 ,440 16,151 ,000
-,465 ,115 -,746 -4,033 ,001
6,974 ,469 14,869 ,000
-,548 ,104 -,879 -5,281 ,000
,142 ,420 ,062 ,338 ,741
1,129 ,405 ,489 2,785 ,018
(Constant)
How Drunk was the
Person the Night Before
(Constant)
How Drunk was the
Person the Night Before
water vs. cola
water vs. lucozade
Model
1
2
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig.
Dependent Variable: How Well Does The Person Feel?a.
MODERACIJSKI EFEKTI
Općenito, moderator je kvalitativna ili kvantitativna varijabla koja utječe na smjer i/ili snagu odnosa između
nezavisne varijable ili prediktora te zavisne varijable ili kriterija. Unutar korelacijskih analiza, to je ona varijabla koja
mijenja inače nultu korelaciju između druge dvije varijable.
Razlike u mjerenju i testiranju moderatoskog efekta ovise o razinama mjerenja nezavisne varijable i
moderatorske varijable, te tako imamo ukupno 4 slučaja:
1. Moderator i NV su kategorijalne varijable
- najjednostavniji slučaj, efekt dihotomne NV varira u funkciji druge dihotomne varijable (moderatora)
- analiza: 2x2 ANOVA, ukoliko je interakcija značajna, govorimo o moderatorskom efektu
2. Moderator je kategorijalna varijabla, NV je kontinuirana
- npr. spol moderira odnos namjere na ponašanje, kako ispitujemo? koreliramo namjere sa ponašanjem za svaki spol
posebno i testiramo razliku
Ova korelacijska metoda ima nekoliko nedostataka:
a) Pretpostavlja da NV ima jednake varijance na svakom od nivoa moderatorske varijable
ALI ako se varijance razlikuju na nivoima moderatorske varijable, tada će za one nivoe moderatorske varijable koji
imaju manje varijance, korelacija NV sa ZV biti manja u odnosu na onu koju ćemo dobiti za one nivoe moderatorske
varijable koji imaju više varijance
b) Ako količina pogreške mjerenja u ZV varira u funkciji moderatora, tada će se korelacija između NV i ZV
razlikovati spuriozno.
Što nam govore ovi problemi?
Da na korelacije utječu promjene u varijanci. ALI pošto regresijski koeficijenti nisu pod utjecajem razlika u
varijancama NV niti pogreške mjerenja u ZV, moderatorski efekt mjerimo pomoću b koeficijenta (nestandardizirani
regresijski koeficijent)
Moderator = interakcijski efekt
- efekt jednog faktora na ZV može biti različit na različitim
nivoima drugog faktora
- efekt interakcije u ANOVA-i je moderator efekt sa
kategorijalnim varijablama
- treća vraijabla moderira vezu između varijabli X i Y
ukoliko je stupanj povezanosti X i Y pod utjecajem nivoa
varijable Z
- moderatorski efekti se uobičajeno koriste kada je barem
jedna varijabla kontinuirana
- moderacija implicira da se kauzalni odnos među dvjema
varijablama mijenja u funkciji moderatorske varijable
3. Moderator je kontinuirana, NV je kategorijalna varijabla
- kako bi mjerili ovaj moderatorski efekt, moramo a priori znati kako NV varira u funkciji moderatora
4. Moderator i NV su kontinuirane varijable
Poanta je da jednog od ovo dvoje dihotomiziramo, i onda dobijemo jedan od prethodno opisanih slučajeva.
Nastavljamo...
Kako smo rekli da je moderator interakcijski termin, kako bi u okviru regresijske analize ispitali moderacijski efekt,
jednostavno pomnožimo dvije NV!
Ali, onda su te dvije NV visoko povezane sa interakcijskim terminom – problem kolinearnosti. Kako bi ga izbjegli,
centiramo prediktore.
CENTRIRANJE PREDIKTORA
Centriranje se provodi tako da oduzmemo aritmetičku sredinu od svakog rezultata u varijabli.
Što se mijenja?
Aritmetička sredina centirane varijable tako postaje 0, centirana varijabla više nije visoko povezana s
interakcijskim terminom kojeg čini, interpretacija konstante: a postaje predviđeni rezultat u zavisnoj
varijabli kada su rezultati u prediktoru prosječni
Što se ne mijenja?
Metrijske karakteristike varijable, njena povezanost sa drugim varijablama, većina regresijskih koeficijenata.
Koja je razlika između centriranja i standardizacije?
Centriranje nije isto što i standardizacija (u z-vrijednosti, npr), jer se prilikom standardizacije osim aritmetičke
sredine, mijenja i standardna devijacija, čime se gubi izvorna metrika skale. Kod standardizacije, aritmetička sredina
varijable postaje 0, a standardna devijacija 1. Također, kod standardizacije nisu moguće kasnije interpretacije kao
„za jednu prikazanu reklamu, prodaja albuma povećala se toliko i toliko“
Kako centiranje smanjuje kolinearnost?
Prije centiranja, množitelj i umnožak su u linearnom odnosu. Nakon centriranja ostaju isti intervali, ali odnos između
množitelja i umnoška je izrazito nelinearan. Nakon centriranja koeficijent korelacije između množitelja i umnoška
postaje 0, ili se značajno smanji u odnosu na onaj prije centiranja, čime se izbjegava problem kolinearnosti.
Slika prikazuje tri idealizirana načina kako
moderator mijenja efekt NV na ZV
1. Efekt NV na ZV mijenja se linearno s
obzirom na moderator
- stalna, postepena promjena u efektu
NV na ZV kako se moderator mijenja
2. Kvadratna funkcija
3. Step funkcija – na nekom kritičnom
nivou moderatora, efekt NV na ZV
značajno se mijenja
PRIMJER MODERACIJE U REGRESIJSKOJ ANALIZI
Problem: Može li se želja sudionika za ponovnim susretom objasniti pomoću rječitosti sugovornika tijekom speed
datinga s obzirom na spol?
Y= 0.417 + 0.415*Xspol + 0.004*Xrječitost + (-0.017)*Xspol*Xrječitost
Provedena je hijerarhijska regresijska analiza s analizom glavnih efekata i interakcijom kako bi se utvrdilo može li se
želja za ponovnim susretom sa sugovornikom objasniti spolom (m=1,ž=0) i rječitošću sugovornika, te moderira li
spol sudionika vezu između rječitosti sugovornika i želje za ponovnim susretom. Prvi model objašnjava 23,2 % varijance želje za ponovnim susretom (R²=.23, F (2,47) = 7.10, p<0.01), a drugi model koji uključuje interakciju
40,8% (R²=0.41, F (1,46) = 13.65, p<0.01). Rezultati su pokazali da interakcijski termin statistički značajno
doprinosi objašnjenu varijance zavisne varijable povrh spola i broja riječi kao prediktora prisutnih u modelu glavnih
efekata (∆ R²=0,176, F (1,46) = 13,65, p<0,01). Prvi model pokazuje da je značajan glavni efekt spola (B=0,47,
t=7,62, p<0,01) i nema glavnog efekta rječitosti (B=,00, t=0,18, p>0,05). Drugi model pokazuje da nakon unošenja
interakcijskog termina i dalje postoji statistički značajan glavni efekt spola (B=0,42, t=3,72, p<0,01), pri čemu je iz
predznaka nestandardiziranog regresijskog koeficijanta vidljivo da muškarci (grupa s višim indikator kodom 1) u
usporedbi sa ženama (referentna grupa) iskazuju prosječno veću želju za ponovnim susretom. Nema glavnog efekta
rječitosti (B=0,00, t=1,94, p>0,05), ali postoji stat.značajna interakcija spola i rječitosti (B=-0,17, t=-3,69, p<0,01). To
potvrđuje pretpostavku o spolu kao moderatoru povezanosti između rječitosti sugovornika i želje za ponovnim
susretom. Negativan predznak interakcijskog efetka pokazuje da je regresijski koeficijent rječitosti kod muškaraca
niži ili negativniji nego kod žena. Kod muškaraca rječitost sugovornice statističi je značajno negativno povezana sa
željom za ponovnim susretom, dok je kod žena rječitost sugovornika statistički značajno pozitivno povezana sa
željom za ponovnim susretom što je vidljivo iz grafičkog prikaza u kojem nagib regresijske linije na poduzorku
muškarca ukazuje na negativnu a na poduzorku žena na pozitivnu povezanost. Rezultati su pokazali da interakcijski
termin statistički značajno doprinosi objašnjenu varijance zavisne varijable povrh spola i broja riječi kao prediktora
prisutnih u modelu glavnih efekata (∆ R²=0,176, , F (1,46) = 13,65, p<0,01).
Correlations
1 -,108 ,957**
,454 ,000
50 50 50
-,108 1 ,033
,454 ,818
50 50 50
,957** ,033 1
,000 ,818
50 50 50
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Spol ispitanika
Rjecitost partnera
rjecitost_spol
Spol
ispitanika
Rjecitost
partnera rjecitost_spol
Correlation is signif icant at the 0.01 level (2-tailed).**.
Model Summary
,482a ,232 ,199 ,38439 ,232 7,102 2 47 ,002
,639b ,408 ,369 ,34121 ,176 13,647 1 46 ,001
Model
1
2
R R Square
Adjusted
R Square
Std. Error of
the Estimate
R Square
Change F Change df 1 df 2 Sig. F Change
Change Statistics
Predictors: (Constant), Rjecitost partnera (centrirano), Spol ispitanikaa.
Predictors: (Constant), Rjecitost partnera (centrirano), Spol ispitanika, Interakcija Spol x Rjecitost (C)b.
Coefficientsa
,423 ,063 6,691 ,000
,469 ,125 ,484 3,762 ,000
,000 ,002 ,023 ,180 ,858
,417 ,056 7,423 ,000
,415 ,112 ,428 3,716 ,001
,004 ,002 ,252 1,940 ,059
-,017 ,005 -,484 -3,694 ,001
(Constant)
Spol ispitanika
Rjecitost partnera
(centrirano)
(Constant)
Spol ispitanika
Rjecitost partnera
(centrirano)
Interakcija Spol x
Rjecitost(C)
Model
1
2
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig.
Dependent Variable: Zelja za ponovnim susretoma.
Problem: Utječe li broj pročitanih knjiga na ocjenu i ovisi li taj odnos o prisustvu na nastavi?
Y(ocjena)=61,60 + 4,16*X1(knjige) +1,33*X2 (prisustvo)+ 0,74*X2*X2
MEDIJACIJSKI EFEKTI
Glavna ideja medijacije je da jedna varijabla posreduje odnosu između druge dvije varijable. Tj. postoje ukupno
3 puta djelovanja:
put a – između NV i medijatora
put b- između medijatora i ZV
put c- između NV i ZV – izravan efekt
i sljedeći efekti:
a*b = neizravni ili medijacijski efekt
a*b + c = ukupni efekt
Varijabla je medijator kada:
1. varijacije u nivoima NV značajno odgovaraju varijacijama u pretpostavljenom medijatoru (put a)
2. varijacije u medijatoru značajno odgovaraju varijacijama u ZV (put b)
3. kada su put a i put b kontrolirani, prethodno značajan odnos NV i ZV prestaje biti značajan
Ako je put c 0 nakon kontrole puta a i puta b, tada imamo jedan, dominantan medijator. Ali, ako put c nije 0,
govorimo o više faktora koji posreduju u tom odnosu.
Točnije...
1. imamo značajan efekt NV na ZV (c)
2. značajan efekt NV na medijatora (a)
3. značajan efekt medijatora na ZV (b)
4. kada kontroliramo medijatora, ako prethodno značajan odnos u potpunosti prestane biti značajan – potpuna
medijacija (c')
ali ako je i dalje značajan, ali smanjen – djelomična medijacija (c')
Kako testirati medijaciju?
Sobelovim testom značajnosti
(Ne) izravni efekt = β iz trećeg koraka
√( ) ( )
UVOD U MULTIVARIJATNE ANALIZE U UŽEM SMISLU
Rezultat = model + pogreška
Puna multivarijatna forma:
Kada s obje strane imamo više varijabli:
- Latentne varijable se zove varijate (kanoničke varijate) – izlučuje se jedna ili više varijati (para)
- svaki par varijati ima maksimalnu moguću korelaciju
- svaka je sljedeća varijata ortogonalna s prethodnom (kao u faktorskoj analizi)
Kada imamo diskontinuirane prediktore (NV) = MANOVA (multivarijatna anova)
Kada imamo diskontinuirani kriterij (ZV) = DISKRIMINANTNA ANALIZA
Tako punim multivarijatnim GLM-om možemo opisati ove analize:
1. Kanonička korelacija (u užem smislu): svi X-evi kontinuirani, svi Y-i kontinuirani
2. MANOVA: svi X-evi diskontinuirani, svi Y-i kontinuirani
3. MANCOVA. neki X-evi kontinuirani, a neki diskontinuirani. svi Y-i kontinuirani
4. Diskriminantna analiza: svi X-evi kontinuirani, svi Y-i diskontinuirani
5. Višesmjerna analiza frekvencija: svi X-evi diskontinuirani, Y diskontinuiran
6. Politomna logistička regresija: svi Xevi kontinuirani i/ili diskontinuirani, y diskontinuiran
KANONIČKA KORELACIJSKA ANALIZA
Osnovni cilj CCA jeste utvrditi maksimalnu moguću korelaciju (ili korelacije) između dva seta od dvije ili više
varijabli.
Varijable u setovima su kontinuirane, kvantitativne, najmanje intervalnog mjernog nivoa (postoje robusne
verzije CCA koje mogu uključivati i varijable s nižim mjernim nivoima)
Setovi se mogu i ne moraju odrediti kao prediktorski i kriterijski set
Usporedba CCA i MRA
Za razliku od CCA u multiploj regresijskoj analizi utvrđuje se maksimalna moguća korelacija između jednog
kriterija i dva ili više prediktora.
Posebnost CCA: u multiploj regresijskoj analizi postoji samo jedna diferencijalno ponderirana linearna
kombinacija prediktora (jedan faktor, jedna “latentna” varijabla) koja rezultira maksimalnom mogućom
korelacijom s kriterijem. U CCA postoji "k" mogućih načina za kombiniranje varijabli u oba skupa varijabli
(k=broj varijabli u manjem skupu) prije utvrđivanja povezanosti među skupovima varijabli.
Svaki način kombinacije varijabli u skupovima varijabli povezan je s određenim svojstvima koja su zajednička
varijablama u prvom i drugom skupu.
Usporedba CCA i FA
Iako CCA rezultira faktorima treba naglasiti da je tu analizu primjereno koristiti samo ako istraživač može sve
varijable podijeliti u dva logički razdvojena skupa varijabli i ukoliko ga interesira maksimalna moguća
povezanost među tim skupovima varijabli (ili latentni izvori povezanosti među skupovima varijabli).
Ti faktori su konstruirani s ciljem utvrđivanja latentnih izvora povezanosti između dva skupa varijabli i svali
faktor rezultira s dvije varijable koje predstavljaju faktorske bodove (sintetske varijable) za skup A i skup B
(koja dva rezultata proizašla iz dva skupa varijabli bi ispitanik imao na prvom faktoru kada bi se on mogao
izravno mjeriti). Za razliku od CCA, faktori iz FA rezultiraju s jednom sintetskom varijablom u kojoj su faktorski
bodovi (koji rezultat bi ispitanik imao na faktoru kada bi se on mogao izravno mjeriti).
Ukoliko se varijable ne mogu podijeliti u dva distinktivna skupa ili povezanost i latentni izvori povezanosti
među dva skupa varijabli nisu predmet istraživačkog interesa, može se napraviti faktorska analiza (FA) svih
varijabli radi utvrđivanja latentne strukture i izvora varijabiliteta svih varijabli
Zasebne faktorske analize napravljene na 1. i 2. skupu varijabli ne bi bile smislene jer se faktori ne bi formirali s
ciljem maksimizacije povezanosti među skupovima, pa se na taj način ne bi postigao cilj CCA.
Što su to ponderi, što faktori, a što latentne varijable
Cilj svake multivarijatne statističke analize jeste formirati određenu diferencijalno ponderiranu linearnu
kombinaciju manifestnih (mjerenih, opažanih) varijabli (različite analize -> različite DPLK s različitom
svrhom).
Mnoge statističke analize koriste pondere, ali ih nazivaju različitim imenima: beta ponderi, koeficijenti u
matrici obrasca, funkcijski koeficijenti
Također, sinonimi su i faktor ili funkcija ili jednadžba ili skup pondera
Latentne (sintetičke) varijable ili faktorski bodovi dobivaju se ponderiranjem manifestnih varijabli
(množenjem rezultata pojedinaca na manifestnim varijablama s odgovarajućim ponderima)
Primjer skupova varijabli i kombinacija povezanosti među varijablama
Skup A: Školske ocjene (1. HJK, 2. POV, 3. LIK, 4. GLAZB, 5. MAT, 6. FIZ, 7. KEM, 8. TJEL)
Skup B: Sklonost različitim slobodnim aktivnostima (1. Kino, 2. Kazalište, 3. Modeliranje, 4.
Astronomija, 5. Sport)
S ciljem maksimizacije povezanosti među skupovima formiraju se parovi linearnih kompozita koji
predstavljaju latentni konstrukt (faktor) koji je izvor povezanosti među varijablama u različitim skupovima:
Prvi par može odražavati humanističko-umjetničku orijentaciju i povezivati A1-4 i B1-2 varijable. Prvi
faktor ima visoka zasićenja na varijablama A1-4 i B1-2 i niska zasićenja na ostalim varijablama. Za razliku od PC
ili FA, taj faktor ne rezultira jednom sintetičkom varijablom: faktorskim bodovima na Faktoru1, već dvjema
sintetičkim varijablama koje možemo nazvati PRED1 i KRIT1 (ukoliko dva skupa označimo kao prediktorski i
kruiterijski; ili F1A i F1B). Pearsonova korelacija između te dvije varijable je prva kanonička korelacija.
Drugi par može odražavati prirodoslovnu orijentaciju i povezivati A5-7 i B3-4 varijable
Treći par može odražavati sportsku orijentaciju i povezivati A8 i B5 varijablu
Iako različitih parova linearnih kompozita varijabli (u svakom paru varijable A i B skupa su različito
ponderirane) može biti koliko i varijabli u manjem skupu, gotovo uvijek ima manje statistički značajnih parova
parova linearnih kompozita varijabli koji odražavaju latentna svojstva po kojima su varijable iz dva skupa
povezane (faktore).
Osnovni elementi CCA
Varijable: opažane mjere grupirane u dvije skupine varijabli među kojima utvrđujemo povezanost
Kanoničke varijate: diferencijalno ponderirane linearne kombinacije varijabli u skupinama (npr. zbroj svih A
varijabli s tim da su najviše ponderirane A1-4).
Par kanoničkih varijata: u svakoj skupini ima najmanje jedna kanonička varijata, a par bi bio npr: kanonička
varijata koja ima najviše pondere na varijablama A1-4 (niske na A5-8) i kanonička varijata koja ima najviše
pondere na varijablama B1-2 (niske na B3-5).
Može biti više statistički značajnih parova kanoničkih varijata (u našem primjeru bila bi tri značajna para)
CCA je najopćenitija forma svih multivarijatnih analiza
Većina multivarijatnih analiza je samo specifična vrsta CCA:
1. Multipla regresija je CCA u kojoj se skup varijabli (prediktora) povezuje s jednom varijablom
(kriterijem).
2. MANOVA i Diskriminantna analiza su CCA u kojima se jedna ili više nominalnih varijabli povezuje s više
kontinuiranih varijabli
3. Eksploratorne komponentne i faktorske analize pri identifikaciji faktora temelje se na postupcima CCA
Istraživačka pitanja, elementi analize i interpretacija
1. Broj značajnih parova kanoničkih varijata.
Pitanje: koliko je latentnih dimenzija koje povezuju varijable iz dva različita skupa varijabli.
Parovi kanoničkih varijata izdvajaju se sukcesivno tako da se svaki slijedeći par odnosi na povezanost koja nije
obuhvaćena prethodnim parom. Zbog toga su najčešće samo prvi ili prva dva para statistički značajni.
Svaki par kanoničkih varijata neovisan je od svih ostalih ekstrahiranih parova kanoničkih varijata (ortogonalna
ekstrakcija parova kanoničkih varijata)
2. Interpretacija kanoničkih varijata
Osnovno je pitanje kako možemo interpretirati dimenzije koje povezuju dva skupa varijabli s obzirom na
kombinaciju varijabli u jednoj i drugoj varijati para.
Interpretacija se vrši temeljem matrica korelacija između varijabli i kanoničkih varijata.
3. Značajnost kanoničkih varijata:
Može se utvrditi visinom korelacije među kanoničkim varijatama u paru ili
- visinom korelacija varijate i varijabli iz korespodentnog skupa varijabli (koliko varijance tog skupa varijabli
ekstrahira varijata) ili
- visinom korelacija varijate i varijabli iz suprotnog skupa varijabli (koliko varijance suprotnog skupa varijabli
ekstrahira varijata)
4. Statistička značajnost pojedinih kanoničkih korelacija među parovima kanoničkih varijata
Određuje se χ2 testom
5. Značajnost većeg broja kanoničkih korelacija
Kako bi odgovorili na pitanje razlikuje li se statistički značajno od nule set kanoničkih korelacija računa se
velika lambda (Λ) kao umnožak proporcija varijanci kanoničkih varijata koje se ne preklapaju (1-r2c).
Što je Λ veća, veća je i proporcija varijance koja nije objašnjena kanoničkim korelacijama i manja je vjerojatnost
da su kanoničke korelacije statistički značajno različite od nule.
Značajnost Λ se računa χ2 testom i distribucijom (ili F testom i F distribucijom) kojim se testira nul hipoteza da
dvije ili više kanoničke korelacije nisu statistički značajno različite od nule. Najčešće se značajan χ2 interpretira
u smislu da je barem prva kanonička korelacija statistički značajna.
6. Izračun bodova na kanoničkim varijatama
Pri izračunu bodova na kanoničkim varijatama osnovno je pitanje koje rezultate bi ispitanici imali na
kanoničkim varijatama iz oba skupa, kada bi se te varijate mogle izravno mjeriti
Ako su kanoničke varijate interpretabilne, ti bodovi se mogu koristiti kao zavisne ili nezavisne varijable u
drugim analizama.
Zašto CCA nije popularna?
1. Izrazito eksploratorna; nije metoda za testiranje hipoteza
2. Procedura maksimalizacije korelacije između skupova varijabli ne maksimalizira i mogućnost
interpretacije parova kanoničkih varijata. Rezultati su često neinterpretabilni. Za razliku od
komponentne i faktorske analize, rotacija kanoničkih varijata s ciljem povećanja
interpretabilnosti nije uobičajena u CCA, niti dostupna u mnogim statističkim programima.
3. Nije moguća kosokutna ekstrakcija parova kanoničkih varijata.
Trenutno ju je najbolje koristiti kao deskriptivnu metodu ili metodu za inicijalni pregled (screening) podataka.
Najveća korist od razumijevanja CCA jeste uvod u koncepte poput faktora i dimenzija i pružanje teorijskog
okvira ostalim multivarijatnim analizama.
Osnove izračuna CCA
Formiraju se četiri matrice korelacija (Rxx, Ryy, Rxy i Ryx) iz kojih se formira kanonička korelacijska matrica R.
Potom se izračunavaju eigen-vrijednosti i eigen-vektori kanoničke korelacijske matrice R za svaki par
kanoničkih varijata.
Izračun svih eigen-vrijednosti matrice uključuje proces redistribucije varijance u matrici u manji broj
kompozitnih varijata iz većeg broja manifestnih varijabli.
Uz svaku eigen-vrijednost vezan je eigen-vektor koji sadrži koeficijente (regresijske ili kanoničke koeficijente)
kojima se manifestne varijable kombiniraju u kompozitnu varijatu.
Eigen-vrijednost para kanoničkih varijata jednaka je kvadratu kanoničke korelacije tog para (λi=r2ci).
Kanonička korelacija para kanoničkih varijata interpretira se kao pearsonov koeficijent. Kada je kvadrirana
predstavlja zajedničku varijancu kanoničkih varijata, što se odnosi i na eigen-vrijednost.
Drugi par kanoničkih varijata računa se na rezidualima prvog para pa se kvadrat kanoničke korelacije drugog
para odnosi na proporciju varijance ekstrahirane od reziduala. Stoga proporcije zajedničke varijance prvog i
drugog para kanoničkih varijata nisu sumativne do 100%.
Konceptualni primjer CCA
MANOVA
- multivarijatni pristup, koji istovremeno uspoređuje više zavisnih varijabli
- temelji se na usporedbi dviju ili više zavisnih varijabli kroz više grupa (NV)
- ANOVA je poseban slučaj MANOVA-e, kada imamo samo jednu zavisnu varijablu
ANOVA testira jesu li razlike među grupama na jednoj ZV posljedicom slučaja, dok MANOVA testira jesu li
razlike među grupama na kombinaciji ZV posljedicom slučaja. U MANOVA-i, nova ZV koja maksimizira razlike
među grupama je kombinacija više ZV. Nova ZV je linearna kombinacija mjerenih ZV, tako kombinirana da
razlikuje grupe što je više moguće. ANOVA se zatim provodi na linearnoj kombinaciji (novoj ZV).
Zašto MANOVA umjesto ANOVA-e?
1. Što više testova provodimo na istom skupu podataka povećava se vjerojatnost α- pogreške
2. Pomoću MANOVA-e dobivamo više informacija, budući da uključuje sve ZV u istu analizu i u obzir
uzima i odnos među tim varijablama
3. MANOVA ima vodeću snagu otkrivanja nekog efekta – pomoću nje možemo odrediti razlikuju li se grupe
u kombinacijama različitih varijabli
MANOVA može, u nekim situacijama kada se razlike ne pojavljuju u ANOVA-i, otkriti iste. Na primjer, kada se
distribucije ZV preklapaju, moguće da u ANOVA-i nećemo dobiti značajnu razliku, koja će međutim, biti vidljiva
u MANOVA-i
Zašto ipak ne MANOVA?
1. značajno kompiliciranija analiza
2. nemogućnost interpretacije efekta pojedine NV na pojedinu ZV
3. čak i manja preklapanja ili korelacije među ZV mogu umanjiti snagu testa
Princip MANOVA-e
1. Provjerava koliko se krivulje u svakoj od grupa međusobno slažu- preklapaju (curve fit), zato je važno
da su vrijednosti u svakoj od NV i ZV raspoređene po normalnoj krivulji
2. Uspoređuje se omjer sistematskog i nesistamatskog varijabliteta za veći broj ZV
3. Za razliku od ANOVA-e, u MANOVA-i je svaka vrijednost koja se uspoređuje zapravo matrica
sastavljena od varijanci i kovarijanci
OPIS I OPĆA PRIMJENA ANALIZE
Varijable u analizi
1. Dvije ili više zavisnih (kriterijskih) varijabli (kontinuirane, intervalne ili omjerne)
2. Jedna ili više nezavisnih (prediktorskih) varijabli koje možemo zvati i faktori i koje dijele jedinice
analize na dvije ili više podskupina (kvalitativne, nominalne)
Opća primjena
MANOVA se koristi kada želimo utvrditi razlikuju li se aritmetičke sredine linearne kombinacije zavisnih
varijabli između različitih grupa jedinica analize (ispitanika).
Primjerena istraživačka pitanja
MANOVA testira multivarijatnu hipotezu da su aritmetičke sredine populacija dobivene na višestrukim
zavisnim varijablama jednake u svakoj grupi određenoj razinom faktora (nezavisne varijable).
Hipoteza se odnosi na linearne kombinacije zavisnih varijabli (aritmetičke sredine populacija dobivene na svim
mogućim linearnim kombinacijama zavisnih varijabli).
Preduvjeti, ograničenja i specifičnosti
Teorijska ograničenja
1. Kauzalnost
2. Odabir varijabli
3. Generalizacija
Praktična ograničenja
- za svaku razinu NV moramo imati više ispitanika – što je broj ispitanika manji ili nejednak u pojedinim
ćelijama, smanjuje se snaga testa
- što je veća apsolutna vrijednost korelacija među dvjema ZV – veća je snaga testa
1. Multivarijatno normalna distribucija zavisnih varijabli (ZV) za svaku populaciju definiranu razinama
nezavisne varijable (NZV).
- Zavisne varijable su multivarijatno normalno distribuirane ukoliko je svaka ZV normalno
distribuirana, neovisno o rezultatima drugih varijabli i ukoliko je svaka ZV normalno distribuirana za
svaku kombinaciju rezultata ostalih ZV. Taj uvjet se ne može testirati u mnogim statističkim
programima. Vrlo je rijetko zadovoljen.
Praktično: Ukoliko taj uvjet nije zadovoljen i ukoliko je uzorak malen “p” postaje nepouzdan. Snaga
testa znatno opada kod platikurtičnih i znatno asimetričnih distribucija
2.Homogenost matrica varijance-kovarijance (matrica raspršenja).
Varijance pojedinih zavisnih varijabli i kovarijance svih zavisnih varijabli moraju biti jednake na svim
nivoima nezavisne varijable (faktora).
- Testira se Box-ovim M testom koji testira značajnost razlika među matricama varijance-kovarijance i
preduvjet je zadovoljen ukoliko rezultat nije statistički značajan. Statistički značajan rezultat može biti
povezan i s nezadovoljenim uvjetom multivarijatne normalnosti distribucije. S druge strane, statistički
neznačajan rezultat može biti posljedica malog uzorka i male snage testa.
- Ukoliko je uvjet narušen, a grupe su podjednako velike Hotelling i Pillai koeficijenti su stabilni
("robust"). "P" postaje izrazito nepouzdan sa sve većim razlikama u veličini grupa i sa sve više zavisnih
varijabli. Ako veći uzorci imaju veće varijance i kovarijance p postaje konzervativan (pa se značajne
razlike mogu prihvatiti). U obratnoj situaciji p postaje liberalan (neznačajne razlike se mogu prihvatiti).
3.Linearnost
- MANOVA i MANCOVA pretpostavljaju linearan odnos među svim parovima ZV, svim parovima kovarijata i
svim ZV-kovarijat parovima u svakoj ćeliji
- ako ovaj uvjet nije zadovoljen, smanjuje se snaga testa, jer:
1. linearna kombinacija ZV ne maksimizira razliku među grupama za NV
2. kovarijati ne maksimiziraju prilagobu za pogrešku
4. Pouzdanost kovarijata
- u MANCOVI i ANCOVI, F test razlika među grupama snažniji je što su kovarijati pouzdaniji, a ako nisu,
povećava se vjerojatnost α i β pogreške
5. Izostanak multikolinearnosti i singularnosti
- kada su korelacije među ZV visoke, jedna ZV je nelinearna kombinacija drugih ZV – redundantna u
objašnjenju
Ostali uvjeti: Slučajan uzorak i nezavisnost rezultata dobivenih od različitih jedinica analize.
Konceptualne osnove izračuna
Osnova izračuna MANOVE je matrični račun. F-omjer u ANOVAi je omjer sistematskog varijabiliteta koji
proizlazi iz pripadnosti ispitanika određenoj grupi i nesistematskog varijabiliteta koji se odnosi na
interindividualne razlike. MANOVA stavlja u omjer matricu koja predstavlja sistematski varijabilitet svih
zavisnih varijabli (H) i nesistematski varijabilitet svih zavisnih varijabli (E).
H=Hipothesis ili model sum of squares and cross-products matrix (H-SSCP)
E=Error SSCP matrix
Računa se i matrica koja predstavlja ukupan varijabilitet za svaku zavisnu varijablu: T – total SSCP matrix
Nakon što podijelimo matrice sistematskog i nesistematskog varijabiliteta, opet dobivamo matricu.
Osnovno je pitanje: kako svesti matricu na jedinstveni broj?
Rješenje: Svođenjem zavisnih varijabli na zajednički faktor. Linearne kombinacije zavisnih varijabli zovu se
varijate, latentne varijable ili faktori koje su formirane tako da najbolje diskriminiraju grupe određene nivoima
nezavisne varijable. Zovu se i varijate diskriminantnih funkcija (ili DF) jer se temeljem njih predviđa grupna
pripadnost ispitanika.
Veći broj varijata uvijek predstavlja ortogonalne dimenzije (nezavisne su). Može ih biti koliko i zavisnih
varijabli ili broj grupa minus jedan (manja od navedenih vrijednosti)
Svaka varijata povezana je s jednim karakterističnim korijenom koji je konceptualno sličan F omjeru u ANOVAi.
Vrijednosti karakterističnih korijena uspoređuju se s vrijednostima koje bi dobili po zakonu slučaja.
Postoje četiri načina procjene te vrijednosti:
1. Pillai-Bartlett Trace (V);
2. Hotelling-Lawley trace (T2);
- kada postoji više od 1 stupnja slobode za svaki efekt , ima više od jednog načina za kombinaranje zavisnih
varijabli i odvojenih grupa, kada ima više od 1 stupanj slobode za svaki efekt Wilkosv' lambda, Hotelling T2 i
Pillai kriteriji izvače podatke iz različitih dimenzija kako bi ustanovili postoji li statistički značajan efekt
Hotelling T'2 je omjer dobiven/ujedinjen od omjera efekta varijance i pogreške varijance
3. Wilksov Lambda (Λ) – najpopularniji - umnožak neobjašnjenih varijanci svake varijate – zato je NIŽA
vrijednost statistički značajna;
4. Royev najveći korijen – predstavlja karakteristični korijen prve varijate - omjer objašnjene i
neobjašnjene varijance za prvu diskriminantnu funkciju – ima najveću snagu testa.
Veličina efekta
Veličina efekta vezana uz Wilks lambdu je:
S = broj zavisnih varijabli ili broj razina faktora umanjen za jedan (manja od navedenih vrijednosti) . Raspon od
0 do 1. Pokazuje kolika je proporcija multivarijatne varijance zavisnih varijabli povezana s nezavisnom
varijablom (faktorom)
Što ćemo dobiti kada provedemo MANOVA-u?
1. Box-M test- testira nul-hipotezu da su matrice varijanci i kovarijanci jednake u svim grupama na
multivarijatnoj razini – test homogenosti
2. Wilks` Lambda- daje informaciju postoje li značajne razlike među grupama u linearnoj kombinaciji ZV
na multivarijatnoj razini
- umnožak neobjašnjene varijance svih varijata (kombinacija ZV)
- predstavlja omjer varijance pogreške u ukupnoj varijanci za svaki varijat
3. partial η² - proporcija varijance objašnjene varijatima (veličina efekta)
Primjer jednosmjerne MANOVA-e
Jednosmjerna multivarijatna analiza varijance provedena je kako bi utvrdili efekt tri tipa strategija učenja
(razmišljanje, pisanje i poučavanje drugih) na dvije zavisne varijable koje su predstavljale ispitne rezultate na
testu dosjećanja i testu primjene naučenog.
Među grupama koje su koristile različite strategije učenja pronađene su statistički značajne razlike u zavisnim
varijablama (Wilks-ov Λ = 0.42, F(4,52)=7.03, p<0.01). Multivarijatni η2 zasnovan na Wilks Λ statistici ukazuje
na znatnu (0.35) povezanost strategija učenja i ispitnih rezultata.
Radi interpretacije rezultata multivarijatne MANOVAe provedene su jednosmjerne ANOVAe zasebno za svaku
zavisnu varijablu. Korištena je Bonferroni metoda korekcije za višestruka testiranja (značajne su razlike čiji je
SMV1
1
p<0.025). Utvrđene su statistički značajne grupne razlike na testu dosjećanja (F(2,27)=17.11, p<0.01, η2=0,56),
ali ne i na testu primjene naučenog (F(2,27)=4.20, p=0.026, η2=0,24).
Post hoc testovima uspoređeni su rezultati skupina na testu dosjećanja, a značajnim su se smatrale razlike čiji p
je bio manji od 0.025/3=0.008. Grupa koja je učila pisanjem pokazala je statistički značajno bolje rezultate na
testu dosjećanja, u usporedbi s ostalim grupama koje nisu imale statistički značajno različite rezultate.
Analize nakon značajne MANOVA-e
Značajna MANOVA mora se za potrebe interpretacije nastaviti:
1. Jednosmjernim ANOVAma uz post hoc korekciju za veći broj testova (treba imati na umu da su značajne
razlike identificirane MANOVAom možda dobivene samo na linearnim kombinacijama – zbog toga se
MANOVA smatra testom veće snage od univarijatnih ANOVA).
2. Teorijski formuliranim linearnim kombinacijama zavisnih varijabli.
3. Diskriminantnom analizom i empirijski determiniranim, nekoreliranim linearnim kombinacijama
zavisnih varijabli (faktori ili diskriminantne varijate) koje su formirane tako da se maksimiziraju razlike
među grupama (ili: koje su konstruirane s ciljem maksimalnog razlikovanja grupa). S obzirom da su
empirijski determinirane, te linearne kombinacije mogu biti teorijski neinterpretabilne.
MANCOVA
= multivarijatna ekstenzija ANCOVA-e
- ispituje postoji li statistički značajna razlika među grupama kada se prilagodi nova ZV za razlike na jednom ili
više kovarijata
MANCOVA se koristi kada i ANCOVA:
1. U eksperimentalnim istraživanjima – kao kontrola – kada je varijanca povezana sa kovarijatom/ima
uklonjena iz varijance pogreške
2. U neeksperimentalnim istraživanjima – MANCOVA omogućava statističko uparivanje grupa, kada
slučajan odabir nije moguć
PRIMJER MANOVA-e
Istraživačko pitanje: Koji su efekti kognitivno-bihevioralne terapije na OKP?
Varijable u bazi
NV
1. CBT – kognitivno-bihevioralna terapija
2. BT- bihevioralna terapija
3. NT – bez tretmana
ZV: radnje i misli
POSTUPAK
1. Računanje korelacija
2. Provođenje analize
a) Ubacimo ZV i NV – odredimo post-hoc (SNK) za grupe
b) pod Options: odredimo novu razinu značajnosti, pošto imamo dvije ZV, nova razina značajnosti je 0,025
3. Rezultati
a) preduvjeti
Testira nul – hipotezu da su matrice varijanci i kovarijanci jednake u sve tri grupe – TEST
HOMOGENOSTI!
Ukoliko test nije značajan, matrice varijanci i kovarijanci su homogene, stoga možem nastaviti s
testom.
Osjetljiv na veličinu uzorka i normalnost distribucije!
b) Multivarijatna razina
Postoji značajan efekt tipa terapije na simptome OKP-a ( =0,70, , = 0,16).
c) Univarijatna razina
Ako postoji pretpostavka o homogenosti varijance zavisnih varijabli, Levenov test ne bi trebao biti značajan.
Testira nul hipotezu da je varijanca pogreške jednaka među svim grupama!
d) Post-hoc
e) Interpretacija
Provedena je jednosmjerna MANOVA kako bi se saznalo postoje li efekti kognitivno – bihevioralne terapije na
simptome OKP – a (ponašanja i misli). Na multivarijatnoj razini postoji značajan efekt terapije na broj
opsesivnih misli i ponašanja (=0,70, =2,56, p=0,05, = 0,16). Međutim, na univarijatnoj razini ne postoji
značajan efekt vrste terapije na broj opsesivnih misli ( =2,15, p>0,05, = 0,14) i ponašanja ( =2,77,
p>0,05, = 0,17).
PRIMJER MANOVA-e
Istraživačko pitanje: Postoji li razlika među 8 faktora multiple inteligencije kod učenika srednje škole obzirom
na spol?
Varijable u analizi:
NV: spol (M/Ž)
ZV: Matematičko – logička inteligencija, Spacijalna , Tjelesno – kinetička, Muzička. Intrapersonalna,
Interpersonalna, Verbalna, Naturalna
a) Testiranje korelacija
b) Provjera deskriptivne statistike
c) Provedba analize
d) Provjera homogenosti
e) Multivarijatna razina
Na multivarijatnoj razini postoji značajan efekt spola na različite faktore multiple inteligencije (= 0,82,
= 0,18).
f) Homogenost varijanci na univarijatnoj razini
g) Univarijatna razina
Na univarijatnoj razini postoji značajan efekt spola na interpersoalnu ( ) ,
verbalnu ( = 9,46, p< 0,01, 0,05) i naturalističku inteligenciju ( 0.06).
h) Smjer razlike
Interpretacija
Provedena je jednosmjerna MANOVA kako bi se utvrdilo postoji li razlika u 8 faktora multiple inteligencije kod
učenika srednje škole obzirom na spol.
Na multivarijatnoj razini, rezultati su pokazali da postoji značajan efekt spola na neke različite faktore multiple
inteligencije (= 0,82, = 0,18).
Na univarijatnoj razini postoji značajan efekt spola na interpersoalnu ( ) ,
verbalnu ( = 9,46, p< 0,01, 0,05) i naturalističku inteligenciju ( 0.06).
Žene (Mž =
DISKRIMINANTNA ANALIZA
Opis i opća primjena analize
Disktiminantna analiza (DA) može se opisati kao "obrnuta MANOVA".
U MANOVAi pitali smo se razlikuju li se grupe na nizu zavisnih varijabli (ZV) tj. postoje li linearne kombinacije
ZV koje maksimiziraju razlike među grupama i na kojima bi se grupe mogle statistički značajno razlikovati.
Ukoliko postoje, onda zavisne varijable iz MANOVAe možemo iskoristiti za uspješno predviđanje grupne
pripadnosti ispitanika.
To su matematički isti postupci s različitom svrhom analize: DA utvrđuje kako se grupe razlikuju, a ne samo
postoje li linearne kombinacije ZV na kojima se grupe razlikuju.
Osnovni cilj analize je otkriti i interpretirati linearne kombinacije kvantitativnih prediktora (diskriminantne
funkcije) koje na različite načine objašnjavaju razlike među grupama. Zbog toga se DA često koristi za
interpretaciju rezultata MANOVAe
Može se koristiti i kao samostalna tehnika u nacrtima čiji cilj nije utvrditi razlikuju li se grupe statistički
značajno na zavisnim varijablama, već mogu li se ispitanici ispravno klasificirati u grupe temeljem rezultata na
većem broju kontinuiranih varijabli i može li se predvidjeti grupna pripadnost ispitanika (i s kojom točnošću)
temeljem dvije i više kontinuiranih varijabli.
Zbog navedenog, oznake varijabli u DA su upravo suprotne onima u MANOVAi: Kontinuirane varijable koje smo
u MANOVAi zvali zavisnim sada zovemo nezavisnim ili prediktorima. Varijablu po kojoj se ispitanici dijele u
grupe i koju smo u MANOVAi zvali nezavisna varijabla ili faktor, u DA zovemo zavisna ili kriterijska varijabla
koja opisuje stvarnu pripadnost ispitanika grupi.
1. Varijabla koja određuje grupnu pripadnost ispitanika (zavisna varijabla ili kriterijska varijabla;
diskontinuirana, nominalna).
2. Dvije ili više kontinuiranih varijabli (nezavisnih varijabli ili prediktora; kontinuiranih, intervalnih ili
omjernih) temeljem kojih se grupe pokušavaju razlikovati ili temeljem kojih se vrši statistička
klasifikacija ispitanika u grupe (koja se potom može usporediti sa stvarnom pripadnošću ispitanika
grupama).
Primjena
1. Predikcija grupne pripadnosti ispitanika temeljem većeg broja kvantitativnih prediktora ili
2. Interpretacija značajne MANOVAe
Točnost klasifikacije ispitanika u grupe
DA se može upotrijebiti kao odgovor na pitanje s kolikom točnošću se ispitanici mogu klasificirati u grupe
temeljem niza kvantitativnih prediktora.
Kvantitativni prediktori se svode na linearne kombinacije (nazvane Fisherovim linearnin diskriminantnim
funkcijama ili klasifikacijskim funkcijama) s ciljem predviđanja grupne pripadnosti ispitanika, definirane
grupirajućom varijablom (kriterijem).
Preciznost klasifikacije određuje se izračunom postotka ispravno klasificiranih ispitanika u grupe temeljem
klasifikacijskih funkcija. Može se napraviti korekcija za ispravne klasifikacije po zakonu slučaja korištenjem
"kappa" koeficjenta koji također procjenjuje postotak ispravnih klasifikacija korigiran za podudaranja po
zakonu slučaja ("chance agreements").
Ovaj postupak razlikuje se od postupaka klasifikacije poput klaster analize kojoj je cilj formirati grupe. Treba
imati na umu da u DA svaki ispitanik već prije analize nosi informaciju o njegovoj stvarnoj pripadnosti
određenoj grupi.
Ovaj postupak je po cilju vrlo sličan logističkoj ili multinominalnoj logističkoj regresijskoj analizi koje se češće
se koriste za ovakva pitanja jer ima manje ograničenja i preduvjeta.
OSNOVNI TIPOVI DISKRIMINANTNE ANALIZE
1. Standardna (direktna, izravna) diskriminantna analiza: svi prediktori su uneseni u jednadžbu
istovremeno i svaki prediktor je na jedinstven način povezan sa zavisnom varijablom. Test je identičan
MANOVAi u kojoj se kombiniraju sve zavisne varijable.
2. Hijerarhijska (sekvencijalna) diskriminantna analiza: procjenjuje doprinos prediktora predikciji
grupne pripadnosti redoslijedom kojeg odredi istraživač. Dodavanjem u model novih prediktora
procjenjuje se napredak u klasifikaciji ispitanika, relativan napretku ostvarenom temeljem prije
dodanih prediktora. Ako se ranije uneseni prediktori smatraju kovarijatima, a kasnije uneseni
prediktori faktorima analiza korespondira MANCOVAi.
3. Stepwise (eksploratorna; u koracima) diskriminantna analiza: koristi se kada istraživač nema
teorijske osnove za redoslijed kojim će se prediktori unositi u model. Koriste se statistički kriteriji
(različiti, odabire ih korisnik) odabira značajnih prediktora. Istraživač želi empirijski reducirati broj
prediktorskih varijabli. Slična "Stepwise" metodama u regresijskoj analizi.
PREDUVJETI, OGRANIČENJA, SPECIFIČNOSTI
Preduvjeti su isti kao za MANOVAu (oprez: drugačiji nazivi varijabli).
1.Multivarijatno normalna distribucija kvantitativnih varijabli (nezavisne, prediktori) za svaku
populaciju definiranu razinama grupirajuće varijable (zavisne, kriterij).
Kvantitativne varijable su multivarijatno normalno distribuirane ukoliko je svaka normalno distribuirana,
neovisno o rezultatima drugih varijabli i ukoliko je svaka normalno distribuirana za svaku kombinaciju
rezultata drugih varijabli. Taj uvjet se ne može testirati u mnogim statističkim programima. Vrlo je rijetko
zadovoljen.
Praktično: Ukoliko taj uvjet nije zadovoljen i ukoliko je uzorak malen “p” postaje nepouzdan. Snaga
testa znatno opada kod platikurtičnih i znatno asimetričnih distribucija
2. Homogenost matrica varijance-kovarijance (matrica raspršenja). Varijance pojedinih zavisnih
varijabli i kovarijance svih zavisnih varijabli moraju biti jednake na svim nivoima nezavisne varijable
(faktora).
Testira se Box-ovim M testom koji testira značajnost razlika među matricama varijance-kovarijance i preduvjet
je zadovoljen ukoliko rezultat nije statistički značajan. Statistički značajan rezultat može biti povezan i s
nezadovoljenim uvjetom multivarijatne normalnosti distribucije. S druge strane, statistički neznačajan rezultat
može biti posljedica malog uzorka i male snage testa.
Ostali uvjeti: Slučajan uzorak i nezavisnost rezultata dobivenih od različitih jedinica analize.
KONCEPTUALNE OSNOVE IZRAČUNA
Diskriminantnom analizom kreiramo jednu ili više linearnih kombinacija kvantitativnih prediktora koje
nazivamo diskriminantnim funkcijama (DiF).
Prva diskriminantna funkcija ekstrahira se na način da maksimizira grupne razlike na toj funkciji. Druga DiF
ekstrahira se na isti način, ali uz dodatno ograničenje: ne smije korelirati s prvom DiF. Sve naredne DiF
ekstrahiraju se na isti način uz uvjet da ne koreliraju s prethodno ekstrahiranim DiF.
Tako dobivene DiF nazivaju se još i sukcesivne kanoničke varijate (vidi kasnije izračun koeficijenata DiF).
Broj mogućih DiF je broj grupa umanjen za 1 ili broj kvantitativnih prediktora (manji od dva navedena broja).
DiF I REGRESIJSKA JEDNADŽBA
Diskriminantne funkcije mogu se opisati regresijskim jednadžbama
Možemo predvidjeti rezultat ispitanika na DiF temeljem sume prediktora ponderiranih koeficijentima DiF koji
se utvrđuju kao koeficijenti kanoničkih varijata.
Za svaku DiF postoji različiti set koeficijenata diskriminantnih funkcija (koeficijenata kanoničkih varijata).
Formula za standardizirani rezultat ispitanika na DiF: Di=di1z1+di2z2+...+dinzn
Koeficijenti "d" mogu biti standardizirani, ali i nestandardizirani, pri čemu se množe s nestandardiziranim
rezultatima.
KOEFICIJENTI DiF
U osnovi DA je utvrđivanje kanoničkih korelacija između skupa kontinuiranih, prediktorskih varijabli i varijable
kojom su ispitanici klasificirani u grupe.
Koeficijenti di utvrđuju se s ciljem maksimizacije razlika između grupa (SSbg) u odnosu na razlike unutar grupa
(SSwg)
ELEMENTI INTERPRETACIJE
Karakteristični korijen svake DiF ukazuje koliko dobro ta funkcija razlikuje grupe ispitanika. Što je veći, grupe
se bolje mogu razlikovati. Najveći je za prvu DiF i opada sa svakom slijedećom ekstrahiranom DiF.
Predstavlja omjer SSbg i SSwg računat kao u ANOVAi u kojoj je grupirajuća varijabla faktor, a DiF zavisna
varijabla.
Može biti bilo koji broj veći ili jednak nuli, stoga je teško interpretabilan.
Interpretabilnija mjera veličine efekta je omjer SSbg i ukupne sume kvadrata (SStotal) koja se iz karakterističnog
korijena računa ovako:
λ/(1+λ)
Navedena mjera može se interpretirati kao Rc2 i lako se interpretira kao veličina efekta. Kvadratni korijen
navedene mjere je koeficijent kanoničke korelacije Rc.
Također, može se za svaku DiF navesti postotak varijance koji ukazuje snagu predikcije te DiF u odnosu na
sve preostale DiF (koliko varijabiliteta rezultata između grupa objašnjava konkretna DiF). Računa se
dijeljenjem λ konkretne DiF sa sumom svih λ (od te proporcije postotak se dobiva množenjem sa 100)
Na svim ispitanicima, bez obzira na grupnu pripadnost, aritmetička sredina svake DiF sa standardiziranim
rezultatima je 0, a standardna devijacija 1.
Aritmetičke sredine grupa različite su od nule i predstavljaju udaljenost grupe od nulte aritmetičke sredine DiF
izražene u jedinicama standardne devijacije i tipično se zovu centroidi u reduciranom prostoru (reduciranom
sa n prediktora na jednu dimenziju, tj. DiF)
CENTROIDI
Zbog načina izračuna najveću diskriminacijsku snagu imaju prve diskriminantne funkcije (najčešće jedna do
dvije).
Ne interpretiraju se sve diskriminantne funkcije već samo one koje zadovolje različite kriterije (temeljem
karakterističnog korijena, kanoničke korelacije, postotka objašnjene varijance - koliko varijabiliteta rezultata
između grupa objašnjava DiF)
ZNAČAJNOST SUKCESIVNIH DISKRIMINANTNIH FUNKCIJA
Razina značajnosti DiF provjerava se χ2 testom
INTERPRETACIJA DISKRIMINANTNE ANALIZE
S obzirom da je cilj DA otkriti i interpretirati linearne kombinacije kvantitativnih prediktora (diskriminantne
funkcije) koje na različite načine objašnjavaju razlike među grupama, interpretacija uključuje tri analize:
1. Koliko je DiF statistički značajno
2. Dif dobiva oznaku (“ime”) analizom korelacija prediktora i DiF i analizom standardiziranih koeficijenata
DiF (interpretabilnost DiF ili substancijalne osnove empirijski deriviranih DiF).
3. Uz to se gledaju i prosječni grupni rezultati na značajnim DiF (analiza centroida). Centroidi pokazuju
kako se grupe prostorno razlikuju na različitim značajnim DiF (uobičajen je grafički prikaz za 2
značajne DiF).
INTERPRETACIJA
Provedena je diskriminantna analiza kako bi utvrdili može li se temeljem četiri kontinuirana prediktora
(ugodnost, prosječan uspjeh na studiju, prijašnji uspjeh na poslu i uspjeh na konkretnom zadatku) predvidjeti
pripadnost ispitanika jednoj od tri grupe s različitom izvedbom na poslu: 1. Neuspješan radnik, 2. Uspješan
individualist, 3. Uspješan timski igrač.
Prva diskriminantna funkcija pokazala je da prediktori statistički značajno diferenciraju ispitanike različite
uspješnosti (Wilksov Λ = 0,61, χ2(8, N=124)=59.53, p<0.01, Rc2= 0.26). Druga diskriminantna funkcija također
je bila značajna pokazujući da prediktori statistički značajno diferenciraju ispitanike različite uspješnosti nakon
parcijalizacije efekata prve diskriminantne funkcije (Wilksov Λ = 0,82, χ2(3, N=124)=24.24, p<0.01, Rc2=018).
(Rc2=kvadrirana kanonička korelacija kao veličina efekta jednaka je η2 kojeg bi dobili ANOVAom primijenjenom
na grupne razlike na prvoj DiF; 26% varijance prve DiF može se objasniti grupnom pripadnošću ispitanika).
S ciljem interpretacije značajnih diskriminantnih funkcija u Tablici 1 prikazane su korelacije između prediktora
i diskriminantnih funkcija (matrica strukture) i standardizirani koeficijenti (ponderi) diskriminantnih funkcija.
Iz navedenih rezultata vidljivo je da uspješnost na testu pokazuje najveću pozitivnu povezanost sa prvom
diskriminantnom funkcijom, (manju ali također pozitivnu povezanost pokazuju uspjeh na studiju i prethodni
uspjeh na poslu) koju ćemo označiti kao inžinjersko znanje, dok skala ugodnosti kao osobine ličnosti pokazuje
najveću, pozitivnu povezanost sa drugom diskriminativnom funkcijom, s kojom prosječan uspjeh na studiju
pokazuje nešto nižu negativnu povezanost. Drugu diskriminativnu funkciju označiti ćemo kao ugodnost u
interpersonalnim odnosima.
Centroidi diskriminantnih funkcija u skladu su s navedenom interpretacijom diskriminantnih funkcija. Najviši
prosječan rezultat na inženjerskom znanju (1. diskriminantna funkcija) imaju uspješni individualci (M=0.79),
dok neuspješni radnici (M=-0.40) i timski igrači (-0.43) imaju podjednako niske aritmetičke sredine. S druge
strane najviši prosječan rezultat na ugodnosti u interpersonalnim odnosima (drugoj diskriminantnoj funkciji)
imaju timski igrači (M=0.40), uspješni individualci imaju osrednji rezultat (M=0.01), dok najniži prosječan
rezultat imaju neuspješni radnici (M = -0.83).
Temeljem svih prediktora može se uspješno klasificirati 66% ispitanika u uzorku. Kako bi kontrolirali slučajno
podudaranje predviđene i stvarne grupne pripadnost ispitanika izračunat je "kappa" koeficijent koji je iznosio
0.46, što ukazuje na umjereno podudaranje klasifikacije ispitanika temeljem prediktora s informacijama u
kriterijskoj varijabli.
Tablica 1
Standardizirani koeficijenti i korelacije prediktorskih varijabli i diskriminantnih funkcija
Korelacijski koeficijenti prediktora i
diskriminantnih funkcija
Standardizirani koeficijenti
diskriminantnih funkcija
Prediktori
Funkcija 1 Funkcija 2 Funkcija 1 Funkcija 2
Ugodnost .01 .86 -.09 .96
Ocjena na studiju .47 -.27 .09 -.56
Prijašnji uspjesi .43 .02 .28 .04
Rezultat na testu .95 .10 .88 .24
PRIMJER DISKRIMINANTNE ANALIZE
Istraživačko pitanje: Može li terapija smanjiti simptome OKP-a? Ako može, koja od tih terapija je najefikasnija u
tome (CBT, BT ili bez tretmana (NT) )?
Varijable u analizi:
ZV: vrsta terapije (CBT, BT i NT)
NV:
1. Broj opsesija – povezan sa ponašanjem
2. Broj opsesija – povezan s mislima
1. Analyze- classify – discriminant, pod grouping variable – unosimo ZV i određujemo raspon (od 1 do 3)
• separate-groups covariance prikaz matrice
kovarijanci različitih grupa
• unstandardized rad sa nestandardiziranim
koeficijentima (lakše razumljivo)
• all groups equal program računa kao da su sve grupe
podjednake veličine (ne uzima u obzir razliku u broju
ispitanika)
• summary table tablica sa svim rezultatima
• within-groups prikaz matrice kovarijanci unutar
pojedinih grupa
VAŽNO!
• označiti PREDICTED GROUP MEMBERSHIP program
sprema rezultate s obzirom na pripadnost pojedinoj grupi
(predviđenu pripadnost)
REZULTATI
Interpretacija
Provedenom analizom dobili smo dvije diskriminatne funkcije. Prva funkcija je značajna i objašnjava 82, 2 % ukupno
objašnjene varijance, dok druga funkcija objašnjava samo 17,2 % ukupno objašnjene varijance i ako ju gledamo
odvojeno, nije značajna, (Wilksov Λ = 0.93, χ²(1) = 1.86, p > .05, Rc2 =0.07).
U kombinaciji ove dvije funkcije pokazuju značajnu razliku među grupama (Wilksov Λ= .70, χ²(4)= 9.51, p=.05, Rc2
=0.25).
Ove dvije funkcije zajedno objašnjavaju 32% varijance (Rc12+ Rc22 = 0.32, 32*100= 32%).
Iz navedenih rezultata može se vidjeti da smanjenje simptoma OKP-a pokazuje najveću pozitivnu povezanost sa
prvom diskriminantnom funkcijom koju ćemo nazvati opsesivna ponašanja, dok ćemo drugu diskriminantnu
funkciju nazvati opsesivne misli.
Utvrđeno je da terapija ne mijenja nužno ponašanja i misli zasebno, ali utječe na temeljne dimenzije OKP-a.
Najviši prosječan rezultat na 1. DiF ima KBT (M=0,60), zatim ide grupa bez tretmana (NT) (M=0,13), dok BT ima
visok negativan rezultat (M=-0,73).
S druge strane, najviši prosječan rezultat na 2 DiF ima grupa bez tretmana (NT) (M=0,36), dok KBT (M=-0,23) i BT
(M=-0,13) imaju niske aritmetičke sredine.
Na temelju svih prediktora može se uspješno klasificirati 46,7% ispitanika u uzorku.
PRIMJER DISKRIMINANTNE ANALIZE
Istraživačko pitanje: Diskriminiraju li anksioznost, self-koncept i odsutnost uspješno ljude različitih kvalifikacija?
Varijable u analizi:
ZV: kvalifikacija (bachelor, master, doctorate)
NV: anksioznost, self-koncept i odsutnost
1. Matrica kovarijanci
- vrijednosti daju naznake o promjeni veze između ZV po grupama
Interpretacija
Da bi se utvrdilo može li se i s kojom točnošću, na temelju prediktora self koncepta, anksioznosti i odsutnosti
predvidjeti stupanj kvalifikacije ispitanika, provedena je diskriminantna analiza.
Provedenom analizom dobili smo dvije diskriminatne funkcije. Prva funkcija je značajna i objašnjava 96.1% ukupno
objašnjene varijance (Wilksov Λ= .0.95, χ²(6)= 20.14, p<.05, Rc2 =0,04).
41.6% originalnih ispitanika je točno klasificirano.
PATH ANALIZA
- proširenje regresijske analize
- glavna svrha regresijske analize: predikcija rezultata u jednom kriteriju na temelju jednog ili više prediktora
- multipla regresijska analiza, kao statistički postupak, ne pretpostavlja kakav je odnos među prediktorima, dokle
god nisu previše povezani (problem kolinearnosti)
U regresijskoj analizi...
1. Možemo imati samo jednu varijablu kao kriterij
2. Jedna varijabla može biti ILI prediktor ILI kriterij
Path analiza Na temelju teorije pretpostavlja uzročni slijed izravnih i neizravnih efekata prediktora na jedan ili više
kriterija.
= statistička metoda analize kvantitativnih podataka, koja pruža empirijske procjene utjecaja varijabli u
pretpostavljenom kauzalnom sistemu
Standardna regresijska analiza Path analiza
= regresija za predikciju
CILJ:
Objasniti što veću varijancu jednog kriterija
- Kolinearnost predikora nepoželjna
- Odnosi među prediktorima nisu nam pretjerano zanimljivi, osim kako bi utvrdili kolinearnost
= regresija za razumijevanje kauzalnih odnosa među varijablama
CILJ:
Modelirati odnose među prediktorskim varijablama i odnose prediktorskih varijabli s medijacijskim i/ili kriterijskim varijablama
- Povezanost među prediktorima nije problem – nju proučavamo!
Path analiza i strukturalno modeliranje
Path analiza je posebna vrsta SEM-a, koja sadrži samo varijable mjerene jednim indikatorom. Pretpostavlja da su
varijable mjerene bez pogreške. SEM koristi latentne varijable kako bi „nadoknadio” za pogrešku mjerenja.
Što NE možemo pomoću path analize?
Kada istraživanje nije eksperimentalno...
1. Dokazati jesu li dvije varijable kauzalno povezane
2. Dokazati kauzalni poredak među varijablama
3. Razlikovati modele koji rezultiraju identičnim uzorcima korelacija
Što možemo pomoću path analize?
1. Grafički prikazati pretpostavljenu teoriju
2. Procijeniti povezanosti među varijablama u pretpostavljenoj teoriji i utvrditi jesu li one pozitivne,
negativne ili nulte
3. Procijeniti pretpostavljeni kauzalni efekt jedne varijable na drugu
4. U eksperimentalnim istraživanjima, dokazati uzrokuje li promjena u nezavisnoj varijabli promjenu u
zavisnoj
Pretpostavke path analize
1. Više zavisnih varijabli
2. Jedan indikator za svaku mjeru (jedna latentna i jedna manifestna varijabla)
3. Svaka varijabla mjerena je bez pogreške
4. Veliki uzorak ispitanika
20:1 idealno
10:1 zadovoljavajuće
5:1 minimum
Terminologija path analize
1. Model kauzalnih odnosa među varijablama
2. Egzogene varijable : one varijable na koje mogu utjecati varijable koje su izvan modela, prediktori
Hint: ona varijabla koja u path dijagramu ima strelice OD sebe, ali niti jednu PREMA sebi
3. Endogene varijable: one varijable kojima pokušavamo objasniti varijancu varijancom jedne ili više
egzogenih varijabli, za koje pretpostavljamo da utječu na njih, zavisna varijabla, medijator
Hint: ona varijabla koja u path dijagramu ima najmanje jednu strelicu PREMA sebi
4. Direktan utjecaj – put u kauzalnom modelu koji povezuje dvije varijable
5. Indirektan utjecaj- zbirni put, koji povezuje dvije varijable preko treće varijable
6. Path- koeficijent – numerička procjena kauzalnog odnosa među dvjema varijablama u path analizi
Hint: β u multiploj regresijskoj analizi
MODEL
Osnovno polazište path analize je teorijski model kauzalnih odnosa među varijablama. Takav model uključuje
set hipoteza. Eksplicitan i kompaktan opis seta hipoteza može se formulirati:
1. Većim brojem regresijskih jednadžbi
2. Path dijagramom
Path dijagram
= Slikovna reprezentacija povezanosti i kauzalnih odnosa među ispitivanim varijablama
Simboli koje koristimo:
1. Pravokutnici označavaju mjerene (manifestne, opažene) varijable
2. Dvoglavim, zakrivljenim strelicama označavaju se korelacije (neanalizirana povezananost)
3. Jednoglavim strelicama označavaju se izravni efekti
4. Krugovi označavaju neobjašnjenu varijancu endogene varijable – nepoznati utjecaji koji nisu uključeni u
model
Kako crtamo path dijagram?
1. Varijable sa lijeve strane kauzalno prethode varijablama sa desne strane path dijagrama
2. One varijable za koje se pretpostavlja da su povezane, ali ne u kauzalnom odnosu, trebale bi biti u istoj
ravnini
3. Kauzalni odnos koji je pretpostavljen između dvije varijable označava se predznacima + i – pored strelica,
kako bi pokazali kako smanjenje ili povećanje u jednoj varijabli utječe na drugu
Primjeri path dijagrama
A - Jednostavna multipla regresija sa
dvije egzogene (X1 i X2) i jednom
endogenom (Y) varijablom
B - Medijacijski model, u kojem varijabla
Y posreduje odnosu varijabli X i Z
C - Kombinacija elemenata iz dva
prethodna modela. Varijabla X ima
direktan utjecaj na varijablu Z, ali i na
varijablu Y, koji ima utjecaj na varijablu
Z.
D- Varijabla X1 utječe na varijablu X2, ali
i na varijablu Y2. Varijabla X2 utječe na
varijablu Y2, a varijabla Y1 utječe na
varijablu Y2.
Path analiza preko regresijske analize:
1. Potrebna po jedna regresijska analiza za svaku endogenu varijablu u modelu
2. Korelacije egzogenih varijabli (ili kovarijance) dobivamo iz običnih bivarijatnih korelacija (kovarijanci)
3. Path koeficijenti (β) su regresijski koeficijenti iz korespondentnih regresijskih analiza
4. Standardizirani rezidual je proporcija neobjašnjene varijance i računa se kao 1 - R²
Rezultati path analize
1. Možemo utvrditi veličine efekata, korelacija i reziduala – ako je pretpostavljeni model točan
2. Možemo utvrditi podudaranje modela s empirijski dobivenim podacima – testiranje modela, na način
da..
.. Korelacije između svake varijable možemo rastaviti na najviše 4 elementa:
1. Izravni efekt
2. Sumu posrednih (medijacijskih) efekata
3. Sumu spurioznih efekata (zajednički uzrok)
4. Sumu neanaliziranih efekata
Testiranje modela - Korelacija između dvije varijable koju implicira model računa se zbrajanjem ovih elemenata, i
zatim se uspoređuje s empirijskom korelacijom. Ako su odstapanja velika, odbacujemo model.
Procjene podudarnosti modela (model fit statistics)
Goodness-of-fit testovi, koji se temelje na previđenoj vs. opaženoj varijanci
Goodness-of-fit testovi, koji se temelje na usporedbi modela s alternativnim modelom
a) χ²
b) RMSEA (Root Mean Square Error of Approximation)
c) SRMR (Standardized Root Mean Residual)
Što manji to bolji!
a) CFI (Comparative Fit Index)
b) TLI (The Tucker-Lewis Index) ili NNFI (Non-Normed Fit Index)
Što veći to bolji!
PRIMJER PATH ANALIZE
Problem: Istraživače zanima povezanost crta ličnosti, materijalizma i prekomjernog kupovanja. Iz literature
doznajemo da su crte ličnosti povezane s materijalizmom i prekomjernim kupovanjem, kao i da postoji povezanost
materijalizma i prekomjernog kupovanja.
1. Testiranje medijacije
2. Path dijagram – mapiranje onih povezanosti koje su bile statistički značajne u regresijskim analizama
Indeksi prilagodbe:
1. χ²(df)=10,14(4), p=.038;
2. χ²/df= 2,53;
3. CFI=.99;
4. GFI=.99,
5. AGFI=.97,
6. NFI=.99,
7. RMSEA=.048
Rezultati općenito pokazuju dobru prilagodbu modela podacima dobivenim na ispitivanom uzorku (χ²(df)=10,14(4),
p=.038; χ²/df= 2,53; CFI=.99; GFI=.99, AGFI=.97, NFI=.99, RMSEA=.048). Općenito, model pokazuje medijacijsku
ulogu materijalizma u povezanosti dimenzija petofaktorskog modela ličnosti i prekomjernog kupovanja, uz
iznimku direktnog utjecaja savjesnosti na prekomjerno kupovanje. Točnije, materijalizam obuhvaća sve utjecaje koje
ugodnost, otvorenost i ekstravezija imaju na prekomjerno kupovanje. Uz to, neuroticizam ima direktan utjecaj na
prekomjerno kupovanje.
KONFIRMATORNA FAKTORSKA ANALIZA
Svi statistički modeli koje smo do sad opisivali imaju preduvjet koji je u nekim znanstvenim područjima nemoguće
zadovoljiti: pretpostvaljaju da su proučavane pojave mjerene izravno i bez pogreške mjerenja. Ukoliko taj preduvjet
nije zadovoljen, parametri koji se procjenjuju nisu pouzdani i mogu sustavno odstupati od parametara populacije
(npr. u medijacijskim modelima, medijacijski efekti su podcijenjeni, a izrvni precjenjeni)
Faktorska analiza
Statistički postupak kojim nastojimo ispitati međuzavisnost unutar velikog broja varijabli te ih objasniti pomoću
malog broja zajedničkih faktora.
1. Proučavanje odnosa među hipotetskim konstruktima koje ne možemo izravno mjeriti (ličnost, inteligencija,
stres,…) – LATENTNE VARIJABLE
2. O njima zaključujemo posredno preko pojava koje možemo mjeriti (procjene i samoprocjene) –
MANIFESTNE VARIJABLE
CFA i regresijski modeli
Osnove faktorske analize mogu se opisati kroz particioniranje varijanci (komunalitet, unikvitet, specifičnost,
pogreška), ali i kao specifičan oblik regresijske analize i općeg linearnog modela.
Faktorska analiza je varijanta regresijske analize.
Koja je razlika?
1. U faktorskoj analizi neke varijable nisu izravno mjerene (latentne)
2. U faktorskoj analizi se najčešće prikazuju standardizirani (beta) regresijski koeficijenti, iako možemo dobiti i
nestadardizirane.
U CFA se najčešće dozvoljava faktorima da koreliraju, iako se mogu modelirati i nekorelirani (ortogonalni) faktori ili
kombinacija koreliranih i nekoreliranih faktora.
Nedostaci regresijskih i prednosti faktorskih modela
U regresijskim (path) analizama svaka teorijska varijabla mjerena je samo jednom mjerom – ne može se razlučiti
varijanca greške (u mjerenju i specifikaciji modela) od varijance teorijske varijable koju želimo izmjeriti i o kojoj
želimo zaključivati.
Kada su dostupne višestruke mjere istog faktora, različiti izvori varijance mogu se razdijeliti i pouzdanost svake
mjere može se procijeniti i uključiti u model.
Vennov i path prikaz FA
Vennov
- Praktičan prikaz
- Ne implicira statistički način
modeliranja faktora
Path
- Kvadrat – mjerene v. (indikatori)
- Elipsa – latentne v.
Eksploratorna FA
- Omogućuje identifikaciju onoga što objektivno postoji
- Utvrđujemo izvore varijacija i kovarijacija među manifestnim varijablama
Konfirmatorna FA
Pretpostavlja postojanje unaprijed određenog modela, hipoteze, teorije o strukturi izvora kovarijacija među
promatranim varijablama
Eksploratorna FA govori nam kakva je faktorska struktura te izračunava maksimalan iznos varijance, dok
konfirmatorna FA a priori postavlja model i broj faktora, te koja čestica opterećuje koji faktor. Taj je model podržan
teorijom i prethodnim istraživanjima.
- Nema restrikcija za korelacije faktora
- Svaka čestica je u nekoj mjeri zasićena svim
faktorima
1. X1 = *F1 + *F2 + u1
2. x2 = *F1 + *F2 + u2
3. X3 = *F1 + *F2 + u3
4. X4 = *FI + *F2 + u4
5. x5 = *F1 + *F2 + u5
6. x6 = *F1 + *F2 + u6
Suprotno od EFA, CFA zahtjeva restrikcije korelacija među
faktorima, faktorskih zasićenja što omogućuje bolje
inferencijalno zaključivanje
1. xl = *F1 + 0F2 + u1
2. X2 =*F1 + 0F2 + u2
3. X3 = *F1 + 0F2 + u3
4. X4 = 0F1 + *F2 + u4
5. x5 = 0F1 + *F2 + u5
6. x6 = 0F1 + *F2 + u6
Razlike između CFA i EFA
U EFA je moguće dobiti bilo koji broj faktora i uzoraka faktorskih zasićenja, te ih vidimo nakon analize.
U CFA, broj faktora i uzorci zasićenja se pretpostavljaju prije analize tako što se postave brojne restrikcije faktorske
solucije (npr dvofaktorska struktura sa manifestnim varijablama 1, 2 i 3 na jednom faktoru a 4, 5 i 6 na drugom.
CFA se često prikazuje veoma drugačijom ili čak superiornom EFA, no u praksi su te razlike dosta zamagljenje
- Stvarni podaci se često razlikuju od naših teorija, te je stoga ponekad prikladno koristiti i EFA i CFA, te koristeći
takav pristup dobiti najbolju reprezentaciju stvarnih podataka
- Oba pristupa imaju svoje jake i slabe strane, te ih treba gledati kao komplementarne
Opći prikaz CFA
Je li model dobar ?
1. Hi – kvadrat
- Količina razlike između očekivane i promatrane matrice kovarijance.
- 0 označava da postoji mala razlika između očekivane i promatrane matrice kovarijance.
- Razina značajnosti :veća od 0.05
2. GFI (Goodnes of fit)
- mjera relativne veličine varijanca i kovarijanca zajednički objašnjenih modelom
- R2
3. CFI (Comparative Fit Index)
- Mjeri razliku
- Od 0 do 1 (veća vrijednost – bolje pristajanje modelu)
- Mora biti : 0.90 ili veća
4. RMSEA (Root Mean Square Error of Approximation)
- Povezan s rezidualima
- Od 0 do 1 (manja vrijednost – bolje pristajanje modelu)
- Mora biti : 0.06 ili manja
Primjene CFA
1. Modeli višeg reda
Ukoliko model uključuje četiri ili više faktora koji kovariraju, tada se može koristiti CFA za testiranje hipoteze o
postojanju faktora višeg reda
2. Stabilnost mjere
Radi se o stupnju u kojem su aspekti CFA modela (na primjer, broj faktora, uzorci faktorskih zasićenja) stabilni među
grupama ili kroz vrijeme
3. Konstruktna valjanost
Nakon što se odgovori na bazična pitanja poput broja faktora i uzoraka faktorskih zasićenja, CFA se može koristiti za
procjenu kontruktne valjanosti – to jest stope u kojoj je hipotetski konstrukt povezan sa drugim konstruktima u
teorijski značajnom uzorku.
Jedan od načina za procjenu konstruktne valjanosti koristeći CFA je ubacivanje više konstrukata u jedan model i
provjeravati uzorke kovarijanci među faktorima koji predstavljaju konstrukt u usporedbi sa uzorkom predviđenim
teorijom ili bazičnim znanjem o odnosu među konstruktima
Na primjer, trenutno dominantna teorija ličnosti govori o pet glavnih dimenzija. Takvu hipotezu se može testirati
koristeći CFA, te dobiti statističku mjeru prikladnosti svojeg modela u usporedbi sa izmjerenim.
Naravno ponekad se može koristiti CFA i EFA u tandemu kako bi dobili faktorski model najviše konzistentan sa
izmjerenim.
CFA na praktičnom primjeru
Tepper i Hoyle (1996) provode CFA na skali potrebe za unikatnošću, te dobivaju da nije moguće modificirati
pretpostavljeni trofaktorski model kako bi adekvatno opisali komunalitet unutar 32 čestice upitnika .
Na osnovu toga pretpostavlju da je potrebno više faktora i provode EFA, koja predlaže korištenje 4 faktora.
Dobivena saznanja koriste za naknadnu CFA bez resktrikcija, koja omogućava testiranje broja faktora bez
simultane procjene uzorka zasićenja.
Nakon što su dobili potvrdu za takav model koriste empirijsku strategiju za resktrikciju neznačajnih
zasićenja i time razvijaju četiri faktorski model sa nekoliko dvostrukih zasićenja koji je veoma
drugačiji od pretpostavljenog jednostavnog trofaktorskog modela
Uvjeti za provođenje CFA
1. Veliki uzorak
Preporučuje se N>200 za bilo koji iole kompleksniji CFA model, N>400 se preferira, no ako se koristi nedavno
modificirani lošiji model potrebno je barem N>800 kako bi se zaštitili od mogućeg utjecaja slučajnih varijacija u
podacima 2. Distribucija
Pošto je test dosta robusan, ukoliko je donekle velik uzorak metoda uglavnom daje dobre rezultate. U ekstremnim
slučajevima nenormalne distribucije postoje neke solucije, no zahtjevaju ili N=5000 ili posebne statističke pristupe
kako bi CFA funkcionirala
3. Skala mjerenja
Čestice bi trebale biti mjerene na omjernoj ili intervalnoj skali, zbog toga se preporučuje da na upitnicima kakve
koristimo u psihologiji bude 5 ili više mogućih odgovora za svaku česticu.
MODELIRANJE STRUKTURALNIM JEDNADŽBAMA
Razlika CFA- SEM
U CFA sve latentne varijable su egzogene – mogu i ne moraju biti korelirane, zato je CFA modeli ne pokušavaju
razlučiti uzročno-posljedične veze među faktorima (izravne, posredne efekte, zajedničke uzroke i neanalizirana
povezanost), tj. sve povezanosti među faktorima su neanalizirane povezanosti, tj. obične korelacije.
Strukturalno modeliranje je kombinacija CFA pristupa i path analize. Modeliraju se uzročne veze među
LATENTNIM VARIJABLAMA (faktorima). Tada latentne varijable opet dijelimo na one koje utječu na druge:
egzogene (prediktore) i one koje su pod utjecajem drugih – endogene varijable (medijatore ili ishode i kriterije).
CFA može biti samostalna analiza, npr. za utvrđivanje faktorske strukture neke skale ili prvi korak u izradi
strukturalnog modela.
Modeliranje strukturalnim jednadžbama (SEM)
– sveobuhvatan statistički pristup testiranju odnosa između latentnih i manifestnih varijabli
= Skup stat. metoda uz pomoć kojih reprezentiramo, procjenjujemo i testiramo teorijsku mrežu linearnih
kombinacija među varijablama
Osnovna ideja SEM-a: testiranje podudaranja modela s empirijskim podacima – uspoređujemo očekivane
(teoretske) i dobivene (opažene) matrice kovarijance konfirmatorna tehnika
Alternativni modeli
1. Kada se na teoretskoj osnovi postavlja više modela
2. Kada se model nedovoljno podudara s dobivenim podacima – modifikacija i ponovno testiranje
Cilj: pronaći model koji je
1. teoretski smislen,
2. razumno parsimoničan i
3. prihvatljivo se podudara s podacima
1. Specifikacija modela
= deriviranje hipoteza iz poznate teorije- grafički prikaz odnosa među varijablama
npr.
2. Identifikacija modela
= prevođenje modela u seriju jednadžbi i matrica – izrada matrica kovarijanci na temelju teorije (očekivanih (hipotetskih) odnosa i rezultata)
3. Procjena parametara populacije
= također izrada matrice kovarijance, ali na temelju stvarnih rezultata na uzorku
Upotreba kovarijanci u SEM-u:
covxy = rxy SDx SDy
1. razumijevanje obrazaca kovarijanci među promatranim varijablama
2. objašnjavanje proporcije varijance tih varijabli što je više moguće unutar postavljenog modela
* Moguće je izračunati aritmetičke sredine faktora, no najčešće nema potrebe za tim
4. Adekvatnost modela
Usporedba očekivanih i izmjerenih matrica uz pomoć indeksa podudarnosti (slaganja) (fit index)
Indeksi podudarnosti – indeksi koji govore o tome koliko se testirani model (očekivana matrica) poklapa s
podacima (dobivena, izmjerena matrica)
Dvije vrste:
1. hi kvadrat – ukazuje na razliku između matrica
2. indeksi koji govore o kvaliteti modela (točnost: CFI, GFI, RNFI (trebaju biti što bliže 1); pogreška: RMSEA,
SRMR (trebaju biti što bliže 0))
Comparative Fit Index (CFI) – vrijednosti između 0 i 1: veća vrijednost ukazuje na bolji model
GFI – mjera relativne veličine varijanca i kovarijanca zajednički objašnjene modelom
Normativan indeks slaganja (NFI, Bentler i Bonett) – u kojoj se mjeri predloženi model podudara s podacima
Tucker – Lewis (TL): koliko bolje predloženi model opisuje podatke u odnosu na nul-model, uzimajući u obzir df
* možemo prihvatiti model kao adekvatan onda kada su njihove vrijednosti 0.90 ili više!
Root Mean Square Error of Approximation (RMSEA) – povezana s rezidualom modela
– vrijednosti između 0 i 1: manja vrijednost ukazuje na adekvatnost modela
– možemo prihvatiti model kao dobar onda kada je vrijednost RMSEA-e 0.06 ili niža
Standardized Root Mean Residual (SRMR) –također između 0 i 1: dobar model ima vrijednosti SRMR-a manje od
0.05
* obratiti pozornost na reziduale
Reziduali
Manifestne varijable: E – pogreške mjerenja
Faktori: D – proporcija varijance neobjašnjena faktorom
- Nakon procjene modela reziduali bi trebali biti što manji (blizu 0), a frekvencija kovarijanci reziduala bi trebala biti
simetrična
Nesimetrična distribucija – slab model – npr. odstupanje reziduala neke varijable može ukazati da ta
varijabla nije dobar predstavnik modela, ili model ne objašnjava dobro varijablu
VRSTE PARAMETARA I MATRICA U SEM-u
1. Lambda y – povezanost latentne zavisne varijable s njenim manifestnim (indikatorima)
2. Lambda x – povezanost latentne nezavisne varijable s njenim manifestnim (indiaktorima)
3. Beta – neanalizirana povezanost (korelacije) među latentnim zavisnim varijablama
4. Gama – efekti nezavisnih latentnih varijabli na zavisne latentne varijable
5. Phi matrica – varijance (u dijagonali) i kovarijance latentnih nezavisnih varijabli
6. Psi matrica – varijance i kovarijance zeta varijabli
7. Theta epsilon matrica – varijance i kovarijance reziduala manifestnih indikatora ZV
8. Theta delta matrice – varijance i kovarijance reziduala manifestnih indikatora NV
Prednosti SEM-a
1. Testiranje kompleksnih veza i medijacijskih utjecaja:
ANOVA: postoji li razlika i u kojem smjeru?
SEM: zbog čega postoje te razlike? – testiranje svih mogućih odnosa među varijablama, odnosno potencijalne
medijacijske efekte
2. Mogućnost usporedbe različitih modela – najbolji je model onaj koji je najekonomičniji (princip
parsimonije – ako imamo dva modela koji podjednako dobro opisuju dobivene podatke: bolji onaj koji je
jednostavniji – analogija s faktorskom analizom)
Ograničenja SEM-a
1. Moguće dvosmislenosti zbor velike složenosti
2. Oprez: ukoliko se ne radi o eksperimentalnom nacrtu, strukturalno modeliranje (kao ni ostale statističke
tehnike) ne pruža dokaz o uzročnosti!
3. Kada istraživači testiraju jedan model, dobiju pozitivne procjene te ne uzimaju u obzir alternativna
objašnjenja
OPĆI PRIMJER SEM- modela
PRIMJER SEM-analiza - Primjer istraživanja
Strukturalni model za predikciju promjena preventivnih ponašanja u vezi s AIDS-om kod mladih ljudi (Prišlin,
Ajduković i Ajduković, 1998)
Pretpostavke (na temelju dotadašnjih spoznaja)
1. promjene u ponašanju izravna posljedica percepcije ugroženosti
2. Percepcija ugroženosti rezultat je znanja i stavova o AIDS-u
3. Znanje i stavovi su međusobno uvjetovani i
4. Razvijaju se putem socijalizacije, stoga ih predviđa
5. Socioekonomski status, demografski status i dob
BINARNA LOGISTIČKA REGRESIJSKA ANALIZA
Logistička regresija je vrsta multiple regresijske analize gdje je zavisna varijabla kategorijalna, a nezavisne su
kontinuirane ili kategorijalne
Cilj: predvidjeti članstvo grupi, tj vjerojatnost nekog događaja
Možemo predvidjeti kojoj će skupini osoba pripasti na temelju ostalih informacija koje o njoj imamo(NV)
Kada želimo odrediti članstvo ispitanika samo za dvije grupe 0 ili 1- Y binarna logistička regresija
Principi logističke regresije
U logističkoj regresiji umjesto predviđanja vrijednosti varijable Y na temelju poznavanja prediktorskih varijabli X ili
nekolicine njih, mi predviđamo vjerojatnost Y na temelju poznavanja prediktorskih varijabli X ili nekolicine njih
Unatoč sličnostima s linearnom regresijskom analizom, postoje razlozi zašto koristimo logističku
Naime linearnu regresiju ne možemo koristiti ukoliko je ZV kategorijalna- narušen preduvjet o lineranom
odnosu varijabli
Rješenje problema: transformacija podataka pomoću logaritma - prikaz ne linearnog odnosa na linearan način
Drugim riječima, logistička regresija izražava multiplu linearnu regresiju u terminima logaritma
Vjerojatnost
Vrijednost vjerojatnosti kreće se između 0 i 1
Vrijednost bliža 0 znači da se Y vjerojatno nije ostvario, dok vrijednost bliže 1 znači da se vjerojatno ostvario
Kao i u linearnoj regresiji svaki prediktor ima svoj pripadajući koeficijent
Analiza se temelji na modelima odabiremo model koji ima najveću procjenu vjerojatnosti - prema kojoj će
rezultati u nezavisnim varijablama najbolje kategorizirati pripadnost određenoj grupi
Cilj: kao i u multiploj regresijskoj analizi pokušavamo naše podatke uvrstiti u određeni model koji nam
pomaže procijeniti zavisnu varijablu na temelju nezavisnih
Procjena vjerojatnosti događaja za određenu osobu
Npr. Prolazak na ispitu
0- pad
1- prolazak
p vrijednost biti će između 0 i 1, gdje 0 znači- nema nikakve šanse da će se događaj dogoditi, do 1 koji znači događaj
će se zasigurno dogoditi
Log- vjerojatnost jest zamjena za koeficijent mulltiple regresijske analize
Temelji se na sumiranju vjerojatnosti povezanih s predviđenim i pravim vrijednostima
Ova je vrijednost analogna rezidualu sume kvadrata u multiploj regresijskoj analizi
pokazatelj koliko je ostalo neobjašnjene varijance nakon primjene određenog modela
Što je ova vrijednost veća to je model koji objašnjava naše podatke lošiji odnosno veći je postotak neobjašnjene
varijance
Intercept u multiploj odgovara vrijednosti kada su prediktori konstatni, a u logističkoj ta vrijednost predviđa ishod
koji je najčešći
Potpuni logistički regresijski model, kada su u njega uključeni i prediktori
hi kvadrat = 2 ( LL(model)- LL( baseline)
Hi kvadrat distribucija, što olakšava izračun značajnosti vrijednosti
Df- broj parametra u novom modelu – broj parametra u temeljnom modelu
U temeljnom modelu je broj parametar uvijek 1
Broj parametra u novom modelu- broj prediktora + 1( konstanta)
R i R²- ili je li izračunati logistički model ispravan?
R-statistic
Parcijalna korelacija između zavisne varijable i svakog od prediktora ( varira između -1 do 1)
Pozitivna vrijednost označuje da što je prediktor veći to je vjerojatnost događaja veća
Negativna vrijednost- porast prediktora- manja vjerojatnost događaja
“veličina” R- što je R manji to je vrijednost cijelog modela manja
Varira između 0 i 1
0- prediktori su beskorisni u predviđanju zavisnu varijablu
1-prediktori odlično predviđaju zavisnu varijablu
SPSS: Cox i Snells R²- oni se razlikuju od R ² jer u analizu uključuju i veličinu uzorka
Nagelkerke R ²
Zajedničko svim ovim mjerama jest da odgovaraju koeficijentu multiple determinacije u linearnom modelu
Wald test
Kao i kod linearne regresije ne želimo znati samo koliko je općenito model dobar, već i doprinosi svakog
individulanog faktora
Linearna regresija b koeficijent i njihova standarna pogreška t distribucija
Analogno u logističkoj:
Wald statistika hi kvadrat distribucija
Ukazuje na značajnost koeficijenata
Ako je on značajan, on doprinosi u predviđanju zavisne varijable
( )
Odd Ratio : Exp(B)
- Bitan za interpretaciju logističke regresije
- Pokazatelj promjene izgleda koji proizlaze iz promjena jedinice prediktora
- Slično b koeficijentu u linearnoj regresiji
Binarni prediktor Odd zavisne varijable (događaj)- vjerojatnost da se 1 dogodi podijeljen s vjerojatnosti
da se 1 ne dogodi
P( 0) =1-P(1)
0 označava staginaranje u bolesti, 1 –označava napredak u bolesti
- računa se promjena u Odd Ratio- dijelimo odd prije promjene u prediktor i odd poslije promjene u
prediktoru
- ∆Odd
Ako je vrijednost veća od 1 – s porastom prediktora raste i odd vjerojatnosti događaja raste
Ako je vrijednost manja od 1- s porastom prediktora, odd vjerojatnosti događaja opada
Metode logističke regresije
1. Enter metoda
2. Stepwise metoda
Jednake kao i kod linearne regresijske
Pretpostavke na koje treba obratiti pozornost
1. Linearnost
- Narušen je linearni odnos jer je zavisna varijabla dihotomna
- Zato koristimo logaritamsku vrijednost
- Međutim, pretpostavka o linearnosti se u logističkoj regresiji odnosi na postojanje linearnog odnosa kontinuiranih
prediktora i logaritamske vrijednosti zavisne varijable
- Provjera značajnosti interakcije prediktora i logaritamske vrijednosti zavisne varijable
2. Nezavisnost uzorka
3.Multikolinearnost