Upload
hadien
View
231
Download
0
Embed Size (px)
Citation preview
22/11/2013
1
MARKETINŠKO ISTRAŽIVANJE
• Novembar 2013
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
2
Oblasti izučavanja
I. Priroda i obuhvat marketinških istraživanja II. Izvori podataka u marketinškim istraživanjima III. Eksploratorna istraživanja IV. Deskriptivna istraživanja V. Merenje stavova i dizajniranje upitnika VI. Uzročna istraživanja: Izvođenje eksperimenata VII. Izvlačenje uzoraka, vrste uzoraka VIII. Analiza podataka (1) IX. Analiza podataka (2)
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
3
VIII. Analiza podataka
1. Osnove analize podataka 2. Testiranje hipoteza 3. Regresiona i korelaciona analiza
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
4
VIII.1. Osnove analize podataka
• Priprema podataka za analizu • Tabeliranje podataka • Faktori koji utiču na izbor tehnike za analizu podataka • Pregled statističkih tehnika za analizu podataka
22/11/2013
2
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
5
Priprema podataka za analizu
• Editovanje podataka • Kodiranje podataka • Statističko prilagođavanje podataka
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
6
Editovanje podataka (1)
• Sprovodi anketar ili supervizor na terenu ili istraživač pre početka analize
• Treba identifikovati sledeće probleme: – Greške anketara (daje loša/pogrešna uputstva) – Nedostajući odgovori – Nejasni odgovori (nečitki ili nejasni) – Međusobna neusklađenost odgovora (npr.
kontradiktorni) – Nedovoljna kooperativnost (npr. bira isti odgovor) – Neodgovarajući ispitanik
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
7
Editovanje podataka (2)
• Pošto se identifikuju, problemi se mogu rešiti primenom sledećih postupaka: – Ponovno kontaktiranje ispitanika, ako se smatra
značajnim – Odbaciti ceo upitnik ako je neupotrebljiv, ako ispitanik
nije razumeo anketu ili je bio nekooperativan – Odbaciti pojedinačno problematično pitanje – Kodirati nejasne odgovore u kategoriju “ne znam” ili
“nemam mišljenje”
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
8
Kodiranje
• Zatvorena pitanja – Šta su zatvorena pitanja i kada se koriste? – Prednosti i nedostaci zatvorenih pitanja – Kodiranje zatvorenih pitanja
• Otvorena pitanja – Šta su otvorena pitanja i kada se koriste? – Prednosti i nedostaci otvorenih pitanja – Kodiranje otvorenih pitanja?
22/11/2013
3
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
9
Statističko prilagođavanje podataka
• Ponderisanje • Respecifikacija varijabli • Veštačke varijable • Transformacija skale – npr.
– Standardizacija se može primeniti samo na podacima koji su dati na intervalnoj ili skali odnosa
– Od svake realizovane vrednosti se oduzme srednja vrednost i podeli sa standardnom devijacijom:
( ) xii sXXz −=
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
10
Tabeliranje podataka
• Raspored frekvencija • Deskriptivni statistički pokazatelji • Unakrsno tabeliranje
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
11
Tabeliranje podataka
• Koristi se za: – “Čišćenje” podataka – Određivanje empirijske raspodele (raspodele
frekvencija) – Izračunavanje deskriptivnih statističkih pokazatelja
(srednje vrednosti i procentualno učešće) • Zatim se podaci unakrsno tabeliraju kako bi se
videlo da li postoji povezanost između dve tipično nominalne varijable
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
12
Raspored frekvencija
• Predstavlja broj dobijenih odgovora za svako postavljeno pitanje
• Može biti organizovano po klasama ili grupama odgovora
• Može biti prezentirano putem histograma • Mogu se prekombinovati grupe/kategorije
pitanja, kako u zavisnosti od cilja istraživanja/vrste odgovora tako i frekvencije odgovora u pojedinim kateogrijama
22/11/2013
4
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
13
Deskriptivni statistički pokazatelji
• Predstavljaju sumarnu informaciju dobijenu na osnovnu rasporeda frekvencija. Mogu biti: – Mere centralne tendencije (srednja vrednost,
medijana, modus) – Mere disperzije (interval varijacije, standardna
devijacija, koeficijent varijacije) – Mere oblika rasporeda (simetričnost i spljoštenost).
• Kod upotrebe nominalnih mernih skala može da se koristi samo raspored frekvencija
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
14
Čebiševljeva teorema • Određuje gde se vrednosti raspodele frekvencija nekog
pokazatelj nalaze u odnosu na njegovu srednju vrednost. • Bez obzira na raspored:
– Najmanje 75% vrednosti će biti unutar intervala ± 2 standardne devijacije – Najmanje 89% vrednosti će biti u okviru ± 3 standardne devijacije
u odnosu na srednju vrednost posmatranog parametra. • Ako je raspored simetrična kriva u obliku zvona, onda:
– Oko 68% vrednosti u populaciji će biti u okviru ± 1 standardne devijacije – Oko 95% vrednosti će biti u okviru ± 2 standardne devijacije – Oko 99% vrednosti će se nalaziti u okviru ± 3 standardne devijacije
u odnosu na srednju vrednost.
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
15
Unakrsno tabeliranje • Tehnika koja služi za posmatranje odnosa između dve i
više nominalnih varijabli • Kada se obračun vrši po redovima ili kolonama, tabele
sa unakrsnim tabeliranjem se nazivaju tabele kontingencije, budući da su procenti suštinski uslovljeni ukupnim sumama po redovima ili kolonama.
• Najveći broj marketinških istraživanja ne ide dalje od unakrsnog tabeliranja, a čak i ona istraživanja koja koriste sofisticiranije analitičke metode još uvek koriste unakrsno tabeliranje kao važnu komponentu.
Primer: Koliko često kupujete Politiku
Pol:
Svaki dan Najmanje jednom nedeljno
Najmanje jednom
mesečno
Ni jednom
mesečno
Muškarac
80
70
30
20
Žena
40
60
50
50
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
16
22/11/2013
5
Primer: Koliko često kupujete Politiku
Pol:
Svaki dan
Najmanje jednom nedeljno
Najmanje jednom
mesečno
Ni jednom
mesečno
Uk.
Muš-karac
80
70
30
20
200
Žena
40
60
50
50
200
Uk.
120
130
80
70
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
17 Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
18
Faktori koji utiču na izbor tehnike za analizu podataka
• Vrsta podataka • Dizajn istraživanja • Pretpostavke na kojima se bazira testiranje statističkih pokazatelja
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
19
Vrsta podataka
• Podaci na nominalnoj skali (nemetrički): – Frekvencije, jedina mera centralne tendencije je modus, hi-
kvadrat test • Podaci dati na ordinalnoj skali (nemetrički):
– Plus: Percentili, kao i najveći broj neparametarskih testova (neki put pogrešna primena parametarskih metoda)
• Podaci dati na intervalnoj i na skali odnosa (metrički): – Plus: Srednja vrednost (aritmetička sredina), mere
disperzije, mere oblika raspodele, i širok izbor parametarskih i neparametarskih testova
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
20
Dizajn istraživanja (1)
• Nezavisnost uzoraka, npr.: X O1 ako se ne mere na istom skupu, koristi se O2, t-test za razliku dve srednje vrednosti; ALI O1 X O2, ako su oba merenja na istom skupu onda se koristi t-test uparenih razlika.
• Broj grupa, npr.: X1 O1 postoje tri grupe i tri srednje vrednosti za X2 O2 poređenje, ne može t-test za razliku srednjih
O3 vrednosti, već analiza varijanse
22/11/2013
6
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
21
Dizajn istraživanja (2)
• Broj varijabli, npr.: X O1 gde su ovo dva merenja različitih varijabli i O2, više se ne mogu koristiti univarijacione tehn.
• Kontrola nad uticajem varijabli
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
22
Pretpostavke na kojima se bazira testiranje statističkih pokazatelja
• Neophodno odlično poznavanje pretpostavki na kojima se pojedini testovi baziraju. Npr.: – Pretpostavke t-testa, na osnovu dva uzorka sa
istom σ, su: 1. Uzorci su nezavisni; 2. Karakteristike koje nas zanimaju za svaku populaciju
imaju normalan raspored; 3. Dve populacije imaju jednake varijanse.
t-test nije osetljiv na povredu pretpostavke o normalnom rasporedu, ali jeste na pretpostavku o jednakim varijansama.
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
23
Pregled statističkih tehnika za analizu podataka
• Univarijacione i multivarijacione tehnike • Parametarske i neparametarske tehnike • Tehnike zavisnosti i međuzavisnosti
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
24
Tehnike za analizu podataka
Univarijacione tehnike
Multivarijacione tehnike
Posmatra se samo jedna promenljiva
Posmatra se više promenljivih istovremeno
22/11/2013
7
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
25
Univarijacione tehnike za analizu podataka
Neparametarske statističke tehnike
Parametarske statističke tehnike
Podaci su nemetrički (nominalna i ordinalna skala)
Podaci su metrički (intervalna i skala odnosa)
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
26
Neparametarske tehnike analize podataka
- Hi-kvadrat - Kolmogorov-Smirnov
- RUNS
Postoji samo jedan uzorak
Postoje dva ili više uzoraka
Nezavisni uzorci
Zavisni uzorci
- Hi-kvadrat - Suma rangova - Kolmogorov – Smirnov
- KW ANOVA
- Test znakova - Vilkoksov test - Meknimarov test
- Kokranov Q-test
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
27
Parametarske statističke tehnike
- t-test - z-test
Postoji samo jedan uzorak
Postoje dva ili više uzoraka
Nezavisni uzorci
Zavisni uzorci
- t-test - z-test - ANOVA
- Upareni t-test
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
28
Tehnike za analizu podataka
Univarijacione tehnike
Multivarijacione tehnike
Posmatra se samo jedna promenljiva
Posmatra se više promenljivih istovremeno
22/11/2013
8
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
29
Multivarijacione tehnike
Tehnike zavisnosti
Fokus na varijablama
Fokus na objektima
- Faktorska analiza
- Analiza skupina
- Višedimen-zionalno skaliranje
Jedna zavisna varijabla
Više zavisnih varijabli
- ANOVA i ANCOVA - Višestruka regresija - Diskriminaciona anal. - Analiza združenih
efekata
- MANOVA i MANCOVA
- Kanonička korelacija
Tehnike međuzavisnosti
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
30
VIII.2. Testiranje hipoteza
• Osnovni koncepti testiranja hipoteza • Unakrsno tabeliranje i hi-kvadrat • Testiranje hipoteza o srednjoj vrednosti i proporcijama
• ANOVA
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
31 Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
32
Osnovni koncepti testiranja hipoteza
• Nulta i alternativna hipoteza • Izbor relevantnog statističkog testa i odgovarajućeg rasporeda verovatnoća
• Izbor kritične vrednosti
22/11/2013
9
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
33
Izbor statističkog testa i odgovarajućeg rasporeda
• Izbor odgovarajućeg rasporeda verovatnoća zavisi od osnovnog cilja iz koga se hipoteza testira, npr.: – Poređenje uzorka i populacije po određenim
karakteristikama, ili – Poređenje dva uzorka po određenim karakteristikama
(srednje vrednosti, proporcije, varijanse,..) • Različiti statistički testovi se koriste u različite
svrhe, što zavisi i od: – Veličine uzorka, – Da li je poznata populacijska standardna devijacija.
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
34
Nulta i alternativna hipoteza
• Cilj je da se donese sud o razlici između statističkih pokazatelja uzorka i hipotetičkih vrednosti parametara populacije
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
35
Izbor kritične vrednosti • Nivo značajnosti, α, pokazuje procenat uzoračkih
realizacija koje se nalaze izvan definisanih granica – Greška I vrste – verovatnoća da se odbaci istinita nulta
hipoteza – Greška II vrste, β, verovatnoća neodbacivanja netačne nulte
hipoteze • Snaga testa hipoteze, 1-β, verovatnoća odbacivanja
netačne nulte hipoteze • Stepeni slobode • Jednostrani (jednosmerni) ili dvostrani (dvosmerni)
testovi Novembar 2013 Istraživanje tržišta
Ekonomski fakultet, Beograd 36
Unakrsno tabeliranje i hi-kvadrat testovi
• Hi-kvadrat test nezavisnosti • Mere povezanosti za nominalne varijable • Hi-kvadrat test prilagođenosti
22/11/2013
10
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
37
Hi-kvadrat test nezavisnosti (1)
• Primenjuje se u tabelama kontingencije H0: Dve (nominalne) varijable su međusobno nezavisne Ha: Postoji zavisnost među dvema varijablama
• Hi-kvadrat raspored je određen svojim stepenima slobode, , r→br.redova, c→br.kolona – Hi-kvadrat-statistika, χ2, je mera razlike između stvarnog
broja opservacija u polju i, u oznaci Oi, i broja opservacija koji bi se očekivao da je nulta hipoteza istinita, to jest pod pretpostavkom statističke nezavisnosti, Ei.
( )∑ =
−=
k
ii
ii
EEO
1
22χ
)1()1( −⋅−= crv
Primer: Koliko često kupujete Politiku?
Pol
Svaki dan Najmanje jednom nedeljno
Najmanje jednom
mesečno
Ni jednom
mesečno
Muškarac
80
70
30
20
Žena
40
60
50
50
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
38
Pol
Svaki dan Najmanje jednom nedeljno
Najmanje jednom
mesečno
Ni jednom
mesečno
Muškarac
50
50
50
50
Žena
50
50
50
50
Primer: Koliko često kupujete Politiku?
Pol
Svaki dan Najmanje jednom nedeljno
Najmanje jednom
mesečno
Ni jednom
mesečno
Muškarac
80
70
30
20
Žena
40
60
50
50
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
39
Pol
Svaki dan Najmanje jednom nedeljno
Najmanje jednom
mesečno
Ni jednom
mesečno
Muškarac
50
50
50
50
Žena
50
50
50
50
Primer: Koliko često kupujete Politiku
Pol:
Svaki dan
Najmanje jednom nedeljno
Najmanje jednom
mesečno
Ni jednom
mesečno
Uk.
Muš-karac
80
70
30
20
200
Žena
40
60
50
50
200
Uk.
120
130
80
70
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
40
22/11/2013
11
Primer: Koliko često kupujete Politiku
Pol:
Svaki dan
Najmanje jednom nedeljno
Najmanje jednom
mesečno
Ni jednom
mesečno
Uk.
Muš-karac
60
65
40
35
200
Žena
60
65
40
35
200
Uk.
120
130
80
70
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
41 Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
42
Hi-kvadrat test nezavisnosti (2) • Ograničenja primene:
– Rezultati su validni samo ako je vrednost očekivane frekvencije u svakom polju tabele najmanje 5.
– Ako je vrednost hi-kvadrat statistike 0 treba proveriti rezult • Jačina povezanosti , C=0→nema zavisnosti C≠1 • Ograničenja C kao mere povezanosti
– Mera je proporcionalna veličini uzorka – Mera nema gornju granicu pa je teško tumačenje – Ne daje indikaciju KAKO su varijable povezane
nC
+= 2
2
χχ
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
43
Mere povezanosti za nominalne varijable (1)
• Mere bazirane na hi-kvadrat statistici – Koeficijent kontingencije, C – Fi-kvadrat: ,
– Kramerovo V,
– Sve navedene mere se lako računaju i teško tumače, uglavnom zato što ne postoji referentna gornja granica
n
22 χ
φ =
)1,1min(
2
−−=
crV φ
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
44
Mere povezanosti za nominalne varijable (2)
• Gudmanovo i Kruskalovo tau:
– Mera dozvoljava proporcionalno smanjenje greške – Ima teorijski smisao – Mera ima gornju granicu, koja je najviše jednaka 1, ali je
najčešće manja od 1 – Gornja granica se može izračunati i specifična je za svaku
tabelu
XXX
nepoznatozagrešakabroj)poznatozagrešakabroj()nepoznatozagrešakabroj(tau −
=
22/11/2013
12
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
45
Hi-kvadrat test prilagođenosti
• Koristi se da se odredi da li populacijski raspored odgovara nekom konkretnom, očekivanom obliku rasporeda verovatnoća
• Koristi se u obliku: Oi = realizacija u polju i Ei = očekivana vrednosti u polju i k = broj međusobno odvojenih kategorija
– Broj stepeni slobode: v = (k – 1)
( )∑=
−=
k
i i
ii
EEO
1
22χ
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
46
Testiranje hipoteza o srednjoj vrednosti i proporcijama
• Testiranje hipoteza o srednjoj vrednosti • Testiranje hipoteza o razlici između dve srednje vrednosti • Testiranje hipoteza o proporcijama • Testiranje hipoteza o razlici između proporcija
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
47
Testiranje hipoteza o srednjoj vrednosti (1)
Poznata je populacijska standardna devijacija, σ – Dvostrani test:
H0: µ = µ0
Ha: µ ≠ µ0 – Standardna greška srednje vrednosti: – z-vrednost se izračunava kao: (µ= µ0) – Nulta hipoteza se odbacuje ako:
(primenom odgovarajućeg α)
nxσ
σ =
x
xZσµ−
=
.2/αZZizrač >
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
48
Testiranje hipoteza o srednjoj vrednosti (2)
Poznata je populacijska standardna devijacija, σ – Jednostrani test:
H0: µ ≥ µ0 Ha: µ < µ0
– Standardna greška srednje vrednosti: – z-vrednost se izračunava kao: (µ= µ0) – Nulta hipoteza se odbacuje ako je
(primenom odgovarajućeg α)
nxσ
σ =
x
xZσµ−
=
.αZZizrač −<
22/11/2013
13
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
49
Testiranje hipoteza o srednjoj vrednosti (3)
Nije poznata populacijska standardna devijacija, σ – Uzoračka standardna devijacija, s, se koristi kao ocena
populacijske standardne devijacije – Standardna greška srednje vrednosti:
– Umesto normalnog, koristi se t-raspored:
– Broj stepeni slobode je n-1 – Sve ostalo je isto kao u prethodno navedenim
jednostranim, odnosno dvostranim testovima respektivno
nssx =
xizrač s
xt µ−=
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
50
Testiranje hipoteze o razlici između dve srednje vrednosti (1)
Dva nezavisna uzorka sa poznatim σ1 i σ2 – Dvostrani test:
H0: µ1 – µ2 = c Ha: µ1 – µ2 ≠ c
– Standardna greška:
– Z-vrednost se izračunava kao
– Ako se koriste veliki uzorci, σ se može aproksimirati sa s – Nulta hipoteza se odbacuje ako:
2
22
1
21
21 nnxxσσ
σ +=−
( ) ( )21
2121
xxizrač
xxZ−
−−−=
σµµ
2/αZZizrač >
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
51
Testiranje hipoteze o razlici između dve srednje vrednosti (2)
Dva nezavisna uzorka sa poznatim σ1 i σ2 – Jednostrani test:
H0: µ1 ≤ µ2
Ha: µ1 – µ2 > 0 – Standardna greška:
– Z-vrednost se izračunava kao
– Ako se koriste veliki uzorci, σ se može aproksimirati sa s – Nulta hipoteza se odbacuje ako:
2
22
1
21
21 nnxxσσ
σ +=−
( ) ( )21
2121
xxizrač
xxZ−
−−−=
σµµ
αZZizrač >Novembar 2013 Istraživanje tržišta
Ekonomski fakultet, Beograd 52
Testiranje hipoteze o razlici između dve srednje vrednosti (3)
Dva nezavisna uzorka sa nepoznatim σ1 i σ2, σ1=σ2 – Uzoračke standardne devijacije, s1 i s2, se koriste kao ocena – Koristi se t-raspored sa stepeni slobode i računa – Standardna greška iznosi:
– Pravila za odbacivanje nulte hipoteze su slične (samo se koristi t-vrednost umesto z-vrednosti)
( ) ( )21
2121
xxsxxt
−
−−−=
µµ
21
1121 nnss Pxx +=− 2
)1()1(21
222
2112
−+−+−
=nn
snsnsP
221 −+nn
22/11/2013
14
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
53
Testiranje hipoteze o razlici između dve srednje vrednosti (4)
Dva nezavisna uzorka sa nepoznatim σ1 i σ2, σ1≠σ2 – Uzoračke standardne devijacije, s1 i s2, se koriste kao ocena
– Koristi se t-raspored sa st. slobode
– t-statistika iznosi
– Standardna greška iznosi:
– Pravila za odbacivanje nulte hipoteze su ista kao prethodno
( ) ( )21
2121
xxsxxt
−
−−−=
µµ
2
22
1
21
21 ns
nss xx +=− ( ) ( )22
2121
121
nsnsnsg
+=
)1)(1()1()1)(1(
122
2
21
−−+−
−−
nggnnn
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
54
Testiranje hipoteze o razlici između dve srednje vrednosti (5)
Dva zavisna uzorka – Kada su uzorci zavisni, može, na primer, da se pretpostavi
da se radi o istom uzorku, pa se računa D = x1 – x2:
, gde je:
– Odgovarajući test je: sa (n-1) stepeni slobode
– A standardna greška
dDH ≥:0dDHa <:
nsdDt
D
−=
∑=
=n
iiDn
D1
1
⎟⎠
⎞⎜⎝
⎛−
−= ∑
=
n
iiD DnD
ns
1
222
11
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
55
Testiranje hipoteza o proporcijama – Dvostrani test:
H0: p = p0
Ha: p ≠ p0 – Standardna greška srednje vrednosti: – Za velike uzorke se koristi normalna aproksimacija
binomnog rasporeda, i dobija se intervalna ocena:
– Odnosno, nulta hipoteza se odbacuje ako je izračunata proporcija van ovog intervala.
npp
p)1( 00 −
=σ
nppZpZp p)1( 00
2/02/0−
±=± αα σ
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
56
Analiza varijanse (ANOVA)
• Analiza varijanse sa jednim faktorom • Proširena ANOVA tabela
22/11/2013
15
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
57
Analiza varijanse sa jednim faktorom
Decembar 2012 Istraživanje tržišta Ekonomski fakultet, Beograd
58
Tehnike za analizu podataka
Univarijacione tehnike
Multivarijacione tehnike
Posmatra se samo jedna promenljiva
Posmatra se više promenljivih istovremeno
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
59
Univarijacione tehnike za analizu podataka
Neparametarske statističke tehnike
Parametarske statističke tehnike
Podaci su nemetrički (nominalna i ordinalna skala)
Podaci su metrički (intervalna i skala odnosa)
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
60
Parametarske statističke tehnike
- t-test - z-test
Postoji samo jedan uzorak
Postoje dva ili više uzoraka
Nezavisni uzorci
Zavisni uzorci
- t-test - z-test - ANOVA
- Upareni t-test
22/11/2013
16
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
61
Osnovni koncepti eksperimentalne analize
• Varijabla ishoda – zavisna varijabla • Faktori – nezavisne varijable • Tretmani – različiti nivoi nezavisnih varijabli, t.j.
faktora • Svrha većine statističkih eksperimenata je:
1. Da se utvrdi da li različiti tretmani imaju različite efekte na varijablu ishoda, i
2. Ako različiti tretmani imaju različite efekte, onda se želi oceniti njihova razlika.
Ove faktore nikako ne smemo mešati sa onima iz faktorske analize!
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
62
Analiza varijanse sa jednim faktorom
• Naziva se i jednosmerna analiza varijanse; • Mere se efekti r tretmana jednog faktora na (jednu)
varijablu ishoda • Zatim se proverava da li postoje značajne razlike
između srednjih vrednosti različitih tretmana: H0: µ1 = µ2 = µ3 = . . . = µr Ha: najmanje 2 od µ1, µ2, µ3, . . . , µr su različiti
– Računa se odnos između varijanse „između-tretmana“ i varijanse „unutar-tretmana“
– Ako je varijansa „između“ značajno veća nego varijansa „unutar“, odbacuje se nulta hipoteza
Primer: Koliko sati učiš nedeljno?
N Mean Std. Deviation Std. Error
Druga godina 50 16.1000 14.21590 2.01043
Treća godina 29 11.3793 7.88495 1.46420
Četvrta i apsolventi 42 11.5238 9.52081 1.46909
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
63
Pretpostavke modela
• Pre početka analize se uvek formalno proverava ispunjenost pretpostavki modela: 1. Reziduali po grupama imaju normalnu raspodelu; 2. Varijanse reziduala različitih grupa su jednake
(homoskedastičnost); 3. U pitanju su nezavisni slučajni uzorci;
• Homoskedastičnost tipično proveravamo Levinovim testom homogenosti varijanse;
• Pretpostavku normalnosti proveravamo Kolmogorov-Smirnovljevim testom normalnosti.
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
64
22/11/2013
17
Primer: Koliko sati učiš nedeljno? – Test homogenosti
varijanse
Levene Statistic df1 df2 Sig.
3.715 2 118 .027
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
65
0,027 < 0,05
• Testira se nulta hipoteza da su varijanse reziduala različitih grupa jednake, t.j. da postoji homoskedastičnost putem Levinovog testa:
=> Odbacujemo nultu hipotezu!
Primer: Koliko sati učiš nedeljno? – Logaritmovani podaci
N Mean Std. Deviation Std. Error
Druga godina 50 2.5103 .88869 .12963
Treća godina 29 2.1534 .83060 .15424
Četvrta i apsolventi 42 2.0884 .91286 .14086
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
66
Primer: Koliko sati učiš nedeljno? – Ponovljeni test
homogenosti varijanse Levene Statistic df1 df2 Sig.
.109 2 115 .897
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
67
=> • Ne odbacujemo nultu hipotezu; na
logaritmovanim podacima više nemamo problem homoskedastičnosti!
• Možemo nastaviti analizu proverom ispunjenosti uslova normalnosti.
Primer: Kolmogorov-Smirnovljev test normalnosti
Druga godina
N 47 Kolmogorov-Smirnov Z .898 Asymp. Sig. (2-tailed) .395
Treća godina
N 29 Kolmogorov-Smirnov Z .848 Asymp. Sig. (2-tailed) .468
Četvrta i apsolventi
N 42 Kolmogorov-Smirnov Z .549 Asymp. Sig. (2-tailed) .924
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
68
=> • Sve p-vrednosti su veće od 0,05 pa ne odbacujemo
nultu hipotezu o normalnosti raspodele!
22/11/2013
18
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
69
Ukupna i srednje vrednosti grupe, kao i njihova odstupanja
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
70
Varijansa između tretmana
– Ocena varijanse „između“ tretmana se zasniva na varijaciji između srednjih vrednosti dobijenih za svaki nivo tretmana:
, t.j.:
SSb – suma kvadrata između nivoa tretmana – srednja vrednost za tretman p – ukupna srednja vrednost np – broj opservacija za tretman p r – ukupan broj tretmana
€
SSb = np X p − X ( )2
p =1
r
∑
pXX €
MSSb =SSbr −1
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
71
Varijansa unutar tretmana
– Ocena varijanse „unutar“ tretmana se zasniva na varijaciji u okviru svakog nivoa tretmana (“neobjašnjena”):
, t.j.:
SSw – suma kvadrata unutar tretmana – srednja vrednost za tretman p – realizacija i za nivo tretmana p np – ukupan broj opservacija za tretman p r – ukupan broj tretmana
N – ukupna veličina uzorka
pXipX€
SSw = xip − X p( )2
p =1
r
∑i=1
n p
∑
€
MSSw =SSwN − r
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
72
Ukupna, objašnjena i neobjašnjena varijansa
• Varijansa između tretmana se naziva i varijansom “objašnjenom” nivoom tretmana
• Varijansa unutar tretmana se naziva i varijansom “neobjašnjenom” nivoom tretmana
• Ukupna (totalna) varijacija ili totalna suma kvadrata je:
wbt SSSSSS +=
22/11/2013
19
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
73
ANOVA tabela
€
SSb = np X p − X ( )2
p =1
r
∑
€
MSSb =SSbr −1
€
MSSbMSSw
€
SSw = xip − X p( )2
p =1
r
∑i=1
k
∑
€
MSSw =SSwN − r
€
SSt = xip − X ( )2
p =1
r
∑i=1
k
∑
Izvor varijacije
Varijacija, suma kvadrata (SS)
St. slo-bode (df)
Ocena varijanse (MSS) F-odnos
Objašnje-na varijacija
r – 1
Neobjaš-njena varijacija
N – r
Ukupno
N – 1
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
74
F-statistika
– Ako je nulta hipoteza istinita (nivoi tretmana nemaju
značajan efekat) onda bi F-odnos trebalo da bude blizu 1; u suprotnom F-odnos ima veće vrednosti
– Čita se vrednost iz tablica F-rasporeda za (r-1) i (N-r) stepeni slobode
– Na osnovu toga se zaključuje da li postoji razlika uslovljena nivoom tretmana i za koji nivo značajnosti ova razlika postoji
€
F =MSSbMSSw
Primer: Koliko sati učiš nedeljno? – ANOVA
Sum of Squares df
Mean Square F Sig.
Between Groups 4.493 2 2.247 2.877 .060
Within Groups 89.812 115 .781 Total 94.305 117
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
75
=> • Na nivou značajnosti od 5% ne bismo odbacili Ho; • Na nivou značajnosti od 10% bismo odbacili Ho i
zaključili da postoje razlike po godinama u odnosu na vreme provedeno u učenju tokom semestra.
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
76
Jačina povezanosti ρ - deskriptivni statistički pokazatelj, mera jačine
povezanosti, koji predstavlja meru proporcije varijanse koja je objašnjena podacima iz uzorka :
– Vrednost ρ na bazi uzorka teži da bude pristrasna naviše, pa je bolje koristiti :
t
b
SSSS
=ρ
€
ˆ ω 2 =SSb − (r −1)MSSw
SSt + MSSw
22/11/2013
20
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
77
Analiza varijanse sa više faktora
Decembar 2012 Istraživanje tržišta Ekonomski fakultet, Beograd
78
Tehnike za analizu podataka
Univarijacione tehnike
Multivarijacione tehnike
Posmatra se samo jedna promenljiva
Posmatra se više promenljivih istovremeno
Decembar 2012 Istraživanje tržišta Ekonomski fakultet, Beograd
79
Multivarijacione tehnike
Tehnike zavisnosti
Fokus na varijablama
Fokus na objektima
- Faktorska analiza
- Analiza skupina
- Višedimen-zionalno skaliranje
Jedna zavisna varijabla
Više zavisnih varijabli
- ANOVA i ANCOVA - Višestruka regresija - Diskriminaciona anal. - Analiza združenih
efekata
- MANOVA i MANCOVA
- Kanonička korelacija
Tehnike međuzavisnosti
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
80
Proširena ANOVA tabela
• U ovom modelu postoji više varijabli tretmana (faktora) – Dodavanjem nove varijable tretmana se povećava objašnjeni
varijabilitet – Druga varijabla tretmana se naziva blok-varijabla, jer se
formira jedan ili više blokova – Takođe je moguće da se uključi više varijabli tretmana
• Interakcija – Efekat interakcije znači da uticaj jednog tretmana neće biti
isti za svaki nivo onog drugog tretmana – Hipoteza o tome da nema interakcije se može testirati
korišćenjem ANOVA tabele
22/11/2013
21
Primer: Koliko sati učiš nedeljno?
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
81 Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
82
VIII.3. Korelaciona i regresiona analiza
•
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
83
Korelaciona analiza
• Pirsonov koeficijent korelacije • Test značajnosti koeficijenta korelacije • Koeficijent parcijalne korelacije
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
84
Pirsonov koeficijent korelacije (1)
• Meri stepen linearne povezanosti između dve metričke varijable (date na intervalnoj ili na skali odnosa)
• Populacijska korelacija ρ, uzoračka korelacija r • Ima vrednosti u intervalu (-1,+1)
– Vrednost 1 ukazuje na postojanje savršene pozitivne linearne povezanosti između dve varijable
– Vrednost –1 ukazuje na savršenu negativnu linearnu povezanost
– Vrednost nula pokazuje da ne postoji nikakva linearna povezanost
22/11/2013
22
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
85
• Meru povezanosti dve varijable daje kovarijansa:
• Za uzoračku korelaciju se prvo neutrališe uticaj veličine uzorka:
• Zatim se neutrališe uticaj jedinice mere tako što se deli sa uzoračkom standardnom devijacijom za X i Y:
= PIRSONOV KOEFICIJENT KORELACIJE
€
Cov(X,Y ) =1
n −1(xi∑ − x )⋅ (yi − y )
€
1n −1
⋅ (xi∑ − x )⋅ (yi∑ − y )
€
rxy =1
n −1⋅
(xi − x )sX
∑ ⋅(yi − y )
sY
=CovXY
sX ⋅ sY
Pirsonov koeficijent korelacije (2)
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
86
Test značajnosti koeficijenta korelacije
• Testira se: H0: ρ = 0
Ha: ρ ≠ 0 – Uvek se koristi t-test – t-statistika se računa po obrascu:
– Čita se tablična t-vrednost za (n-2) stepena slobode
– Nulta hipoteza se odbacuje ako je t-statistika veća od tablične t-vrednosti za α/2
€
t = r⋅ n − 21− r2
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
87
Koeficijent parcijalne korelacije
• Pirsonov koeficijent se odnosi samo na dve varijable
• Koeficijent parcijalne korelacije pruža meru povezanosti dve varijable pošto se izoluje uticaj ostalih varijabli:
€
rXY ,Z =rXY − rXZ ⋅ rYZ
1− rXZ2( ) ⋅ 1− rYZ
2( )
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
88
Ograničenja korelacione analize • Meri samo linearnu povezanost • Postojanje korelacione veze, pozitivne i
negativne, ne znači da postoji uzročno-posledična veza
• Koeficijent korelacije može biti samo indikacija za postojanje uzročno-posledične povezanosti
• Govori o odnosu dve varijable, pa se ne stiče ukupna slika ako postoji veći broj varijabli
• Daje samo jačinu povezanosti između dve varijable, ali ne i prirodu te veze.
22/11/2013
23
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
89
Regresiona analiza
• Model proste linearne regresije • Model višestruke linearne regresije
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
90
Šta je regresiona analiza?
• Statistička tehnika koja se koristi da bi se dve ili više varijabli dovelo u vezu: – zavisna ili rezultujuća varijabla (Y), u odnosu na – jednu ili više nezavisnih ili varijabli prediktora (X).
• Cilj je formulisanje regresionog modela, jednačine predviđanja, koji povezuje zavisnu varijablu sa jednom ili više nezavisnih varijabli
• Model se koristi za opis, predviđanje i kontrolu posmatrane varijable na osnovu nezavisnih varijabli.
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
91
Model proste linearne regresije
• Model se zasniva na pretpostavci da postoji linearna povezanost tipa:
yi = β0 + β1xi + εi, Y → zavisna ili rezultujuća varijabla X → nezavisna varijabla (prediktor) β0 → parametar modela koji predstavlja srednju vrednost Y kada je vrednost X jednaka nuli (Y-odsečak) β1 → parametar modela koji predstavlja nagib, i meri promenu vrednosti Y kada se X promeni za 1 εi → greška koja opisuje uticaj na yi svih faktora koji nisu uključeni u model.
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
92
Pretpostavke regresionog modela 1. Greška je normalno raspoređena (tj. za svaku vrednost X,
raspodela Y je normalna) 2. Srednja vrednost greške jednaka je nuli [E(εi) = 0] 3. Varijansa greške je konstantna i nezavisna je od X 4. Greške su međusobno nezavisne (opservacije se dešavaju
nezavisno) 5. Vrednosti nezavisne varijable X su date (na primer, od
strane onoga koji sprovodi eksperiment). • Neispunjenost ovih pretpostavki može da izazove
ozbiljne probleme u primeni i interpretaciji modela.
22/11/2013
24
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
93
Ocena parametara modela • Na slučajnom uzorku se ocenjuje vrednost yi:
• Primenom metoda najmanjih kvadrata ocenjuju se parametri ove jednačine na sledeći način
• Vrednost b0 je ocena parametra β0, a vrednost b1 je ocena β1. To su regresioni koeficijenti.
€
ˆ y i = b0 + b1xi,
€
b1 =n xiyi − xi∑( ) yi∑( )∑
n xi2 − xi∑( )
2
∑
€
b0 = y − b1x
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
94
Tačkaste ocene parametara
• Razlika između stvarne i ocenjene vrednosti yi, je rezidual koji je ocena greške modela
• U metodu najmanjih kvadrata tačkaste ocene se dobijaju minimiziranjem sume kvadarata grešaka (t.j. odstupanja ocenjene od realizovane vrednosti):
€
ei = yi − ˆ y i =
= yi − (b0 + b1xi)
€
minSSE = ei2∑ = (yi − ˆ y i)∑
2= yi − (b0 + b1xi)[ ]2∑
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
95
Standardna greška ocene regresionog modela
€
sY / X2 =
SSEn − 2
=ei
2∑n − 2
=yi − ˆ y i( )2∑n − 2
iy
• Ocena varijacija osnovnog skupa u odnosu na regresionu pravu, srednja kvadratna greška, MSE:
• Kvadratni koren ove mere, sY/X, ili samo s, predstavlja standardnu grešku ocene – Za bilo koju datu vrednost nezavisne varijable xi, zavisna
varijabla će težiti da bude raspoređena oko predviđene (ocenjene) vrednosti, , sa standardnom devijacijom koja je jednaka standardnoj grešci ocene.
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
96
Standardna greška ocene
• Što je manja standardna greška ocene, to je model bolje prilagođen podacima
• Standardna greška ocene je ista za bilo koju vrednost nezavisne varijable – kako se vrednost nezavisne varijable xi menja,
predviđena vrednost će se takođe menjati, ali će standardna devijacija koja pokazuje koliko će se yi udaljavati od , biti konstantna. iy
22/11/2013
25
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
97
Interpretacija ocena parametara
β1 (čija je ocena b1) – Pokazuje da, ako se varijabla X promeni za jednu jedinicu,
varijabla Y će se promeniti za β1 jedinica – Standardna greška ocene b1 je data sa:
β0 (sa ocenom b0) – Pokazuje prosečnu vrednost Y kada je X nula – Standardna greška ocene b2 je data sa:
€
sb1=
s(xi − x )2∑
=1
n − 2⋅
yi − ˆ y i( )2∑xi − x ( )2∑
€
sb0= s⋅
1n
+x 2
xi − x ( )2∑Novembar 2013 Istraživanje tržišta
Ekonomski fakultet, Beograd 98
Testiranje značajnosti nezavisnih varijabli
• Testom statističke hipoteze se proverava da li postoji linearna povezanost između varijabli, odnosno da li je vrednost koeficijenta β1 ≠ 0
H0: β1 = 0
Ha: β1 ≠ 0 – Primenjuje se t-test
t-statistika se računa kao:
i poredi sa tabličnom t-vrednošću za (n-2) stepena slobode (i odgovarajući nivo značajnosti, α)
€
t =b1 − β1sb1
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
99
Koeficijent determinacije (1)
• Osnovni kvalitet modela se meri njegovom sposobnošću da daje dobra predviđanja
• Ako bi se Y ocenjivalo svojom srednjom vrednošću, greška predviđanja bi iznosila • Ako se za predviđanje koristi ocena regresionim
modelom, onda bi se greška predviđanja umanjila za:
• Odnosno toliko bi model, potencijalno, pružao preciznija predviđanja u odnosu na predviđanje ...
nyy i∑= )( yyi −
€
(yi − y ) − (yi − ˆ y i) = ( ˆ y i − y )
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
100
Koeficijent determinacije (2) • Može se pokazati da je: • Odnosno:
• Ukupan varijabilitet (SST) = zbir kvadrata greške predviđanja koja bi se dobila kada ne bismo koristili X za predviđanje Y
• Neobjašnjen varijabilitet (SSE) = zbir kvadrata greške predviđanja koja se dobija kada koristimo X za predviđanje Y.
• Objašnjen varijabilitet (SSM) = smanjenje zbira kvadrata greške predviđanja koja je postignuta korišćenjem modela.
• Objašnjeni varijabilitet meri deo ukupnog varijabiliteta koji je objašnjen prostim linearnim regresionim modelom
∑∑∑ −=−−− 222 )ˆ()ˆ()( yyyyyy iiii
∑∑∑ −+−=− 222 )ˆ()ˆ()( iiii yyyyyy
Ukupan varijabilitet
Objašnjen varijabilitet
Neobjašnjen varijabilitet
22/11/2013
26
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
101
Koeficijent determinacije (3) • Mera mogućnosti regresionog modela da predvidi
(ili oceni) naziva se koeficijent determinacije (r2):
r2 = (SST - SSE )/ SST = SSM / SST • On predstavlja odnos objašnjenog varijabiliteta i
ukupnog varijabiliteta, odnosno: Koeficijent determinacije
pokazuje koji procenat ukupnog varijabiliteta je objašnjen primenom regresionog modela
Novembar 2013 Istraživanje tržišta
Ekonomski fakultet, Beograd 102
Model višestruke linearne regresije
• Kada u regresionom modelu ima više od jedne nezavisne varijable, time se – Povećava prediktivna snaga modela – Smanjuje neobjašnjen varijabilitet – Uključuje uticaj drugih varijabli – Razrađuju i pojašnjavaju povezanosti
• Opšti oblik modela višestruke linearne regresije: Y = β0 + β1X1 + β2X2 + .........+ βkXk + ε
– gde β1, β2, . . . , βk predstavljaju regresione koeficijente pridružene nezavisnim varijablama X1, X2, . . . , Xk, a ε predstavlja grešku ili rezidual.
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
103
• Pretpostavke su iste kao kod prostog linearnog modela: 1. Greška je normalno raspoređena (tj. za svaku
vrednost X, raspodela Y je normalna) 2. Srednja vrednost greške jednaka je nuli [E(εi) = 0] 3. Varijansa greške je konstantna i nezavisna je od X 4. Greške su međusobno nezavisne (opservacije se
dešavaju nezavisno) 5. Vrednosti nezavisne varijable X su date (na primer,
od strane onoga koji sprovodi eksperiment).
Pretpostavke modela višestruke linearne regresije
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
104
• Isto kao kod proste linearne regresije, traže se vrednosti za konstante (βi , i=0, . . . , k) takve da je zbir kvadrata grešaka predviđanja (∑ε2) minimalna.
• Važno je naglasiti da se normalne jednačine ne mogu rešiti ako je: (1) veličina uzorka, n, manja ili jednaka broju nezavisnih
varijabli, k; ili (2) ako je jedna nezavisna varijabla savršeno korelirana
sa drugom nezavisnom varijablom.
Ocena modela višestruke linearne regresije
22/11/2013
27
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
105
• Jednačina predviđanja u višestrukoj regresionoj analizi glasi:
• Odnosno za dve varijable:
– Koeficijent parcijalne regresije, b1, će biti različit od koeficijenta regresije, b1, koji bi se dobio prostom regresijom Y na X1
– Ovo obično nastaje stoga što su X1 i X2 najčešće korelirani, a kod proste regresije varijabilitet Y koji je zajednički za X1 i X2 bi bio pripisan samo varijabli X1.
Značenje ocena parametara u višestrukoj regresiji
€
ˆ Y = b0 + b1X1 + b2X2 +⋅ ⋅ ⋅ +bk Xk
greškaXbXbbY +++= 22110
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
106
• Ili koeficijent višestruke determinacije
– Pokazuje koliki udeo varijacija zavisne promenljive je objašnjenih regresionim modelom
– Neminovno raste sa porastom broja nezavisnih varijabli u modelu, pa se koristi prilagođeni R2:
Koeficijent determinacije kod višestruke regresije, R2
2
22
)(
)ˆ(
∑∑
−
−==
ii
ii
yy
yySSTSSMR
Objašnjen varijabilitet
Ukupan varijabilitet
1)1(
11)1(1
222
−−−−
=−−
−⋅−−=
knkRn
knnRAdjR
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
107
• Nekoliko testova značajnosti može da se primeni na rezultate višestruke regresione analize, konkretno:
(1) Testiranje značajnosti R2, (2) Testiranje regresionih koeficijenata, i (3) Testiranje povećanja proporcije objašnjene
varijanse koja se odnosi na određenu varijablu ili skup varijabli.
Testiranje značajnosti kod višestrukih regresija
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
108
• Predstavlja test značajnosti regresione jednačine, odnosno testiranje da li je populacijski koeficijent višestruke determinacije značajan:
H0: R2pop = 0
Ha: R2pop ≠ 0
odnosno: H0: β1 = β2 = β3 = . . . = βk = 0 Ha: nisu svi β jednaki nuli
– Za testiranje se koristi F-statistika: sa k i (n – k – 1) stepeni slobode.
Testiranje značajnosti za R2
€
F =R2 k
1− R2( )⋅ n − k −1( )
22/11/2013
28
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
109
Testiranje regresionih koeficijenata
• Ako se prethodnim testom ustanovi da postoji značajnost, treba proveriti koji su od βi značajni:
H0: βi = 0
Ha: βi ≠ 0 – Primenjuje se t-test
t-statistika se računa kao:
i poredi sa tabličnom t-vrednošću za (n-k-1) stepen slobode (i odgovarajući nivo značajnosti, α)
ib
i
sbt =
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
110
Testiranje povećanja objašnjene varijanse dodavanjem varijabli
• Ispituje se značajnost razlike objašnjene varijanse za širi model (sa više varijabli), Rš
2 i uži model, Ru2 i
H0: Rš2 = Ru
2
Ha: Rš2 ≠ Ru
2
– Koristi se F-statistika:
gde su dš i du su stepeni slobode za širi i uži model, respektivno
– Ova vrednost se poredi sa tabličnom F-vrednosti sa dš i du stepeni slobode
šu
š
š
uš
ddd
RRRF
−⋅
−−
= 2
22
1
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
111
Ocenjivanje uticaja nezavisnih varijabli (1)
• Traži se koja nezavisna varijabla ima najveći uticaj na zavisnu varijablu, kako bi se baš ona uključila u regresiju, itd.
• Kriterijum izbora može biti: 1. Ubaciti varijablu čiji koeficijent ima najvišu t-vrednost 2. Ubaciti varijablu koja ima višu vrednost „beta-koeficijenta”:
to su koeficijenti regresije pomnoženi sa odnosom stand. devijacija odgovarajuće nezavisne i zavisne varijable.
⎟⎟⎠
⎞⎜⎜⎝
⎛=
YXb i
i za devijacija standardna za devijacija standardna ovaniStandardiz iβ
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
112
Ocenjivanje uticaja nezavisnih varijabli (2)
• Korisno je upotrebiti tehniku regresije korak-po-korak da bi se od većeg broja nezavisnih varijabli izabrao mali podskup varijabli koje bi objašnjavale najveći deo varijabiliteta zavisne varijable. Postoji nekoliko pristupa: – Dodavanje unapred. Počinje se bez nezavisnih varijabli. Zatim u
jednačinu ulazi varijabla koja najviše doprinosi objašnjenju varijabiliteta nezavisne varijable i to samo ako ispunjava unapred određen kriterijum zasnovan na F-odnosu.
– Eliminacija unazad. Na početku su sve nezavisne varijable uključene u regresionu jednačinu. One se zatim eliminišu jedna po jedna, na osnovu F-odnosa za eliminaciju.
– Puni korak-po-korak. U svakom koraku, dodavanje unapred je kombinovano sa izbacivanjem nezavisnih varijabli koje više ne zadovoljavaju unpared određen kriterijum.
22/11/2013
29
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
113
Interakcije
• Postavlja se pitanje da li postoji interakcija između nezavisnih varijabli
• Ako postoji interakcija dve varijable, npr. X1 i X2, skupu nezavisnih varijabli može da se doda i varijabla X1 ⋅ X2
• Tom varijablom se, onda, ocenjuje interakcija između X1 i X2
• Model bi tada mogao da glasi: Y = b0 + b1 X1 + b2 X2 + b3 X1 ⋅ X2+ greška
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
114
Analiza reziduala • I ako model daje visoke vrednosti koeficijenta
determinacine i regresioni koeficijenti su statistički značajni, ipak se efikasnost modela mora oceniti ispitivanjem reziduala
• Cilj je otkriti da li postoji: – Heteroskedastičnost – reziduali rastu sa porastom vrednosti.
Ovaj problem se može rešiti primenom ponderisanog MNK – Nelinearni obrazac u kretanju reziduala – Autokorelacija - kršenje pretpostavke o nezavisnosti
reziduala. Ovo se rešava primenom procedura kao što je Kohran-Orkatova.
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
115
Validnost predviđanja
• Multivarijacione procedure potpuno zavise od pretpostavke slučajnosti varijacija u podacima
• U suprotnom je ocena previše osetljiva na uzorak
• Validnost predviđanja (ocenjivanja) omogućava da se ispita da li je model ocenjen jednim skupom podataka, održiv kad se primeni na drugi skup podataka
• Mogu se koristiti sledeće metode validacije:
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
116
Metode validacije 1. Podaci iz uzorka se dele na dva poduzorka, jedan se koristi za
ocenu parametara modela, a drugi za validaciju. Porede se koeficijenti izračunati na bazi oba uzorka.
2. Koeficijenti ocenjeni na bazi prvog poduzorka se primenjuju na vrednostima nezavisnih varijabli iz drugog poduzorka, kako bi se dobile ocene vrednosti zavisne promenljive. One se porede sa realizovanim vrednostima iz drugog uzorka i ocenjuje prilagođenost modela.
3. Unakrsna validacija. Uzorak se isto podeli na dva poduzorka. Obavi se analiza kao pod 1 i 2, pa se poduzorci zamene i ponovi procedura...
22/11/2013
30
Novembar 2013 Istraživanje tržišta Ekonomski fakultet, Beograd
117
Regresija sa veštačkim varijablama • Nominalne (nemetričke) varijable mogu da se
koriste kao nezavisne varijable ako se kodiraju kao veštačke varijable
• Opšte pravilo je da ako postoji m nivoa kvalitativne varijable, koristi se m-1 veštačka varijabla da se oni specifikuju
• Npr. Y = b0 + b1D1 + b2D2 + b3D3 + greška
• Kod dihotomnih se koriste 0 i 1, što je čest slučaj, pa se nazivaju i binarnim varijablama