Upload
nguyendang
View
225
Download
6
Embed Size (px)
Citation preview
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
Projektas
„LIETUVOS HSM DUOMENŲ ARCHYVO (LIDA) PLĖTRA“
(SFMIS NR. VP1-3.1-ŠMM-02-V-02-001)
Mokomosios medžiagos „Mokymai apie kiekybinių ir kokybinių HSM tyrimų duomenų analizės metodus“
III paslaugų grupės „Koreliacinės ir regresinės analizės pagrindai“
parengimas
GALUTINĖ ATASKAITA (2010 m. gruodžio mėn. 22 d. paslaugų sutartis Nr. SA-2010-771/3)
KAUNAS, 2011
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
TURINYS
ĮVADAS ...............................................................................................................................................4
1. KORELIACINĖ ANALIZĖ ..........................................................................................................5
2. TIESINĖS REGRESIJOS MODELIS ........................................................................................13
3. TIESINĖS REGRESINĖS ANALIZĖS MODELIO PRIELAIDŲ ..........................................20
TIKRINIMAS IR REGRESINĖS ANALIZĖS IŠVADOS ...........................................................20
4. ĮVADAS Į DAUGIALYPĘ TIESINĘ REGRESIJĄ ..................................................................23
LITERATŪRA .................................................................................................................................30
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
ĮVADAS
Mokymo kursas „Koreliacinės ir regresinės analizės pagrindai“: supažindina su koreliacinės ir
regresinės analizės pagrindais, reikalingais analizuojant apklausų kiekybinius duomenis; ugdo
gebėjimus atlikti koreliacinę ir tiesinę regresinę analizę; tikrinti tiesinės regresinės analizės modelio
prielaidas; suprasti ir interpretuoti atliktų statistinių skaičiavimų rezultatus; apibendrinti gautus
rezultatus ir pateikti pagrįstas išvadas.
Mokymo kurso medžiagą sudaro šie skyriai:
1. Koreliacinė analizė.
2. Tiesinės regresijos modelis.
3. Tiesinės regresinės analizės modelio prielaidų tikrinimas ir regresinės analizės išvados.
4. Įvadas į daugialypę tiesinę regresiją.
Mokymo kurse derinami teorinių ir praktinių įgūdžių lavinimo komponentai. Teorinėje dalyje
pateikti su atitinkamo skyriaus tematika susijusi įvadinė medžiaga skirta aptariamos problematikos
supratimui. Praktinėje dalyje pateikti uždavinių sprendimo pavyzdžiai, iliustruojantys nagrinėjamų
temų klausimų sprendimo būdus. Pateikiamuose pavyzdžiuose naudojami LiDA saugomi realūs
duomenys [1].
Ataskaitos apimtis – 30 puslapių.
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
1. KORELIACINĖ ANALIZĖ
Dažnai analizuojant kiekybinių kintamųjų X ir Y reikšmių kitimą reikia atsakyti į klausimą, ar
stebimi kintamieji yra priklausomi, ar nepriklausomi? Kokia yra ryšio tarp X ir Y tendencija?
Pavyzdžiui, didėjant X stebima Y didėjimo arba mažėjimo tendencija. Tendencija gali būti
monotoninė (kai visoms X reikšmėms ryšio tarp X ir Y tendencija yra vienoda, pavyzdžiui
padidėjus X reikšmei visada padidėja ir Y reikšmė) arba nemonotoninė. Kokia yra statistinio ryšio
forma? Ji gali būti tiesinė arba netiesinė (kvadratinė, logaritminė, eksponentinė ir t.t.). Statistinio
ryšio tendencija ir forma dažnai vertinama nubraižius kintamųjų X ir Y taškų sklaidos diagramą.
Sekantis, labai dominantis tyrėjus, klausimas - koks yra ryšio stiprumas? Ryšio stiprumui vertinti
naudojami įvairūs koreliacijos koeficientai. Tai bedimensiniai dydžiai, kintantys nuo -1 iki +1,
arba nuo 0 iki+1. Pagal koreliacijos koeficiento dydį daromos išvados apie koreliacinio ryšio
stiprumą. Koreliacijos koeficientų yra daug. Jų pasirinkimas priklauso nuo analizuojamų kintamųjų
skirstinių, vertinamų ryšių formų ir t.t. Šiame skyrelyje nagrinėsime tik du porinės koreliacijos
koeficientus (Pirsono ir Spirmeno) ir dalinės koreliacijos koeficientą, kuris plačiai naudojamas
tiesinėje regresinėje analizėje. Apie kitus koreliacijos koeficientus galima pasiskaityti [2,4,10-12].
Taigi, kintamųjų priklausomybės stiprumo matas yra koreliacijos koeficientas. Tikrindami hipotezę
apie populiacijos koreliacijos koeficiento lygybę nuliui, atsakome į klausimą apie kintamųjų
priklausomybės populiacijoje statistinį reikšmingumą. Iš koreliacijos koeficiento negalima nustatyti
koreliacijos priežasties. Du kintamieji X ir Y gali stipriai koreliuoti dėl trijų priežasčių: kintamasis
X daro poveikį kintamajam Y; kintamasis Y daro poveikį kintamajam X; abu kintamieji X ir
Y yra veikiami trečio kintamojo. Todėl koreliacinės analizės metu nustatytas ryšys negali būti
interpretuojamas kaip priežastingumas, o tik kaip asociacijos arba ryšio matas.
Pirsono koreliacijos koeficientas įvertina tiesinio ryšio stiprumą. Jis gali būti naudojamas, kai
stebimų atsitiktinių dydžių X ir Y reikšmės yra išmatuotos intervalų arba santykių skalėje, o jų
dvimatis skirstinys yra normalusis. Populiacijos Pirsono koreliacijos koeficiento taškinis įvertis
(imties Pirsono koreliacijos koeficientas) apskaičiuojamas taikant formulę
2222 )y(y)x(x
yxxyr−−
⋅−==ρ) .
Tiesinis ryšys tuo stipresnis, kuo |r| reikšmė bus arčiau 1. Jei r>0, tai didėjant vieno atsitiktinio
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
dydžio reikšmėms, kito reikšmės tiesiškai didėja. Jei r<0, tai didėjant vieno atsitiktinio dydžio
reikšmėms, kito reikšmės tiesiškai mažėja, Jei r=0, tai tiesinio ryšio nėra, bet gali būti netiesinis
ryšys. Kuo didesnė imtis, tuo imties koreliacijos koeficientas r yra arčiau nežinomo populiacijos
koreliacijos koeficiento ρ . Kokį imties koreliacijos koeficiento r didumą galime laikyti statistiškai
reikšmingu? Prie kokio r didumo mes galime teigti, kad tarp stebėtų atsitiktinių dydžių X ir Y yra
reikšmingas tiesinis ryšys populiacijoje?
Tarkime, kad stebime du atsitiktinius dydžius X ir Y, kurių koreliacijos koeficientas ρ yra
nežinomas. Norint atsakyti į klausimą, ar šie dydžiai yra tiesiškai priklausomi, tikrinama hipotezė
apie populiacijos Pirsono koeficiento lygybę nuliui:
0H : ρ=0, aH : ρ≠0.
Hipotezei H0 tikrinti naudojama Stjudento statistika
2nr1
rt2
−−
= ,
čia r- imties Pirsono koreliacijos koeficientas, n – imties didumas.
Jeigu 0H atmetama, tai tarp X ir Y yra statistiškai reikšmingas tiesinis ryšys, kurio stiprumas gali
svyruoti nuo labai silpno (ρ artimas nuliui) iki funkcinio ryšio (ρ artimas +1 arba -1).
Formuluojant išvadas apie koreliacijos koeficiento reikšmes, visada reikia neužmiršti, kad
statistiškai reikšmingas ryšys dar nereiškia, kad jis yra reikšmingas priežasties-pasekmės
ryšys.
Pateiksime koreliacijos koeficientų taikymo pavyzdžius LiDA archyve saugomiems, 2009 m.
Europos rinkimų tyrimo duomenims [1,17]. Apklausą Lietuvoje vykdė ,,GALLUP" organizacija
UAB "Baltijos tyrimai". Visose Europos Sąjungai (ES) priklausančiose šalyse atliekamo tyrimo
tikslas yra analizuoti ES šalių narių piliečių rinkiminę elgseną ir dalyvavimą Europos Parlamento
rinkimuose. Taip pat tyrime siekiama nagrinėti ES politinės bendruomenės bei europinės viešosios
sferos raidą, rinkėjų nuostatas ir pozicijas ES institucinės sąrangos atžvilgiu bei jų vertinimus
susijusius su ES politikos efektyvumu. 2009 m. Europos rinkimų tyrime siekta integruoti rinkėjų
nuostatų ir elgsenos duomenis su informacija apie rinkimuose dalyvavusias partijas ir jų kandidatus,
su rinkimais susijusių žiniasklaidos pranešimų kontekstu bei su bendruoju politiniu ir ekonominiu
rinkimų kontekstu. Respondentų klausta apie svarbiausias šalies problemas, žiniasklaidos vartojimą,
balsavimą per rinkimus, socio-politines tapatybes, ideologijas ir nuostatas, požiūrį į ES ir Lietuvos
vykdomą politiką, nacionalinių ir ES kompetencijų pasiskirstymą [1,17].
, t~St(n-2),
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
Pavyzdžiuose naudosime penkis 2009 m. Europos rinkimų tyrimo klausimus (kintamuosius) [1]:
Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD (Lietuvoje yra daug partijų, iš kurių
kiekviena norėtų gauti Jūsų balsą. Kiek yra tikėtina, kad Jūs kada nors balsuotumėte už TS-LKD
(Tėvynės sąjunga –Lietuvos krikščionys demokratai)? Savo nuomonę įvertinkite skalėje, kur 0
reiškia “visai neįtikėtina”, o 10 reiškia ,,labai tikėtina”).
Q46|Respondento pozicija kairės-dešinės skalėje (Politikos diskusijose žmonės laikosi “kairės”
arba “dešinės” pozicijos. Kokia yra Jūsų pozicija? Prašome nurodyti savo pažiūras, naudojant vieną
iš skaičių skalėje nuo 0 iki 10, kurioje 0 reiškia “kairė” ir 10 reiškia “dešinė”. Kuris skaičius
geriausiai išreiškia Jūsų poziciją?).
Q80|Požiūris į Europos vienijimąsi (Kai kurių žmonių nuomone, Europos vienijimasis turėtų būti
skatinamas ir toliau. Kiti sako, kad jis jau dabar nuėjo per toli. Kokios nuomonės laikotės Jūs?
Prašome nurodyti savo pažiūras skalėje nuo 0 iki 10, kurioje 0 reiškia, kad vienijimasis “jau nuėjo
per toli” ir 10 reiškia, kad jis ,,turėtų būti skatinamas ir toliau”. Kuris skaičius nuo 0 iki 10
geriausiai atitinka Jūsų požiūrį?).
Q103|Gimimo metai.
Q120|Šeimos gyvenimo lygio vertinimas (Atsižvelgiant į visus aspektus, kokio lygio maždaug yra
Jūsų šeimos gyvenimo standartas? Kurioje vietoje skalėje nuo 1 iki 7, kur 1 reiškia skurdžią šeimą,
o 7 – turtingą šeimą, Jūs matytumėte savo šeimą?).
Tarkime, jūs norite išsiaiškinti, ar yra ryšys tarp tikėtinumo, kad Lietuvos rinkėjai kada nors
balsuotų už TS-LKD (Q39), rinkėjų pozicijų kairės-dešinės skalėje (Q46) ir jų požiūrio į Europos
vienijimąsi (Q80). Kokius koreliacijos koeficientus galima naudoti matuojant ryšio stiprumą tarp
šių kintamųjų? Kokia yra ryšių tendencija? Koks šių ryšių stiprumas?
Pirmiausiai, nubraižykime taškų sklaidos diagramų matricą, kuri vaizduoja visus porinius ryšius.
SPSS meniu: Graphs Scatter/Dot… Matrix Scatter (1.1 pav.)
Pagal gautus grafikus sunku spręsti apie koreliacinio ryšio tendencijas ir stiprumą. SPSS taškų
sklaidos diagramos yra netobulos, nes jos nerodo (pvz. skirtingomis spalvomis ir atspalviais) kiek
grafiko taškų dengia vienas ant kitą, todėl vizualiai sunku spręsti apie koreliacinio ryšio tendencijas,
formą ir stiprumą, kai stebima daug skirtingų kintamųjų reikšmių porų su skirtingais dažniais
(,,vizuali apgaulė‘‘ – vizualiai atrodo, kad ryšio nėra, bet jis gali ir būti). Tokiu atveju apie tiesinio
ryšio stiprumą galima spręsti tik papildomai nubraižius regresijos tieses ( redagavimo rėžime reikia
pažymėti diagramų matricą ir parinkus Element Fit line at Total nubraižyti regresijos tieses).
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
Įvertinę regresijos tiesių grafikus (1.1 pav.) galime teigti, kad stipriausias teigiamas tiesinis ryšys
yra tarp klausimų Q39 ir Q46.
1.1 pav.SPSS taškų sklaidos diagramų braižymo meniu ir taškų sklaidos diagramų matrica
Kadangi visi kintamieji išmatuoti intervalų skalėje, ryšio stiprumą įvertinsime apskaičiuodami
Pirsono tiesinės koreliacijos ir Spirmeno ranginės koreliacijos koeficientus. SPSS meniu: Analyze
Correlation Bivariate (pažymėti atitinkamus langelius Pearson ir Spearman) (1.2 pav.).
1.2 pav. SPSS porinės koreliacinės analizės meniu
Gauti tiesinės koreliacinės analizės rezultatai pateikti 1.3 pav. Su 99,9 proc. garantija galime
teigti, kad tarp pasirinktų kintamųjų yra statistiškai reikšmingas tiesinis ryšys (visos stebėtos
Q39 Q46 Q80
Q39 QQ80
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
p-reikšmės yra mažesnės už 0,001), t.y. visos nulinės hipotezės: ,,Populiacijos Pirsono
koreliacijos koeficientas lygus nuliui“, atmestos (p-reikšmė (Sig. 2 tailed) p=0,000, p< 0,001).
1.3 pav. Pirsono koreliacijos koeficientų matrica
Vidutinio stiprumo, statistiškai reikšmingas tiesinis ryšys yra tarp Q39|Tikėtinumo, kad kada nors
balsuotų už TS-LKD ir Q46|Respondento pozicija kairės-dešinės skalėje (r=0,522). Tiesinis ryšys
yra teigiamas, t.y. kuo respondento pažiūros dešinesnės tuo tikėtiniau, kad jis kada nors balsuos už
TS-LKD. Tuo tarpu tiesiniai ryšiai tarp Q39|Tikėtinumo, kad kada nors balsuotų už TS-LKD ir
Q80|Požiūris į Europos vienijimąsi (r=0,179), ir tarp Q80|Požiūris į Europos vienijimąsi
Q46|Respondento pozicija kairės-dešinės skalėje (r=0,185) yra teigiami bet labai silpni ryšiai.
1.4 pav. Spirmeno ranginės koreliacijos koeficientų matrica
Correlations
1 ,522** ,179**,000 ,000
890 668 719,522** 1 ,185**
,000 ,000
668 711 607
,179** ,185** 1,000 ,000
719 607 770
Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)
N
Pearson CorrelationSig. (2-tailed)N
Q39|Tikimybė, kad kadanors balsuotų už TS-LKD
Q46|Respondentopozicija kairės-dešinėsskalėje
Q80|Požiūris į Europosvienijimąsi
Q39|Tikimybė,kad kada nors
balsuotų užTS-LKD
Q46|Respondento pozicijakairės-dešinės skalėje
Q80|Požiūris įEuropos
vienijimąsi
Correlation is significant at the 0.01 level (2-tailed).**.
Correlations
1,000 ,527** ,161**. ,000 ,000
890 668 719,527** 1,000 ,203**
,000 . ,000
668 711 607
,161** ,203** 1,000,000 ,000 .
719 607 770
Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)
N
Correlation CoefficientSig. (2-tailed)N
Q39|Tikimybė, kad kadanors balsuotų už TS-LKD
Q46|Respondentopozicija kairės-dešinėsskalėje
Q80|Požiūris į Europosvienijimąsi
Spearman's rho
Q39|Tikimybė,kad kada nors
balsuotų užTS-LKD
Q46|Respondento pozicijakairės-dešinės skalėje
Q80|Požiūris įEuropos
vienijimąsi
Correlation is significant at the 0.01 level (2-tailed).**.
Imties (empiriniai) Spirmeno ranginės koreliacijos
koeficientai
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
Spirmeno ranginės koreliacijos koeficientas ρS apibūdina ryšio tarp X ir Y stiprumą
monotoniškumo prasme, t.y. X didėjant, Y monotoniškai didėja (nebūtinai tiesiškai), kai ρS>0
arba mažėja, kai ρS<0. Hipotezės apie Spirmeno ranginės koreliacijos koeficiento reikšmingumą
tikrinimui naudojama Stjudento statistika
.
Gauti tiesinės koreliacinės analizės rezultatai pateikti 1.4 pav. Su 99,9 proc. garantija galime teigti,
kad tarp pasirinktų kintamųjų yra statistiškai reikšmingas ryšys monotoniškumo prasme (visos
stebėtos p-reikšmės yra mažesnės už 0,001), t.y. visos nulinės hipotezės: ,,Populiacijos Spirmeno
ranginės koreliacijos koeficientas lygus nuliui“, atmestos (visos p-reikšmės (Sig. 2 tailed)
p=0,000, p< 0,001). Vidutinio stiprumo statistiškai reikšmingas ryšys monotoniškumo prasme yra
tarp Q39|Tikėtinumo, kad kada nors balsuotų už TS-LKD ir Q46|Respondento pozicija kairės-
dešinės skalėje (rs=0,527). Statistinis ryšys monotoniškumo prasme yra teigiamas, t.y. kuo
respondento pažiūros dešinesnės tuo tikėtiniau, kad jis kada nors balsuos už TS-LKD. Tuo tarpu
ryšiai monotoniškumo prasme tarp Q39|Tikėtinumo, kad kada nors balsuotų už TS-LKD ir
Q80|Požiūris į Europos vienijimąsi (rs=0,161), ir tarp Q80|Požiūris į Europos vienijimąsi
Q46|Respondento pozicija kairės-dešinės skalėje (rs=0,203) yra teigiami bet labai silpni.
Spirmeno koreliacijos koeficientas taikomas korektiškai, nes vienintelis apribojimas yra, kad
kintamieji nebūtų išmatuoti vardų skalėje. Pirsono koreliacijos koeficientas taikomas korektiškai,
kai kintamieji išmatuoti intervalinėje arba santykių skalėje ir dvimatis skirstinys yra normalusis. Ši
sąlyga patikrinta 3 skyriuje ir gauta, kad ji netenkinama, todėl Pirsono koreliacijos koeficientas
taikytas nekorektiškai.
Dalinis koreliacijos koeficientas (Partial correlation coefficient). Reikšminga koreliacija tarp
kintamųjų X ir Y gali būti ir tuo atveju, kai: X ir Y sąlygoti kito kintamojo Z; X gali būti Z
priežastis, o Z yra Y priežastis X Z Y. Pirmos eilės (first-order) dalinis koreliacijos
koeficientas rxy·z yra koreliacijos koeficientas tarp X ir Y, apskaičiuotas izoliavus vieno kintamojo
Z įtaką (kontroliuojant kintamąjį Z) [11]:
.
;0:0 =sH ρ ;0: ≠saH ρ
21 2
−−
= nr
rts
s
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
Pirmos eilės dalinio koreliacijos koeficiento reikšmių interpretacijos pateiktos 1.5 pav. [16]. Antros
eilės (second-order) dalinis koreliacijos koeficientas yra koreliacijos koeficientas tarp X ir Y,
apskaičiuotas izoliavus dviejų kintamųjų Z ir W įtaką rxy·zw ir t.t.
1.5 pav. Dalinė koreliacija ir išvados apie priežastinį ryšį.
1.6 pav. Pirsono koreliacijos koeficientų matrica
Correlations
1 ,058* ,435** ,646**,011 ,000 ,000
1983 1942 1977 1975,058* 1 ,075** ,068**,011 ,001 ,003
1942 1959 1945 1950,435** ,075** 1 ,289**,000 ,001 ,000
1977 1945 1988 1980
,646** ,068** ,289** 1,000 ,003 ,000
1975 1950 1980 1993
Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N
Pearson CorrelationSig. (2-tailed)N
B24|Pasitenkinimasdabartiniu gyvenimuapskritai
C21|Religingumas
B25|Pasitenkinimasdabartine Lietuvosekonomine situacija
C1|Ar yra laimingas
B24|Pasitenkinimas
dabartiniugyvenimuapskritai
C21|Religingumas
B25|Pasitenkinimas
dabartineLietuvos
ekonominesituacija
C1|Ar yralaimingas
Correlation is significant at the 0.05 level (2-tailed).*.
Correlation is significant at the 0.01 level (2-tailed).**.
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
1.7 pav. Dalinių koreliacijos koeficientų matrica
1.6 pav. pateiktas apskaičiuotas Pirsono koreliacijos koeficientas tarp B24|Pasitenkinimas
dabartiniu gyvenimu apskritai ir C1|Ar yra laimingas lygus:
rB24 C1=0,646.
1.7 pav. pateiktas dalinio koreliacijos koeficiento taikymo pavyzdys. Apskaičiuotas dalinis
koreliacijos koeficientas tarp B24|Pasitenkinimas dabartiniu gyvenimu apskritai (Vertinant
apskritai, ar jūs esate patenkintas/-a savo dabartiniu gyvenimu? 0 reiškia ypatingai nepatenkintas/-a,
o 10 – ypatingai patenkintas/-a) ir C1|Ar yra laimingas (Kalbant apskritai, ar jūs esate
laimingas/a?) 0 reiškia ypač nelaimingas/-a, o 10–ypač laimingas/-a), izoliavus B25|Pasitenkinimas
dabartine Lietuvos ekonomine situacija (Vertinant apskritai, ar jūs esate patenkintas/-a dabartine
Lietuvos ekonomine situacija? 0 reiškia ypatingai nepatenkintas/-a, o 10 – ypatingai patenkintas/-a)
įtaką lygus:
rB24 C1•B25=0,603.
Gavome rB24 C1 >rB24 C1•B25>0 t.y. B25 dalinai įtakoja B24 ir C1 (d atvejis, 1.5 pav.), bet ta įtaka
yra labai silpna, nes rB24 C1 nedaug skiriasi nuo rB24 C1•B25 (a atvejis, 1.5 pav.).
Correlations
1,000 ,603. ,000
0 1966,603 1,000,000 .
1966 0
CorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)df
B24|Pasitenkinimasdabartiniu gyvenimuapskritai
C1|Ar yra laimingas
Control VariablesB25|Pasitenkinimasdabartine Lietuvosekonomine situacija
B24|Pasitenkinimas dabartiniugyvenimuapskritai
C1|Ar yralaimingas
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
2. TIESINĖS REGRESIJOS MODELIS
Šiame skyrelyje nagrinėsime vieno kintamojo tiesinės regresinės analizės modelį. Pradžioje
prisiminkime vieno kintamojo determinuotos tiesinę funkciją, kuri sieja priklausomą kintamąjį Y
su nepriklausomu kintamuoju X
XY 10 β+β= ,
čia koeficiento 0β modulis lygus ilgiui atkarpos (intercept), kurią tiesė atkerta Y ašyje, o
koeficientas 1β vadinamas nuolydžiu (slope) ir lygus tangentui kampo, kurį regresijos tiesė sudaro
su X ašimi.
Regresinė analizė nagrinėja ne determinuotą, bet stochastinę priklausomybę tarp kintamųjų Y ir X
(2.1 pav.). Tarkime, ii10i XY ε+β+β= išreiškia tiesinę stochastinę priklausomybę populiacijoje
(populiacijos tiesinės regresijos modelis), o iε , i=1,…,n, yra atsitiktinės paklaidos (atsitiktiniai
dydžiai), kurių skirstinys yra normalusis su vidurkiu lygiu nuliui ir vienoda dispersija
(homoskedastiškumo reikalavimas), n- imties didumas, 0β ir 1β - nežinomi populiacijos tiesinės
regresijos modelio koeficientai. Taigi kintamųjų Y ir X sąryšis yra ne determinuotas bet
stochastinis, esant tai pačiai X reikšmei galima gauti skirtingas Y reikšmes. Tuo tarpu priklausomo
kintamojo Yi vidurkis iEY susietas su Xi determinuota tiesine lygtimi i10i XEY β+β=
2.1 pav. Populiacijos teisinės regresijos modelis
Pagrindiniai vieno kintamojo tiesinės regresinės analizės uždaviniai:
1. Regresijos modelio koeficientų taškinių ir intervalinių įverčių radimas.
2. Hipotezių apie regresijos modelio koeficientus tikrinimas.
3. Regresijos modelio prielaidų tikrinimas.
4. Regresijos modelio taikymas prognozavimui.
Toliau trumpai aptarsime kiekvieną uždavinį.
Regresijos modelio koeficientų taškinių ir intervalinių įverčių radimas. Kaip gauti tokią tiesinę
Y
X
- paklaida
ii10i XY ε+β+β=
iX
i10i XEY β+β=
iε
β0
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
funkciją, kuri geriausiai apibūdintų turimus duomenis? Dažniausiai tam naudojamas mažiausiųjų
kvadratų metodas. Šis metodas leidžia tarp visų galimų tiesių surasti tokią, kuri nutolusi nuo stebėtų
taškų mažiausiai. Mažiausiųjų kvadratų metodo pavadinimas atspindi faktą, kad minimizuojama
liekanų (liekamųjų paklaidų - atstumų tarp tiesės ir stebėtų taškų, žiūr. 2.2 pav.) kvadratų suma
∑=
n
1i
2ie .
2.2 pav. Imties tiesinės regresijos modelis
Pastaba: šioje medžiagoje populiacijos regresijos lygties koeficientų 0β , 1β taškinius įverčius
žymėsime 0b , 1b .
Nesileisdami į skaičiavimus, kuriuos galima rasti kiekviename vadovėlyje ar mokymo kurse [9-16],
pateiksime tik regresijos lygties koeficientų įverčių skaičiavimo formules:
,xbyb 10 −= 221xx
yxyxb−
⋅−=
.
Čia, brūkšnelis virš kintamojo žymi vidurkį, pavyzdžiui, ∑=
=n
1i
2i
2 xn1x .
Radę taškinius įverčius galime užrašyti imties regresijos funkciją XbbY 10 += , čia 0b ir 1b yra
nežinomų populiacijos koeficientų 0β ir 1β taškiniai įverčiai (imties regresijos lygties koeficientai).
Naudojant imties regresijos lygtį galime parašyti išvadą apie imties Y sąlyginio vidurkio pokyčio
priklausomybę nuo X pokyčio, t.y. nepriklausomam kintamajam X suteikus pokytį ΔX priklausomo
kintamojo Y vidutinis pokytis bus
XbY 1Δ=Δ .
Imties regresijos funkcijos koeficientų 0b ir 1b standartinės paklaidos apskaičiuojamos pagal
formules:
Y
X
nepateko į imtį
liekana (liekamoji paklaida)
iX
pateko į imtį
ii10i eXbbY ++=
i10i XbbY +=
ie
iii YYe −=
b0
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
∑=
−= n
1i
2i
2e
b
)xx(
ss1
, nsxss
2e22
bb 10+⋅= .
Populiacijos regresijos funkcijos koeficientų 0β ir 1β pasikliovimo intervalai , kai pasikliovimo
lygmuo yra α−1 , randami pagal formulę
ii b2n;2/iib2n;2/1i stbstb ⋅−≤β≤⋅− −α−α−
čia 22 −α n;/t pažymėtas Stjudento skirstinio su n-2 laisvės laipsniais α/2 kvantilis, i=0,1. Analogiškai
regresijos lygties koeficientų įverčiai randami, kai nepriklausomų kintamųjų yra du ir daugiau.
Hipotezių apie regresijos funkcijos koeficientus tikrinimas. Sprendžiant regresinės analizės
uždavinius dažnai domimasi klausimu, ar nepriklausomas kintamasis X turi įtakos Y kitimui.
Paprastai X įtaka Y kitimui tikrinama nuline hipoteze 0:H 10 =β , t.y. koeficientas prie X
populiacijos regresijos lygtyje lygus nuliui. Alternatyvioji hipotezė 0:H 1a ≠β reiškia tiesinės
priklausomybės tarp X ir Y egzistavimą. SPSS regresinės analizės rezultatus pateikia lentelėmis. 2.1
lentelėje pateikta SPSS regresijos lygties koeficientų lentelės struktūra. Jeigu stebėtas
reikšmingumo lygmuo (p-reikšmė) 1imtα yra mažesnis už pasirinktą reikšmingumo lygmenį α, tai
nulinė hipotezė atmetama.
2.1 lentelė
Pateiksime tiesinės regresinės analizės pavyzdį LiDA archyve saugomiems, 2009 m. Europos
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
rinkimų tyrimo duomenims [1]. Pavyzdyje panaudoti du 2009 m. Europos rinkimų tyrimo klausimai
(kintamieji):
Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD (Lietuvoje yra daug partijų, iš kurių
kiekviena norėtų gauti Jūsų balsą. Kiek yra tikėtina, kad Jūs kada nors balsuotumėte už TS-LKD
(Tėvynės sąjunga –Lietuvos krikščionys demokratai)? Savo nuomonę įvertinkite skalėje, kur 0
reiškia “visai neįtikėtina”, o 10 reiškia ,,labai tikėtina”).
Q46|Respondento pozicija kairės-dešinės skalėje (Politikos diskusijose žmonės laikosi “kairės”
arba “dešinės” pozicijos. Kokia yra Jūsų pozicija? Prašome nurodyti savo pažiūras, naudojant vieną
iš skaičių skalėje nuo 0 iki 10, kurioje 0 reiškia ,,kairė” ir 10 reiškia ,,dešinė”. Kuris skaičius
geriausiai išreiškia Jūsų poziciją?).
Tarkime, jūs norite išsiaiškinti, ar galima prognozuoti tikėtinumą, kad rinkėjai kada nors balsuotų
už TS-LKD (Q39) pagal rinkėjų pozicijas kairės-dešinės skalėje (Q46).
Pirmiausiai, nubraižykime taškų sklaidos diagramą, kuri vaizduoja porinius ryšius. SPSS meniu:
Graphs Scatter/Dot… Matrix Scatter (1.1 pav.).
Kintamąjį Q39|Tikimybė, kad kada nors balsuotų už TS-LKD žymėsime Y ir tai bus priklausomas
kintamasis (dependent variable). Veiksnys, galintis įtakoti tikėtinumą, kad rinkėjai kada nors
balsuotų už TS-LKD, gali būti jo pozicija kairės-dešinės skalėje. Kintamąjį Q46|Respondento
pozicija kairės-dešinės skalėje žymėsite X ir tai bus nepriklausomas kintamasis (independent
variable). Tuomet populiacijos tiesinės regresijos lygtis bus:
„Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD“ =
10 β+β * „Q46|Respondento pozicija kairės-dešinės skalėje“ + ε ,
arba panaudojus įvestus pažymėjimus
ε+β+β=Υ X10 .
Statistikos pakete SPSS tiesinei regresinei analizei skirtas meniu
Analyze Regression Linear. Įvertinsime tiesinio ryšio stiprumą, apskaičiuosime Pirsono
koreliacijos koeficientą, apibrėžtumo koeficientą, rasime regresijos lygties koeficientų taškinius ir
intervalinius įverčius, patikrinsime hipotezes apie regresijos lygties koeficientų reikšmingumą.
Vizualiai patikrinsime regresijos modelio prielaidas: ar standartizuotųjų liekanų skirstinys yra
normalusis, ar standartizuotųjų liekanų sąlyginė dispersija pastovi? Patikrinsime standartizuotųjų
liekanų skirstinio suderinamumo su standartiniu normaliuoju skirstiniu hipotezę. Apskaičiuosime
priklausomo kintamojo vidurkio prognozių pasikliovimo intervalus fiksuotoms nepriklausomojo
kintamojo reikšmėms. Šių uždavinių sprendimui SPSS menių laukų užpildymas pateiktas 2.3 pav.
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
a) b)
c) d)
2.3 pav. Vieno kintamojo tiesinės regresinės analizės SPSS menių
Pagal gautus rezultatus galima daryti sekančias išvadas.
2.4 pav. Tiesinės regresijos modelio rodikl ių suvestinė
Imties Pirsono koreliacijos koeficientas (2.4 pav., R) r = 0,522. Tarp respondentų atsakymų į
anketos klausimus Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD ir Q46|Respondento
pozicija kairės-dešinės skalėje egzistuoja vidutinio stiprumo tiesinis ryšys. Kuo dešinesnės
Model Summaryb
,522a ,272 ,271 3,235Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), Q46|Respondento pozicijakairės-dešinės skalėje
a.
Dependent Variable: Q39|Tikimybė, kad kada norsbalsuotų už TS-LKD
b.
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
respondentų pažiūros, tuo daugiau tikėtina, kad jie kada nors balsuos už TS-LKD.
Apibrėžtumo koeficientas (2.4 pav., R Squared) r2 parodo, kuri atsitiktinio dydžio Y sklaidos dalis
apie vidurkį paaiškinama tiesine regresija. Kuo r2 artimesnis vienetui, tuo didesnė dispersijos dalis
paaiškinama tiesine regresija, t.y. tuo geriau regresijos lygtis aprašo kintamąjį Y, tačiau reikia
neužmiršti, kad kai kintamųjų skaičius regresijos lygtyje nedaug skiriasi nuo imties didumo n, tai
apibrėžtumo koeficientas taip pat yra arti vieneto. Vieno kintamojo regresinėje analizėje
apibrėžtumo koeficientas panašiai kaip ir koreliacijos koeficientas yra dviejų atsitiktinių dydžių Y ir
X tiesinio ryšio matas.
Gavome, kad apibrėžtumo koeficientas r2=0,272, modelis paaiškina 27,2% Y reikšmių sklaidos
apie vidurkį tiesine regresija X atžvilgiu. Šis rodiklis nėra didelis, todėl rekomenduojama ieškoti
papildomų nepriklausomų kintamųjų, kurie pagerintų Y prognozavimą, t.y taikyti daugialypės
regresinės analizės modelį (toks modelis pateiktas 4 skyrelyje).
Standartinė regresijos paklaida (2.4 pav., St. error off the estimate) yra 3,325. Jos didumas
priklauso nuo Y reikšmių didumo, todėl ji naudojama kai tarpusavyje lyginami keli regresijos
modeliai skirti to paties Y prognozavimui. Kuo mažesnė standartinė regresijos paklaida tuo modelis
geresnis. Kai standartinė regresijos paklaida lygi nuliui, tai X ir Y sieja ne stochastinė bet funkcinė
priklausomybė.
2.5 pav. Tiesinės regresijos modelio koeficientai
Imties regresijos lygties koeficientai (2.5 pav.) b0=0,111 ir b1=0,736. Užrašome imties tiesinės
regresijos lygtį:
,,^Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD“ =
0,111+ 0,736* „Q46|Respondento pozicija kairės-dešinės skalėje“ ,
arba panaudojus įvestus pažymėjimus
X736,0111,0Xbbˆ10 ⋅+=+=Υ .
Išvada apie respondentus: ,,Padidėjus respondentų pozicijos kairės-dešinės skalėje vertinimui
vienu balu, tikėtinumas kada nors balsuoti už TS-LKD vidutiniškai padidėja 0,736 balo“.
Populiacijos regresijos lygties koeficientų 95 % pasikliovimo intervalai yra:
Coefficientsa
,111 ,294 ,376 ,707 -,467 ,688
,736 ,047 ,522 15,781 ,000 ,645 ,828
(Constant)Q46|Respondentopozicija kairės-dešinėsskalėje
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig. Lower Bound Upper Bound95% Confidence Interval for B
Dependent Variable: Q39|Tikimybė, kad kada nors balsuotų už TS-LKDa.
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
)688,0;467,0()(PI 095,0 −=β , )828,0;645,0()(PI 195,0 =β .
Išvada apie populiaciją: ,,Su 95% garantija galime prognozuoti, kad padidėjus Lietuvos gyventojų
pozicijos kairės-dešinės skalėje vertinimui vienu balu, tikimybės kada nors balsuoti už TS-LKD
vidutinis padidėjimas yra intervale nuo 0,645 iki 0,828 balo“.
Patikrinus hipotezes apie regresijos funkcijos koeficientus, su 99,9% garantija galime teigti, kad
kintamasis X (Q46|Respondento pozicija kairės-dešinės skalėje) yra statistiškai reikšmingas Y
prognozavimui, nes gavome, kad p-reikšmė (sig.) p=0,000, p<0,001. Nulinė hipotezė, kad
regresijos lygties koeficientas prie nepriklausomo kintamojo X yra statistiškai nereikšmingas,
atmetama, ir priimama alternatyvioji hipotezė.
Apskaičiuotus Y vidutinių reikšmių prognozių pasikliovimo intervalų apatinius (LMCI) ir
viršutinius rėžius (UMCI) fiksuotoms X reikšmėms SPSS įrašo į duomenų matricą (žr., 2.6 pav.,
stulpeliai LMCI_1 ir UMCI_1). Pavyzdžiui, respondentas, kurio duomenys pateikti 103 eilutėje
atsakydamas į klausimą Q46|Respondento pozicija kairės-dešinės skalėje įvertino savo padėtį šioje
skalėje 6 balais. Su 95% garantija galime prognozuoti, kad Lietuvos gyventojų, kurie savo
poziciją kairės-dešinės skalėje vertina 6 balais, tikėtinumo kada nors balsuoti už TS-LKD vidurkis
yra intervale nuo 4,641 iki 5,278 balo“ (2.6 pav). Daugiau apie vidurkio prognozės pasikliovimo
intervalus žr. [3-7, 11].
2.6 pav. Tiesinės regresijos modelio duomenų matrica su išsaugotais Y vidurkio
prognozavimo pasikliovimo intervalų apatiniais ir viršutiniais rėžiais (stulpeliai
LMCI_1 ir UMCI_1)`
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
3. TIESINĖS REGRESINĖS ANALIZĖS MODELIO PRIELAIDŲ
TIKRINIMAS IR REGRESINĖS ANALIZĖS IŠVADOS
Aptarsime kokias sąlygas turi tenkinti kintamieji ir kaip nustatyti ar tiesinės regresijos modelis tinka
analizuojamiems duomenims. Užrašysime regresijos funkciją fiksuotoms (neatsitiktinėms) Xi
reikšmėms
ii10i X ε+β+β=Υ .
Didžioji dalis regresinės analizės prielaidų – tai reikalavimai, kuriuos turi tenkinti atsitiktinės
paklaidos iε , kurios parodo, kiek stebėtoji Y reikšmė skiriasi nuo reikšmės, kurią gautume
prognozuodami pagal regresijos lygtį. 2.1 pav. pavaizduotos atsitiktinės paklaidos vieno kintamojo
regresijos atveju.
Suformuluosime pagrindines tiesinės regresinės analizės prielaidas [3-5,11]:
1. Atsitiktinės paklaidos iε yra normaliai pasiskirstę atsitiktiniai dydžiai.
2. Visų iε vidurkiai lygūs nuliui, 0E i =ε .
3. Visų iε dispersijos lygios (homoskedastiškumo prielaida), 2
iD σ=ε .
4. Visi iε nepriklausomi.
5. Duomenyse nėra išskirčių.
Statistikos pakete SPSS tiesinės regresinės analizės prielaidų tikrinimui skirtas meniu Analyze
Regression Linear (Plot ir Save). Pasinaudodami šiuo meniu vizualiai patikrinsime
regresijos modelio prielaidas: ar standartizuotųjų liekanų skirstinys yra normalusis, ar
standartizuotųjų liekanų sąlyginė dispersija pastovi? Šių uždavinių sprendimui SPSS menių laukų
užpildymas pateiktas 2.3 pav. (c ir d) dalys. Standartizuotųjų liekanų histograma pateikta 3.1 pav.
Išvada. Vizualiai palyginę, galime teigti, kad standartizuotųjų liekanų histograma yra nesuderinta
su standartinio normaliojo skirstinio tankio kreive, t.y. standartizuotųjų liekanų skirstinys yra
nesuderintas su standartiniu normaliuoju skirstiniu.
Standartizuotųjų liekanų P-P grafikas (ištiesintų standartinio normaliojo skirstinio ir empirinio
skirstinio funkcijų palyginimo grafikas pateiktas 3.2 pav.
Išvada. Vizualiai palyginę, galime teigti, kad standartizuotųjų liekanų skirstinys nesuderintas su
standartiniu normaliuoju skirstiniu (kai skirstiniai suderinti, tai visi taškai išsidėsto ant tiesės arba
labai arti jos).
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
3.1 pav. Standartizuotųjų liekanų histograma 3.2 pav. Standartizuotųjų liekanų P-P grafikas
Patikrinsime suderinamumo hipotezę: ,,Standartizuotųjų liekanų skirstinys yra standartinis
normalusis“. Taikant paketą SPSS suderinamumo hipotezę galima patikrinti naudojant procedūrą
NPAR TEST (SPSS meniu: Analyze Noparametric Tests 1-Sample-K-S). Mūsų nagrinėjamo
pavyzdžio hipotezės tikrinimo rezultatai pateikti 3.3 pav.
Išvada. Suderinamumo hipotezė atmesta (p=0,004, p<0,05), standartizuotųjų liekanų skirstinys yra
nesuderintas su standartiniu normaliuoju skirstiniu.
3.3 pav. Suderinamumo hipotezės tikrinimo rezultatai
(Kolmogorovo-Smirnovo kriterijus)
Homoskedastiškumo prielaida arba sąlyginių dispersijų lygybės prielaida yra reikalavimas, kad su
kiekviena fiksuota Xi reikšme arba su kiekviena fiksuota prognozės reikšme iΥ , liekanų sklaida
būtų vienoda, t. y. kuo liekanų reikšmės vienodžiau išsibarsčiusios apie X arba iΥ ašį, tuo regresijos
funkcija geriau aprašo analizuojamus duomenis. Regresijos modelis yra jautrus šios prielaidos
pažeidimams. Jeigu prielaida netenkinama, tai prognozė gali būti iš esmės iškreipta. Tokie
duomenys vadinami heteroskedastiškais. Dažniausiai braižomi ne liekanų , bet standartizuotųjų
liekanų sklaidos grafikai. Mūsų nagrinėjamo pavyzdžio standartizuotųjų liekanų sklaidos diagramos
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
pateiktos 3.4 pav.
Išvada. Iš gautų standartizuotųjų liekanų sklaidos diagramų (3.4 pav.) sunku nuspręsti ar sąlyginė
standartizuotųjų liekanų dispersija yra pastovi, nes daug taškų dengia vienas kitą. Matome, kad yra
tiesinė priklausomybė tarp standartizuotų liekanų vidurkio bei standartizuotųjų prognozių reikšmių
(3.4 pav.), todėl modelio prielaidos netenkinamos.
3.4 pav. Standartizuotųjų liekanų sklaidos diagrama
Išskirtys. Kai imties didumas nedidelis, tai net ir vienas, labai nuo kitų besiskiriantis stebėjimas
gali statistiškai reikšmingai pakeisti regresijos lygties koeficientų įverčius. Todėl reikia mokėti rasti
duomenų išskirtis ir po to išsiaiškinti ką su tomis išskirtimis daryti. Yra nemažai išskirčių
nustatymo metodų, kurių šioje medžiagoje nenagrinėsime. Plačiau apie išskirčių nustatymo metodus
skaitykite [7, 8, 11].
3.5 pav. Išskirčių, nustatytų pagal standartizuotąją liekaną, lentelė
Šioje medžiagoje susipažinsime tik su vienu metodu, kai išskirtis nustatoma pagal standartizuotąją
liekaną (Standardized rezidual) , kuri gaunama iš liekanos ei (Residual) atėmus liekanų imties
aritmetinį vidurkį ir padalijus iš standartinio nuokrypio. Standartizuotųjų liekanų vidurkis lygus 0, o
Casewise Diagnosticsa
3,057 10 ,11 9,8893,057 10 ,11 9,8893,057 10 ,11 9,8893,057 10 ,11 9,8893,057 10 ,11 9,889
Case Number100218245253464
Std. Residual
Q39|Tikimybė,kad kada nors
balsuotų užTS-LKD
PredictedValue Residual
Dependent Variable: Q39|Tikimybė, kad kada nors balsuotų užTS-LKD
a.
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
standartinis nuokrypis lygis 1. Stebėjimą laikome išskirtimi, jeigu standartizuotosios liekanos
absoliutinis didumas viršija 3 standartinius nuokrypius. Mūsų nagrinėjamo pavyzdžio SPSS
lentelėje (3.5 pav.) matome, kad yra 5 išskirtys, tai respondentai, kurių duomenys pateikti duomenų
matricos eilutėse su numeriams 100, 218, 245, 253, 464.
Įvertinus visus analizės rezultatus gauname , kad apibrėžtumo koeficientas nedidelis (0,272),
liekanų analizė rodo, kad prielaidos netenkinamos, todėl sudarytas vieno kintamojo tiesinės
regresijos modelis netinka analizuojamiems duomenims. Rekomenduojama sudaryti daugialypės
regresinės analizės modelį, t.y. ieškoti daugiau nepriklausomų kintamųjų, kurie pagerintų Y
prognozavimą, o sudarytas modelis geriau tenkintų prielaidas [4,5,11].
4. ĮVADAS Į DAUGIALYPĘ TIESINĘ REGRESIJĄ
Šiame skyrelyje pateiksime įvadą į daugialypę tiesinę regresiją
εββββ +++++=Υ KK XXX ...22110 .
Detaliau daugialypės tiesinės regresinės analizės modelis pateikiamas kitoje LiDA mokymo
medžiagoje ,,Daugialypės regresinės analizės taikymas socialiniuose tyrimuose“. Tiesiniame
regresijos modelyje nepriklausomi kintamieji Y, X1, X2 ,..., XK yra kiekybiniai, išmatuoti intervalų
arba santykių skalėje ir turi tenkinti tam tikras sąlygas. Jeigu kintamieji netinka tiesinės regresijos
sąlygų, juos bandoma transformuoti. Dažnai kintamųjų negalima transformuoti taip, kad jie tiktų
tiesinei regresinei analizei, tuomet galima taikyti netiesinę regresinę analizę. Plačiau apie netiesinę
regresinę analizę skaitykite [4-8, 11].
Regresijos funkcijos koeficientai. Radę taškinius koeficientų įverčius galime užrašyti imties
regresijos funkciją
KK XbXbXbbY ++++= ...ˆ22110 .
Sprendžiant regresinės analizės uždavinius dažnai domimasi klausimu, ar nepriklausomas
kintamasis Xj turi įtakos Y kitimui. Paprastai Xj įtaka Y kitimui tikrinama nuline hipoteze
0:0 =jH β , t.y. koeficientas prie Xj populiacijos regresijos lygtyje lygus nuliui. Alternatyvioji
hipotezė 0:H ja ≠β reiškia tiesinės priklausomybės tarp Xj ir Y egzistavimą, j=1,2,…,K. Hipotezių
apie regresijos lygties koeficientus tikrinimui naudojamas Stjudento t kriterijus
( ) .K,...,1,0j,1KnSt~sb
Tjb
jj =−−= .
Jeigu nulinė hipotezė atmetama, tai koeficientas βj statistiškai reikšmingai skiriasi nuo nulio, t.y. Y
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
reikšmės priklauso nuo Xj. Tačiau, reikia neužmiršti, kad nedidelius, bet statistiškai reikšmingus
skirtumus gali lemti didelė imtis (esant didelei imčiai fiksuojami ir mažiausi koeficientų skirtumai
nuo nulio).
Lygindami koeficientus jβ tarpusavyje mes negalime nustatyti kintamųjų Xj santykinę svarbą
prognozuojant Y, nes jβ didumas labai priklauso nuo Xj matavimo vienetų ir nuo duomenų
sklaidos. Todėl, dažnai ieškoma ir standartizuotosios tiesinės regresijos funkcijos. Priklausomas
kintamasis Y ir nepriklausomi kintamieji X1, X2 ,..., XK keičiami z-reikšmėmis ir mažiausiųjų
kvadratų metodu randami standartizuotieji koeficientai BETAj , Kj ,1= . Pagal standartizuotus
koeficientus BETAj galima nuspręsti, koks kintamasis Xj daro didesnę įtaką Y prognozei.
Absoliučiuoju didumu didesnis BETAj rodo didesnę Y priklausomybę nuo Xj.
Pateiksime daugialypės tiesinės regresinės analizės pavyzdį LiDA archyve saugomiems, 2009 m.
Europos rinkimų tyrimo duomenims [1]. Šiame pavyzdyje panaudoti penki 2009 m. Europos
rinkimų tyrimo klausimai (kintamieji): Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD,
Q46|Respondento pozicija kairės-dešinės skalėje, Q80|Požiūris į Europos vienijimąsi,
Q103|Gimimo metai, Q120|Šeimos gyvenimo lygio vertinimas.
Prieš pradedant taikyti daugialypę regresinę analizę rekomenduojama nubraižyti taškų sklaidos
diagramų matricą, kuri vaizduoja visus porinius ryšius. SPSS meniu: Graphs Scatter/Dot…
Matrix Scatter (tokios diagramos pavyzdys pateiktas 1.1 pav.).
Tarkime, jūs norite išsiaiškinti, ar galima prognozuoti tikėtinumą, kad Lietuvos rinkėjai kada nors
balsuotų už TS-LKD (Q39) pagal rinkėjų gimimo metus (Q103), požiūrį į Europos vienijimąsi
(Q80,) rinkėjų poziciją kairės-dešinės skalėje (Q46), rinkėjų šeimų gyvenimo lygio vertinimą
(Q120).
Kintamąjį Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD žymėsime Y ir tai bus
priklausomas kintamasis (dependent variable). Veiksniais, galinčiais įtakoti tikėtinumą, kad
rinkėjai kada nors balsuotų už TS-LKD, gali būti rinkėjo pozicija kairės-dešinės skalėje, požiūrį į
Europos vienijimąsi, rinkėjų šeimų gyvenimo lygis, rinkėjų gimimo metai. Kintamąjį
Q46|Respondento pozicija kairės-dešinės skalėje žymėsite X1 , kintamąjį Q80|Požiūris į Europos
vienijimąsi - X2 , kintamąjį Q120|Šeimos gyvenimo lygio vertinimas –X3 , Q103|Gimimo metai –
X4 ir tai bus nepriklausomi kintamieji (independent variables). Tuomet populiacijos daugialypės
tiesinės regresijos lygtis bus:
„Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD“ =
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
10 β+β * „Q46|Respondento pozicija kairės-dešinės skalėje“ +
2β * „Q80|Požiūris į Europos vienijimąsi“ +
3β * „Q120|Šeimos gyvenimo lygio vertinimas“ + 4β *„Q103|Gimimo metai“ + ε
arba panaudojus įvestus pažymėjimus
ε+β+β+β+β+β=Υ 443322110 XXXX .
Panaudoję SPSS [8] meniu Analyze Regression Linear apskaičiuosime koreguotą
apibrėžtumo koeficientą, rasime regresijos lygties koeficientų taškinius ir intervalinius įverčius,
patikrinsime hipotezes apie regresijos lygties koeficientų reikšmingumą. Vizualiai patikrinsime
regresijos modelio prielaidas: ar standartizuotųjų liekanų skirstinys yra normalusis, ar
standartizuotųjų liekanų sąlyginė dispersija pastovi? Patikrinsime standartizuotųjų liekanų skirstinio
suderinamumo su standartiniu normaliuoju skirstiniu hipotezę. Apskaičiuosime priklausomo
kintamojo vidurkių prognozių pasikliovimo intervalus fiksuotoms nepriklausomų kintamųjų
reikšmėms. Šių uždavinių sprendimui SPSS menių laukų užpildymas yra toks pat kaip ir 2.3 pav.,
tik a dalyje, vietoje vieno nepriklausomo kintamojo reikia nurodyti keturis aukščiau paminėtus
nepriklausomus kintamuosius Xi, i=1,...,4.
Pagal gautus rezultatus (4.1-4.7 pav.) galima daryti sekančias išvadas. Modelio koreguotas
apibrėžtumo koeficientas (4.1 pav., Adjusted R Squared) r2adj
=0,325, modelis paaiškina 32,5% Y
reikšmių sklaidos apie vidurkį tiesine regresija nepriklausomų kintamųjų Xi , i=1,2,…,4 atžvilgiu.
Šis rodiklis nėra didelis, bet jis 5,3% didesnis už 1 skyrelyje pateikto vieno kintamojo tiesinės
regresijos modelio apibrėžtumo koeficientą.
4.1 pav. Daugialypės tiesinės regresijos modelio rodiklių suvestinė
Standartinė regresijos paklaida (St. error off the estimate) 3,107, ji mažai skiriasi nuo 1 skyriuje
pateikto vieno kintamojo tiesinės regresijos modelio standartinės regresijos paklaidos (3,325).
Ieškant daugialypės regresijos lygties tikrinama hipotezė apie regresijos tiesiškumą. Jeigu visi
Model Summaryb
,574a ,330 ,325 3,107Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), Q103|Gimimo metai,Q80|Požiūris į Europos vienijimąsi, Q46|Respondentopozicija kairės-dešinės skalėje, Q120|Šeimosgyvenimo lygio vertinimas
a.
Dependent Variable: Q39|Tikimybė, kad kada norsbalsuotų už TS-LKD
b.
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
regresijos lygties koeficientai prie nepriklausomų kintamųjų lygus nuliui, tai regresijos modelis
prognozėms visiškai netinka. Hipotezė tikrinama naudojant Fišerio F kriterijų su dešinine kritine
sritimi )1Kn,K(F~SSSSF
e
R −−= . Hipotezės apie regresijos teisiškumą
0H : 04321 =β=β=β=β ,
aH : bent vienas 0≠jβ , j=1,...,4.
tikrinimo rezultatai pateikti 4.2 pav. 0H atmesta (p=0,000, p<0,05) ir priimta aH , t.y. regresija yra tiesinė, bent vienas koeficientas nelygus nuliui ir regresijos modelis bent jau iš dalies prognozėms tinka.
4.2 pav. Dispersinės analizės lentelė
Randame populiacijos daugialypės regresijos lygties koeficientų taškinius įverčius, pasikliovimo intervalus ir patikriname hipotezes apie regresijos lygties koeficientų lygybę nuliui (4.3 pav.).
4.3 pav. Daugialypės tiesinės regresijos modelio koeficientai
Populiacijos daugialypės regresijos lygties koeficientų taškiniai įverčiai (imties regresijos lygties
koeficientai): b0=49,355, b1=0,669, b2=0,126, b3=0,48, b4=-0,026 (4.3 pav.). Imties daugialypės
tiesinės regresijos lygtis:
„^Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD“ =
49,355+0,669* „Q46|Respondento pozicija kairės-dešinės skalėje“ +
0,126* „Q80|Požiūris į Europos vienijimąsi“ +
0,48* „Q120|Šeimos gyvenimo lygio vertinimas“ -0,026* „Q103|Gimimo metai“.
arba panaudojus įvestus pažymėjimus
4321 X026,0X48,0X126,0X669,0355,49ˆ ⋅−⋅+⋅+⋅+=Υ .
Suformuluosime išvadą apie koeficientą b1: ,,Padidėjus respondentų pozicijos kairės-dešinės
ANOVAb
2691,217 4 672,804 69,691 ,000a
5473,902 567 9,6548165,119 571
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), Q103|Gimimo metai, Q80|Požiūris į Europos vienijimąsi,Q46|Respondento pozicija kairės-dešinės skalėje, Q120|Šeimos gyvenimo lygiovertinimas
a.
Dependent Variable: Q39|Tikimybė, kad kada nors balsuotų už TS-LKDb.
Coefficientsa
49,355 14,395 3,429 ,001 21,082 77,628
,669 ,049 ,484 13,673 ,000 ,572 ,765
,126 ,046 ,097 2,730 ,007 ,035 ,216
,480 ,114 ,149 4,200 ,000 ,255 ,704
-,026 ,007 -,125 -3,567 ,000 -,041 -,012
(Constant)Q46|Respondentopozicija kairės-dešinėsskalėjeQ80|Požiūris į EuroposvienijimąsiQ120|Šeimos gyvenimolygio vertinimasQ103|Gimimo metai
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig. Lower Bound Upper Bound95% Confidence Interval for B
Dependent Variable: Q39|Tikimybė, kad kada nors balsuotų už TS-LKDa.
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
skalėje vertinimui vienu balu, tikėtinumas kada nors balsuoti už TS-LKD vidutiniškai padidėja
0,669 balo, kai likusieji kintamieji yra fiksuoti“. Analogiškai formuluojamos išvados ir apie kitus
koeficientus.
Su 99% visi regresijos lygties koeficientai yra reikšmingi, nes atmestos visos nulinės hipotezės apie
koeficientų lygybę nuliui (p<0,01), t.y. visi nepriklausomi kintamieji Xi , i=1,...,4 yra reikšmingi Y
prognozavimui.
Populiacijos regresijos lygties koeficientų 95 % pasikliovimo intervalai yra:
)63,77;08,21()(PI 095,0 =β , )765,0;572,0()(PI 195,0 =β ,
)216,0;035,0()(PI 295,0 =β , )704,0;255,0()(PI 395,0 =β ,
)012,0;41,0()(PI 495,0 −−=β .
Suformuluosime išvadą apie )765,0;572,0()(PI 195,0 =β : ,,Su 95% garantija galime prognozuoti,
kad padidėjus Lietuvos rinkėjų pozicijos kairės-dešinės skalėje vertinimui vienu balu, tikėtinumo
kada nors balsuoti už TS-LKD vidutinis padidėjimas yra intervale nuo 0,572 iki 0,765 balo, kai kitų
kintamųjų reikšmės yra fiksuotos“. Analogiškai formuluojamos išvados apie kitų populiacijos
regresijos lygties koeficientų pasikliovimo intervalus.
Apskaičiuotus Y vidutinių reikšmių prognozių pasikliovimo intervalų apatinius (LMCI) ir
viršutinius rėžius (UMCI) fiksuotoms X reikšmėms SPSS įrašo į duomenų matricą (žr., 4.4 pav.,
stulpeliai LMCI_1 ir UMCI_1). Pavyzdžiui103 eilutėje pateikti duomenys respondentės moters,
gimusios 1956 m. duomenys. Atsakydama į klausimą Q46|Respondento pozicija kairės-dešinės
skalėje ji nurodė 6, atsakydama į klausimą Q120|Šeimos gyvenimo lygio vertinimas nurodė 2, o
atsakydama į klausimą Q80|Požiūris į Europos vienijimąsi nurodė 8. Su 95% garantija galime
prognozuoti, kad Lietuvos rinkėjų su tokiomis fiksuotomis kintamųjų reikšmėmis tikėtinumo
kada nors balsuoti už TS-LKD vidurkis yra intervale nuo 4,28 iki 4,78 balo“ (4.4 pav.).
Patikrinsime ar modelis tinka analizuojamiems duomenims, ar tenkinamos tiesinės regresinės
analizės prielaidos. Standartizuotųjų liekanų histogramą ir P-P grafikas pateikti 4.5 pav.
Išvada. Vizualiai palyginę, galime teigti, kad standartizuotųjų liekanų histograma yra suderinta su
standartinio normaliojo skirstinio tankio kreive, standartizuotųjų liekanų P-P grafikas (ištiesintų
standartinio normaliojo skirstinio ir empirinio skirstinio grafikai gerai sutampa), t.y. gavome, kad
standartizuotųjų liekanų skirstinys suderintas su standartiniu normaliuoju skirstiniu.
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
4.4 pav. Daugialypės tiesinės regresijos modelio duomenų matrica su išsaugotais
Y vidurkio prognozavimo pasikliovimo intervalų apatiniais ir viršutiniais rėžiais
(stulpeliai LMCI_1 ir UMCI_1)
4.5 pav. Standartizuotųjų liekanų histogramą ir P-P grafikas
Patikrinsime suderinamumo hipotezę: ,,Standartizuotųjų liekanų skirstinys yra standartinis
normalusis“. Hipotezės tikrinimo rezultatai pateikti 4.6 pav. Išvada. Suderinamumo hipotezė
neatmesta (p=0,259, p>0,05), standartizuotųjų liekanų skirstinys yra suderintas su standartiniu
normaliuoju skirstiniu.
Išvada. Iš gautos standartizuotųjų liekanų sklaidos diagramos (4.7 pav.) sunku nuspręsti ar sąlyginė
standartizuotųjų liekanų dispersija yra pastovi, nes daug taškų dengia vienas kitą. Matome, kad yra
tiesinė priklausomybė tarp standartizuotų liekanų vidurkio bei standartizuotųjų prognozių reikšmių
(4.7 pav), todėl modelio prielaidos netenkinamos.
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
4.6 pav. Suderinamumo hipotezės tikrinimo rezultatai
(Kolmogorovo-Smirnovo kriterijus)
4.7 pav. Standartizuotųjų liekanų sklaidos diagrama
Reikia pabrėžti, kad sprendžiant apie duomenų homoskedastiškumą grafinės analizės nepakanka.
Atliekant kokybišką liekanų analizę reikia naudoti kriterijus skirtus homoskedastiškumo tikrinimui
(pvz. White kriterijų), bet jie nerealizuoti SPSS tiesinės regresinės analizės procedūroje, todėl šioje
medžiagoje nenagrinėjami. Dėl heteroskedastiškumo, prognozuojamų reikšmių pasikliautinieji
intervalai yra didesni nei apskaičiuoti.
One-Sample Kolmogorov-Smirnov Test
572,0000000
,99649122,042,037
-,0421,010
,259
NMeanStd. Deviation
Normal Parameters a,b
AbsolutePositiveNegative
Most ExtremeDifferences
Kolmogorov-Smirnov ZAsymp. Sig. (2-tailed)
StandardizedResidual
Test distribution is Normal.a.
Calculated from data.b.
ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir
LITERATŪRA
1. „Empirinių duomenų ir informacijos humanitarinių ir socialinių mokslų tyrimams
kaupimas ir valdymas: Lietuvos HSM duomenų archyvas (LiDA)“ (Paramos sutartis
ESF/2004/2.5.0-03-392/BPD-262/F450BPD262). http://www.lidata.eu/ .
2. Vogt, W. Paul (2005) Dictionary of statistics & methodology: a nontechnical guide for
the social sciences. Thousand Oaks : Sage Publications.
3. McClave, James T. (2006) Statistics for business and economics. Upper Saddle River :
Pearson Prentice Hall.
4. Norušis Marija J. (2007). SPSS 15.0 Guide to Data Analysis. Prentice Hall. 5. Gaur, Ajai S (2007) Statistical methods for practice and research: a guide to data
analysis using SPSS. New Delhi: Response Books. 6. SPSS Base 15.0 User’s Guide (2006). Chicago: SPSS Inc. 7. SPSS 15.0 Algoritms (2006). Chicago: SPSS Inc. 8. SPSS official website. USA: IBM Corporation. - [žiūrėta 2011-02-30]. Prieiga per
internetą: <http://www.spss.com/>
9. Aksomaitis, Algimantas (2000). Tikimybių teorija ir statistika : vadovėlis aukštųjų
mokyklų studentams / Algimantas Aksomaitis. - Kaunas : Technologija.
10. Čekanavičius V., Murauskas G. (2000). Statistika ir jos taikymai. D.1-Vilnius: TEV.
11. Čekanavičius V., Murauskas G. (2004). Statistika ir jos taikymai. D.2-Vilnius: TEV.
12. Statistika ir duomenų analizės programinė įranga. Distancinio mokymo kursas. Projekto
vadovas Janilionis V..- Kaunas: KTU, 1999-2001.-(http://fmf.ktu.lt/janil/stat1.htm).
13. Janilionis V.; Aksomaitis A., Jokimaitis A. ir kt. (2003). Tikimybių teorija ir statistika 2.
Nuotolinio mokymo kursas. Projekto vadovas V. Janilionis. Kaunas: KTU.
(http://mano.ktu.lt/moodle, prieiga su slaptažodžiu).
14. Bačinskas A., Janilionis V., Jokimaitis (2001). Tikimybiu teorija ir statistika.
Praktikumas. Kaunas: Technologija.
15. Janilionis V., Aksomaitis A. (1993) Sistema STATGRAPHICS 5.0. Matematinės
statistikos metodai. Kaunas: Technologija.
16. Venslovienė J. Statistiniai metodai medicinoje.-Kaunas:VDU,2010, 344 p.
17. European Election Studies. Mannheim, Germany: University of Mannheim. - [žiūrėta
2011-03-30]. Prieiga per internetą: <http://www.ees-homepage.net/>