Mokymai apie kiekybinių ir kokybinių HSM tyrimų duomenų analizės

ES struktūrinių fondų lėšomis įgyvendinto projekto „Lietuvos HSM duomenų archyvo (LiDA) plėtra“ mokymo kursas Koreliacinės ir

Projektas

„LIETUVOS HSM DUOMENŲ ARCHYVO (LIDA) PLĖTRA“

(SFMIS NR. VP1-3.1-ŠMM-02-V-02-001)

Mokomosios medžiagos „Mokymai apie kiekybinių ir kokybinių HSM tyrimų duomenų analizės metodus“

III paslaugų grupės „Koreliacinės ir regresinės analizės pagrindai“

parengimas

GALUTINĖ ATASKAITA (2010 m. gruodžio mėn. 22 d. paslaugų sutartis Nr. SA-2010-771/3)

KAUNAS, 2011


TURINYS

ĮVADAS ...............................................................................................................................................4

1. KORELIACINĖ ANALIZĖ ..........................................................................................................5

2. TIESINĖS REGRESIJOS MODELIS ........................................................................................13

3. TIESINĖS REGRESINĖS ANALIZĖS MODELIO PRIELAIDŲ ..........................................20

TIKRINIMAS IR REGRESINĖS ANALIZĖS IŠVADOS ...........................................................20

4. ĮVADAS Į DAUGIALYPĘ TIESINĘ REGRESIJĄ ..................................................................23

LITERATŪRA .................................................................................................................................30


ĮVADAS

Mokymo kursas „Koreliacinės ir regresinės analizės pagrindai“: supažindina su koreliacinės ir

regresinės analizės pagrindais, reikalingais analizuojant apklausų kiekybinius duomenis; ugdo

gebėjimus atlikti koreliacinę ir tiesinę regresinę analizę; tikrinti tiesinės regresinės analizės modelio

prielaidas; suprasti ir interpretuoti atliktų statistinių skaičiavimų rezultatus; apibendrinti gautus

rezultatus ir pateikti pagrįstas išvadas.

Mokymo kurso medžiagą sudaro šie skyriai:

1. Koreliacinė analizė.

2. Tiesinės regresijos modelis.

3. Tiesinės regresinės analizės modelio prielaidų tikrinimas ir regresinės analizės išvados.

4. Įvadas į daugialypę tiesinę regresiją.

Mokymo kurse derinami teorinių ir praktinių įgūdžių lavinimo komponentai. Teorinėje dalyje

pateikti su atitinkamo skyriaus tematika susijusi įvadinė medžiaga skirta aptariamos problematikos

supratimui. Praktinėje dalyje pateikti uždavinių sprendimo pavyzdžiai, iliustruojantys nagrinėjamų

temų klausimų sprendimo būdus. Pateikiamuose pavyzdžiuose naudojami LiDA saugomi realūs

duomenys [1].

Ataskaitos apimtis – 30 puslapių.


1. KORELIACINĖ ANALIZĖ

Dažnai analizuojant kiekybinių kintamųjų X ir Y reikšmių kitimą reikia atsakyti į klausimą, ar

stebimi kintamieji yra priklausomi, ar nepriklausomi? Kokia yra ryšio tarp X ir Y tendencija?

Pavyzdžiui, didėjant X stebima Y didėjimo arba mažėjimo tendencija. Tendencija gali būti

monotoninė (kai visoms X reikšmėms ryšio tarp X ir Y tendencija yra vienoda, pavyzdžiui

padidėjus X reikšmei visada padidėja ir Y reikšmė) arba nemonotoninė. Kokia yra statistinio ryšio

forma? Ji gali būti tiesinė arba netiesinė (kvadratinė, logaritminė, eksponentinė ir t.t.). Statistinio

ryšio tendencija ir forma dažnai vertinama nubraižius kintamųjų X ir Y taškų sklaidos diagramą.

Sekantis, labai dominantis tyrėjus, klausimas - koks yra ryšio stiprumas? Ryšio stiprumui vertinti

naudojami įvairūs koreliacijos koeficientai. Tai bedimensiniai dydžiai, kintantys nuo -1 iki +1,

arba nuo 0 iki+1. Pagal koreliacijos koeficiento dydį daromos išvados apie koreliacinio ryšio

stiprumą. Koreliacijos koeficientų yra daug. Jų pasirinkimas priklauso nuo analizuojamų kintamųjų

skirstinių, vertinamų ryšių formų ir t.t. Šiame skyrelyje nagrinėsime tik du porinės koreliacijos

koeficientus (Pirsono ir Spirmeno) ir dalinės koreliacijos koeficientą, kuris plačiai naudojamas

tiesinėje regresinėje analizėje. Apie kitus koreliacijos koeficientus galima pasiskaityti [2,4,10-12].

Taigi, kintamųjų priklausomybės stiprumo matas yra koreliacijos koeficientas. Tikrindami hipotezę

apie populiacijos koreliacijos koeficiento lygybę nuliui, atsakome į klausimą apie kintamųjų

priklausomybės populiacijoje statistinį reikšmingumą. Iš koreliacijos koeficiento negalima nustatyti

koreliacijos priežasties. Du kintamieji X ir Y gali stipriai koreliuoti dėl trijų priežasčių: kintamasis

X daro poveikį kintamajam Y; kintamasis Y daro poveikį kintamajam X; abu kintamieji X ir

Y yra veikiami trečio kintamojo. Todėl koreliacinės analizės metu nustatytas ryšys negali būti

interpretuojamas kaip priežastingumas, o tik kaip asociacijos arba ryšio matas.

Pirsono koreliacijos koeficientas įvertina tiesinio ryšio stiprumą. Jis gali būti naudojamas, kai

stebimų atsitiktinių dydžių X ir Y reikšmės yra išmatuotos intervalų arba santykių skalėje, o jų

dvimatis skirstinys yra normalusis. Populiacijos Pirsono koreliacijos koeficiento taškinis įvertis

(imties Pirsono koreliacijos koeficientas) apskaičiuojamas taikant formulę

2222 )y(y)x(x

yxxyr−−

⋅−==ρ) .

Tiesinis ryšys tuo stipresnis, kuo |r| reikšmė bus arčiau 1. Jei r>0, tai didėjant vieno atsitiktinio


dydžio reikšmėms, kito reikšmės tiesiškai didėja. Jei r<0, tai didėjant vieno atsitiktinio dydžio

reikšmėms, kito reikšmės tiesiškai mažėja, Jei r=0, tai tiesinio ryšio nėra, bet gali būti netiesinis

ryšys. Kuo didesnė imtis, tuo imties koreliacijos koeficientas r yra arčiau nežinomo populiacijos

koreliacijos koeficiento ρ . Kokį imties koreliacijos koeficiento r didumą galime laikyti statistiškai

reikšmingu? Prie kokio r didumo mes galime teigti, kad tarp stebėtų atsitiktinių dydžių X ir Y yra

reikšmingas tiesinis ryšys populiacijoje?

Tarkime, kad stebime du atsitiktinius dydžius X ir Y, kurių koreliacijos koeficientas ρ yra

nežinomas. Norint atsakyti į klausimą, ar šie dydžiai yra tiesiškai priklausomi, tikrinama hipotezė

apie populiacijos Pirsono koeficiento lygybę nuliui:

0H : ρ=0, aH : ρ≠0.

Hipotezei H0 tikrinti naudojama Stjudento statistika

2nr1

rt2

−−

= ,

čia r- imties Pirsono koreliacijos koeficientas, n – imties didumas.

Jeigu 0H atmetama, tai tarp X ir Y yra statistiškai reikšmingas tiesinis ryšys, kurio stiprumas gali

svyruoti nuo labai silpno (ρ artimas nuliui) iki funkcinio ryšio (ρ artimas +1 arba -1).

Formuluojant išvadas apie koreliacijos koeficiento reikšmes, visada reikia neužmiršti, kad

statistiškai reikšmingas ryšys dar nereiškia, kad jis yra reikšmingas priežasties-pasekmės

ryšys.

Pateiksime koreliacijos koeficientų taikymo pavyzdžius LiDA archyve saugomiems, 2009 m.

Europos rinkimų tyrimo duomenims [1,17]. Apklausą Lietuvoje vykdė ,,GALLUP" organizacija

UAB "Baltijos tyrimai". Visose Europos Sąjungai (ES) priklausančiose šalyse atliekamo tyrimo

tikslas yra analizuoti ES šalių narių piliečių rinkiminę elgseną ir dalyvavimą Europos Parlamento

rinkimuose. Taip pat tyrime siekiama nagrinėti ES politinės bendruomenės bei europinės viešosios

sferos raidą, rinkėjų nuostatas ir pozicijas ES institucinės sąrangos atžvilgiu bei jų vertinimus

susijusius su ES politikos efektyvumu. 2009 m. Europos rinkimų tyrime siekta integruoti rinkėjų

nuostatų ir elgsenos duomenis su informacija apie rinkimuose dalyvavusias partijas ir jų kandidatus,

su rinkimais susijusių žiniasklaidos pranešimų kontekstu bei su bendruoju politiniu ir ekonominiu

rinkimų kontekstu. Respondentų klausta apie svarbiausias šalies problemas, žiniasklaidos vartojimą,

balsavimą per rinkimus, socio-politines tapatybes, ideologijas ir nuostatas, požiūrį į ES ir Lietuvos

vykdomą politiką, nacionalinių ir ES kompetencijų pasiskirstymą [1,17].

, t~St(n-2),


Pavyzdžiuose naudosime penkis 2009 m. Europos rinkimų tyrimo klausimus (kintamuosius) [1]:

Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD (Lietuvoje yra daug partijų, iš kurių

kiekviena norėtų gauti Jūsų balsą. Kiek yra tikėtina, kad Jūs kada nors balsuotumėte už TS-LKD

(Tėvynės sąjunga –Lietuvos krikščionys demokratai)? Savo nuomonę įvertinkite skalėje, kur 0

reiškia “visai neįtikėtina”, o 10 reiškia ,,labai tikėtina”).

Q46|Respondento pozicija kairės-dešinės skalėje (Politikos diskusijose žmonės laikosi “kairės”

arba “dešinės” pozicijos. Kokia yra Jūsų pozicija? Prašome nurodyti savo pažiūras, naudojant vieną

iš skaičių skalėje nuo 0 iki 10, kurioje 0 reiškia “kairė” ir 10 reiškia “dešinė”. Kuris skaičius

geriausiai išreiškia Jūsų poziciją?).

Q80|Požiūris į Europos vienijimąsi (Kai kurių žmonių nuomone, Europos vienijimasis turėtų būti

skatinamas ir toliau. Kiti sako, kad jis jau dabar nuėjo per toli. Kokios nuomonės laikotės Jūs?

Prašome nurodyti savo pažiūras skalėje nuo 0 iki 10, kurioje 0 reiškia, kad vienijimasis “jau nuėjo

per toli” ir 10 reiškia, kad jis ,,turėtų būti skatinamas ir toliau”. Kuris skaičius nuo 0 iki 10

geriausiai atitinka Jūsų požiūrį?).

Q103|Gimimo metai.

Q120|Šeimos gyvenimo lygio vertinimas (Atsižvelgiant į visus aspektus, kokio lygio maždaug yra

Jūsų šeimos gyvenimo standartas? Kurioje vietoje skalėje nuo 1 iki 7, kur 1 reiškia skurdžią šeimą,

o 7 – turtingą šeimą, Jūs matytumėte savo šeimą?).

Tarkime, jūs norite išsiaiškinti, ar yra ryšys tarp tikėtinumo, kad Lietuvos rinkėjai kada nors

balsuotų už TS-LKD (Q39), rinkėjų pozicijų kairės-dešinės skalėje (Q46) ir jų požiūrio į Europos

vienijimąsi (Q80). Kokius koreliacijos koeficientus galima naudoti matuojant ryšio stiprumą tarp

šių kintamųjų? Kokia yra ryšių tendencija? Koks šių ryšių stiprumas?

Pirmiausiai, nubraižykime taškų sklaidos diagramų matricą, kuri vaizduoja visus porinius ryšius.

SPSS meniu: Graphs Scatter/Dot… Matrix Scatter (1.1 pav.)

Pagal gautus grafikus sunku spręsti apie koreliacinio ryšio tendencijas ir stiprumą. SPSS taškų

sklaidos diagramos yra netobulos, nes jos nerodo (pvz. skirtingomis spalvomis ir atspalviais) kiek

grafiko taškų dengia vienas ant kitą, todėl vizualiai sunku spręsti apie koreliacinio ryšio tendencijas,

formą ir stiprumą, kai stebima daug skirtingų kintamųjų reikšmių porų su skirtingais dažniais

(,,vizuali apgaulė‘‘ – vizualiai atrodo, kad ryšio nėra, bet jis gali ir būti). Tokiu atveju apie tiesinio

ryšio stiprumą galima spręsti tik papildomai nubraižius regresijos tieses ( redagavimo rėžime reikia

pažymėti diagramų matricą ir parinkus Element Fit line at Total nubraižyti regresijos tieses).


Įvertinę regresijos tiesių grafikus (1.1 pav.) galime teigti, kad stipriausias teigiamas tiesinis ryšys

yra tarp klausimų Q39 ir Q46.

1.1 pav.SPSS taškų sklaidos diagramų braižymo meniu ir taškų sklaidos diagramų matrica

Kadangi visi kintamieji išmatuoti intervalų skalėje, ryšio stiprumą įvertinsime apskaičiuodami

Pirsono tiesinės koreliacijos ir Spirmeno ranginės koreliacijos koeficientus. SPSS meniu: Analyze

Correlation Bivariate (pažymėti atitinkamus langelius Pearson ir Spearman) (1.2 pav.).

1.2 pav. SPSS porinės koreliacinės analizės meniu

Gauti tiesinės koreliacinės analizės rezultatai pateikti 1.3 pav. Su 99,9 proc. garantija galime

teigti, kad tarp pasirinktų kintamųjų yra statistiškai reikšmingas tiesinis ryšys (visos stebėtos

Q39 Q46 Q80

Q39 QQ80


p-reikšmės yra mažesnės už 0,001), t.y. visos nulinės hipotezės: ,,Populiacijos Pirsono

koreliacijos koeficientas lygus nuliui“, atmestos (p-reikšmė (Sig. 2 tailed) p=0,000, p< 0,001).

1.3 pav. Pirsono koreliacijos koeficientų matrica

Vidutinio stiprumo, statistiškai reikšmingas tiesinis ryšys yra tarp Q39|Tikėtinumo, kad kada nors

balsuotų už TS-LKD ir Q46|Respondento pozicija kairės-dešinės skalėje (r=0,522). Tiesinis ryšys

yra teigiamas, t.y. kuo respondento pažiūros dešinesnės tuo tikėtiniau, kad jis kada nors balsuos už

TS-LKD. Tuo tarpu tiesiniai ryšiai tarp Q39|Tikėtinumo, kad kada nors balsuotų už TS-LKD ir

Q80|Požiūris į Europos vienijimąsi (r=0,179), ir tarp Q80|Požiūris į Europos vienijimąsi

Q46|Respondento pozicija kairės-dešinės skalėje (r=0,185) yra teigiami bet labai silpni ryšiai.

1.4 pav. Spirmeno ranginės koreliacijos koeficientų matrica

Correlations

1 ,522** ,179**,000 ,000

890 668 719,522** 1 ,185**

,000 ,000

668 711 607

,179** ,185** 1,000 ,000

719 607 770

Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)

N

Pearson CorrelationSig. (2-tailed)N

Q39|Tikimybė, kad kadanors balsuotų už TS-LKD

Q46|Respondentopozicija kairės-dešinėsskalėje

Q80|Požiūris į Europosvienijimąsi

Q39|Tikimybė,kad kada nors

balsuotų užTS-LKD

Q46|Respondento pozicijakairės-dešinės skalėje

Q80|Požiūris įEuropos

vienijimąsi

Correlation is significant at the 0.01 level (2-tailed).**.

Correlations

1,000 ,527** ,161**. ,000 ,000

890 668 719,527** 1,000 ,203**

,000 . ,000

668 711 607

,161** ,203** 1,000,000 ,000 .

719 607 770

Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)

N

Correlation CoefficientSig. (2-tailed)N

Q39|Tikimybė, kad kadanors balsuotų už TS-LKD

Q46|Respondentopozicija kairės-dešinėsskalėje

Q80|Požiūris į Europosvienijimąsi

Spearman's rho


balsuotų užTS-LKD

Q46|Respondento pozicijakairės-dešinės skalėje

Q80|Požiūris įEuropos

vienijimąsi


Imties (empiriniai) Spirmeno ranginės koreliacijos

koeficientai


Spirmeno ranginės koreliacijos koeficientas ρS apibūdina ryšio tarp X ir Y stiprumą

monotoniškumo prasme, t.y. X didėjant, Y monotoniškai didėja (nebūtinai tiesiškai), kai ρS>0

arba mažėja, kai ρS<0. Hipotezės apie Spirmeno ranginės koreliacijos koeficiento reikšmingumą

tikrinimui naudojama Stjudento statistika

.

Gauti tiesinės koreliacinės analizės rezultatai pateikti 1.4 pav. Su 99,9 proc. garantija galime teigti,

kad tarp pasirinktų kintamųjų yra statistiškai reikšmingas ryšys monotoniškumo prasme (visos

stebėtos p-reikšmės yra mažesnės už 0,001), t.y. visos nulinės hipotezės: ,,Populiacijos Spirmeno

ranginės koreliacijos koeficientas lygus nuliui“, atmestos (visos p-reikšmės (Sig. 2 tailed)

p=0,000, p< 0,001). Vidutinio stiprumo statistiškai reikšmingas ryšys monotoniškumo prasme yra

tarp Q39|Tikėtinumo, kad kada nors balsuotų už TS-LKD ir Q46|Respondento pozicija kairės-

dešinės skalėje (rs=0,527). Statistinis ryšys monotoniškumo prasme yra teigiamas, t.y. kuo

respondento pažiūros dešinesnės tuo tikėtiniau, kad jis kada nors balsuos už TS-LKD. Tuo tarpu

ryšiai monotoniškumo prasme tarp Q39|Tikėtinumo, kad kada nors balsuotų už TS-LKD ir

Q80|Požiūris į Europos vienijimąsi (rs=0,161), ir tarp Q80|Požiūris į Europos vienijimąsi

Q46|Respondento pozicija kairės-dešinės skalėje (rs=0,203) yra teigiami bet labai silpni.

Spirmeno koreliacijos koeficientas taikomas korektiškai, nes vienintelis apribojimas yra, kad

kintamieji nebūtų išmatuoti vardų skalėje. Pirsono koreliacijos koeficientas taikomas korektiškai,

kai kintamieji išmatuoti intervalinėje arba santykių skalėje ir dvimatis skirstinys yra normalusis. Ši

sąlyga patikrinta 3 skyriuje ir gauta, kad ji netenkinama, todėl Pirsono koreliacijos koeficientas

taikytas nekorektiškai.

Dalinis koreliacijos koeficientas (Partial correlation coefficient). Reikšminga koreliacija tarp

kintamųjų X ir Y gali būti ir tuo atveju, kai: X ir Y sąlygoti kito kintamojo Z; X gali būti Z

priežastis, o Z yra Y priežastis X Z Y. Pirmos eilės (first-order) dalinis koreliacijos

koeficientas rxy·z yra koreliacijos koeficientas tarp X ir Y, apskaičiuotas izoliavus vieno kintamojo

Z įtaką (kontroliuojant kintamąjį Z) [11]:

.

;0:0 =sH ρ ;0: ≠saH ρ

21 2

−−

= nr

rts

s


Pirmos eilės dalinio koreliacijos koeficiento reikšmių interpretacijos pateiktos 1.5 pav. [16]. Antros

eilės (second-order) dalinis koreliacijos koeficientas yra koreliacijos koeficientas tarp X ir Y,

apskaičiuotas izoliavus dviejų kintamųjų Z ir W įtaką rxy·zw ir t.t.

1.5 pav. Dalinė koreliacija ir išvados apie priežastinį ryšį.

1.6 pav. Pirsono koreliacijos koeficientų matrica

Correlations

1 ,058* ,435** ,646**,011 ,000 ,000

1983 1942 1977 1975,058* 1 ,075** ,068**,011 ,001 ,003

1942 1959 1945 1950,435** ,075** 1 ,289**,000 ,001 ,000

1977 1945 1988 1980

,646** ,068** ,289** 1,000 ,003 ,000

1975 1950 1980 1993

Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N

Pearson CorrelationSig. (2-tailed)N

B24|Pasitenkinimasdabartiniu gyvenimuapskritai

C21|Religingumas

B25|Pasitenkinimasdabartine Lietuvosekonomine situacija

C1|Ar yra laimingas

B24|Pasitenkinimas

dabartiniugyvenimuapskritai

C21|Religingumas

B25|Pasitenkinimas

dabartineLietuvos

ekonominesituacija

C1|Ar yralaimingas

Correlation is significant at the 0.05 level (2-tailed).*.



1.7 pav. Dalinių koreliacijos koeficientų matrica

1.6 pav. pateiktas apskaičiuotas Pirsono koreliacijos koeficientas tarp B24|Pasitenkinimas

dabartiniu gyvenimu apskritai ir C1|Ar yra laimingas lygus:

rB24 C1=0,646.

1.7 pav. pateiktas dalinio koreliacijos koeficiento taikymo pavyzdys. Apskaičiuotas dalinis

koreliacijos koeficientas tarp B24|Pasitenkinimas dabartiniu gyvenimu apskritai (Vertinant

apskritai, ar jūs esate patenkintas/-a savo dabartiniu gyvenimu? 0 reiškia ypatingai nepatenkintas/-a,

o 10 – ypatingai patenkintas/-a) ir C1|Ar yra laimingas (Kalbant apskritai, ar jūs esate

laimingas/a?) 0 reiškia ypač nelaimingas/-a, o 10–ypač laimingas/-a), izoliavus B25|Pasitenkinimas

dabartine Lietuvos ekonomine situacija (Vertinant apskritai, ar jūs esate patenkintas/-a dabartine

Lietuvos ekonomine situacija? 0 reiškia ypatingai nepatenkintas/-a, o 10 – ypatingai patenkintas/-a)

įtaką lygus:

rB24 C1•B25=0,603.

Gavome rB24 C1 >rB24 C1•B25>0 t.y. B25 dalinai įtakoja B24 ir C1 (d atvejis, 1.5 pav.), bet ta įtaka

yra labai silpna, nes rB24 C1 nedaug skiriasi nuo rB24 C1•B25 (a atvejis, 1.5 pav.).

Correlations

1,000 ,603. ,000

0 1966,603 1,000,000 .

1966 0

CorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)df

B24|Pasitenkinimasdabartiniu gyvenimuapskritai

C1|Ar yra laimingas

Control VariablesB25|Pasitenkinimasdabartine Lietuvosekonomine situacija

B24|Pasitenkinimas dabartiniugyvenimuapskritai

C1|Ar yralaimingas


2. TIESINĖS REGRESIJOS MODELIS

Šiame skyrelyje nagrinėsime vieno kintamojo tiesinės regresinės analizės modelį. Pradžioje

prisiminkime vieno kintamojo determinuotos tiesinę funkciją, kuri sieja priklausomą kintamąjį Y

su nepriklausomu kintamuoju X

XY 10 β+β= ,

čia koeficiento 0β modulis lygus ilgiui atkarpos (intercept), kurią tiesė atkerta Y ašyje, o

koeficientas 1β vadinamas nuolydžiu (slope) ir lygus tangentui kampo, kurį regresijos tiesė sudaro

su X ašimi.

Regresinė analizė nagrinėja ne determinuotą, bet stochastinę priklausomybę tarp kintamųjų Y ir X

(2.1 pav.). Tarkime, ii10i XY ε+β+β= išreiškia tiesinę stochastinę priklausomybę populiacijoje

(populiacijos tiesinės regresijos modelis), o iε , i=1,…,n, yra atsitiktinės paklaidos (atsitiktiniai

dydžiai), kurių skirstinys yra normalusis su vidurkiu lygiu nuliui ir vienoda dispersija

(homoskedastiškumo reikalavimas), n- imties didumas, 0β ir 1β - nežinomi populiacijos tiesinės

regresijos modelio koeficientai. Taigi kintamųjų Y ir X sąryšis yra ne determinuotas bet

stochastinis, esant tai pačiai X reikšmei galima gauti skirtingas Y reikšmes. Tuo tarpu priklausomo

kintamojo Yi vidurkis iEY susietas su Xi determinuota tiesine lygtimi i10i XEY β+β=

2.1 pav. Populiacijos teisinės regresijos modelis

Pagrindiniai vieno kintamojo tiesinės regresinės analizės uždaviniai:

1. Regresijos modelio koeficientų taškinių ir intervalinių įverčių radimas.

2. Hipotezių apie regresijos modelio koeficientus tikrinimas.

3. Regresijos modelio prielaidų tikrinimas.

4. Regresijos modelio taikymas prognozavimui.

Toliau trumpai aptarsime kiekvieną uždavinį.

Regresijos modelio koeficientų taškinių ir intervalinių įverčių radimas. Kaip gauti tokią tiesinę

Y

X

- paklaida

ii10i XY ε+β+β=

iX

i10i XEY β+β=

iε

β0


funkciją, kuri geriausiai apibūdintų turimus duomenis? Dažniausiai tam naudojamas mažiausiųjų

kvadratų metodas. Šis metodas leidžia tarp visų galimų tiesių surasti tokią, kuri nutolusi nuo stebėtų

taškų mažiausiai. Mažiausiųjų kvadratų metodo pavadinimas atspindi faktą, kad minimizuojama

liekanų (liekamųjų paklaidų - atstumų tarp tiesės ir stebėtų taškų, žiūr. 2.2 pav.) kvadratų suma

∑=

n

1i

2ie .

2.2 pav. Imties tiesinės regresijos modelis

Pastaba: šioje medžiagoje populiacijos regresijos lygties koeficientų 0β , 1β taškinius įverčius

žymėsime 0b , 1b .

Nesileisdami į skaičiavimus, kuriuos galima rasti kiekviename vadovėlyje ar mokymo kurse [9-16],

pateiksime tik regresijos lygties koeficientų įverčių skaičiavimo formules:

,xbyb 10 −= 221xx

yxyxb−

⋅−=

.

Čia, brūkšnelis virš kintamojo žymi vidurkį, pavyzdžiui, ∑=

=n

1i

2i

2 xn1x .

Radę taškinius įverčius galime užrašyti imties regresijos funkciją XbbY 10 += , čia 0b ir 1b yra

nežinomų populiacijos koeficientų 0β ir 1β taškiniai įverčiai (imties regresijos lygties koeficientai).

Naudojant imties regresijos lygtį galime parašyti išvadą apie imties Y sąlyginio vidurkio pokyčio

priklausomybę nuo X pokyčio, t.y. nepriklausomam kintamajam X suteikus pokytį ΔX priklausomo

kintamojo Y vidutinis pokytis bus

XbY 1Δ=Δ .

Imties regresijos funkcijos koeficientų 0b ir 1b standartinės paklaidos apskaičiuojamos pagal

formules:

Y

X

nepateko į imtį

liekana (liekamoji paklaida)

iX

pateko į imtį

ii10i eXbbY ++=

i10i XbbY +=

ie

iii YYe −=

b0


∑=

−= n

1i

2i

2e

b

)xx(

ss1

, nsxss

2e22

bb 10+⋅= .

Populiacijos regresijos funkcijos koeficientų 0β ir 1β pasikliovimo intervalai , kai pasikliovimo

lygmuo yra α−1 , randami pagal formulę

ii b2n;2/iib2n;2/1i stbstb ⋅−≤β≤⋅− −α−α−

čia 22 −α n;/t pažymėtas Stjudento skirstinio su n-2 laisvės laipsniais α/2 kvantilis, i=0,1. Analogiškai

regresijos lygties koeficientų įverčiai randami, kai nepriklausomų kintamųjų yra du ir daugiau.

Hipotezių apie regresijos funkcijos koeficientus tikrinimas. Sprendžiant regresinės analizės

uždavinius dažnai domimasi klausimu, ar nepriklausomas kintamasis X turi įtakos Y kitimui.

Paprastai X įtaka Y kitimui tikrinama nuline hipoteze 0:H 10 =β , t.y. koeficientas prie X

populiacijos regresijos lygtyje lygus nuliui. Alternatyvioji hipotezė 0:H 1a ≠β reiškia tiesinės

priklausomybės tarp X ir Y egzistavimą. SPSS regresinės analizės rezultatus pateikia lentelėmis. 2.1

lentelėje pateikta SPSS regresijos lygties koeficientų lentelės struktūra. Jeigu stebėtas

reikšmingumo lygmuo (p-reikšmė) 1imtα yra mažesnis už pasirinktą reikšmingumo lygmenį α, tai

nulinė hipotezė atmetama.

2.1 lentelė

Pateiksime tiesinės regresinės analizės pavyzdį LiDA archyve saugomiems, 2009 m. Europos


rinkimų tyrimo duomenims [1]. Pavyzdyje panaudoti du 2009 m. Europos rinkimų tyrimo klausimai

(kintamieji):

Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD (Lietuvoje yra daug partijų, iš kurių

kiekviena norėtų gauti Jūsų balsą. Kiek yra tikėtina, kad Jūs kada nors balsuotumėte už TS-LKD

(Tėvynės sąjunga –Lietuvos krikščionys demokratai)? Savo nuomonę įvertinkite skalėje, kur 0

reiškia “visai neįtikėtina”, o 10 reiškia ,,labai tikėtina”).

Q46|Respondento pozicija kairės-dešinės skalėje (Politikos diskusijose žmonės laikosi “kairės”

arba “dešinės” pozicijos. Kokia yra Jūsų pozicija? Prašome nurodyti savo pažiūras, naudojant vieną

iš skaičių skalėje nuo 0 iki 10, kurioje 0 reiškia ,,kairė” ir 10 reiškia ,,dešinė”. Kuris skaičius

geriausiai išreiškia Jūsų poziciją?).

Tarkime, jūs norite išsiaiškinti, ar galima prognozuoti tikėtinumą, kad rinkėjai kada nors balsuotų

už TS-LKD (Q39) pagal rinkėjų pozicijas kairės-dešinės skalėje (Q46).

Pirmiausiai, nubraižykime taškų sklaidos diagramą, kuri vaizduoja porinius ryšius. SPSS meniu:

Graphs Scatter/Dot… Matrix Scatter (1.1 pav.).

Kintamąjį Q39|Tikimybė, kad kada nors balsuotų už TS-LKD žymėsime Y ir tai bus priklausomas

kintamasis (dependent variable). Veiksnys, galintis įtakoti tikėtinumą, kad rinkėjai kada nors

balsuotų už TS-LKD, gali būti jo pozicija kairės-dešinės skalėje. Kintamąjį Q46|Respondento

pozicija kairės-dešinės skalėje žymėsite X ir tai bus nepriklausomas kintamasis (independent

variable). Tuomet populiacijos tiesinės regresijos lygtis bus:

„Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD“ =

10 β+β * „Q46|Respondento pozicija kairės-dešinės skalėje“ + ε ,

arba panaudojus įvestus pažymėjimus

ε+β+β=Υ X10 .

Statistikos pakete SPSS tiesinei regresinei analizei skirtas meniu

Analyze Regression Linear. Įvertinsime tiesinio ryšio stiprumą, apskaičiuosime Pirsono

koreliacijos koeficientą, apibrėžtumo koeficientą, rasime regresijos lygties koeficientų taškinius ir

intervalinius įverčius, patikrinsime hipotezes apie regresijos lygties koeficientų reikšmingumą.

Vizualiai patikrinsime regresijos modelio prielaidas: ar standartizuotųjų liekanų skirstinys yra

normalusis, ar standartizuotųjų liekanų sąlyginė dispersija pastovi? Patikrinsime standartizuotųjų

liekanų skirstinio suderinamumo su standartiniu normaliuoju skirstiniu hipotezę. Apskaičiuosime

priklausomo kintamojo vidurkio prognozių pasikliovimo intervalus fiksuotoms nepriklausomojo

kintamojo reikšmėms. Šių uždavinių sprendimui SPSS menių laukų užpildymas pateiktas 2.3 pav.


a) b)

c) d)

2.3 pav. Vieno kintamojo tiesinės regresinės analizės SPSS menių

Pagal gautus rezultatus galima daryti sekančias išvadas.

2.4 pav. Tiesinės regresijos modelio rodikl ių suvestinė

Imties Pirsono koreliacijos koeficientas (2.4 pav., R) r = 0,522. Tarp respondentų atsakymų į

anketos klausimus Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD ir Q46|Respondento

pozicija kairės-dešinės skalėje egzistuoja vidutinio stiprumo tiesinis ryšys. Kuo dešinesnės

Model Summaryb

,522a ,272 ,271 3,235Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Q46|Respondento pozicijakairės-dešinės skalėje

a.

Dependent Variable: Q39|Tikimybė, kad kada norsbalsuotų už TS-LKD

b.


respondentų pažiūros, tuo daugiau tikėtina, kad jie kada nors balsuos už TS-LKD.

Apibrėžtumo koeficientas (2.4 pav., R Squared) r2 parodo, kuri atsitiktinio dydžio Y sklaidos dalis

apie vidurkį paaiškinama tiesine regresija. Kuo r2 artimesnis vienetui, tuo didesnė dispersijos dalis

paaiškinama tiesine regresija, t.y. tuo geriau regresijos lygtis aprašo kintamąjį Y, tačiau reikia

neužmiršti, kad kai kintamųjų skaičius regresijos lygtyje nedaug skiriasi nuo imties didumo n, tai

apibrėžtumo koeficientas taip pat yra arti vieneto. Vieno kintamojo regresinėje analizėje

apibrėžtumo koeficientas panašiai kaip ir koreliacijos koeficientas yra dviejų atsitiktinių dydžių Y ir

X tiesinio ryšio matas.

Gavome, kad apibrėžtumo koeficientas r2=0,272, modelis paaiškina 27,2% Y reikšmių sklaidos

apie vidurkį tiesine regresija X atžvilgiu. Šis rodiklis nėra didelis, todėl rekomenduojama ieškoti

papildomų nepriklausomų kintamųjų, kurie pagerintų Y prognozavimą, t.y taikyti daugialypės

regresinės analizės modelį (toks modelis pateiktas 4 skyrelyje).

Standartinė regresijos paklaida (2.4 pav., St. error off the estimate) yra 3,325. Jos didumas

priklauso nuo Y reikšmių didumo, todėl ji naudojama kai tarpusavyje lyginami keli regresijos

modeliai skirti to paties Y prognozavimui. Kuo mažesnė standartinė regresijos paklaida tuo modelis

geresnis. Kai standartinė regresijos paklaida lygi nuliui, tai X ir Y sieja ne stochastinė bet funkcinė

priklausomybė.

2.5 pav. Tiesinės regresijos modelio koeficientai

Imties regresijos lygties koeficientai (2.5 pav.) b0=0,111 ir b1=0,736. Užrašome imties tiesinės

regresijos lygtį:

,,^Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD“ =

0,111+ 0,736* „Q46|Respondento pozicija kairės-dešinės skalėje“ ,


X736,0111,0Xbbˆ10 ⋅+=+=Υ .

Išvada apie respondentus: ,,Padidėjus respondentų pozicijos kairės-dešinės skalėje vertinimui

vienu balu, tikėtinumas kada nors balsuoti už TS-LKD vidutiniškai padidėja 0,736 balo“.

Populiacijos regresijos lygties koeficientų 95 % pasikliovimo intervalai yra:

Coefficientsa

,111 ,294 ,376 ,707 -,467 ,688

,736 ,047 ,522 15,781 ,000 ,645 ,828

(Constant)Q46|Respondentopozicija kairės-dešinėsskalėje

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig. Lower Bound Upper Bound95% Confidence Interval for B

Dependent Variable: Q39|Tikimybė, kad kada nors balsuotų už TS-LKDa.


)688,0;467,0()(PI 095,0 −=β , )828,0;645,0()(PI 195,0 =β .

Išvada apie populiaciją: ,,Su 95% garantija galime prognozuoti, kad padidėjus Lietuvos gyventojų

pozicijos kairės-dešinės skalėje vertinimui vienu balu, tikimybės kada nors balsuoti už TS-LKD

vidutinis padidėjimas yra intervale nuo 0,645 iki 0,828 balo“.

Patikrinus hipotezes apie regresijos funkcijos koeficientus, su 99,9% garantija galime teigti, kad

kintamasis X (Q46|Respondento pozicija kairės-dešinės skalėje) yra statistiškai reikšmingas Y

prognozavimui, nes gavome, kad p-reikšmė (sig.) p=0,000, p<0,001. Nulinė hipotezė, kad

regresijos lygties koeficientas prie nepriklausomo kintamojo X yra statistiškai nereikšmingas,

atmetama, ir priimama alternatyvioji hipotezė.

Apskaičiuotus Y vidutinių reikšmių prognozių pasikliovimo intervalų apatinius (LMCI) ir

viršutinius rėžius (UMCI) fiksuotoms X reikšmėms SPSS įrašo į duomenų matricą (žr., 2.6 pav.,

stulpeliai LMCI_1 ir UMCI_1). Pavyzdžiui, respondentas, kurio duomenys pateikti 103 eilutėje

atsakydamas į klausimą Q46|Respondento pozicija kairės-dešinės skalėje įvertino savo padėtį šioje

skalėje 6 balais. Su 95% garantija galime prognozuoti, kad Lietuvos gyventojų, kurie savo

poziciją kairės-dešinės skalėje vertina 6 balais, tikėtinumo kada nors balsuoti už TS-LKD vidurkis

yra intervale nuo 4,641 iki 5,278 balo“ (2.6 pav). Daugiau apie vidurkio prognozės pasikliovimo

intervalus žr. [3-7, 11].

2.6 pav. Tiesinės regresijos modelio duomenų matrica su išsaugotais Y vidurkio

prognozavimo pasikliovimo intervalų apatiniais ir viršutiniais rėžiais (stulpeliai

LMCI_1 ir UMCI_1)`


3. TIESINĖS REGRESINĖS ANALIZĖS MODELIO PRIELAIDŲ

TIKRINIMAS IR REGRESINĖS ANALIZĖS IŠVADOS

Aptarsime kokias sąlygas turi tenkinti kintamieji ir kaip nustatyti ar tiesinės regresijos modelis tinka

analizuojamiems duomenims. Užrašysime regresijos funkciją fiksuotoms (neatsitiktinėms) Xi

reikšmėms

ii10i X ε+β+β=Υ .

Didžioji dalis regresinės analizės prielaidų – tai reikalavimai, kuriuos turi tenkinti atsitiktinės

paklaidos iε , kurios parodo, kiek stebėtoji Y reikšmė skiriasi nuo reikšmės, kurią gautume

prognozuodami pagal regresijos lygtį. 2.1 pav. pavaizduotos atsitiktinės paklaidos vieno kintamojo

regresijos atveju.

Suformuluosime pagrindines tiesinės regresinės analizės prielaidas [3-5,11]:

1. Atsitiktinės paklaidos iε yra normaliai pasiskirstę atsitiktiniai dydžiai.

2. Visų iε vidurkiai lygūs nuliui, 0E i =ε .

3. Visų iε dispersijos lygios (homoskedastiškumo prielaida), 2

iD σ=ε .

4. Visi iε nepriklausomi.

5. Duomenyse nėra išskirčių.

Statistikos pakete SPSS tiesinės regresinės analizės prielaidų tikrinimui skirtas meniu Analyze

Regression Linear (Plot ir Save). Pasinaudodami šiuo meniu vizualiai patikrinsime

regresijos modelio prielaidas: ar standartizuotųjų liekanų skirstinys yra normalusis, ar

standartizuotųjų liekanų sąlyginė dispersija pastovi? Šių uždavinių sprendimui SPSS menių laukų

užpildymas pateiktas 2.3 pav. (c ir d) dalys. Standartizuotųjų liekanų histograma pateikta 3.1 pav.

Išvada. Vizualiai palyginę, galime teigti, kad standartizuotųjų liekanų histograma yra nesuderinta

su standartinio normaliojo skirstinio tankio kreive, t.y. standartizuotųjų liekanų skirstinys yra

nesuderintas su standartiniu normaliuoju skirstiniu.

Standartizuotųjų liekanų P-P grafikas (ištiesintų standartinio normaliojo skirstinio ir empirinio

skirstinio funkcijų palyginimo grafikas pateiktas 3.2 pav.

Išvada. Vizualiai palyginę, galime teigti, kad standartizuotųjų liekanų skirstinys nesuderintas su

standartiniu normaliuoju skirstiniu (kai skirstiniai suderinti, tai visi taškai išsidėsto ant tiesės arba

labai arti jos).


3.1 pav. Standartizuotųjų liekanų histograma 3.2 pav. Standartizuotųjų liekanų P-P grafikas

Patikrinsime suderinamumo hipotezę: ,,Standartizuotųjų liekanų skirstinys yra standartinis

normalusis“. Taikant paketą SPSS suderinamumo hipotezę galima patikrinti naudojant procedūrą

NPAR TEST (SPSS meniu: Analyze Noparametric Tests 1-Sample-K-S). Mūsų nagrinėjamo

pavyzdžio hipotezės tikrinimo rezultatai pateikti 3.3 pav.

Išvada. Suderinamumo hipotezė atmesta (p=0,004, p<0,05), standartizuotųjų liekanų skirstinys yra

nesuderintas su standartiniu normaliuoju skirstiniu.

3.3 pav. Suderinamumo hipotezės tikrinimo rezultatai

(Kolmogorovo-Smirnovo kriterijus)

Homoskedastiškumo prielaida arba sąlyginių dispersijų lygybės prielaida yra reikalavimas, kad su

kiekviena fiksuota Xi reikšme arba su kiekviena fiksuota prognozės reikšme iΥ , liekanų sklaida

būtų vienoda, t. y. kuo liekanų reikšmės vienodžiau išsibarsčiusios apie X arba iΥ ašį, tuo regresijos

funkcija geriau aprašo analizuojamus duomenis. Regresijos modelis yra jautrus šios prielaidos

pažeidimams. Jeigu prielaida netenkinama, tai prognozė gali būti iš esmės iškreipta. Tokie

duomenys vadinami heteroskedastiškais. Dažniausiai braižomi ne liekanų , bet standartizuotųjų

liekanų sklaidos grafikai. Mūsų nagrinėjamo pavyzdžio standartizuotųjų liekanų sklaidos diagramos


pateiktos 3.4 pav.

Išvada. Iš gautų standartizuotųjų liekanų sklaidos diagramų (3.4 pav.) sunku nuspręsti ar sąlyginė

standartizuotųjų liekanų dispersija yra pastovi, nes daug taškų dengia vienas kitą. Matome, kad yra

tiesinė priklausomybė tarp standartizuotų liekanų vidurkio bei standartizuotųjų prognozių reikšmių

(3.4 pav.), todėl modelio prielaidos netenkinamos.

3.4 pav. Standartizuotųjų liekanų sklaidos diagrama

Išskirtys. Kai imties didumas nedidelis, tai net ir vienas, labai nuo kitų besiskiriantis stebėjimas

gali statistiškai reikšmingai pakeisti regresijos lygties koeficientų įverčius. Todėl reikia mokėti rasti

duomenų išskirtis ir po to išsiaiškinti ką su tomis išskirtimis daryti. Yra nemažai išskirčių

nustatymo metodų, kurių šioje medžiagoje nenagrinėsime. Plačiau apie išskirčių nustatymo metodus

skaitykite [7, 8, 11].

3.5 pav. Išskirčių, nustatytų pagal standartizuotąją liekaną, lentelė

Šioje medžiagoje susipažinsime tik su vienu metodu, kai išskirtis nustatoma pagal standartizuotąją

liekaną (Standardized rezidual) , kuri gaunama iš liekanos ei (Residual) atėmus liekanų imties

aritmetinį vidurkį ir padalijus iš standartinio nuokrypio. Standartizuotųjų liekanų vidurkis lygus 0, o

Casewise Diagnosticsa

3,057 10 ,11 9,8893,057 10 ,11 9,8893,057 10 ,11 9,8893,057 10 ,11 9,8893,057 10 ,11 9,889

Case Number100218245253464

Std. Residual


balsuotų užTS-LKD

PredictedValue Residual

Dependent Variable: Q39|Tikimybė, kad kada nors balsuotų užTS-LKD

a.


standartinis nuokrypis lygis 1. Stebėjimą laikome išskirtimi, jeigu standartizuotosios liekanos

absoliutinis didumas viršija 3 standartinius nuokrypius. Mūsų nagrinėjamo pavyzdžio SPSS

lentelėje (3.5 pav.) matome, kad yra 5 išskirtys, tai respondentai, kurių duomenys pateikti duomenų

matricos eilutėse su numeriams 100, 218, 245, 253, 464.

Įvertinus visus analizės rezultatus gauname , kad apibrėžtumo koeficientas nedidelis (0,272),

liekanų analizė rodo, kad prielaidos netenkinamos, todėl sudarytas vieno kintamojo tiesinės

regresijos modelis netinka analizuojamiems duomenims. Rekomenduojama sudaryti daugialypės

regresinės analizės modelį, t.y. ieškoti daugiau nepriklausomų kintamųjų, kurie pagerintų Y

prognozavimą, o sudarytas modelis geriau tenkintų prielaidas [4,5,11].

4. ĮVADAS Į DAUGIALYPĘ TIESINĘ REGRESIJĄ

Šiame skyrelyje pateiksime įvadą į daugialypę tiesinę regresiją

εββββ +++++=Υ KK XXX ...22110 .

Detaliau daugialypės tiesinės regresinės analizės modelis pateikiamas kitoje LiDA mokymo

medžiagoje ,,Daugialypės regresinės analizės taikymas socialiniuose tyrimuose“. Tiesiniame

regresijos modelyje nepriklausomi kintamieji Y, X1, X2 ,..., XK yra kiekybiniai, išmatuoti intervalų

arba santykių skalėje ir turi tenkinti tam tikras sąlygas. Jeigu kintamieji netinka tiesinės regresijos

sąlygų, juos bandoma transformuoti. Dažnai kintamųjų negalima transformuoti taip, kad jie tiktų

tiesinei regresinei analizei, tuomet galima taikyti netiesinę regresinę analizę. Plačiau apie netiesinę

regresinę analizę skaitykite [4-8, 11].

Regresijos funkcijos koeficientai. Radę taškinius koeficientų įverčius galime užrašyti imties

regresijos funkciją

KK XbXbXbbY ++++= ...ˆ22110 .

Sprendžiant regresinės analizės uždavinius dažnai domimasi klausimu, ar nepriklausomas

kintamasis Xj turi įtakos Y kitimui. Paprastai Xj įtaka Y kitimui tikrinama nuline hipoteze

0:0 =jH β , t.y. koeficientas prie Xj populiacijos regresijos lygtyje lygus nuliui. Alternatyvioji

hipotezė 0:H ja ≠β reiškia tiesinės priklausomybės tarp Xj ir Y egzistavimą, j=1,2,…,K. Hipotezių

apie regresijos lygties koeficientus tikrinimui naudojamas Stjudento t kriterijus

( ) .K,...,1,0j,1KnSt~sb

Tjb

jj =−−= .

Jeigu nulinė hipotezė atmetama, tai koeficientas βj statistiškai reikšmingai skiriasi nuo nulio, t.y. Y


reikšmės priklauso nuo Xj. Tačiau, reikia neužmiršti, kad nedidelius, bet statistiškai reikšmingus

skirtumus gali lemti didelė imtis (esant didelei imčiai fiksuojami ir mažiausi koeficientų skirtumai

nuo nulio).

Lygindami koeficientus jβ tarpusavyje mes negalime nustatyti kintamųjų Xj santykinę svarbą

prognozuojant Y, nes jβ didumas labai priklauso nuo Xj matavimo vienetų ir nuo duomenų

sklaidos. Todėl, dažnai ieškoma ir standartizuotosios tiesinės regresijos funkcijos. Priklausomas

kintamasis Y ir nepriklausomi kintamieji X1, X2 ,..., XK keičiami z-reikšmėmis ir mažiausiųjų

kvadratų metodu randami standartizuotieji koeficientai BETAj , Kj ,1= . Pagal standartizuotus

koeficientus BETAj galima nuspręsti, koks kintamasis Xj daro didesnę įtaką Y prognozei.

Absoliučiuoju didumu didesnis BETAj rodo didesnę Y priklausomybę nuo Xj.

Pateiksime daugialypės tiesinės regresinės analizės pavyzdį LiDA archyve saugomiems, 2009 m.

Europos rinkimų tyrimo duomenims [1]. Šiame pavyzdyje panaudoti penki 2009 m. Europos

rinkimų tyrimo klausimai (kintamieji): Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD,

Q46|Respondento pozicija kairės-dešinės skalėje, Q80|Požiūris į Europos vienijimąsi,

Q103|Gimimo metai, Q120|Šeimos gyvenimo lygio vertinimas.

Prieš pradedant taikyti daugialypę regresinę analizę rekomenduojama nubraižyti taškų sklaidos

diagramų matricą, kuri vaizduoja visus porinius ryšius. SPSS meniu: Graphs Scatter/Dot…

Matrix Scatter (tokios diagramos pavyzdys pateiktas 1.1 pav.).

Tarkime, jūs norite išsiaiškinti, ar galima prognozuoti tikėtinumą, kad Lietuvos rinkėjai kada nors

balsuotų už TS-LKD (Q39) pagal rinkėjų gimimo metus (Q103), požiūrį į Europos vienijimąsi

(Q80,) rinkėjų poziciją kairės-dešinės skalėje (Q46), rinkėjų šeimų gyvenimo lygio vertinimą

(Q120).

Kintamąjį Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD žymėsime Y ir tai bus

priklausomas kintamasis (dependent variable). Veiksniais, galinčiais įtakoti tikėtinumą, kad

rinkėjai kada nors balsuotų už TS-LKD, gali būti rinkėjo pozicija kairės-dešinės skalėje, požiūrį į

Europos vienijimąsi, rinkėjų šeimų gyvenimo lygis, rinkėjų gimimo metai. Kintamąjį

Q46|Respondento pozicija kairės-dešinės skalėje žymėsite X1 , kintamąjį Q80|Požiūris į Europos

vienijimąsi - X2 , kintamąjį Q120|Šeimos gyvenimo lygio vertinimas –X3 , Q103|Gimimo metai –

X4 ir tai bus nepriklausomi kintamieji (independent variables). Tuomet populiacijos daugialypės

tiesinės regresijos lygtis bus:

„Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD“ =


10 β+β * „Q46|Respondento pozicija kairės-dešinės skalėje“ +

2β * „Q80|Požiūris į Europos vienijimąsi“ +

3β * „Q120|Šeimos gyvenimo lygio vertinimas“ + 4β *„Q103|Gimimo metai“ + ε


ε+β+β+β+β+β=Υ 443322110 XXXX .

Panaudoję SPSS [8] meniu Analyze Regression Linear apskaičiuosime koreguotą

apibrėžtumo koeficientą, rasime regresijos lygties koeficientų taškinius ir intervalinius įverčius,

patikrinsime hipotezes apie regresijos lygties koeficientų reikšmingumą. Vizualiai patikrinsime

regresijos modelio prielaidas: ar standartizuotųjų liekanų skirstinys yra normalusis, ar

standartizuotųjų liekanų sąlyginė dispersija pastovi? Patikrinsime standartizuotųjų liekanų skirstinio

suderinamumo su standartiniu normaliuoju skirstiniu hipotezę. Apskaičiuosime priklausomo

kintamojo vidurkių prognozių pasikliovimo intervalus fiksuotoms nepriklausomų kintamųjų

reikšmėms. Šių uždavinių sprendimui SPSS menių laukų užpildymas yra toks pat kaip ir 2.3 pav.,

tik a dalyje, vietoje vieno nepriklausomo kintamojo reikia nurodyti keturis aukščiau paminėtus

nepriklausomus kintamuosius Xi, i=1,...,4.

Pagal gautus rezultatus (4.1-4.7 pav.) galima daryti sekančias išvadas. Modelio koreguotas

apibrėžtumo koeficientas (4.1 pav., Adjusted R Squared) r2adj

=0,325, modelis paaiškina 32,5% Y

reikšmių sklaidos apie vidurkį tiesine regresija nepriklausomų kintamųjų Xi , i=1,2,…,4 atžvilgiu.

Šis rodiklis nėra didelis, bet jis 5,3% didesnis už 1 skyrelyje pateikto vieno kintamojo tiesinės

regresijos modelio apibrėžtumo koeficientą.

4.1 pav. Daugialypės tiesinės regresijos modelio rodiklių suvestinė

Standartinė regresijos paklaida (St. error off the estimate) 3,107, ji mažai skiriasi nuo 1 skyriuje

pateikto vieno kintamojo tiesinės regresijos modelio standartinės regresijos paklaidos (3,325).

Ieškant daugialypės regresijos lygties tikrinama hipotezė apie regresijos tiesiškumą. Jeigu visi

Model Summaryb

,574a ,330 ,325 3,107Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Q103|Gimimo metai,Q80|Požiūris į Europos vienijimąsi, Q46|Respondentopozicija kairės-dešinės skalėje, Q120|Šeimosgyvenimo lygio vertinimas

a.

Dependent Variable: Q39|Tikimybė, kad kada norsbalsuotų už TS-LKD

b.


regresijos lygties koeficientai prie nepriklausomų kintamųjų lygus nuliui, tai regresijos modelis

prognozėms visiškai netinka. Hipotezė tikrinama naudojant Fišerio F kriterijų su dešinine kritine

sritimi )1Kn,K(F~SSSSF

e

R −−= . Hipotezės apie regresijos teisiškumą

0H : 04321 =β=β=β=β ,

aH : bent vienas 0≠jβ , j=1,...,4.

tikrinimo rezultatai pateikti 4.2 pav. 0H atmesta (p=0,000, p<0,05) ir priimta aH , t.y. regresija yra tiesinė, bent vienas koeficientas nelygus nuliui ir regresijos modelis bent jau iš dalies prognozėms tinka.

4.2 pav. Dispersinės analizės lentelė

Randame populiacijos daugialypės regresijos lygties koeficientų taškinius įverčius, pasikliovimo intervalus ir patikriname hipotezes apie regresijos lygties koeficientų lygybę nuliui (4.3 pav.).

4.3 pav. Daugialypės tiesinės regresijos modelio koeficientai

Populiacijos daugialypės regresijos lygties koeficientų taškiniai įverčiai (imties regresijos lygties

koeficientai): b0=49,355, b1=0,669, b2=0,126, b3=0,48, b4=-0,026 (4.3 pav.). Imties daugialypės

tiesinės regresijos lygtis:

„^Q39|Tikėtinumas, kad kada nors balsuotų už TS-LKD“ =

49,355+0,669* „Q46|Respondento pozicija kairės-dešinės skalėje“ +

0,126* „Q80|Požiūris į Europos vienijimąsi“ +

0,48* „Q120|Šeimos gyvenimo lygio vertinimas“ -0,026* „Q103|Gimimo metai“.


4321 X026,0X48,0X126,0X669,0355,49ˆ ⋅−⋅+⋅+⋅+=Υ .

Suformuluosime išvadą apie koeficientą b1: ,,Padidėjus respondentų pozicijos kairės-dešinės

ANOVAb

2691,217 4 672,804 69,691 ,000a

5473,902 567 9,6548165,119 571

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), Q103|Gimimo metai, Q80|Požiūris į Europos vienijimąsi,Q46|Respondento pozicija kairės-dešinės skalėje, Q120|Šeimos gyvenimo lygiovertinimas

a.

Dependent Variable: Q39|Tikimybė, kad kada nors balsuotų už TS-LKDb.

Coefficientsa

49,355 14,395 3,429 ,001 21,082 77,628

,669 ,049 ,484 13,673 ,000 ,572 ,765

,126 ,046 ,097 2,730 ,007 ,035 ,216

,480 ,114 ,149 4,200 ,000 ,255 ,704

-,026 ,007 -,125 -3,567 ,000 -,041 -,012

(Constant)Q46|Respondentopozicija kairės-dešinėsskalėjeQ80|Požiūris į EuroposvienijimąsiQ120|Šeimos gyvenimolygio vertinimasQ103|Gimimo metai

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig. Lower Bound Upper Bound95% Confidence Interval for B

Dependent Variable: Q39|Tikimybė, kad kada nors balsuotų už TS-LKDa.


skalėje vertinimui vienu balu, tikėtinumas kada nors balsuoti už TS-LKD vidutiniškai padidėja

0,669 balo, kai likusieji kintamieji yra fiksuoti“. Analogiškai formuluojamos išvados ir apie kitus

koeficientus.

Su 99% visi regresijos lygties koeficientai yra reikšmingi, nes atmestos visos nulinės hipotezės apie

koeficientų lygybę nuliui (p<0,01), t.y. visi nepriklausomi kintamieji Xi , i=1,...,4 yra reikšmingi Y

prognozavimui.

Populiacijos regresijos lygties koeficientų 95 % pasikliovimo intervalai yra:

)63,77;08,21()(PI 095,0 =β , )765,0;572,0()(PI 195,0 =β ,

)216,0;035,0()(PI 295,0 =β , )704,0;255,0()(PI 395,0 =β ,

)012,0;41,0()(PI 495,0 −−=β .

Suformuluosime išvadą apie )765,0;572,0()(PI 195,0 =β : ,,Su 95% garantija galime prognozuoti,

kad padidėjus Lietuvos rinkėjų pozicijos kairės-dešinės skalėje vertinimui vienu balu, tikėtinumo

kada nors balsuoti už TS-LKD vidutinis padidėjimas yra intervale nuo 0,572 iki 0,765 balo, kai kitų

kintamųjų reikšmės yra fiksuotos“. Analogiškai formuluojamos išvados apie kitų populiacijos

regresijos lygties koeficientų pasikliovimo intervalus.

Apskaičiuotus Y vidutinių reikšmių prognozių pasikliovimo intervalų apatinius (LMCI) ir

viršutinius rėžius (UMCI) fiksuotoms X reikšmėms SPSS įrašo į duomenų matricą (žr., 4.4 pav.,

stulpeliai LMCI_1 ir UMCI_1). Pavyzdžiui103 eilutėje pateikti duomenys respondentės moters,

gimusios 1956 m. duomenys. Atsakydama į klausimą Q46|Respondento pozicija kairės-dešinės

skalėje ji nurodė 6, atsakydama į klausimą Q120|Šeimos gyvenimo lygio vertinimas nurodė 2, o

atsakydama į klausimą Q80|Požiūris į Europos vienijimąsi nurodė 8. Su 95% garantija galime

prognozuoti, kad Lietuvos rinkėjų su tokiomis fiksuotomis kintamųjų reikšmėmis tikėtinumo

kada nors balsuoti už TS-LKD vidurkis yra intervale nuo 4,28 iki 4,78 balo“ (4.4 pav.).

Patikrinsime ar modelis tinka analizuojamiems duomenims, ar tenkinamos tiesinės regresinės

analizės prielaidos. Standartizuotųjų liekanų histogramą ir P-P grafikas pateikti 4.5 pav.

Išvada. Vizualiai palyginę, galime teigti, kad standartizuotųjų liekanų histograma yra suderinta su

standartinio normaliojo skirstinio tankio kreive, standartizuotųjų liekanų P-P grafikas (ištiesintų

standartinio normaliojo skirstinio ir empirinio skirstinio grafikai gerai sutampa), t.y. gavome, kad

standartizuotųjų liekanų skirstinys suderintas su standartiniu normaliuoju skirstiniu.


4.4 pav. Daugialypės tiesinės regresijos modelio duomenų matrica su išsaugotais

Y vidurkio prognozavimo pasikliovimo intervalų apatiniais ir viršutiniais rėžiais

(stulpeliai LMCI_1 ir UMCI_1)

4.5 pav. Standartizuotųjų liekanų histogramą ir P-P grafikas

Patikrinsime suderinamumo hipotezę: ,,Standartizuotųjų liekanų skirstinys yra standartinis

normalusis“. Hipotezės tikrinimo rezultatai pateikti 4.6 pav. Išvada. Suderinamumo hipotezė

neatmesta (p=0,259, p>0,05), standartizuotųjų liekanų skirstinys yra suderintas su standartiniu

normaliuoju skirstiniu.

Išvada. Iš gautos standartizuotųjų liekanų sklaidos diagramos (4.7 pav.) sunku nuspręsti ar sąlyginė

standartizuotųjų liekanų dispersija yra pastovi, nes daug taškų dengia vienas kitą. Matome, kad yra

tiesinė priklausomybė tarp standartizuotų liekanų vidurkio bei standartizuotųjų prognozių reikšmių

(4.7 pav), todėl modelio prielaidos netenkinamos.


4.6 pav. Suderinamumo hipotezės tikrinimo rezultatai

(Kolmogorovo-Smirnovo kriterijus)

4.7 pav. Standartizuotųjų liekanų sklaidos diagrama

Reikia pabrėžti, kad sprendžiant apie duomenų homoskedastiškumą grafinės analizės nepakanka.

Atliekant kokybišką liekanų analizę reikia naudoti kriterijus skirtus homoskedastiškumo tikrinimui

(pvz. White kriterijų), bet jie nerealizuoti SPSS tiesinės regresinės analizės procedūroje, todėl šioje

medžiagoje nenagrinėjami. Dėl heteroskedastiškumo, prognozuojamų reikšmių pasikliautinieji

intervalai yra didesni nei apskaičiuoti.

One-Sample Kolmogorov-Smirnov Test

572,0000000

,99649122,042,037

-,0421,010

,259

NMeanStd. Deviation

Normal Parameters a,b

AbsolutePositiveNegative

Most ExtremeDifferences

Kolmogorov-Smirnov ZAsymp. Sig. (2-tailed)

StandardizedResidual

Test distribution is Normal.a.

Calculated from data.b.


LITERATŪRA

1. „Empirinių duomenų ir informacijos humanitarinių ir socialinių mokslų tyrimams

kaupimas ir valdymas: Lietuvos HSM duomenų archyvas (LiDA)“ (Paramos sutartis

ESF/2004/2.5.0-03-392/BPD-262/F450BPD262). http://www.lidata.eu/ .

2. Vogt, W. Paul (2005) Dictionary of statistics & methodology: a nontechnical guide for

the social sciences. Thousand Oaks : Sage Publications.

3. McClave, James T. (2006) Statistics for business and economics. Upper Saddle River :

Pearson Prentice Hall.

4. Norušis Marija J. (2007). SPSS 15.0 Guide to Data Analysis. Prentice Hall. 5. Gaur, Ajai S (2007) Statistical methods for practice and research: a guide to data

analysis using SPSS. New Delhi: Response Books. 6. SPSS Base 15.0 User’s Guide (2006). Chicago: SPSS Inc. 7. SPSS 15.0 Algoritms (2006). Chicago: SPSS Inc. 8. SPSS official website. USA: IBM Corporation. - [žiūrėta 2011-02-30]. Prieiga per

internetą: <http://www.spss.com/>

9. Aksomaitis, Algimantas (2000). Tikimybių teorija ir statistika : vadovėlis aukštųjų

mokyklų studentams / Algimantas Aksomaitis. - Kaunas : Technologija.

10. Čekanavičius V., Murauskas G. (2000). Statistika ir jos taikymai. D.1-Vilnius: TEV.

11. Čekanavičius V., Murauskas G. (2004). Statistika ir jos taikymai. D.2-Vilnius: TEV.

12. Statistika ir duomenų analizės programinė įranga. Distancinio mokymo kursas. Projekto

vadovas Janilionis V..- Kaunas: KTU, 1999-2001.-(http://fmf.ktu.lt/janil/stat1.htm).

13. Janilionis V.; Aksomaitis A., Jokimaitis A. ir kt. (2003). Tikimybių teorija ir statistika 2.

Nuotolinio mokymo kursas. Projekto vadovas V. Janilionis. Kaunas: KTU.

(http://mano.ktu.lt/moodle, prieiga su slaptažodžiu).

14. Bačinskas A., Janilionis V., Jokimaitis (2001). Tikimybiu teorija ir statistika.

Praktikumas. Kaunas: Technologija.

15. Janilionis V., Aksomaitis A. (1993) Sistema STATGRAPHICS 5.0. Matematinės

statistikos metodai. Kaunas: Technologija.

16. Venslovienė J. Statistiniai metodai medicinoje.-Kaunas:VDU,2010, 344 p.

17. European Election Studies. Mannheim, Germany: University of Mannheim. - [žiūrėta

2011-03-30]. Prieiga per internetą: <http://www.ees-homepage.net/>

Documents

Mokymai apie kiekybinių ir kokybinių HSM tyrimų duomenų analizės