Upload
others
View
3
Download
1
Embed Size (px)
Citation preview
KAUNO TECHNOLOGIJOS UNIVERSITETAS
ALINA STUNDŽIENĖ
EKONOMINĖS STATISTIKOS
LABORATORINIAI DARBAI
Kaunas, 2016
1 LABORATORINIS DARBAS. DUOMENŲ GRUPAVIMAS
Kad pirminiai duomenys būtų tinkami analizei ir išvadoms pateikti, jie turi būti atitinkamai
sutvarkyti (susisteminti). Todėl pirmojo laboratorinio darbo tikslas – susipažinti su duomenų
sisteminimo būdais, plačiau – grupavimu, ir sugrupuoti duomenis, sudarant dažnių lentelę,
nubraižant histogramą bei suformuluojant išvadas apie duomenų pasisikirstymą.
1.1. Teorinės žinios
Gali būti naudojami keli duomenų sisteminimo būdai. Pats paprasčiausias – variacinės
eilutės sudarymas. Variacinė eilutė gaunama pertvarius statistinę eilutę (t.y. duomenis, kurie
pateikti tokia tvarka, kokia jie buvo surinkti), išdėstant duomenis reikšmių didėjančia
(dažniausiai) arba mažėjančia (rečiau) tvarka. Šitaip susisteminti duomenys leidžia nesunkiai
daryti išvadą, kokia yra statistinės eilutės (analizuojamų duomenų) mažiausia ir didžiausia
reikšmė, kokiame intervale pasisikirčiusios reikšmės, kiek ir kokios reikšmės pasikartoja. Tačiau
pastarąją išvadą paprasta pateikti tik tuo atveju, kai variacinė eilutė yra trumpa (pvz. iki 10
stebinių). Kai statsitinė eilutė yra ilga, duomenų apibendrinimui reikalinga kita metodika,
pavyzdžiui, duomenų grupavimas.
Statistinis grupavimas – tai stebinių suskirstymas į grupes pagal esminius požymius.
Grupuoti galima ir pagal kokybinį, ir pagal kiekybinį požymį. Pavyzdžiui, analizuojami vieno
prekybos centro tinklo, veikiančio visoje Lietuvoje, darbuotojų atlyginimai. Duomenis analizuoti
galima juos sisteminant (grupuojant) pagal apskritis (pvz., Vilniaus, Kauno, Klaipėdos ir t.t.), t.y.
kokybinį rodiklį. Taip pat darbuotojų atllyginimus galima grupuoti pagal darbuotojų darbo stažą,
kuris yra kiekybinis rodiklis.
Grupavimas pagal kokybinį rodiklį yra paprastas – kiekviena kokybinio kintamojo reišmė
sudarys atskirą grypę. Tuo tarpu grupuojant pagal kiekybinį požymį reikšmių seka (variacinės
eilutės dalis) pakeičiama viena reikšme (jų intervalu). Kiekybinių duomenų grupavimas
atliekamas tokiais etapais:
grupių skaičiaus nustatymas;
intervalų pločio apskaičiavimas;
intervalų ribų nustatymas.
Grupių skaičiaus nustatymas. Grupių skaičiaus nustatymas yra vienas iš svarbiausių
etapų. Iš esmės, grupių skaičius turi būti optimalus, t.y. nei per didelis, nei per mažas. Kitaip
tariant jis turi būti toks, koks leistų tinkamai įvertinti duomenų pasiskirstymą. Jei grupių skaičius
bus per didelis, duomenys bus nepakankamai susisteminti (per daug išskaidyti) ir bus sunku
nustatyti jų pasiskirstymą. Jei grupių bus per mažai, į tą pačią grupę paklius labai skirtingos
požymio reikšmės ir bus sunku nustatyti svarbiausias statistinės visumos (požymio reikšmių)
savybes. Mokslininkų nuomone, grupių skaičius, priklausomai nuo požymio sklaidos ir tiriamos
visumos dydžio, turėtų būti ne mažesnis nei 4-6 grupės ir ne didesnis nei 15-20 grupių.
Konkrečiu atveju tinkamiausią grupių skaičių siūloma nustatyti remiantis amerikiečių
mokslininko G. Sterdžeso pasiūlyta formule:
m = 1 + 3,322 lgN, (1.1)
čia m – grupių skaičius, N – stebinių skaičius (statistinės eilutės ilgis arba imties tūris).
Skaičiuojant pagal šią formulę, grupių skaičius, priklausomai nuo stebinių skaičiaus, iš
pradžių gana intensyviai didėja (m=4-7, kai N=10-100), po to jo augimas sulėtėja (m=7-11, kai
N=100-1000) ir pagaliau tampa beveik nepastebimas (m=11-14, kai N=1000-10 000).
Grupių skaičių galima nustatyti ir pagal Terelo (Terrel) ir Skoto (Scoti) pasiūlytą formulę:
m = 2n 0,3333
. (1.2)
čia n - tiriamo požymio reikšmių variantų skaičius (kai n=10, m=4; kai n=100, m=9; kai n=1000,
m=20).
Kuri formulė yra tinkamesnė konkrečiu atveju priklauso nuo to, kiek skirtingų reikšmių yra
statitinėje eilutėje (t.y., kiek požymio reikšmių kartojasi). Jei n<<N, t.y. požymio reikšmių
variantų skaičius yra gerokai mažesnis už imties tūrį (yra daug besikartojančių požymio
reikšmių), tada rekomenduojama naudoti Terelo ir Skoto formulę (ji duos mažesnį grupių skaičių
nei Sterdžeso). Ir priešingai, jei yra labai mažai besikartojančių požymio reikšmių, tada
rekomenduojama naudoti Sterdžeso formulę (pagal Terelo ir Skoto formulę apskaičiuotas grupių
skaičius šiuo atveju būtų gerokai didesnis).
Intervalų pločio apskaičiavimas. Nustačius grupių skaičių, toliau reikia apskaičiuoti
kiekvienos grupės intervalo plotį. Grupių intervalai gali būti lygūs ir nelygūs, tačiau visada, jei
tik galima, rekomenduojama sudaryti lygius intervalus. Kai kiekybinio požymio reikšmės kinta
tolygiai, vienareikšmiškai reikia sudaryti lygius intervalus, priešingu atveju galima sudaryti
nelygius intervalus, jei tai leis geriau pasiekti pagrindinį tikslą – išaiškinti esmines tiriamos
visumos vienetų savybės.
Lygių intervalų plotį (d) galima apskaičiuoti kaip maksimalios (xmax) ir minimalios (xmin)
požymio reikšmių skirtumą, padalintą iš grupių skaičiaus (m), t.y.:
d = (xmax – xmin) / m. (1.3)
Intervalų ribų nustatymas. Sudarant grupes svarbu teisingai nustatyti intervalų ribas, t.y.
„nuo... iki“. Intervalas turi dvi ribas – apatinę (nuo) ir viršutinę (iki). Intervalai gali būti atviri ir
uždari. Atviras intervalas neturi viršutinės ir/arba apatinės ribos ir žymimas lenktiniais
skliaustais, pvz. (2, 5). Uždaras intervalas turi viršutinę ir/arba apatinę ribas ir žymimas
laužtiniais skliaustais, pvz. [2, 5].
Kiekybinių požymių grupes galima sudaryti dviem būdais: skiriamuoju ir jungiamuoju.
Jungiamuoju būdu intervalai konstruojami taip, kad vieno intervalo apatinė riba sutaptų su
sekančio intervalo viršutine riba. Jei intervalai sudaryti taip, kad vieno intervalo apatinė riba
nesutapa su sekančio intervalo viršutine riba (paprastai skiriasi vienu vienetu), sakoma, kad
intervalai yra sudaryti skiriamuoju būdu. Pavyzdžiui, jei norima sugrupuoti prekyvietes, pagal
jose dirbančių darbuotojų skaičių, tai darbuotojų skaičiaus grupės skiriamuoju būdu bus
sudaromos taip, kaip parodyta kairėje, o jungiamuoju būdu – dešinėje:
Skiriamasis būdas Jungiamasis būdas
1 – 10 1 – 10
11 – 20 10 – 20
21 – 30 20 – 30
31 – 40 30 – 40
41 – 50 40 – 50
Grupių intervalai, nepriklausomai nuo grupių sudarymo būdo, pradedami formuoti nuo
minimalios statistinės eilutės reikšmės, kuri kartu tampa apatine pirmojo intervalo riba. Prie
minimalios reikšmės pridėjus apskaičiuotąjį intervalo plotį, gaunama pirmojo intervalo viršutinė
riba, jei grupės sudaromos jungiamuoju būdu, ir antrojo intervalo apatinė riba, jei intervalai
sudaromi skiriamuoju būdu. Atitinkamai skiriamuoju būdu sudaryto pirmojo intervalo viršutinė
riba bus vienetu mažesnė nei antrojo intervalo apatinė riba. Visi sekantys intervalai sudaromi
prie jau suformuoto ankstesnio intervalo ribų pridedant intervalo plotį. Intervalai formuojami tol,
kol gaunamas reikiamas (apskaičiuotas) grupių skaičius, o paskutinio intervalo viršutinė riba
pasiekia maksimalią požymio reikšmę. Detalesnis grupių intervalų sudaymas pateiktas paveiksle:
Skiriamasis būdas Jungiamasis būdas
xmin – (xmin + d – 1) xmin – (xmin + d)
(xmin + d) – (xmin + 2d – 1) (xmin + d) – (xmin + 2d)
(xmin + 2d) – (xmin + 3d – 1) (xmin + 2d) – (xmin + 3d)
... ...
(xmin + (m-1)∙d) – xmax (xmin + (m-1)∙d) – xmax
Kai požymio reikšmės yra tolydūs dydžiai, intervalai gali būti sudaromi tik jungiamuoju
būdu. Jei požymio reikšmės yra diskrečios, intervalams sudaryti gali būti naudojamas tiek
skiriamasis, tiek jungiamasis būdas.
Tais atvejais, kai požymio maksimali ir/arba minimali reikšmės yra gerokai atitrūkusios
nuo kitų reikšmių, tikslinga sudaryti atvirus intervalus, pirmajai grupei nenurodant apatinės ribos
ir/arba paskutinei grupei – viršutinės ribos. Pavyzdžiui, jei visose prekybos vietose dirba daugiau
nei 20 darbuotojų, išskyrus vieną, kurioje dirba 8 darbuotojai, tai nėra tikslinga sudaryti pirmųjų
dviejų intervalų aukščiau pateiktu būdu, siekiant išlaikyti vienodą intervalų plotį. Šiuo atveju
pirmasis intervalas galėtų būti „mažiau už 20“ arba „iki 20“, o visi kiti – kaip anksčiau, t.y. 20-
30 ir t.t. Analogiškai, jei yra viena prekyvietė, kurioje dirba, tarkime, 78 darbuotojai, nėra tikslo
pratęsti auksčiau pateiktus intervalus dar trimis intervalais (t.y. 50-60, 60-70, 70-80), o geriau
paskutinį intervalą apibrėžti sekančiai: „40 ir daugiau“. Tokie intervalai vadinami neapibrėžtais.
Kai objektai yra priskiriami grupėms, kurios sudarytos jungiamuoju būdu, gali iškilti
klausimų, kuriai grupei jis priklauso, jei grupavimo požymio reikšmė sutampa su intervalo riba,
pvz., kuriai grupei – antrai ar trečiai – priklauso prekyvietė, kurioje dirba 20 darbuotojų?
Atsakyti į šį klausimą yra paprasčiau, kai intervalams sudedami skliaustai – atviri arba uždari.
Visiems intervalams skliaustai turėtų būti sudėti remiantis principu: visų grupių intervalų apatinė
riba yra uždaras intervalas, o viršutinė riba – atviras, išskyrus paskutinio intervalo viršutinė riba
taip pat yra uždaras intervalas, jei ji sutampa su maksimalia analizuojamo požymio reikšme
(pvz., [1, 10), [10, 20), [20, 30), [30, 40) ir [40, 50]) arba visų grupių intervalų virštinė riba yra
uždaras intervalas, o apatinė riba – atviras, išskyrus pirmojo intervalo apatinė riba taip pat yra
uždaras intervalas, jei ji sutampa su minimalia analizuojamo požymio reikšme (pvz., [1, 10], (10,
20], (20, 30], (30, 40] ir (40, 50]). Kurį variantą pasirinki priklauso nuo paties tyrėjo
pasirinkimo. Pasirinkus pirmąjį variantą, prekyvietė su 20 darbuotojų priklausys trečiai grupei,
pagal antrąjį variantą – antrai.
Vieno iš minėtų varianto pasirinkimą gali apspręsti pirmasis ir/arba paskutinis intervalas,
jei jie yra neapibrėžti. Pvz, pirmas intervalas „iki 20“ nurodo, kad „20“ į šį intervalą nepriklauso,
vadinasi visų grupių viršutinės ribos bus atviri intervalai (išskyrus paskutinį, jei jo viršutinė riba
sutaps su maksimalia požymio reikšme), o apatinės ribos – uždari intervalai. Analogiškai jei
paskutinis intervalas yra „40 ir daugiau“, vadinasi reikšmė „40“ patenka į šį intervalą ir visų
grupių intervalų apatinės ribos bus uždari intervalai (išskyrus pirmąjį, jei jo apatinė riba sutaps su
minimalia požymio reikšme), o viršutinės – atviri.
Verta atkreipti dėmesį ir į kitą intervalų sudarymo niuansą – paskutinio intervalo viršutinė
riba ne visada sutampa su maksimalia požymio reikšme. Tai susiję su apskaičiuotų grupių
skaičiaus bei intervalo pločio reikšmių apvalinimu. Grupių skaičius ir intervalo plotis paprastai
apvalinamas pagal matematines taisykles, o intervalo plotis visada skaičiuojamas imant iki
sveikojo skaičiaus suapvalintą grupių skaičių (pvz., apskaičiuota m=4,33 reikšmė apvalinama iki
4; m=8,76 apvalinama iki 9). Jei grupuojamos požymio reikšmės yra diskrečios, intervalo plotis
taip pat apvalinamas iki sveikojo skaičiaus, o jei tolydžios, apvalinama iki apsibrėžto skaičiaus
po kableliu.
Būtent dėl minėtų apvalinimų gali susidaryti situacija, kai sudarius atitinkamą skaičių
grupių (apskaičiuotą pagal formulę ir suapvalintą) pagal anksčiau aprašytą grupių intervalų
sudarymo schemą, paskutinio intervalo viršutinė riba yra mažesnė už maksimalią požymio
reikšmę, t.y. sudarytos grupės neapima visų požymio reikšmių. Tokiu atveju grupes reikia
koreguoti didinant arba grupių skaičių, arba intervalo plotį, arba abu juos, apvalinant
apskaičiuotus rodiklius į didesnę pusę. Pasitikrinti, ar apskaičiuotas ir suapvalintas grupių
skaičius bei intervalų plotis leis sudaryti tinkamas grupes, kurios apims visas požymio reikšmes,
galima pasitikrinti iš karto po šių rodiklių paskaičiavimo, t.y. dar nesudarius grupių. Grupių
skaičius ir intervalo plotis yra tinkami, jei tenkinama sąlyga:
ma∙da ≥ xmax – xmin. (1.4)
čia ma ir da yra pagal formules apskaičiuotas ir suapvalintas grupių skaičius ir intervalo plotis.
Pavyzdžiui, reikia sugrupuoti tokius duomenis: 5, 19, 1, 36, 42, 26, 28, 14, 25, 5. Pagal
Sterdžeso formulę apskaičiuotas grupių skaičius lygus 4,32, tad jį apvaliname iki 4. Tada
intervalo plotis d = (42 – 1) / 4 = 10,25 pagal matematines taisykles apvalinamas iki 10. Tačiau
šiuo atveju sudaryti intervalai (1-11, 11-21, 21-31, 31-41, jei pasirenkamas jungiamasis būdas)
nebus geri, nes į juos nepateks reikšmė 42. Tai rodo ir ankstesnė sąlyga, kuri nėra tenkinama, t.y.
4∙10 < (42-1). Vadinasi grupių skaičių ir/arba intervalo plotį reikia didinti. Rekomenduojama
koreguoti tą rodiklį, kuris duoda mažiausią teigiamą kairiosios ir dešiniosios (1.4) formulės pusių
skirtumą. Pavyzdžiui, padidinus grupių skaičių iki 5, o intervalo plotį palikus lygų 10, kairioji
(1.4) formulės pusė bus lygi 5∙10 = 50, kai dešinioji minėtos formulės pusė yra lygi 41. Jei būtų
didinamas intervalo plotis iki 11, o grupių skaičius paliktas tas pats, t.y. 4, kairioji (1.4) formulės
pusė bus lygi 4∙11 = 44, t.y. šis variantas duoda mažesnį nukrypimą nuo formulės dešinėje
pateikto skirtumo. Dėl to būtent tokia korekcija yra tinkamesnė. Tada grupių intervalai
jungiamuoju būdu būtų sudaromi taip: 1-12, 12-23, 23-34, 34-45.
Formuojant grupes susidariusį požymių reikšmių perviršį (44-41=3, t.y. (1.4) formulės
kairiosios ir dešiniosios pusės skirtumas) galima pridėti nebūtinai prie paskutiniojo intervalo
(paskutinio intervalo viršutinė riba yra 3 didesnė už maksimalią požymio reikšmę), jį galima
prijungti prie pirmojo intervalo (pirmojo intervalo apatinė riba gali būti 3 mažesnė už minimalią
požymio reikšmę) arba padalinus pusiau pridėti prie pirmojo ir paskutiniojo intervalo (pirmojo
intervalo apatinė riba gali būti 1,5 mažesnė už minimalią požymio reikšmę, o paskutinio
intervalo viršutinė riba – 1,5 didesnė už maksimalią požymio reikšmę).
Dažnių lentelės. Kai sudaromos požymio reikšmių grupės, toliau kiekvieną objektą galima
priskirti atitinkamai grupei. Objektų, patenkančių į atitinkamą grupuojamo požymio reikšmių
grupę, skaičius yra vadinamas dažniu. Tuo tarpu grupuojamo požymio reikšmių grupės
(intervalai), arba atskiros požymio reikšmės, jei kiekviena jų sudaro atskirą grupę, vadinamos
variantais. Jei grupę sudaro tik viena požymio reikšmė, tai dažnis rodo, kiek kartų atitinkama
požymio reikšmė pasikartoja variacinėje eilutėje.
Variantus ir dažnius pateikus vienoje lentelėje, gaunama dažnių lentelė. Jei grupę sudaro
tik viena požymio reikšmė, gaunama paprasta dažnių lentelė (1.1 lentelė). Paprasta dažnių
lentelė sudaroma tik tuo atveju, kai variantų yra nedaug.
1.1 lentelė. Paprasta dažnių lentelė
Variantai (xi) x1 x2 x3 ... xm
Dažniai (fi) f1 f2 f3 ... fm
Jei grupę sudaro požymio reikšmių intervalas, gaunama intervalinė dažnių lentelė (1.2
lentelė).
1.2 lentelė. Intervalinė dažnių lentelė
Variantai (xi) [xmin; xmin+d) [xmin+d;
xmin+2d)
[xmin+2d;
xmin+3d)
... [xmin+(m-1)∙d;
xmax]
Dažniai (fi) f1 f2 f3 ... fm
Bet kuriuo atveju sudėjus visų grupių dažnius, suma turi būti lygi imties tūriui, t.y.
∑ . (1.5)
Tolesnėje stebinių analizėje paprastai intervaliniai variantai yra pakeičiami juos
atspindinčiu vienu skaičiumi, t.y. intervalo vidurio tašku arba, kitaip tariant, intervalo centru.
Intervalo centras xic, nepriklausomai nuo intervalų sudarymo būdo, apskaičiuojamas pagal
formulę:
xic = (xi
a+ xi
v)/2, (1.6)
čia xia – apatinė i-tos grupės intervalo riba, xi
v – viršutinė i-tos grupės intervalo riba.
Analizuojant požymio reikšmių pasiskirstymą, naudinga apskaičiuoti ne tik dažnius, bet ir
santykinius bei sukauptus dažnius. Santykiniai dažniai (fisa
) parodo kiekvienos grupės dalį
bendrame stebėjimo vienetų skaičiuje. Jie išreiškiami vieneto dalimis arba procentais ir jų suma
visada turi būti lygi 1 arba 100 proc.:
∑
⁄ , ∑
. (1.7)
Tuo tarpu sukaupti dažniai rodo, kiek visumos vienetų arba kuri jų dalis neviršija
konkrečios požymio reikšmės ir apskaičiuojami sudedant analizuojamo varianto ir visų
ankstesnių (dažnių lentelės kairėje esančių) variantų dažnius. Jie gali būti išreiškiami vienetais
arba procentais ir paskutinio varianto sukauptasis dažnis visada yra lygus stebinių skaičiui N
arba 100 proc.
∑
. (1.8)
Grafinis duomenų pasiskirstymo pateikimas. Sugrupuoti duomenys paprastai
vaizduojami braižant histogramą ir kumuliatę. Histograma braižoma horizontalioje ašyje
pateikiant variantus, o vertikalioje – dažnius arba santykinius dažnius, atitinkamas reikšmes
vaizdojant stulpeliais. Histogramos pavyzdys pateiktas 1.1 paveiksle.
1.1 pav. Ūkių skaičiaus pasiskirstymo pagal žemės ūkio naudmenų plotą histograma
Tiek iš dažnių lentelės, tiek iš histogramos nesunku pasakyti, kuris variantas pasikartoja
dažniausiai (tai atitinka didžiausias dažnis dažnių lentelėje ir aukščiausias stulpelis histogramoje)
ir rečiausiai (tai atitinka mažiausias dažnis dažnių lentelėje ir žemiausias stulpelis histogramoje).
Kumuliatė arba sukauptų dažnių diagrama rodo, kaip didėja požymio reikšmių dažniai
einant iš grupės į grupę. Kumuliatė braižoma horizontalioje ašyje atidedant variantų reikšmes, o
vertikalioje – sukauptus dažnius vienetais arba procentais.
1.2 pav. Ūkių pasiskirstymo pagal žemės ūkio naudmenų plotą kumuliatė
Kumuliatė, kaip ir sukauptų dažnių lentelė, leidžia atsakyti į klausimą, kiek analizuojamų
objektų turi požymio reikšmę (variantą), mažesnę ar didesnę už tam tikrą jo reikšmę. Pavyzdžiui,
iš 1.2 pav. pateikto grafiko galima pasakyti, kad 80% ūkių turi mažiau nei 200 ha žemės
naudmenų ir 20% visų ūkių (100%-80%=20%) turi daugiau nei 200 ha žemės naudmenų.
1.2. Laboratorinio darbo užduotis ir eiga
Šiam laboratoriniam darbui atlikti reikalingi erdviniai duomenys, turintys ne mažiau kaip
10 stebinių, pavyzdžiui, tiesioginiai investuotojai metų pabaigoje pagal šalis investuotojas (vnt.):
1.3 lentelė. Tiesioginiai investuotojai 2014 metų pabaigoje
Šalis Tiesioginiai investuotojai
metų pabaigoje
Airija 24
Belgija 49
..... ...
Vokietija 45
Pastaba: importuojant duomenis iš Statistikos departamento ar kito šaltinio, nesirinkti
suminių eilučių, pvz. tiesioginių investuotojų metų pabaigoje iš viso (pagal visas šalis)!
Pasirinkti duomenys grupuojami ir analizuojami tokia seka:
1. Nurodomas stebinių skaičius, sudaroma variacinė eilutė, nustatoma minimali ir
maksimali imties reikšmė.
2. Apskaičiuojamas grupių skaičius.
3. Apskaičiuojamas intervalo plotis.
4. Nustatomos kiekvienos grupės intervalų ribos, pasirenkant intervalų sudarymo būdą
(jungiamąjį arba skiriamąjį) ir motyvuojant pasirinkimą.
5. Sudaroma dažnių lentelė.
6. Apskaičiuojamas kiekvienos grupės intervalo centras.
7. Apskaičiuojami santykiniai dažniai vienetais ir procentais, nubraižoma histograma bei
pateikiama rezultatų interpretacija (išvados).
8. Apskaičiuojami sukaupti dažniai vienetais ir procentais, nubraižoma kumuliatė bei
pateikiama rezultatų interpretacija (išvados).
Naudojamos MS Excel funkcijos:
Ne
mažiau
10 šalių
COUNTA(...) – nurodo celių, kurios nėra tuščios (yra tekstas arba skaičius), skaičių.
MIN(...) – surandama mažiausia pasirinktos imties reikšmė.
MAX(...) – surandama didžiausia pasirinktos imties reikšmė.
CUSTOM SORT ... – rikiuojami lentelės duomenys pagal pasirinkto stulpelio (eilutės)
reikšmes didėjimo arba mažėjimo tvarka (sudaroma variacinė eilutė).
1.3. Laboratorinio darbo pavyzdys
Šiam laboratoriniam darbui atlikti bus analizuojami tiesioginių investuotojų skaičius metų
pabaigoje pagal šalis. Iš Statistikos departamento Oficialiosios statistikos portalo eksportuojami
paskutinio skelbiamo laikotarpio, t.y. 2014 m. duomenys. Bus analizuojamos visos šalys, kurios
tais metais investavo į Lietuvą, t.y. tiesioginių investuotojų skaičius yra nelygus 0. Duomenų
lentelė pateikta 1.4 lentelėje.
1.4 lentelė. Tiesioginiai investuotojai 2014 metų pabaigoje
Eilės
nr.
Šalis Tiesioginiai
investuotojai
metų
pabaigoje
Eilės
nr.
Šalis Tiesioginiai
investuotojai
metų
pabaigoje
1 Airija 27 22 Latvija 419
2 Armėnija 3 23 Lenkija 226
3 Austrija 48 24 Lichtenšteinas 6
4 Baltarusija 130 25 Liuksemburgas 51
5 Belgija 50 26 Malta 27
6 Bulgarija 9 27 Nyderlandai 202
7 Čekija 47 28 Norvegija 225
8 Danija 261 29 Panama 5
9
Didžiosios Britanijos
Mergelės salos 16
30
Portugalija 6
10 Estija 396 31 Prancūzija 93
11 Graikija 4 32 Rumunija 10
12 Islandija 10 33 Rusija 197
13 Ispanija 22 34 Slovakija 16
14 Italija 65 35 Suomija 204
15 Izraelis 19 36 Švedija 249
16 Jungtinė Karalystė 173 37 Šveicarija 124
17 Jungtinės Valstijos 118 38 Turkija 5
18 Kanada 13 39 Ukraina 39
19 Kazachstanas 13 40 Vengrija 22
20 Kinija 32 41 Vokietija 442
21 Kipras 107 42 Kitos šalys 85
Taigi analizuojami 42 stebiniai. Stebinių skaičių parodo 1.4 lentelės paskutinio stebinio
eilės numeris arba galima nustatyti naudojant funkciją COUNTA(...). Šios imties mažiausioji
reikšmė, apskaičiuota remiantis MS Excel funkcija MIN(...), yra 3 ir tai yra investuotojų skaičius
Armėnijoje, o didžiausia reikšmė yra 442, kuri atspindi investuotojų skaičių Vokietijoje. 1.5
lentelėje pateikta analizuojamų duomenų variacinė eilutė.
1.5 lentelė. Tiesioginių investuotojų 2014 metų pabaigoje variacinė eilutė
Eilės
nr.
Šalis Tiesioginiai
investuotojai
metų
pabaigoje
Eilės
nr.
Šalis Tiesioginiai
investuotojai
metų
pabaigoje
1 Armėnija 3 22 Austrija 48
2 Graikija 4 23 Belgija 50
3 Panama 5 24 Liuksemburgas 51
4 Turkija 5 25 Italija 65
5 Lichtenšteinas 6 26 Kitos šalys 85
6 Portugalija 6 27 Prancūzija 93
7 Bulgarija 9 28 Kipras 107
8 Islandija 10 29 Jungtinės Valstijos 118
9 Rumunija 10 30 Šveicarija 124
10 Kanada 13 31 Baltarusija 130
11 Kazachstanas 13 32 Jungtinė Karalystė 173
12
Didžiosios Britanijos
Mergelės salos 16
33
Rusija 197
13 Slovakija 16 34 Nyderlandai 202
14 Izraelis 19 35 Suomija 204
15 Ispanija 22 36 Norvegija 225
16 Vengrija 22 37 Lenkija 226
17 Airija 27 38 Švedija 249
18 Malta 27 39 Danija 261
19 Kinija 32 40 Estija 396
20 Ukraina 39 41 Latvija 419
21 Čekija 47 42 Vokietija 442
Toliau šios šalys bus sugrupuotos atsižvelgiant į investuotojų skaičių 2014 metų pabaigoje.
Grupių skaičius apskaičiuojamas pagal Sterdžeso formulę (1.1 formulė):
m = 1 + 3,322 lgN = 1 + 3,322 lg(42) = 6,4
Grupių skaičius, suapvalintas pagal matematikos taisykles, yra 6. Jeigu sudaromos 6
grupės, tada kiekvieno intervalo plotis, apskaičiuotas pagal 1.3 formulę, bus lygus
d = (xmax – xmin) / m = (442 – 3) / 6 = 73,2
Kadangi investuotojų skaičius yra diskretusis skaičius, tai intervalo plotis taip pat turi būti
suapvalintas iki sveikojo skaičiaus. Pagal matematikos taisykles intervalo plotis apvalinamas iki
73.
Kadangi tiek grupių skaičius, tiek intervalo plotis buvo suapvalinti į mažesniąją pusę, gali
susiklostyti situacija, kad paskutinis (šeštas) intervalas neapims visų didžiausią reikšmę turinčių
stebinių. Tai patikrinama pagal 1.4 formulę:
6 ∙ 73 < 442 – 3 → 438 < 439.
Iš čia matyti, kad 1.4 formulėje pateikta sąlyga negalioja ir remiantis tokiu grupių
skaičiumi bei intervalo pločiu, sudarytos grupės neapims maksimalios reikšmės (Vokietijos).
Vadinasi grupių skaičių arba intervalo plotį būtina apvalinti į didesnę pusę. Palikus grupių
skaičių tą patį, o intervalo plotį suapvalinus į didesnę pusę, t.y. iki 74, 1.4 formulės kairioji pusė
bus lygi 6 ∙ 74 = 444.
Tuo tarpu padidinus grupių skaičių iki 7, intervalo plotis bus:
d = (xmax – xmin) / m = (442 – 3) / 7 = 62,7
Suapvalinus pagal matematikos taisykles intervalo plotis bus 63, o 1.4 formulės kairioji
pusė bus lygi 7 ∙ 63 = 441. Kadangi šiuo atveju gautasis skaičiu mažiau skiriasi nuo 1.4 formulės
dešinėje pusėje gauto skaičiaus (439), tikslinga pasirinkti būtent šį variantą.
Taigi bus sudaromos 7 grupės, o kiekvienos grupės intervalo plotis bus lygus 63. Kadangi
turimi duomenys yra diskretūs skaičiai, tai bus pasirenkamas skiriamasis intervalų sudarymo
būdas. Taigi intervalų ribos bus tokios:
3 – 65; 66 – 128; 129 – 191; 192 – 254; 255 – 317; 318 – 380; 381 – 443.
Toliau sudaroma dažnių lentelė ir pagal 1.6 formulę apskaičiuojamas kiekvienos grupės
intervalo centras. Rezultatai pateikti 1.6 lentelėje.
1.6 lentelė. Dažnių lentelė ir grupių intervalų centrai
Variantai 3 – 65 66 – 128 129 – 191 192 – 254 255 – 317 318 – 380 381 – 443
Dažniai 25 5 2 6 1 0 3
Intervalo
centras 34 97 160 223 286 349 412
Pagal 1.7 formulę apskaičiuoti santykiniai dažniai vieneto dalimis bei procentais pateikti
1.7 lentelėje.
1.7 lentelė. Santykiniai dažniai
Variantai 3 – 65 66 – 128 129 – 191 192 – 254 255 – 317 318 – 380 381 – 443
Santykiniai
dažniai
0,60 0,12 0,05 0,14 0,02 0,00 0,07
59,5% 11,9% 4,8% 14,3% 2,4% 0,0% 7,1%
1.3 paveiksle santykiniai dažniai atvaizduojami grafiškai nubraižant histogramą. Iš
rezultatų matyti, kad daugiausiai, t.y. 59,5%, yra šalių, kuriose investuotojų skaičius siekia nuo 3
iki 65. 14,3% šalių investuotojų skaičius siekia nuo 192 iki 254, 11,9% šalių investuotojų
skaičius siekia nuo 66 iki 128, 7,1% šalių investuotojų skaičius siekia nuo 381iki 443, 4,8% šalių
investuotojų skaičius siekia nuo 129 iki 191, 2,4% šalių investuotojų skaičius siekia nuo 255 iki
317, o šalių, kuriose investuotojų skaičius siektų nuo 318 iki 380, nėra.
1.3 pav. Tiesioginių investuotojų 2014 m. pabaigoje histograma
Pagal 1.8 formulę apskaičiuoti sukaupti dažniai vieneto dalimis bei procentais pateikti 1.8
lentelėje.
1.8 lentelė. Sukaupti dažniai
Variantai 3 – 65 66 – 128 129 – 191 192 – 254 255 – 317 318 – 380 381 – 443
Sukaupti
dažniai
25 30 32 38 39 39 42
59,5% 71,4% 76,2% 90,5% 92,9% 92,9% 100,0%
1.4 paveiksle sukaupti dažniai atvaizduojami grafiškai nubraižant kumuliatę. Iš rezultatų
matyti, kad 59,5% visų šalių investuotojų skaičius yra mažesnis nei 66 ir 40,5% visų šalių jis yra
didesnis už 65. Tuo tarpu vos dešimtadalis, t.y. 9,5% šalių investuotojų skaičius viršija 254, t.y.
90,5% visų analizuojamų šalių investuotojų skaičius nesiekia 255.
1.4 pav. Tiesioginių investuotojų 2014 m. pabaigoje kumuliatė
2 LABORATORINIS DARBAS. SANTYKINIAI RODIKLIAI IR VIDURKIAI
Surinkus ir susisteminus pirminius duomenis, juos galima analizuoti, skaičiuojant
įvairiausius santykinius rodiklius, vidurkius, sklaidą ir pan. Antrojo laboratorinio darbo tikslas –
apskaičiuoti santykinius bei vidutinius dydžius ir padaryti atitinkamas išvadas.
2.1. Teorinės žinios
Statistinis rodiklis – skaitinė charakteristika, parodanti analizuojamo reiškinio tam tikrą
savybę konkrečiomis vietos ir laiko sąlygomis. Dėl jų gausos parastai statistiniai rodikliai yra
klasifikuojami pagal tam tikrus kirterijus:
pagal gavimo būdą išskiriami pirminiai ir išvestiniai rodikliai;
pagal statistinę prigimtį išskiriami absoliutinių bei santykinių dydžių rodikliai ir
vidurkiai;
pagal laiko charakteristiką rodikliai skirstomi į momentinius ir intervalinius;
pagal socialinį-ekonominį turinį rodikliai skirstomi į gyventojų skaičiaus, visuomenės
darbo išteklių, visuomeninio produkto gamybos, nacionalinių pajamų, gyvenimo lygio,
gyventojų sveikatos apsaugos ir kt.
Toliau bus detaliau analizuojami statistiniai rodikliai, atsižvelgiant į jų statistinę prigimtį.
Absoliutiniai rodikliai. Absoliutiniai statistiniai dydžiai, dar vadinami ekstensyviais
rodikliais, išreiškia ekonominių, socialinių ar kitokių reiškinių apimtį jų visumos vienetų
skaičiumi arba reiškinius apibūdinančių požymių suma. Absoliutiniai dydžiai skirstomi į:
individualiuosius, kurie išreiškia atskirų vienetų požymių apimtis ir nustatomi tiesiogiai
statistinio stebėjimo metu (pvz. gyventojų skaičius mieste, darbuotojų skaičius įmonėje,
prekių kiekis sandėlyje, parduotuvės plotas ir t.t.);
bendruosius, kurie išreiškia visų visumos vienetų ir jos grupių požymių apimtį. Jie
gaunami susumavus individualiuosius absoliutinius dydžius (pvz. produkcijos vertė,
prekių apyvarta, darbo užmokesčio lėšos, bendrasis derlius).
Absoliutiniams rodikliams paprastai būdingi šie matavimo vienetai:
natūriniai – jie parodo reiškinių ar daiktų fizinį kiekį, kuris išreiškiamas įprastiniais
svorio, tūrio, ilgio, ploto matais.
natūriniai sutartiniai – jie naudojami vienarūšiams, tačiau įvairiavardžiams,
tarpusavyje nesumuojamiems reiškiniams perskaičiuoti į vienavardžius. Pvz.,
spaustuvėje atspausdintų įvairių rūšių (skirtingo formato ir puslapių skaičiaus) knygų
skaičius perskaičiuojamas į sutartinį knygų (atitinkamo formato ir puspalių skaičiaus)
skaičių. Tam yra naudojami perskaičiavimo koeficientai.
vertiniai – jie rodo tiriamų objektų apimtį pinigine išraiška tam tikros rūšies valiuta;
darbo – jie rodo laiko sąnaudas, reikalingas pagaminti produkto vienetui ar suteikti tam
tikrą paslaugą.
Santykiniai rodikliai. Tai intensyvūs statistiniai rodikliai, nusakantys socialinių,
ekonominių ar kitokių reiškinių kiekybinius santykius. Santykiniai rodikliai dažnai yra labiau
informatyvūs, nei absoliutiniai. Jais galima palyginti vieną rodiklį su kitu, nustatyti proporcijas,
pasikeitimus struktūroje ir pan. Santykiniai rodikliai gaunami lyginant du absoliutinius, o kartais
ir santykinius, dydžius, t.y.
skaitiklyje visada rašomas rodiklis, atspindintis nagrinėjamą reiškinį, t.y. dydis, kuris
lyginamas su kitu rodikliu, ir vadinamas lyginamuoju dydžiu;
vardiklyje rašomas rodiklis, su kuriuo lyginamas analizuojamas dydis, ir jis vadinamas
baze.
Vis dėlto, tarpusavyje lyginti galima tik tokius rodiklius, kurių rezultatą (santykį) galima
logiškai paaiškinti, t.y. santykinius dydžius negalima skaičiuoti iš nepalyginamų rodiklių.
Paprastai santykinių rodiklių matavimo vienetai yra:
koeficientai – jie naudojami tada, kai lyginamasis dydis yra ženkliai didesnis už bazinį
dydį ir parodo, kiek kartų lyginamasis dydis skiriasi nuo bazinio dydžio;
procentai – jie naudojami tada, kai skirtumai tarp lyginamojo ir bazinio dydžio nedideli
(paprastai bazinis dydis viršija lyginamąjį dydį, bet ne daugiau kaip 100 kartų); šiuo
atveju lyginamojo dydžio ir bazės santykis yra dauginamas iš 100;
promilės – jos naudojami tada, kai bazinis dydis viršija lyginamąjį dydį daugiau kaip
100 kartų (bet paprastai ne daugiau kaip 1000 kartų); šiuo atveju lyginamojo dydžio ir
bazės santykis yra dauginamas iš 1000;
prodecimilės – jos naudojami tada, kai bazinis dydis viršija lyginamąjį dydį daugiau
kaip 1000 kartų (bet paprastai ne daugiau kaip 10 000 kartų); šiuo atveju lyginamojo
dydžio ir bazės santykis yra dauginamas iš 10 000;
vardiniai dydžiai – tai tokia išraiškos forma, kai santykiniai dydžiai išreiškiami
nagrinėjamos visumos vienetais.
Galima išskirti tokias pagrindines santykinių rodiklių rūšis:
sutarties įsipareigojimų vykdymo;
plano vykdymo;
planinės užduoties vykdymo;
dinamikos;
struktūros;
koordinacijos;
intensyvumo;
ekonominio išsivystymo;
palyginimo.
Šioje dalyje plačiau bus analizuojami struktūros, koordinacijos ir dinamikos santykiniai
rodikliai.
Struktūros santykiniai rodikliai apibūdina nagrinėjamos visumos sudėtį, t.y. tos visumos
dalių lyginamąjį svorį. Jie apskaičiuojami visumos dalių vienetų skaičių (xi) padalijus iš visos
visumos vienetų skaičiaus (Σxi) ir išreiškiami vieneto dalimis (koeficientais) arba procentais:
∑ arba
∑ . (2.1)
Struktūros santykinių dydžių paprastai apskaičiuojama tiek, kiek sudedamųjų dalių
(visumos dalių – i) sudaro nagrinėjamą visumą. Sudėjus atskirų dalių koeficientus arba
procentus, atitinkamai gaunama 1 arba 100 %.
Grafiškai dažniausiai šie rodikliai atvaizduojami stulpelinėmis, juostinėmis arba
skritulinėmis diagramomis (2.1 pav.). Vaizduojant reiškinio struktūrą stulpelinėmis ar
juostinėmis diagramomis, stulpelių ar juostų ilgis prilyginamas 100% ir dalijamas į dalis,
proporcingas to reiškinio struktūrai. Skritulinė diagrama – tai apskritimas, padalytas į sektorius
ir jų plotas atspindi pasirinktos dedamosios dažnį, t.y. apskritimo ilgis prilyginamas 100%, o
struktūros santykiniai dydžiai perskaičiuojami į laipsnius (1%=3,60).
2.1 pav. Stulpelinės (kairėje) ir skritulinės (dešinėje) diagramos pavyzdys
Koordinacijos santykiniai rodikliai apskaičiuojami lyginant to paties objekto
(nagrinėjamos visumos) atskiras dalis (xi ir xj) ir parodo, kiek tos visumos vienos dalies vienetų
kiekis tenka kitai vienetų daliai, skaičiuojant vienetui, šimtui, tūkstančiui ir t.t.:
,
,
ir t.t.
(2.2)
Dinamikos santykiniai rodikliai parodo nagrinėjamo reiškinio kitimą tam tikru laikotarpiu.
Jie gaunami palyginus to paties objekto (rodiklio) einamojo (ataskaitinio) laikotarpio duomenis
(xi) su ankstesnio laikotarpio duomenimis. Dinamikos santykiniai rodikliai skaičiuojami baziniu
ir grandininiu būdu. Baziniai dinamikos rodikliai gaunami einamojo laikotarpio duomenis
lyginant su visada to paties, paprastai anksčiausio, laikotarpio duomenimis. Grandininiai
dinamikos rodikliai gaunami einamojo laikotarpio duomenis lyginant su nuolat kintančiu, prieš
tai buvusio laikotarpio duomenimis.
ir
,
(2.3)
čia x0 – bazinio laikotarpio reikšmė, xi-1 – prieš tai buvusio laikotarpio reikšmė.
Vidutiniai dydžiai. Vidurkiu vadinamas apibendrinantis kiekybinis rodiklis, išreiškiantis
analizuojamo požymio tipinį lygį, tai yra jis nurodo vidutinę reikšmę, aplink kurią išsidėsčiusios
visos požymio reikšmės. Galima išskirti keletą vidurkių rūšių:
aritmetinis,
harmoninis,
kvadratinis,
geometrinis,
chronologinis,
slenkantis,
progresyvinis.
Šiame laboratoriniame darbe plačiau bus analizuojamas aritmetinis, geometrinis, slankusis
ir chronologinis vidurkis.
Aritmetinis vidurkis taikomas siekiant įvertinti vidutinę požymio reikšmę, kai duomenys
yra erdviniai arba intervalinės laiko eilutės (t.y. reikšmės išmatuotos per tam tikrą laikotarpį,
pvz., per metus, per ketvirtį, mėnesį ar pan.), ir apskaičiuojamas pagal formulę:
∑
, (2.4)
čia n – požymio reikšmių skaičius.
Geometrinis vidurkis naudojamas analizuojant laiko eilutes ir apibūdina vidutinį reiškinio
kitimo greitį (tempą) per analizuojamą laikotarpį. Geometrinio vidurkio skaičiavimas priklauso
nuo duomenų pobūdžio, t.y. turimi absoliutiniai ar santykiniai duomenys. Turint absoliutines
laiko eilutės reikšmes geometrinis vidurkis skaičiuojamas pagal formulę:
√
, (2.5)
čia n – laiko eilutės ilgis (duomenų skaičius), x1 – pirmoji (anksčiausio laikotarpio) laiko eilutės
reikšmė, xn – paskutinė (vėliausio laikotarpio) laiko eilutės reikšmė.
Kai turimi grandininiai dinamikos santykiniai rodikliai, geometrinis vidurkis
skaičiuojamas pagal formulę:
√
, (2.6)
čia S1, S2, ..., Sn – pirmoji, antroji, ..., n-toji laiko eilutės (grandininio dinamikos rodiklio)
reikšmė.
Slenkantys vidurkiai paprastai skaičiuojami laiko eilutės reikšmių kitimo tendencijai
nustatyti bei sezoniniams svyravimams tirti. Slenkantys vidurkiai skaičiuojami kaip aritmetiniai
vidurkiai, tačiau ne iš visų, o tik iš kelių gretimų laiko eilutės narių, kiekvieną kartą atmetant po
vieną ankstesnįjį ir įtraukiant naują eilutės narį. Laiko eilutės narių, iš kurių skaičiuojamas
slankusis vidurkis, skaičius vadinamas glodinimo pločiu ir žymimas r. Pavyzdžiui, jei glodinimo
plotis yra 3, tai laiko eilutės slankieji vidurkiai apskaičiuojami taip:
,
,
, ... (2.7)
Rekomenduojama glodinimo pločiu rinktis nelyginį skaičių, nes apkaičiuotas slankusis
vidurkis gerai pakeičia vidurinį į skaičiavimus įtrauktą laiko eilutės narį. Jei glodinimo plotis yra
lyginis skaičius, tada slankiuosieji vidurkiai paprastai skaičiuojami dviem etapais tam, kad
apskaičiuotas vidurkis pakeistų vidurinįjį narį. Pvz., jei glodinimo plotis yra 4, tai:
,
,
,
, ...
(2.8)
,
,
, ...
Visais atvejais apskaičiuotų slankiųjų vidurkių bus mažiau nei turima realių laiko eilutės
narių, t.y. realias laiko eilutės reikšmes pakeičiant slankiaisiais vidurkiais yra prarandama dalis
pirmųjų ir paskutinių laiko eilutės reikšmių, ir kuo glodinimo plotis yra didesni, tuo praradimai
yra didesni.
Chronologinis vidurkis skaičiuojamas momentinėms laiko eilutėms, t.y. kai analizuojamo
požymio (ar reiškinio) reikšmės išmatuotos tam tikrai datai (pvz., gyventojų skaičius sausio 1 d.,
įmonės skola liepos 31 d. ir pan.). Chronologinio vidurkio skaičiavimo formulė taip pat priklauso
nuo momentinės laiko eilutės pobūdžio, t.y.:
kai laiko tarpai tarp atskirų momentinės laiko eilutės reikšmių vienodi, chronologinis
vidurkis apskaičiuojamas pagal formulę:
, (2.9)
kai laiko tarpai tarp atskirų momentinės laiko eilutės reikšmių nevienodi, chronologinis
vidurkis apskaičiuojamas pagal formulę:
, (2.10)
čia t1, t2, ..., tn-1 – laiko momentai tarp x1 ir x2, x2 ir x3, ..., xn-1 ir xn.
Struktūriniai vidurkiai. Visumos struktūrai apibūdinti yra skaičiuojami struktūriniai
vidurkiai – moda, mediana, kartiliai.
Moda - tai dažniausiai pasikartojanti požymio reikšmė visumoje (populiacijoje ar imtyje).
Jei dažniausiai pasikartoja vienas kuris nors variantas, pasiskirstymą vadiname vienmodaliu,
jeigu du ar daugiau eilutės variantai turi vienodus dažnius, toks skirstinys vadinamas
bimodaliniu. Jei visi variantai pasitaiko vienodai dažnai – pasiskirstymo eilutėje modos nėra.
Modą galima nustatyti ir iš grafiko – histogramos. Modą atitiks histogramos aukščiausias
stulpelis. Kai aritmetinis vidurkis artimas modai, laikoma, kad šis vidurkis yra tipiškas.
Mediana – požymio reikšmė, esanti variacinės eilutės viduryje, t. y. Moda variacinę eilutę
dalija į dvi lygias dalis. Jei variacinėje eilutėje narių skaičius nelyginis, mediana yra vidurinioji
konkreti požymio reikšmė ir ji lygi
variacinės eilutės reikšmei. O jei variacinėje eilutėje
narių skaičius yra lyginis, ji apskaičiuojama kaip dviejų viduriniųjų požymio reikšmių
aritmetinis vidurkis, t.y.
.
Medianą galima nustatyti ir grafiškai, nubraižius kumuliatę. Iš ordinačių (y) ašies taško,
kuris atitinka 50% sukauptą dažnį, brėžiama lygiagretė abscisių (x) ašiai iki susikirtimo su
kumuliate, o iš čia leidžiamas statmuo į abscisių ašį. Atitinkamas abscisių ašies sankirtos taškas
ir bus mediana (2.2 pav.).
2.2 pav. Medianos radimas pagal kumuliatę
Variacinę eilutę padalinus į keturias lygias dalis, gaunami kvartiliai, į dešimt lygių dalių –
deciliai. Antrasis kvartilis ir penktasis decilis visada yra lygus medianai.
2.2. Laboratorinio darbo užduotis ir eiga
Šiam laboratoriniam darbui atlikti pasirenkamos dvi eilutės iš 1 laboratoriniame darbe
sudaryto 1.3 lentelės, pvz. tiesioginiai investuotojai metų pabaigoje Belgijoje ir Vokietijoje, ją
papildant tokius būdu:
pridedamas suminis rodiklis, pvz. tiesioginiai investuotojai metų pabaigoje pagal
visas šalis;
šiems trims rodikliams surenkami ne mažiau kaip 7 laikotarpių duomenys, pvz.
tiesioginiai investuotojai metų pabaigoje pagal visas šalis, Belgijoje ir Vokietijoje
už 2000 – 2015 m.
Šiame laboratoriniame darbe analizuojamos lentelės pavyzdys pateikiamas 2.1 lentelėje.
2.1 lentelė. Tiesioginiai investuotojai 2000 - 2015 m.
Šalis 2000 2001 ... 2014 2015
Iš viso pagal
valstybes
3150 3412 4152 4092
Belgija 30 23 50 49
Vokietija 10 20 50 45
Pasirinkti duomenys analizuojami tokia seka:
9. Apskaičiuojami struktūros ir koordinacijos santykiniai rodikliai kiekvieniems metams
bei suformuluojamos išvados.
10. Apskaičiuojamas viso analizuojamo laikotarpio (pvz. 2000-2015 m.) aritmetinis arba
chronologinis (priklausomai nuo turimų duomenų, pagrindžiant pasirinkimą) ir
geometrinis vidurkis visoms trims eilutėms (pvz. Vokietijai, Belgijai ir iš viso pagal
valstybes). Suformuluojamos išvados.
11. Apskaičiuojami viso analizuojamo laikotarpio (pvz. 2000-2015 m.) moda, mediana bei
visi kvartiliai visoms trims eilutėms (pvz. Vokietijai, Belgijai ir iš viso pagal
valstybes). Suformuluojamos išvados.
Naudojamos MS Excel funkcijos:
AVERAGE(...) – skaičiuojamas aritmetinis vidurkis.
SUM(...) – sumuojamos pažymėtos reikšmės.
MODE(...) – skaičiuojama moda.
MEDIAN(...) – skaičiuojama mediana.
QUARTILE(...) – skaičiuojami kvartiliai.
2.3. Laboratorinio darbo pavyzdys
Šiame laboratoriniame darbe bus analizuojami tiesioginiai investuotojai metų pabaigoje
bendrai visose šalyse bei atskirai Belgijoje ir Vokietijoje, kurios atstovauja skirtingas pagal
investuotojų skaičių grupes (pagal 1 laboratorinio darbo rezultatus, Vokietijos investuotojų
skaičius yra didžiausias, lyginant su kitomis šalimis, kai tuo tarpu Belgijos – vienas iš mažesnių).
Analizė bus atliekama 2005 – 2014 metų laikotarpiu. Šie duomenys pateikti 2.2 lentelėje.
Ne mažiau 7 metų
2.2 lentelė. Tiesioginiai investuotojai metų pabaigoje Belgijoje, Vokietijoje ir visose šalyse
kartu 2005 – 2014 metų laikotarpiu
Metai Iš viso pagal valstybes Belgija Vokietija
2005 3150 30 467
2006 3151 32 440
2007 3396 33 425
2008 3615 39 443
2009 3876 41 437
2010 3799 40 430
2011 4042 51 443
2012 3887 49 428
2013 4092 49 440
2014 4267 50 442
Toliau skaičiuojami struktūros ir koordinacijos santykiniai rodikliai procentais
kiekvieniems metams atskirai naudojant atitinkamai 2.1 ir 2.2 formules. Kadangi investuotojų
skaičius Belgijoje ir Vokietijoje gerokai skiriasi, tai koordinacijos rodikliai bus skaičiuojami
skirtingam investuotojų skaičiui, t.y. kiek šimtui Vokietijos investuotojų teko Belgijos
investuotojų ir kiek vienam Belgijos investuotojui teko Vokietijos investuotojų. Rezultatai
pateikti 2.3 lentelėje.
2.2 lentelė. Struktūros ir koordinacijos santykiniai rodikliai
Metai
Struktūros santykiniai rodikliai Koordinacijos santykiniai rodikliai
Belgija Vokietija
100 Vokietijos
investuotojų
teko Belgijos
investuotojų
1 Belgijos
investuotojui teko
Vokietijos
investuotojų
2005 1,0%
(=30/3150∙100%)
14,8%
(=467/3150∙100%)
6,4
(=30/467∙100)
15,6
(=467/30)
2006 1,0% 14,0% 7,3 13,8
2007 1,0% 12,5% 7,8 12,9
2008 1,1% 12,3% 8,8 11,4
2009 1,1% 11,3% 9,4 10,7
2010 1,1% 11,3% 9,3 10,8
2011 1,3% 11,0% 11,5 8,7
2012 1,3% 11,0% 11,4 8,7
2013 1,2% 10,8% 11,1 9,0
2014 1,2% 10,4% 11,3 8,8
Belgijos investuotojų skaičius, lyginant su bendru visų šalių investuotojų skaičiumi, sudaro
apie 1% visų investuotojų. Be to, ši procentinė dalis per dešimtmetį išaugo, t.y. 2005 m. ji sudarė
lygiai 1%, kai 2014 m. ji jau siekė 1,2%. Tiesa, pastaraisiais metais ji kiek sumenko lyginant su
2011-2012 m., kai Belgijos investuotojai sudarė 1,3% visų investuotojų. Tuo tarpu Vokietijos
investuotojai 2014 m. sudarė 10,4% visų investuotojų į Lietuvą, tačiau ši dalis kasmet mažėjo.
2005 m. Vokietijos investuotojai sudarė 14,8% visų investuotojų.
Koordinacijos santykiniai rodikliai leidžia palyginti Belgijos ir Vokietijos investuotojų
skaičių tarpusavyje. Iš rezultatų matyti, kad Belgijos investuotojų dalis Vokietijos investutojų
atžvilgiu didėjo, nors ir Belgijos investuotojų skaičius gerokai yra mažesnis nei Vokietijos. Jei
2005 m. šimtui Vokietijos investuotojų teko 6,4 Belgijos investuotojų, tai 2014 m. jų jau
atitenka 11,3. Atitinkamai 2005 m. vienam Belgijos investuotojui teko 15,6 Vokietijos
investuotojų, o 2014 m. jų skaičius sumenko iki 8,8.
Apibendrintą vaizdą apie investuotojų skaičių per analizuojamą laikotarpį suteikia
vidurkis. Kadangi turimi duomenys yra momentinė laiko eilutė (investuotojų skaičius pateiktas
kiekvienų metų pabaigai), tai vidutiniam investuotojų skaičiui apskaičiuoti turi būti naudojama,
ne aritmetinio, bet chronologinio vidurkio formulė. Kadangi laiko tarpai tarp laiko eilutės
reikšmių yra vienodi (turimi kiekvienų metų iš eilės duomenys), tai naudojama 2.9 formulė.
Chronologinio vidurkio reikšmės pateikiamos 2.3 lentelėje. Jos rodo, kad vidutinis užsienio
tiesioginių investuotojų skaičius 2005 – 2014 metų laikotarpiu buvo 3357, vidutinis Belgijos
investuotojų skaičius siekė 37, o Vokietijos – 394.
2.3 lentelė. Investuotojų skaičiaus 2005-2014 m. chronologinis ir geometrinis vidurkis
Vidurkis Iš viso pagal valstybes Belgija Vokietija
Chronologinis 3357 37 394
Geometrinis 1,03 1,06 0,99
Geometrinis vidurkis leidžia įvertinti kaip kito investuotojų skaičius per analizuojamą
laikotarpį, t.y. jis didėjo ar mažėjo, ir kokiu greičiu. Geometrinio vidurkio reikšmės,
paskaičiuotos pagal 2.5 formulę, pateiktos 2.3 lentelėje. Iš čia matyti, kad 2005-2014 metų
laikotarpiu bendras visų investuotojų skaičius augo kasmet vidutiniškai po 3%, Belgijos
investuotojų skaičius didėjo šiek tiek daugiau – kasmet vidutiniškai po 6%, tuo tarpu Vokietijos
investuotojų skaičius kasmet menko vidutiniškai po 1%.
Dar daugiau informacijos suteikia struktūriniai vidurkiai – moda, mediana bei kvartiliai. Jų
apskaičiuotos reikšmės pateiktos 2.4 lentelėje. Per analizuojamą 10 metų laikotarpį dažniausiai
buvo 440 Vokietijos ir 49 Belgijos investuotojai. Tokios jų reikšmės kartojosi dvejus metus. Tuo
tarpu analizuojant bendrą investuotojų skaičių pagal visas šalis, jis kasmet keitėsi, dėl to modos
šiuo atveju nėra, o šio rodiklio medianos reikšmė siekia 3838. Tai reiškia, kad penkerius metus
bendras investuotojų į Lietuvą skaičius buvo ne didesnis už 3838 ir kitus penkerius metus
(nebūtinai iš eilės) jis šį skaičių viršijo ar buvo jam lygus. Penkerius metus buvo ne mažiau kaip
41 Belgijos ir ne mažiau kaip 440 Vokietijos investuotojų, lygiai tiek pat, t.y. kitus penkerius
metus (nebūtinai iš eilės) Belgijos ir Vokietijos investuotojų skaičius šių skaičių neviršijo.
2.4 lentelė. Investuotojų skaičiaus 2005-2014 m. struktūriniai vidurkiai
Skaitinė
charakteristika
Iš viso pagal valstybes Belgija Vokietija
Moda - 49 440
Mediana 3838 41 440
Pirmasis kvartilis 3451 35 432
Antrasis kvartilis 3838 41 440
Trečiasis kvartilis 4003 49 443
Ketvirtasis kvartilis 4267 51 467
Ketvirtadalį viso analizuojamo laikotarpio (nebūtinai iš eilės) bendras investuotojų
skaičius šalyje neviršijo 3451, o Belgijos ir Vokietijos investuotojų skaičius neviršijo atitinkamai
35 ir 432. Kitą ketvirtadalį laiko (nebūtinai iš eilės) bendras investuotojų skaičius šalyje nebuvo
mažesnis už 4003, o Belgijos ir Vokietijos investuotojų buvo ne mažiau kaip atitinkamai 49 ir
443.
3 LABORATORINIS DARBAS. DUOMENŲ SKLAIDOS IR PASISKIRSTYMO
ĮVERTINIMAS
Trečiojo laboratorinio darbo tikslas – apskaičiuoti sklaidos matus, įvertinti duomenų
pasiskirstymą bei suformuluoti atitinkamas išvadas.
3.1. Teorinės žinios
Sklaidos matai. Tiriant skirstinį, neužtenka žinoti vien tik jo padėties charakteristikų:
vidurkio, modos, medianos. Galimi atvejai, kai keliose imtyse (ar lyginamose populiacijose)
aritmetiniai vidurkiai sutampa, tačiau jos skiriasi požymio reikšmių išsibarstymu, t.y. sklaidos
laipsniu. Visumos vienetų požymio reikšmių svyravimas vadinamas sklaida (variacija).
Dažniausiai skaičiuojami šie sklaidos matai:
sklaidos plotis,
kvartilinis plotis,
vidutinis tiesinis nuokrypis,
dispersija,
vidutinis standartinis nuokrypis,
variacijos koeficientas.
Sklaidos plotis – pats paprasčiausias absoliutus sklaidos rodiklis, kuris skaičiuojamas kaip
maksimalios ir minimalios požymio reikšmių skirtumas:
R = xmax – xmin. (3.1)
Sklaidos plotis yra pats grubiausias sklaidos įvertinimas, nes visiškai priklauso tik nuo
kraštinių (neretai ir atsitiktinių) variacinės eilutės reikšmių.
Kvartilinis plotis skaičiuojamas kaip trečiojo ir pirmojo kvartilių skirtumas:
IQR = Q3 – Q1. (3.2)
Jis apibūdina 50% viduriniųjų variacinės eilutės reikšmių išsibarstymą.
Vidutinis tiesinis nuokrypis – absoliutus sklaidos matas, kuris apskaičiuojamas kaip
požymio reikšmių absoliutinių nuokrypių nuo vidurkio aritmetinis vidurkis:
∑
. (3.3)
Dispersija – tai taip pat absoliutus sklaidos rodiklis, skaičiuojamas kaip požymio reikšmių
nuokrypių nuo vidurkio kvadratų vidurkis:
∑
. (3.4)
Vienas iš dispersijos trūkumų – matavimo vienetai pakelti kvadratu, kas apsunkina šio
rodiklio interpretaciją. Todėl praktikoje daniau yra naudojamas kitas sklaidos rodiklis –
standartinis (vidutinis kvadratinis) nuokrypis, kuris apskaičiuojamas kaip šaknis iš dispersijos:
√∑
. (3.5)
Standartinis nuokrypis išreiškiamas tais pačiais mato vienetais, kaip ir požymio reikšmės,
ir parodo tų reikšmių nuokrypio nuo vidurkio vidutinį lygį. Turint vidurkį ir vidutinį kvadratinį
nuokrypį, galima nustatyti, kokiai visumos daliai atstovauja apskaičiuotas vidurkis. Standartinio
nuokrypio trūkumas: standartinio nuokrypio skaitinę reikšmę gali iškreipti kelios santykinai
ekstremalios reikšmės, todėl jis, kaip ir aritmetinis vidurkis, gali prarasti savo atspindimąją
savybę labai asimetriškuose skirstiniuose.
Jei vidutinio tiesinio nuokrypio, dispersijos ar vidutinio standartinio nuokrypio skaitinė
reikšmė yra didelė, tai rodo, jog požymio reikšmės labai išsisklaidžiusios apie vidurkį ir
pastarasis nėra tipiškas dydis.
Absoliutiniai sklaidos rodikliai dažnai netinka lyginant kelias visumas tarpusavyje. Tokiais
atvejais geriau remtis santykiniais požymio reikšmių sklaidos rodikliais. Jie išreiškiami
procentais ir apskaičiuojami absoliutinius sklaidos matus lyginant su aritmetiniu vidurkiu.
Labiausiai paplitęs santykinis sklaidos rodiklis yra variacijos koeficientas, kuris
apskaičiuojamas kaip standartinio nuokrypio ir aritmetinio vidurkio santykis, išreikštas
procentais:
. (3.6)
Kuo variacijos koeficientas mažesnis, tuo visuma vienarūšiškesnė ir apskaičiuotas vidurkis
labiau apibūdina tiriamą visumą. Kai variacijos koeficientas yra iki 10 proc. laikoma, kad sklaida
maža, 10-20 proc. – sklaida vidutinė, 20-30 proc. – sklaida didelė ir 30-50 proc. – sklaida labai
didelė. Kai V > 50 proc., manoma, kad variacijos koeficientas realios prasmės jau neturi.
Koeficiento trūkumas – jo negalima naudoti sklaidai įvertinti, kai požymis turi neigiamų
reikšmių. Tokiu atveju vidurkis gali būti labai mažas, palyginti su standartiniu nuokrypiu, arba
net artimas 0, kas nulems nepagrįstai aukštą variacijos koeficiento reikšmę, o jei vidurkis bus
neigiamas – neigiamą variacijos koeficiento reikšmę.
Duomenų pasiskirstymas. Statistinės eilutės narių pasiskirstymas gali turėti įvairias
formas. Tai priklauso nuo to, kaip pasiskirstę statistinės eilutės nariai apie aritmetinį vidurkį,
medianą ir modą. Simetriškai statistinės eilutės nariai pasiskirstę tuomet, kai įvairių variantų
dažnumai mažėja nuo modos, aritmetinio vidurkio ar medianos į abi puses vienodai. Tai
simetrinis arba vadinamasis normalusis pasiskirstymas.
Nustatyta, kad turint dideles imtis (populiacijas) daugeliui rodiklių yra būdingas
normalusis pasiskirstymas. Vis dėlto ekonominiuose reiškiniuose idealiai simetriškas statistinės
eilutės narių pasiskirstymas yra labai retas dalykas.
Ar duomenų pasiskirstymas yra normalusis, galima nustatyti keliais būdais:
grafiškai,
skaičiuojant požymio reikšmių priklausomumą atitinkamiems intervalams,
lyginant vidurkį, modą ir medianą,
skaičiuojant asimetrijos bei eksceso koeficientus.
Vertinant pasiskirstymą grafiškai, skirstinys bus normalusis, jei histograma atrodys
taisyklingos varpo formos (3.1 pav.).
3.1 pav. Normaliojo skirstinio pavyzdys
Normalųjį skirstinį korektiška vaizduoti tik tada, kai požymis matuojamas kiekybiškai –
intervalų arba santykių skalėje.
Apie turimų duomenų skirstinio artumą normaliajam skirstiniui su tam tikra tikimybe
leidžia spręsti standartinis nuokrypis. Jei duomenys pasiskirstę pagal normalųjį skirstinį, tai
apytiksliai 68% visų požymio reikšmių patenka į intervalą , o beveik visos
reikšmės patenka į intervalą . Daugiau variantų pateikiama 3.1 lentelėje.
3.1 lentelė. Požymio reikšmių priklausomumas atitinkamiems intervalams
Intervalas Procentinė dalis reikšmių, patenkanti į
intervalą
68,27%
95,45%
99,73%
99,99%
Pvz., jei ribose telpa ne mažiau kaip 95,4% visų turimų požymio
reikšmių, tai su tikimybe 0,954 galima tvirtinti, kad tai yra normalusis skirstinys.
Pasiskirstymas taip pat yra simetrinis (normalusis), jei požymio reikšmių vidurkis yra
lygus modai (Mo) ir medianai (Me). Neigiama (kairiašonė, kairioji) asimetrija yra kai skirstinyje
vyrauja variantai su didesnėmis negu aritmetinis vidurkis reikšmėmis, t.y. . Tada
skirstinio kreivės viršūnė pasislinkusi į dešinę, o kreivės kairioji dalis yra ilgesnė. Teigiama
(dešiniašonė, dešinioji) asimetrija egzistuoja, jei skirstinyje vyrauja variantai su mažesnėmis
reikšmėmis nei aritmetinis vidurkis, t.y. , tai skirstinio kreivės viršūnė
pasislinkusi į kairę ir kreivės dešinioji dalis yra ilgesnė (3.2 pav.).
3.2 pav. Kairioji ir dešinioji asimerija
Empiriškai nustatyta, kad pasiskirstymo eilutės asimetrija yra vidutinė, kai
. (3.7)
Paprasčiausias rodiklis, kuris leidžia palyginti tam tikrų pasiskirstymų asimetrijos laipsnį,
yra asimetrijos koeficientas, kuris apibūdina pasiskirstymo pagal horizontalę ypatumus. Jis
apskaičiuojamas pagal formulę:
∑
. (3.8)
Pasiskirstymas yra simetrinis, kai As = 0. Jei As > 0, vyrauja dešiniašonė asimetrija, o jei
As < 0, egzistuoja kairiašonė asimetrija. Asimetrija esminė, kai As yra didesnis už 1 arba
mažesnis už -1.
Eksceso koeficientas parodo statistinės eilutės variantų susitelkimo apie pasiskirstymo
centrą laipsnį, t.y. jis apibūdina šio pasiskirstymo pagal vertikalę ypatumus. Jis apskaičiuojamas:
∑
. (3.9)
Kai E = 0, tai pasiskirstymas pagal šį parametrą atitinka normalųjį. Kai Ex > 0, tai ekscesas
yra teigiamas, o statistinės eilutės variantai susitelkę apie vidurį, tai yra skirstinio kreivė yra
statesnė (viršūnė aštresnė) nei normaliojo skirstinio. Kai Ex < 0, tai ekscesas yra neigiamas, o
statistinės eilutės variantai labiau išsisklaidę, tai yra skirstinio kreivė yra plokštesnė (viršūnė
bukesnė) nei normaliojo skirstinio.
3.2. Laboratorinio darbo užduotis ir eiga
Šiam laboratoriniam darbui bus naudojama 2.1 duomenų lentelė. Toliau išvardinti
skaičiavimai atliekami visam pasirinktam laikotarpiui (pvz. 2000-2015 m.) kiekvienai eilutei
(pvz., Vokietijai, Belgijai ir iš viso pagal valstybes) atskirai:
12. Apskaičiuojamas sklaidos plotis, kvartilinis plotis, dispersija, standartinis nuokrypis ir
variacijos koeficientas. Suformuluojamos išvados.
13. Įvertinamas duomenų pasiskirstymas palyginant vidurkį, modą bei medianą.
Suformuluojamos išvados.
14. Įvertinamas duomenų pasiskirstymas apskaičiuojant asimetrijos bei eksceso
koeficientus. Suformuluojamos išvados.
Naudojamos MS Excel funkcijos:
VAR(...) – skaičiuojama dispersija.
STDEV(...) – skaičiuojamas standartinis nuokrypis.
SKEW(...) – skaičiuojamas asimetrijos koeficientas.
KURT(...) – skaičiuojamas eksceso koeficientas.
3.3. Laboratorinio darbo pavyzdys
Šiame laboratoriniame darbe bus toliau analizuojami tiesioginiai investuotojai metų
pabaigoje bendrai visose šalyse bei atskirai Belgijoje ir Vokietijoje 2005 – 2014 metų
laikotarpiu, t.y. naudojami 2.2 lentelės duomenys.
Siekiant tiksliau įvertinti investuotojų skaičiaus pasiskirstymą analizuojamu laikotarpiu bus
apskaičiuojami sklaidos matai: sklaidos plotis, kvartilinis plotis, dispersija, standartinis
nuokrypis ir variacijos koeficientas. Visi šie rodikliai bus apskaičiuoti remiantis atitinkamai 3.1,
3.2, 3.4, 3.5 ir 3.6 formulėmis, o gautos skaitinės reikšmės pateiktos 3.2 lentelėje.
3.2 lentelė. Investuotojų skaičiaus 2005-2014 m. sklaidos rodikliai
Sklaidos matas Iš viso pagal valstybes Belgija Vokietija
Sklaidos plotis 1117 21 42
Kvartilinis plotis 553 15 11
Dispersija 151538 64 136
Standartinis nuokrypis 389 8 12
Variacijos
koeficientas 10,4% 19,4% 2,7%
Bendras investuotojų skaičius 2005-2014 metų laikotarpiu svyravo 1117-os intervale,
Belgijos investuotojų skaičius – 21-o, o Vokietijos investuotojų skaičius – 42-jų intervale. Nors
Vokietijos investuotojų skaičius svyravo dvigubai didesniame intervale nei Belgijos investuotojų
skaičius, vis dėlto 50% viduriniųjų Vokietijos investuotojų variacinės eilutės narių svyravo jau
mažesniame, t.y. tik 11-os intervale, kai 50% viduriniųjų Belgijos investuotojų variacinės eilutės
narių svyravo 15-os intervale, t.y. pusės laikotarpių Vokietijos investuotojų skaičius mažiau
reikšmingai kito medianos atžvilgiu. Visų užsienio investuotojų bendrai skaičiaus kvartilinis
plotis, kaip ir Belgijos, sudarė apie pusę viso sklaidos pločio, kas reiškia, kad reikšmių sklaida
tarp kvartilių yra panaši. Bendras investuotojų skaičius vidutiniškai nuo vidurkio nukrypo 389
vienetais, Belgijos investuotojų skaičius – 8 vienetais, o Vokietijos – 12 vienetų.
Dauguma absoliučių sklaidos matų indikuoja, kad reikšmių sklaida Vokietijoje yra didesnė
nei Belgijoje, tik kvartilinis plotis rodo, kad Vokietijos atveju pusės visų reikšmių sklaida
medianos atžvilgiu yra mažesnė nei Belgijos atveju. Vis dėlto tiksliau, kurios šalies investuotojų
skaičius svyruoja labiau, parodo variacijos koeficientas. Jis rodo, kad mažiausiai per
analizuojamą laikotarpį svyravo Vokietijos investuotojų skaičius. Tuo tarpu Belgijos
investuotojų skaičius svyravo netgi daug labiau nei bendras visų šalių investuotojų skaičius.
Palyginus kiekvienos šalies medianą, modą ir aritmetinį vidurkį, galima nustatyti, ar šių
statistinių rodiklių reikšmės yra pasiskirsčiusios pagal normalųjį skirstinį. Moda ir mediana buvo
apskaičiuotos 2 laboratoriniame darbe, papildomai randamas aritmetinis vidurkis. Visos šios trys
skaitinės charakteristikos pateiktos 3.3 lentelėje.
3.3 lentelė. Investuotojų skaičiaus 2005-2014 m. aritmetinis vidurkis, moda ir mediana
Skaitinė
charakteristika
Iš viso pagal valstybes Belgija Vokietija
Moda - 49 440
Mediana 3838 41 440
Aritmetinis vidurkis 3728 41 440
Kaip rodo rezultatai, Vokietijos investuotojų skaičiaus moda, mediana ir aritmetinis
vidurkis visiškai sutampa, kas reiškia, kad duomenų pasiskirstymas yra simetrinis, t.y.
normalusis. Nors Belgijos investuotojų skaičiaus aritmetinis vidurkis ir mediana sutampa, tačiau
moda yra didesnė. Tai rodo, kad vyrauja kairioji asimetrija. Bendro visų šalių investuotojų
skaičiaus modos nėra, tačiau didesnė už vidurkį mediana rodo, kad ir čia vyrauja kairioji
asimetrija.
Duomenų pasiskirstymą galima įvertinti ir apskaičiuojant asimetrijos bei eksceso
koeficientus. Jų reikšmės pateiktos 3.4 lentelėje.
3.4 lentelė. Investuotojų skaičiaus 2005-2014 m. asimetrijos bei eksceso koeficientai
Koeficientai Iš viso pagal valstybes Belgija Vokietija
Asimetrijos -0,42 -0,14 1,35
Eksceso -1,04 -1,68 3,21
Nors aritmetinio vidurkio, medianos ir modos palyginimas rodo, kad Vokietijos
investuotojų skaičius yra simetriškai pasiskirstęs, vis dėlto tikslesni matai – asimetrijos ir
eksceso koeficientai – rodo nukrypimus nuo normaliojo skirstinio, t.y. vyrauja nedidelė dešinioji
asimetrija ir skirstinio kreivė yra statesnė nei normaliojo skirstinio. Gauti rezultatai patvirtina
bendro visų investuotojų skaičiaus ir Belgijos investutojų skaičiaus kairiąją asimetriją, o
neigiama eksceso koeficiento reikšmė rodo, kad skirstinio kreivė yra plokštesnė nei normaliojo
skirstinio.
4 LABORATORINIS DARBAS. PIRMINĖ LAIKO EILUČIŲ ANALIZĖ
Ketvirto laboratorinio darbo tikslas – atlikti pirminę laiko eilučių analizę, apskaičiuojant
įvairius analitinius rodiklius, nustatyti laiko eilutės kitimo tendenciją, parenkant tinkamiausią
būdą, bei prognozuoti būsimas laiko eilutės reikšmes.
4.1. Teorinės žinios
Laiko eilutės – tai tokios statistinės eilutės, kurios apibūdina reikšmių kitimą laike. Laiko
eilutės nariai yra žymimi yt, t.y. y1 yra pirmasis (anksčiausio laikotarpio), yn – paskutinis
(vėliausio laikotarpio) laiko eilutės narys.
Laiko eilutė gali būti analizuojama apskaičiuojant analitinius rodiklius:
absoliutų pokytį,
kitimo (didėjimo) tempą,
pokyčio (padidėjimo) tempą.
Priklausomai nuo palyginimo bazės, analitiniai rodikliai gali būti baziniai ir grandininiai.
Baziniai laiko eilutės rodikliai gaunami, kai palyginimo bazė pastovi (dažniausiai lyginama su
pirmuoju laiko eilutės nariu), grandininiai – kai palyginimo bazė kinta (lyginama su prieš tai
buvusiu laiko eilutės nariu).
Absoliutus pokytis – tai dviejų laiko eilutės narių skirtumas. Jis rodo, keliais vienetais
absoliučia išraiška padidėjo ar sumažėjo laiko eilutės vėlesnio laikotarpio reikšmė, lyginant su
ankstesnio laikotarpio reikšme. Turint daugiau nei dviejų laikotarpių duomenis, galima
apskaičiuoti ir bazinius, ir grandininius absoliučius pokyčius:
,
, (4.1)
čia y0 yra bazinio laikotarpio laiko eilutės reikšmė, dažniausiai y0 = y1.
Kitimo tempas arba didėjimo tempas yra dinamikos santykiniai dydžiai (Sd), skirti parodyti
tiriamo reiškinio kitimą laiko atžvilgiu. Jie išreiškiami koeficientu arba procentais. Jei santykis
yra didesnis už 2, rekomenduojama vertinti koeficientu (kartais), kitais atvejais – procentais.
Kitimo tempo koeficientas rodo, kiek kartų laiko eilutės vėlesnio laikotarpio reikšmė skiriasi nuo
ankstesnio laikotarpio reikšmės, o kitimo tempo procentas rodo, kokią ankstesnio (bazinio)
laikotarpio laiko eilutės reikšmės dalį sudaro vėlesnio (lyginamojo) laikotarpio laiko eilutės
reikšmė.
Šie santykiniai dydžiai gali būti apskaičiuojami baziniu ir grandininiu būdu:
arba
, (4.2)
arba
. (4.3)
Padidėjimo (pokyčio) tempų rodikliai skirti parodyti tiriamo reiškinio pakitimo greičiui.
Tai absoliutaus pokyčio ir baze pasirinktos laiko eilutės reikšmės santykis. Jis rodo, kiek
procentų (arba kartų) požymio reikšmė padidėjo ar sumažėjo vėlesniu laikotarpiu, palyginus su
baziniu. Pokyčio tempas skaičiuojamas:
arba
(4.4)
arba
(4.5)
Apibendrintai viso laikotarpio kitimui apibūdinti skaičiuojami apibendrinamieji
(vidutiniai) laiko eilučių kitimo rodikliai:
vidutinis lygis,
vidutinis absoliutus pokytis,
vidutinis kitimo tempas,
vidutinis pokyčio tempas.
Vidutinis lygis naudojamas reiškinio bendram lygiui apibūdinti per visą analizuojamą laiko
eilutės laikotarpį. Jo skaičiavimas priklauso nuo laiko eilutės tipo. Intervalinės laiko eilutės
vidutinis lygis apskaičiuojamas kaip paprastas aritmetinis vidurkis, momentinės laiko eilutės –
pagal chronologinio vidurkio formulę.
Vidutinis absoliutinis pokytis rodo, keliais vidutiniškai vienetais pasikeičia reiškinio
(požymio) reikšmė per laiko vienetą:
. (4.6)
Vidutinis didėjimo tempas ( ) bei vidutinis padidėjimo tempas ( ) atspindi bendrą
kitimo kryptingumą ir pokyčio intensyvumą. Rodiklio reikšmės virš vieneto (šimto proc.) rodo,
jog stebėtas rodiklio augimas, žemiau vieneto (šimto proc.) – jo mažėjimas. Jie apskaičiuojami
pagal formulę:
√
, √
. (4.7)
Tendencijos nustatymas. Socialiniai, ekonominiai ar kiti reiškiniai laikui bėgant kinta
netolygiai, todėl juos analizuojant svarbu nustatyti ne tik įvairius kitimo rodiklius, bet ir žinoti
bendrą reiškinio kitimo kryptį ir gauti jos modelį, kuris leistų įvertinti reiškinio reikšmę ateityje.
Reiškinio kitimo krypčiai bei tendencijai nustatyti praktikoje dažniausiai taikomi šie būdai:
slankiųjų vidurkių,
išlyginimas pagal absoliutinių pokyčių vidurkį,
išlyginimas pagal kitimo tempų vidurkį,
pagal trendą.
Slankiųjų vidurkių skaičavimo principai buvo aptarti 2 laboratoriniame darbe.
Išlyginimas pagal absoliutinių pokyčių vidurkį vykdomas pagal formulę:
. (4.8)
Išlyginimas pagal kitimo tempų vidurkį vykdomas pagal formulę:
. (4.9)
Aukščiau išvardinti būdai nustato tik bendrąją nagrinėjamo reiškinio kitimo kryptį, kuri iš
dalies dar priklauso ir nuo pasirinktos laiko eilučių vidurkių skaičiavimo metodikos. Analitinio
dinamikos eilutės išlyginimo būdo esmė ta, kad faktinės laiko eilutės reikšmės pakeičiamos
apskaičiuotais pagal lygtį tokios kreivės, kuri geriausiai atspindi tiriamo reiškinio vystymosi
tendenciją. Lygtis, išreiškianti reiškinio kitimą laike, vadinama trendu.
Pasirinkti tinkamą matematinę funkciją padeda grafinė laiko eilutės analizė, grandininių
absoliutinių pokyčių ir kitimo tempų apskaičiavimas. Praktikoje dažniausiai pasitaiko tokie
trendų tipai:
tiesinis trendas, kuris tinkamas, kai tiriamo reiškinio grandininiai absoliutiniai pokyčiai
per visą nagrinėjamą laikotarpį lieka beveik pastovūs:
, (4.10)
čia a, b – nežinomi parametrai, kurie paprastai įvertinami mažiausių kvadratų metodu.
hiperbolinis trendas, kuris tinkamas, kai grandininiai absoliutiniai pokyčiai yra
neigiami ir artėja prie nulio:
; (4.11)
antro laipsnio polinomas, naudojamas kai beveik pastovūs absoliutinių pokyčių
kvadratai arba pastovūs grandininiai pokyčio tempai:
, (4.12)
čia a, b, c – nežinomi parametrai.
rodiklinis trendas, naudojamas tada, kai beveik pastovūs grandininiai kitimo tempai:
; (4.13)
logaritminis trendas, naudojamas kai laiko eilutės rodiklių kitimo greitis mažėja:
. (4.14)
Labiausiai realiems duomenims tinkanti trendo funkcija, kaip ir išlyginimo pagal
absoliutinių pokyčių vidurkį ar išlyginimo pagal kitimo tempų vidurkį formulė, gali būti
naudojama prognozavimui. Patikimesnės yra trumpalaikės prognozės. Paprastai prognozuojamo
laikotarpio trukmė neturi viršyti 1/3 laiko eilutės ilgio.
Prognozuojamos reikšmės apskaičiuojamos pagal pasirinktą formulę vietoj t įstačius
prognozuojamo laikotarpio numerį. Pvz., jei turimi penkių metų, t.y. 2011-2015 m. eksporto
duomenys, tai eksportas 2016 m. prognozuojamas į pasirinktą formulę vietoj t įstačius 6.
Norint nustatyti, kaip apskaičiuotos pagal funkciją reikšmės atitinka realias reikšmes,
skaičiuojamos paklaidos. Bendram modelio tikslumui įvertinti gali būti skaičiuojamos:
absoliutinės paklaidos et:
, (4.15)
vidutinė aproksimacijos paklaida (MAPE):
∑ |
| . (4.16)
Laikoma, kad funkcija pakankamai tiksliai atspindi realių reikšmių kitimą, jei vidutinė
aproksimacijos paklaida neviršija 10%.
vidutinė absoliutinė paklaida (MAE):
∑ ; (4.17)
vidutinė kvadratinė paklaida (MSE):
∑
; (4.18)
vidutinis kvadratinės paklaidos nuokrypis (RMSE):
√ . (4.19)
Kuo šių rodiklių reikšmės didesnės, tuo blogesnė prognozavimo kokybė.
Modelio tikslumą taip pat parodo determinacijos koeficientas R2, kuris gali įgyti reikšmes
imtinai nuo 0 iki 1, ir parodo, kokia dalimi pagal trendo modelį apskaičiuotos reikšmės atitinka
realias laiko eilutės reikšmes. Modelis tuo tikslesni, kuo didesnė determinacijos koeficiento
reikšmė. Pvz. jei R2=0,8, tai reiškia, kad pagal trendo modelį apskaičiuotos reikšmės 80%
sutampa su realiomis laiko eilutės reikšmėmis, t.y. modelio tikslumas 80%.
4.2. Laboratorinio darbo užduotis ir eiga
Šiam laboratoriniam darbui bus naudojama 2.1 duomenų lentelė. Toliau išvardinti
skaičiavimai atliekami visam pasirinktam laikotarpiui (pvz. 2000-2015 m.) vienai pasirinktai (ne
suminei) eilutei (pvz., Vokietijai arba Belgijai):
15. Apskaičiuojami analitiniai rodikliai baziniu ir grandininiu būdu: absoliutiniai pokyčiai,
kitimo tempai ir pokyčio tempai. Suformuluojamos išvados.
16. Apskaičiuojami vidutiniai kitimo rodikliai: vidutinis absoliutinis pokytis, vidutinis
kitimo tempas ir vidutinis pokyčio tempas. Suformuluojamos išvados.
17. Apskaičiuoti slankiuosius vidurkius, kai glodinimo plotis yra 3. Atlikti prognozę
dviems periodams į priekį slankiųjų vidurkių metodu su prielaida, kad prognozei turi
įtakos trijų paskutinių laikotarpių rodiklio reikšmės.
18. Išlyginti laiko eilutę pagal absoliutinių pokyčių vidurkį ir šiuo būdu apskaičiuoti
prognozę dviems periodams į priekį.
19. Išlyginti laiko eilutę pagal vidutinį kitimo tempą ir šiuo būdu apskaičiuoti prognozę
dviems periodams į priekį.
20. Pavaizduoti slankiojo vidurkio, išlyginimo pagal absoliutinių pokyčių vidurkį ir
išlyginimo pagal vidutinį kitimo tempą būdais apskaičiuotas reikšmes grafiškai, jas
palyginant su realiomis reikšmėmis. Suformuluojamos išvados.
21. Išbandyti visas MS Excel leidžiamas trendo funkcijas ir išrinkti tiksliausią. Tam
nubraižomas linijinis grafikas ir lentelėje pateikiamos visų trendo funkcijų
determinacijos koeficientų reikšmės. Grafike atvaizduojamas tiksliausias modelis, jo
lygtis ir determinacijos koeficiento reikšmė. Suformuluojamos išvados. Pagal
tiksliausią modelį apskaičiuoti prognozę dviems periodams į priekį.
22. Palyginamas geriausio trendo modelio tikslumas su išlyginimo pagal vidutinį
absoliutinį pokytį modeliu bei išlyginimo pagal vidutinį kitimo tempą modeliu,
apskaičiuojant šių trijų modelių vidutines aproksimacijos paklaidas ir suformuluojamos
išvados įvardijant tiksliausią modelį.
Naudojamos MS Excel funkcijos:
ABS(...) – pateikiama absoliutinė skaičiaus (reiškinio) reikšmė, t.y. anuliuojamas ženklas
(minusas).
4.3. Laboratorinio darbo pavyzdys
Šiame laboratoriniame bus analizuojami tiesioginiai investuotojai metų pabaigoje
Vokietijoje 2005 – 2014 metų laikotarpiu, siekiant detaliau ištirti šio statisitnio rodiklio reikšmių
kitimą. Pirmiausiai apskaičiuojami analitiniai rodikliai baziniu ir grandininiu būdu: absoliutiniai
pokyčiai, kitimo tempai ir pokyčio tempai. Tam naudojamos 4.1 – 4.5 formulės, o gauti
rezultatai pateikti 4.1 lentelėje. Visi analitiniai rodikliai baziniu būdu apskaičiuoti pasirenkant
baze anksčiausius, t.y. 2005 m. Apskaičiuoti kitimo tempai išreikšti koeficientu, o pokyčio
tempas – procentais.
4.1 lentelė. Vokietijos tiesioginių investuotojų skaičiaus kitimo analitiniai rodikliai
Metai Vokietijos
tiesioginiai
investuotojai
Absoliutiniai
pokyčiai, apskaičiuoti
Kitimo tempai,
apskaičiuoti
Pokyčio tempas,
apskaičiuoti
baziniu
būdu
grandininiu
būdu
baziniu
būdu
grandininiu
būdu
baziniu
būdu
grandininiu
būdu
2005 467 - - - - - -
2006 440 -27 -27 0,94 0,94 -5,8% -5,8%
2007 425 -42 -15 0,91 0,97 -9,0% -3,4%
2008 443 -24 18 0,95 1,04 -5,1% 4,2%
2009 437 -30 -6 0,94 0,99 -6,4% -1,4%
2010 430 -37 -7 0,92 0,98 -7,9% -1,6%
2011 443 -24 13 0,95 1,03 -5,1% 3,0%
2012 428 -39 -15 0,92 0,97 -8,4% -3,4%
2013 440 -27 12 0,94 1,03 -5,8% 2,8%
2014 442 -25 2 0,95 1,00 -5,4% 0,5%
Neigiami absoliutiniai pokyčiai bei mažesni už 1 kitimo tempai, apskaičiuoti baziniu būdu,
rodo, kad visais 2006-2014 metais Vokietijos tiesioginių investuotojų mažėjo, lyginant su 2005
m. Kaip rodo pokyčio tempas, apskaičiuotas baziniu būdu, per dešimt metų Vokietijos
investuotojų skaičius sumažėjo 5,4%. Nepaisant to, investuotojų skaičiaus mažėjimas nebuvo
tolygus. Grandininiai absoliutiniai pokyčiai rodo, kad 2008 m., 2011 m., 2013 m. ir 2014 m.
Vokietijos tiesioginių investuotojų skaičius, lyginant su prieš tai buvusiais metais, augo
atitinkamai 18, 13, 12 ir 2 investuotojais. Tai atspindi atitinkamai 4,2%, 3,0%, 2,8% ir 0,5%
metinį augimą.
Vidutiniai kitimo rodikliai – vidutinis absoliutinis pokytis, vidutinis kitimo tempas ir
vidutinis pokyčio tempas – leidžia apibendrinti Vokietijos investuotojų skaičiaus kitimą per
analizuojamą laikotarpį. Vidutinis absoliutinis pokytis apskaičiuojamas pagal 4.6 formulę, o
vidutinis kitimo tempas ir vidutinis pokyčio tempas – pagal 4.7 formules:
,
√
,
.
Tai reiškia, kad Vokietijos investuotojų skaičius kasmet vidutiniškai mažėjo 3
investuotojais arba 1%.
Toliau bus siekiama nustatyti Vokietijos investuotojų skaičiaus kitimo tendenciją slankiųjų
vidurkių, išlyginimo pagal absoliutinių pokyčių vidurkį ir išlyginimo pagal vidutinį kitimo tempą
metodais. Slankiųjų vidurkių metodu, kai glodinimo plotis yra lygus 3, kaip ir likusiai dviem
minėtais būdais apskaičiuotos reikšmės, remiantis 2.7, 4.8 ir 4.9 formulėmis, pateikiamos 4.2
lentelėje. Pagal tas pačias formules atliekama ir tiesioginių investuotojų skaičiaus prognozė 2015
ir 2016 metams.
4.2 lentelė. Išlygintos pagal vidutinį absoliutinį pokytį, vidutinį kitimo tempą bei slankiojo
vidurkio metodu apskaičiuotos reikšmės
Metai t
Vokietijos
tiesioginių
investuotojų
skaičius Slankusis
vidurkis
Išlyginimas
pagal
absoliutinių
pokyčių
vidurkį
Išlyginimas
pagal vidutinį
kitimo tempą
2005 0 467 - 467 467
2006 1 440 444 464 464
2007 2 425 436 461 461
2008 3 443 435 459 459
2009 4 437 437 456 456
2010 5 430 437 453 453
2011 6 443 434 450 450
2012 7 428 437 448 447
2013 8 440 437 445 445
2014 9 442 - 442 442
2015 10 437 439 439
2016 11 440 436 437
Gautos reikšmės palygintos nubraižant linijines diagramas (4.1 pav.). Kaip matyti iš
rezultatų, reikšmės, išlyginus pagal vidutinį absoliutinį pokytį bei vidutinį kitimo tempą, iš esmės
sutampa. Vienetu skiriasi tik 2012 m. investuotojų skaičius. Atitinkamai labai panašios yra
gautos prognozės šiais metodais. Vis dėlto išlygintos reikšmės gerokai skiriasi nuo realių
reikšmių. Slankiuoju vidurkiu apskaičiuotos reikšmės yra daug artimesnės realioms reikšmėms,
dėl to, tikėtina, ir prognozė, gali būti patikimesnė. Slankiųjų vidurkių metodu prognozuojama,
kad 2015 m. bus 437, o 2016 m. – 440 Vokietijos tiesioginių investuotojų, t.y. šiek tiek mažiau
nei 2014 m.
4.1 pav. Išlygintų pagal vidutinį absoliutinį pokytį, vidutinį kitimo tempą bei slankiojo vidurkio
metodu apskaičiuotų reikšmių linijinės diagramos
Toliau bus siekiama surasti matematinę funkciją – trendo funkciją, kuri geriausiai aprašo
Vokietijos investuotojų skaičiaus kitimą analizuojamu laikotarpiu. Tam nubraižoma linijinė
diagrama ir naudojantis MS Excel parinktimi Add Trendline... išbandomos visos siūlomos
funkcijos (Pastaba: tam, kad grafike būtų pateikiama modelio išraiška ir determinacijos
koeficiento reikšmė atsidariusiame lange reikia varnele pažymėti parinktis Display Equation on
chart ir Display R-squared value on chart). Kiekvieno modelio determinacijos koeficiento (R2)
reikšmės pateiktos 4.3 lentelėje.
4.3 lentelė. Trendo modelių determinacijos koeficientų reikšmės
Trendo modelis Determinacijos koeficientas
Tiesinis modelis 0,1163
Eksponentinis modelis 0,1111
Logaritminis modelis 0,2978
Antro laipsnio polinomas 0,4575
Trečio laipsnio polinomas 0,5665
Rodiklinis modelis 0,2883
Iš rezultatų matyti, kad geriausiai realius duomenis aprašo trečio laipsnio polinomas, kurio
tikslumas siekia beveik 57%. Realių reikšmių ir pagal šį modelį apskaičiuotų reikšmių grafikai
pateikti 4.2 pav.
4.2 pav. Realių reikšmių ir pagal trečio laipsnio polinomą apskaičiuotų reikšmių grafikai
Pagal šį modelį prognozuojamos 2015 ir 2016 metų Vokietijos investuotojų skaičius bus
randamos į modelį vietoj x, kuris atitinka laiko momentą t įstačius prognozuojamo laikotarpio
numerį, t.y. 11 ir 12 (Pastaba: jei išlyginimo pagal vidutinį absoliutinį pokytį ar vidutinį kitimo
tempą pirmasis laikotarpis yra prilyginamas t=0, tai trendo modeliuose, jis yra t=1):
y2015 = -0,208∙113 + 4,3228∙11
2 - 26,939∙11 + 484,17 = 434
y2016 = -0,208∙123 + 4,3228∙12
2 - 26,939∙12 + 484,17 = 424
Akivaizdu, kad šiuo metodu prognozuojamas Vokietijos investuotojų skaičius yra
mažesnis nei ankstesniais metodais prognozuotas. Jei 2015 m. prognozė skiriasi dar nedaug (3
vienetais, lyginant su prognoze slankiojo vidurkio metodu), tai 2016 m. prognozė skiriasi jau
labiau (16 vienetų, lyginant su prognoze slankiojo vidurkio metodu).
Kadangi anksčiau aptartų modelių – slankiųjų vidurkių, išlyginio pagal vidutinį absoliutinį
pokytį ir išlyginimo pagal vidutinį kitimo tempą – determinacijos koeficientas nėra
skaičiuojamas, tai siekiant palyginti šių modelių tikslumą su trečio laipsnio polinomo
tikslumu,bus analizuojamos visų šių modelių paklaidos, apskaičiuojant vieną iš santykinių
rodiklių – vidutinę aproksimacijos paklaidą (MAPE) pagal 4.16 formulę. Gauti rezultatai pateikti
4.4 lentelėje.
4.4 lentelė. Vidutinės aproksimacijos paklaidos Metai Vokie-
tijos
tiesio-
ginių
inves-
tuoto-
jų skai-
čius
Prognozuojamas tiesioginių investuotojų skaičius
pagal atitinkamą metodą
Atitinkamo modelio santykinės paklaidos
|
|
Slanku-
sis
vidurkis
t
Išlygini-
mas
pagal
absoliu-
tinių
pokyčių
vidurkį
Išlygini-
mas
pagal
vidutinį
kitimo
tempą t
Trečio
laipsnio
polino-
mas
Slanku-
sis
vidurkis
Išlygini-
mas
pagal
absoliu-
tinių
pokyčių
vidurkį
Išlygini-
mas
pagal
vidutinį
kitimo
tempą
Trečio
laipsnio
polino-
mas
2005 467 0 467 467 1 461 0 0 0,0121
2006 440 444 1 464 464 2 446 0,0091 0,0551 0,0549 0,0135
2007 425 436 2 461 461 3 437 0,0259 0,0858 0,0855 0,0274
2008 443 435 3 459 459 4 432 0,0181 0,0354 0,0350 0,0242
2009 437 437 4 456 456 5 432 0,0008 0,0432 0,0428 0,0125
2010 430 437 5 453 453 6 433 0,0155 0,0537 0,0534 0,0075
2011 443 434 6 450 450 7 436 0,0211 0,0166 0,0162 0,0156
2012 428 437 7 448 447 8 439 0,0210 0,0457 0,0454 0,0253
2013 440 437 8 445 445 9 440 0,0076 0,0109 0,0107 0,0005
2014 442 9 442 442 10 439 0 1,3E-16 0,0067
MAPE 1,49% 3,46% 3,44% 1,45%
Nors visų keturių analizuojamų modelių vidutinės aproksimacijos paklaidos neviršija 10%
ir galima laikyti, kad visi jie pakankamai tiksliai atspindi realių reikšmių kitimą, vis dėlto
tiksliausias modelis yra trečio laipsnio polinomas. Jo vidutinė aproksimacijos paklaida lygi
1,45%. Nedaug skiriasi ir slankiojo vidurkio vidutinė aproksimacijos paklaida. Iš viso to
išplaukia, kad labiausiai tikėtina, jog 2015 ir 2016 metais Vokietijos investuotojų skaičius
sumažės atitinkamai iki 434 ir 424.
5 LABORATORINIS DARBAS. KORELIACINĖ IR REGRESINĖ ANALIZĖ
Penkto laboratorinio darbo tikslas – įvertinti ryšio tarp dviejų rodiklių stiprumą, rasti jį
geriausiai aprašančią funkciją bei suformuluoti atitinkamas išvadas.
5.1. Teorinės žinios
Visi socialiniai-ekonominiai reiškiniai tarpusavyje yra glaudžiai susiję, todėl norint pažinti
juos ir nustatyti jų vystymosi dėsningumus, jie nagrinėjami ne atskirai, o kartu. Pvz., nustatant
žemės ūkio kultūrų derlingumą, reikia atsižvelgti į žemės kokybės, naudotų trąšų, sėjos laiko ir
kitus veiksnius. Todėl vienas svarbiausių statistikos uždavinių yra analizuoti ir kiekybiškai
įvertinti egzistuojančius ryšius tarp reiškinių ir nustatyti jų sąveikos laipsnį (stiprumą).
Reiškinių tarpusavio ryšiams nustatyti statistikoje naudojama keletas metodų, iš kurių
pagrindiniai:
grafinis metodas;
koreliacijos koeficientas.
Nustatant reiškinių tarpusavio ryšius grafiniu būdu, braižoma sklaidos diagrama,
koordinačių sistemos horizontalioje ašyje atidedant faktorinio požymio (žymimo x) reikšmes, o
vertikalioje ašyje – rezultatinio požymio (žymimo y) reikšmes (1 pav.). Kai dauguma taškų
išsidėsto siaura linija iš apačios į dešinės pusės viršų, ryšiai yra tiesioginiai ir gana stiprūs.
Daugumai taškų išsidėsčius tiese iš viršaus į apačią (dešinėje), ryšiai yra atvirkštiniai. Kai
dauguma taškų išsidėsto visoje koordinačių sistemoje, tai ryšių visai nėra, arba jie labai silpni.
5.1 pav. Sklaidos diagramos pavyzdys
Šis metodas leidžia nustatyti, ar yra ryšys tarp reiškinių, bei koks jis – tiesinis ar
atvirkštinis, bet negalima nustatyti ryšio stiprumo bei matematinės išraiškos. Tuo tarpu
koreliacijos koeficientas nusako tiek ryšio tipą, tiek jo stiprumą. Paprastai skaičiuojamas Pirsono
koreliacijos koeficientas, kuris įvertina tiesinio ryšio stiprumą:
∑
. (5.1)
Koreliacijos koeficientas kinta nuo –1 iki +1. Jei koreliacijos koeficientas teigiamas, tai
ryšiai tarp nagrinėjamų reiškinių yra tiesioginiai, o jeigu neigiamas – atvirkštiniai. Kuo
koreliacijos koeficientas artimesnis |±1|, tuo ryšiai yra stipresni, ir kuo labiau koreliacijos
koeficientas artėja prie 0, tuo ryšiai silpnesni.
Koreliacijos koeficientas įvertina tik tiesinio ryšio stiprumą, t.y. jei koreliacijos
koeficientas yra artimas |1|, vadinasi tarp analizuojamų požymių yra tiesinis ryšys, o jei
koreliacijos koeficientas yra artimas |0|, vadinasi tarp analizuojamų požymių tiesinio ryšio nėra,
bet gali egzistuoti netiesinis ryšys.
Jei tarp analizuojamų požymių nustatomas koreliacinis ryšys, naudinga priklausomybę
išreiškti analitiškai, pasirenkant reiškinio esmę atitinkantį matematinės funkcijos tipą –
regresijos modelį:
tiesinį modelį, kuris taikomas, kai faktoriniam požymiui kintant vienodais intervalais,
rezultatinis požymis irgi kinta proporcingai:
, (5.2)
hiperbolinį modelį, kuris tinkamas, kai tarp požymių yra atvirkštinė priklausomybė:
; (5.3)
antro laipsnio polinomą, naudojamas kai, tolygiai didėjant faktorinio požymio
reikšmėms, rezultatinio požymio reikšmės didėja arba mažėja sparčiau:
, (5.4)
rodiklinį modelį, naudojamas kai, tolygiai didėjant faktorinio požymio reikšmėms,
rezultatinio požymio reikšmės didėja arba mažėja dar sparčiau:
; (5.5)
čia a, b, c – nežinomi parametrai, kurie dažniausiai vertinami mažiausių kvadratų metodu.
Kaip ir trendo modelio atveju, taip ir regresijos modelio tikslumą įvertina determinacijos
koeficientas bei paklaidos (MAPE, RMSE ir kt.). Regresijos modelis tuo tikslesnis, kuo
paklaidos mažesnės, o determinacijos koeficientas artimesnis 1.
Lygiai taip pat regresijos modelis gali būti naudojamas reiškinio reikšmių prognozavimui,
vietoj x įstačius konkrečią jo skaitinę reikšmę. Taip randama prognozuojama y reikšmė prie
duotosios faktorinio požymio reikšmės.
5.2. Laboratorinio darbo užduotis ir eiga
Šiam laboratoriniam darbui bus naudojama 2.1 duomenų lentelė, pasirenkant dvi jos
eilutes. Rekomenduojama rezultatiniu požymiu imti suminę eilutę (pvz., iš viso pagal valstybes),
o faktoriniu – vieną iš likusiųjų dviejų, kuris buvo analizuotas 4 laboratoriniame darbe (pvz.,
Vokietija). Toliau atliekami šie skaičiavimai:
23. Nubraižoma sklaidos diagrama ir apskaičiuojamas koreliacijos koeficientas bei
suformuluojamos išvados.
24. Išbandyti visus MS Excel leidžiamus regresijos modelio tipus ir išrinkti tiksliausią.
Tam lentelėje pateikiamos visų modelių determinacijos koeficientų reikšmės.
Suformuluojamos išvados.
25. Pagal geriausią regresijos modelį prognozuoti rezultatinio požymio reikšmes,
pasirenkant 4 laboratoriniame darbe prognozuotas faktorinio požymio reikšmes pagal
nustatytą geriausią trendo modelį.
Naudojamos MS Excel funkcijos:
CORREL(...) – apskaičiuojamas Pirsono koreliacijos koeficientas.
5.3. Laboratorinio darbo pavyzdys
Šiame laboratoriniame darbe bus tiriama, ar yra ryšys tarp Vokietijos investuotojų
skaičiaus ir bendro visų šalių investuotojų skaičiaus, t.y. Vokietijos investuotojų skaičius bus
faktorinis dydis, o bendras visų šalių investuotojų skaičius – rezultatinis.
Ryšys tarp dviejų rodiklių preliminariai gali būti įvertintas nubraižant sklaidos diagramą. Ji
pateikta 5.2 pav. Iš taškų išsidėstymo galima spręsti, jog vyrauja silpna neigiama priklausomybė
tarp bendro visų šalių investuotojų skaičiaus ir Vokietijos investuotojų skaičiaus, t.y. taškus
galima aproksimuoti kreive, artima tiesei, kuri eis iš kairės į dešinę su nedideliu nuolydžiu
žemyn.
5.2 pav. Bendro visų šalių investuotojų skaičiaus ir Vokietijos investuotojų skaičiaus sklaidos
diagrama
Tiksliau ryšio stiprumą nusako koreliacijos koeficientas. Jis apskaičiuojamas panaudojant
MS Excel funkciją correl(...). Gauta skaitinė reikšmė lygi -0,29 ir patvirtina anksčiau
suformuluotas išvadas, t.y. neigiama koreliacijos koeficiento reikšmė rodo atvirkštinę
priklausomybę tarp bendro visų šalių investuotojų skaičiaus ir Vokietijos investuotojų skaičiaus
(Vokietijos investuotojų skaičiui mažėjant bendras visų šalių investuotojų skaičius auga), o
sąlyginai artima 0 koeficiento reikšmė rodo silpną tiesinę priklausomybę tarp analizuojamų
rodiklių.
Toliau bus siekiama surasti funkciją – regresijos modelį, kuris geriausiai aprašo ryšį tarp
bendro visų šalių investuotojų skaičiaus ir Vokietijos investuotojų skaičiaus. Tam vėl naudojama
MS Excel parinktis Add Trendline... Visų siūlomų modelių determinacijos koeficientų reikšmės
pateiktos 5.1 lentelėje.
5.1 lentelė. Regresijos modelių determinacijos koeficientų reikšmės
Trendo modelis Determinacijos koeficientas
Tiesinis modelis 0,0862
Eksponentinis modelis 0,1003
Logaritminis modelis 0,0811
Antro laipsnio polinomas 0,3404
Trečio laipsnio polinomas 0,3453
Rodiklinis modelis 0,0949
Iš rezultatų matyti, kad nei vienas modelis nėra tikslus. Geriausiai realius duomenis aprašo
trečio laipsnio polinomas, kurio tikslumas siekia tik 34,5%. Realių reikšmių ir pagal šį modelį
apskaičiuotų reikšmių grafikai pateikti 5.3 pav.
5.3 pav. Realių reikšmių ir pagal trečio laipsnio polinomą apskaičiuotų reikšmių grafikai
Remiantis šiuo modeliu galima prognozuoti bendrą investuotojų skaičių 2015 ir 2016
metams. Tam reikalingas tų metų Vokietijos investuotojų skaičius, kuris buvo prognozuotas 4
laboratoriniame darbe. Taigi, jei Vokietijos investuotojų skaičius 2015 m. bus 434, o 2016 m. jis
nukris iki 424, tai atitinkamai bendras investuotojų skaičius, prognozuojamas pagal trečio
laipsnio polinomą, bus:
y2015 = 0,032119∙4343 – 43,951372∙434
2 + 20014,296776∙434 – 3029488 = 3856,
y2016 = 0,032119∙4243 – 43,951372∙424
2 + 20014,296776∙424 – 3029488 = 3469.
Taigi, trečio laipsnio polinomu prognozuojama, kad bendras investuotojų skaičius 2015 ir
2016 metais taip pat sumažės atitinkamai iki 3856 ir 3469.
NAUDOTA LITERATŪRA
Bartosevičienė V. Ekonominės statistikos pagrindai. Mokomoji knyga. Kaunas:
Technologija, 2010
Mark L. Berenson, David M. Levine. Statistics for business & economics.