Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
1
PROJEKTAS,,EMPIRINIŲ DUOMENŲ IR INFORMACIJOS HSM TYRIMAMS
KAUPIMAS IR VALDYMAS: LIETUVOS HSM DUOMENŲ ARCHYVAS (LIDA)”
Mokymo kursas,,Statistinė analizė humanitarinių ir socialinių
mokslų tyrimuose”
1. STATISTINIAI METODAI IR PROGRAMINĖS PRIEMONĖS HSM TYRIMUOSE
Vytautas JANILIONIS
2008
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
2
Mokymo kurso turinys:
1. Statistiniai metodai ir programinės priemonės HSM tyrimuose (teorinė paskaita, 3 ak. val.).
2. Požymių priklausomumo tyrimas (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak. val.).
3. Dispersinė analizė (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak. val.).
4. Regresinė analizė (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak.val.)
5. Faktorinė analizė (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak. val.).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
3
STATISTIKOS STATISTIKOS METODAIMETODAI
HSM duomenysHSM duomenys
DUOMENDUOMENŲŲANALIZANALIZĖĖS S
PROGRAMINPROGRAMINĖĖĮĮRANGARANGA
STATISTINĖ DUOMENŲ ANALIZĖ
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
4
STATISTIKOS METODAI
TIKIMYBIŲ TEORIJASKAITINĖS CHARAKTERISTIKOS
TAŠKINIAI IR INTERVALINIAI ĮVERČIAIHIPOTEZIŲ TIKRINIMAS
LAIKOEILUČIŲANALIZĖ
POŽYMIŲPRIKLAUSOMUMO
TYRIMAS
KOKYBĖS,KONTROLĖSUŽDAVINIAI
FAKTORINĖANALIZĖ
DISPERSINĖANALIZĖ
GRAFINĖANALIZĖ
KLASTERINĖANALIZĖ
DISKRIMINANTINĖANALIZĖ
REGRESINĖANALIZĖ
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
5
IMTIES IMTIES ĖĖMIMO METODAIMIMO METODAI
Tikimybinės imtys:ATSITIKTINATSITIKTINĖĖ IMTISIMTISSLUOKSNINSLUOKSNINĖĖ IMTISIMTISLIZDINLIZDINĖĖ IMTISIMTIS
Netikimybinės imtys:PROGINPROGINĖĖ IMTISIMTISKVOTINKVOTINĖĖ IMTISIMTIS
POPULIACIJA
nN
IMTIS
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
6
PaklaidosImties paklaida – tai parametro ir statistikos (parametro įverčio) skirtumas.
Imties paklaidą sudaro atsitiktinė paklaida ir sistemingoji paklaida:
Atsitiktinė paklaida atsiranda todėl, kad statistika negali suteikti visiškai tikslios informacijos apie visą populiaciją – pagal apibrėžimą ji remiasi tik daline informacija (imtimi). Atsitiktinėpaklaida priklauso nuo imties dydžio.
Sistemingąją paklaidą dažniausiai lemia imties iškreiptis, atsirandanti dėl prasto jos sudarymo.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
7
amžiuspajamospelno dydisūgistemperatūra
TOLYDUSIS
šeimos dydisdarbuotojų sk.vaikų sk.avarijų sk./sav.kambarių sk.
DISKRETUSIS
KIEKYBINIS
lytistautybėtikėjimasišsimokslinimasšeimyninė padėtisįmonės tipastechnologija
KOKYBINIS
KINTAMASIS(požymis, faktorius, rodiklis, indeksas...)
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
8
LYTIS•vyras•moteris
IŠSIMOKSLINIMAS•nebaigtas vidurinis•vidurinis•nebaigtas aukštasis•aukštasis
TEMPERATŪRA SVORISsvaras= 0,45459 kg
KINTAMASIS(požymis, faktorius, parametras, rodiklis, indeksas...)
261
122
2
1
1,31,16
50
2
1
3259
=°°
=
=°
°=
+=
FF
t
t
CC
t
t
CtFt
a- klasifikavimasb- tvarka (prioritetai)
c- kiekybinis skirtumasd- santykio operacijos
aa aa bb aa bb cc aa bb ddccINTERVALŲINTERVALŲ SANTYKIŲSANTYKIŲVARDŲVARDŲ TVARKOSTVARKOS
Žymėjimai:
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
9
Matavimo skalės (SPSS)
Vardų - Nominal
Tvarkos - Ordinal
Intervalų - Scale
Santykių - Scale
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
10
Pagal kokią skalę matuojami kintamieji?
Ar „Omnitel” sugeba gerai teikti paslaugas?
1 2 3 4 5 6 7
Visiškai nesutinku Visiškai sutinku
Kaip Jūs vertinate prekės kokybę?
1- bloga 2 - vidutinė 3 - gera 4 - puiki
Ar Jūs asmeniškai naudojatės „Tako“ paslauga?
1 Taip 2 Ne
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
11
DUOMENŲ MATRICA
Respondento atsakymai įvisus anketos klausimus
Visų respondentų atsakymai įanketos klausimą apie amžių
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
12
STATISTINĖS ANALIZĖSSISTEMA (pvz. SPSS)
0102030405060708090
1st Qtr 2nd Qtr 3rd Qtr 4th Qtr
EastWestNorth
x x x
x x x
x x x
k
k
n n nk
11 12 1
21 22 2
1 2
. . .
. . ....
...
. . .
... ...
. . .
. . .
X1 X2 Xk
ID1
ID2
IDn
DDUUOMENOMENŲŲFAILAIFAILAI
IIŠŠVADOS,VADOS,ATASKAITOSATASKAITOS
DIAGRAMOSDIAGRAMOSVARTOTOJASVARTOTOJAS
DUOMENDUOMENŲŲMATRICAMATRICA
LENTELLENTELĖĖSS
POPULIACIJAPOPULIACIJA
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
13
Fortran
PL/1
Pascal
C
Universaliosprogramavimo
kalbos
APL
Analytic
Matematikaiorientuotos
programavimo kalbos
MathCad
Mathematica
MatLab
Maple V
Universaliosmatematikos
sistemos
SAS
SPSS
Statgraphics
Statistica
Statistika
SIMULA
SPSS
GASP
SOL
Modeliavimas
Atskirų matematikoskrypčių
programinė įranga
MATEMATIKOS PROGRAMINĖĮRANGA
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
14
SAS sistema , tai JAV SAS Institute Inc. programinė įranga pirmaujanti pasaulyje informacijos pristatymo (information delivery ) srityje.
Jos pagrindinė paskirtis - gauti informaciją iš duomenų trumpiausiu ir efektyviausiu keliu. Sistema apjungia visus informacijos gavimo išduomenų žingsnius:
• duomenų tvarkymas,• duomenų analizė,• ataskaitų rengimas ir rezultatų grafinis vaizdavimas,• informacijos sklaida,• taikomųjų programų kūrimas.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
15
STATA
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
16
http://www.spss.comhttp://www.spss.com
( Statistical Package for Social Sciences)( Statistical Package for Social Sciences)[ [ for Windows 3.X/95/98/for Windows 3.X/95/98/2000/2000/NT/XPNT/XP//]]
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
17
Sistema apjungia visus informacijos gavimo iš duomenų žingsnius:
Duomenų tvarkymas (duomenų įvedimas, redagavimas, saugojimas, rūšiavimas, dokumentavimas, sąveika su įvairiomis duomenų bazėmis, duomenų rinkinių sujungimas, duomenų poaibių išskyrimas ir t.t.).
Duomenų analizė (statistikos ir matematikos metodų taikymas duomenųanalizei). Galima spręsti koreliacinės, dispersinės, regresinės ir laiko eilučiųanalizės, optimizavimo, kokybės kontrolės ir t.t. uždavinius. Pagrindinis šiųuždavinių sprendimo tikslas: atlikti duomenų analizę, kuri padėtų priimti sprendimus.
Ataskaitų rengimas ir rezultatų grafinis vaizdavimas (duomenų analizės rezultatų standartinių ir vartotojo ataskaitų, dvimačių ir trimačių grafikų, diagramų, žemėlapių, spalvotų skaidrių rengimas).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
18
(…, SPSS/PC+4.0 (DOS), … , SPSS for Windows v.16)
SPSS MODULIAISPSS MODULIAISPSS BaseSSPSS Advanced Models
SPSS TablesSPSS TrendsSPSS CategoriesSPSS Exact TestsSigmaPlotSPSS Maps
SPSS Missing Value AnalysisSPSS Regression ModelsSPSS Data EntrySPSS ConjointSPSS WebApp FrameworkSPSS Report Writer
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
19
SPSS Base statistikos metodai:
1. Skaitinės duomenų charakteristikos.2. Dažnių lentelės.3. Grafinė analizė.4. Požymių priklausomumo lentelės.5. Parametrinių hipotezių tikrinimas.6. Vienfaktorinė dispersinė analizė.7. Koreliacinė analizė.8. Neparametrinių hipotezių tikrinimas.9. Klasterinė analizė.10.Diskriminantinė analizė.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
20
SPSS SPSS dokumentaidokumentai
duomenys programos rezultatai
LENTELLENTELĖĖSS
0102030405060708090
1st Qtr 2nd Qtr 3rd Qtr 4th Qtr
EastWestNorth
grafinis formatastekstinis formatas
GRAFIKAI IR DIAGRAMOSGRAFIKAI IR DIAGRAMOS
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
21
SPSS vartotojo instrumentai:
• meniu sistema;• duomenų analizės uždavinių programavimo kalba;• duomenų matricos redaktorius;• SPSS programų redaktorius;• statistinės analizės rezultatų redaktorius;• grafikų ir diagramų redaktorius;• statistinės analizės konsultantai:
Help Statistics Coach;Help Results Coach;
• SPSS mokomoji programa (Tutorial).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
22
VARDAS(Name)
skaitinis (3;24.3;-2E4)datos (97.10.28)valiutos ($102.33)simbolinis ('moteris'; vyras)
TIPAS(Type)
diskrečių reikšmiųsąrašas
intervalas
TRŪKSTAMOSREIKŠMĖS
(Missing Values)
KintamojoŽYMĖ
REIKŠMIŲŽYMĖS
ŽYMĖS(Labels)
KINTAMASIS(VARIABLE)
Pvz.
LYTIS,
MOKSLAS,
AMZIUSPvz. Kintamasis MOKSLAS.
Kintamojo žymė: “Jūsų išsimokslinimas”
Reikšmių žymės:
0=“Nebaigtas vidurinis”
1=“Vidurinis”
2=“Nebaigtas aukštasis”
3=“Aukštasis”
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
23
Kintamojo žymė ir reikšmių žymės
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
24
Kintamųjų parametrai(SPSS 10-16 versijos)
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
25
1,64)3(~
3;90,0 =tTt
TOLYDIEJI SKIRSTINIAISTJUDENTO SKIRSTINYS
Plotas=0,9
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
26
36,0
);(~
20;10;05,0
21
=F
FF νν
TOLYDIEJI SKIRSTINIAIFIŠERIO SKIRSTINYS
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
27
APAPRARAŠŠOMOJI STATISTIKAOMOJI STATISTIKAAprašomoji statistika tai duomenų sisteminimo ir grafinio vaizdavimo būdai.
Pagrindinis aprašomosios statistikos tikslas - glaustas ir vaizdus surinktų duomenų apibūdinimas
Duomenims sisteminti naudojami:
dažniai,santykiniai dažniai,procentai, vidurkis, mediana, standartinis nuokrypis,....................................
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
28
GRAFINIS DUOMENGRAFINIS DUOMENŲŲ VAIZDAVIMASVAIZDAVIMAS
Grafiškai apibūdinti duomenis galima:stulpelinėmis diagramomis, skritulinėmis diagramomis, žiedinėmis diagramomis,histogramomis
...........................................
Yra daugybė grafinio vaizdavimo būdų. Kuris diagramos tipas yra tinkamiausias konkrečioje situacijoje, priklauso nuo daugybės faktorių. Duomenų grafiniame vaizdavime nepaprastai daug vietos kūrybai.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
29
EMPIRINIS SKIRSTINYSEMPIRINIS SKIRSTINYS
Empirinis skirstinys – tai atsitiktinio dydžio galimos reikšmės ir jų įgijimo dažniai.
Empirinis skirstinys gali būti pateiktas:
stulpeline diagrama,
histograma,
dažnių lentele,
..............................
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
30
DADAŽŽNIAINIAI
Įvertinkite teikiamos PASLAUGOS KOKYBĘ :1-bloga, 2-patenkinama, 3-gera, 4-labai gera.
Pavyzdžiu, jei duota imtis x=(1, 3, 2, 2, 4, 1, 2, 1, 3, 2), n=10.
tai jos variacinė seka bus 1, 1, 1, 2, 2, 2, 2, 3, 3, 4.
Užrašysime dažnių ir santykinių dažnių skirstinius.
xi 1 2 3 4 mi 3 4 2 1
xi 1 2 3 4 Wi 0,3 0,4 0,2 0,1
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
31
DADAŽŽNIAINIAI
Įvertinkite teikiamosPASLAUGOS KOKYBĘ :1-bloga,2-patenkinama,3-gera, 4-labai gera.
X Įvertinkite teikiamos paslaugos kokybę
3 30,0 30,0 30,04 40,0 40,0 70,02 20,0 20,0 90,01 10,0 10,0 100,0
10 100,0 100,0
blogapatenkinamageralabai geraTotal
Valid
DažnisFrequency
% (nuo bendroapklaustųjųskaičiaus)Percent
% (nuoatsakiusiųjų į
klausimą) Valid Percent
Sukauptasisprocentas
CumulativePercent
Įvertinkite teikiamos paslaugos kokybę
labai geragerapatenkinamabloganeatsakė
Pro
cent
as
40
30
20
10
0
1010
3030
20
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
32
DADAŽŽNIAINIAI
Įvertinkite teikiamos PASLAUGOS KOKYBĘ :1-bloga, 2-patenkinama, 3-gera, 4-labai gera.
Tarkime 2 respondentai neatsakė į klausimą
Pavyzdžiu, duota imtis y=(1, 3, 2, 2, 4, 1, 9, 1, 9, 2), n=10.Y Įvertinkite teikiamos paslaugos kokybę
3 30,0 37,5 37,53 30,0 37,5 75,01 10,0 12,5 87,51 10,0 12,5 100,08 80,0 100,02 20,0
10 100,0
blogapatenkinamageralabai geraTotal
Valid
neatsakėMissingTotal
Frequency PercentValid
PercentCumulative
Percent
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
33
HISTOGRAMAHISTOGRAMA
Išlaidos telekomunikacijų paslaugoms kovo mėn.
220 - 240
200 - 220
180 - 200
160 - 180
140 - 160
120 - 140
100 - 120
80 - 100
60 - 80
40 - 60
20 - 40
San
tyki
nio
dažn
io ta
nkis
,0149
,0099
,0050
0,0000 16
41
68
157
207217
170
116
55
x (a0;a1] (a1;a2] ... (ar-1;ar]Wi W1 W2 ... Wr
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
34
SSTATAČČIAKAMPIAKAMPĖĖ DIAGRAMADIAGRAMA(Box and Whisker plot, Jhon Tukey, 1977 m.)
max ilgis 1,5 KP≤ ...Išskirtys
KP-kvartilinisplotis
xmin x0.25 xme x0.75 xmax X
50% imties reikšmių 50% imties reikšmių
50% imties reikšmių
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
35
KLAUSIMAS: Kiek per kovo mėnesį išleidote pinigųtelekomunikacijų paslaugoms?
SSTATAČČIAKAMPIAKAMPĖĖ DIAGRAMADIAGRAMA
1056N =
Kovas
Išla
idos
kov
o mėn
esį (
Lt)
250
200
150
100
50
0
4173522991533625329Statistics
Kovas1056
498,3097,00
21234
72,0097,00
124,00
ValidMissing
N
MeanMedianMinimumMaximum
255075
Percentiles
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
36
SPSSSPSS ApraApraššomoji statistikaomoji statistika
SPSS meniu:
Analyze Descriptive StatisticsFrequencies...Descriptives...Explore ...
GraphsBar ...Pie ...Histogram ...Boxplot...
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
37
Išvados apie populiaciją
PopuliacijaPopuliacija
ImtisImtis
SStatistitatistikaka__XX
ĮĮververččiai iriai irhipotezhipotezėėss
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
38
Parametrų įverčiai
Nežinomas populiacijos vidurkis µ.
PopuliacijaPopuliacija AtsitiktinAtsitiktinėė imtisimtis Su 95% garantija galime teigti, kad
vidurkis µ yra tarp
40 ir 60.Vidurkis⎯X = 50
☺
☺
☺☺
☺
☺☺☺☺
☺☺
☺☺ ☺☺
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
39
STATISTIKA Dažnai mus domina ne visas stebimojo kintamojo skirstinys, o tik tam tikra jo charakteristika. Statistinėms išvadoms naudojama kokia nors atsitiktinės imties funkcija
( )nXXXf ,,, 21 … , kuri vadinama statistika.
Pavyzdžiui, ∑=
=n
iiX
nX
1
1
Terminas statistika – tradicinis !!! Statistika – mokslas. Statistika – atsitiktinės imties funkcija.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
40
Populiacija
SkaitinSkaitinėės charakteristikoss charakteristikosKlaidKlaidųų skaiskaiččiaus skirstinysiaus skirstinys
0,00,10,20,3
1 2 3 4
( )12.1
5.2
1
2
1
=−
=
==
∑
∑
=
=
N
X
N
X
N
ii
N
ii
µσ
µ
( )12.1
5.2
1
2
1
=−
=
==
∑
∑
=
=
N
X
N
X
N
ii
N
ii
µσ
µ
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
41
Visos galimos imtys, kai n=2
1 2 stebėjimas st. 1 2 3 4 1 1.0 1.5 2.0 2.5
2 1.5 2.0 2.5 3.0
3 2.0 2.5 3.0 3.5
4 2.5 3.0 3.5 4.0
1 2 stebėjimas st. 1 2 3 4 1 1.0 1.5 2.0 2.5
2 1.5 2.0 2.5 3.0
3 2.0 2.5 3.0 3.5
4 2.5 3.0 3.5 4.0
16 16 imimččiiųų vidurkiaividurkiai1 2 stebėjimas st. 1 2 3 4 1 1,1 1,2 1,3 1,4
2 2,1 2,2 2,3 2,4
3 3,1 3,2 3,3 3,4
4 4,1 4,2 4,3 4,4
1 2 stebėjimas st. 1 2 3 4 1 1,1 1,2 1,3 1,4
2 2,1 2,2 2,3 2,4
3 3,1 3,2 3,3 3,4
4 4,1 4,2 4,3 4,4
16 16 imimččiiųų
Paprastoji atsitiktinPaprastoji atsitiktinėė grgrąžąžintinintinėė imtisimtis
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
42
EmpirinioEmpirinio vidurkiovidurkio ((statistikosstatistikos) ) skirstinysskirstinys
,0,1,2,3
1,0 1,5 2,0 2,5 3,0 3,5 4,0⎯X
P(⎯X)
16 16 imimččiiųų vidurkiaividurkiai Statistikos skirstinysStatistikos skirstinys((Sampling DistributionSampling Distribution))
1 2 stebėjimas st. 1 2 3 4 1 1.0 1.5 2.0 2.5
2 1.5 2.0 2.5 3.0
3 2.0 2.5 3.0 3.5
4 2.5 3.0 3.5 4.0
1 2 stebėjimas st. 1 2 3 4 1 1.0 1.5 2.0 2.5
2 1.5 2.0 2.5 3.0
3 2.0 2.5 3.0 3.5
4 2.5 3.0 3.5 4.0
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
43
Empirinio vidurkio (statistikos) skirstinio vidurkis ir standartinis nuokrypis
5.216
0.45.10.11 =+++
==∑
=
N
XN
ii
xµ 5.216
0.45.10.11 =+++
==∑
=
N
XN
ii
xµ
( )
( ) ( ) ( ) 79.016
5.20.45.25.15.20.1 222
1
2
=−++−+−
=
−=
∑=
N
XN
ixi
x
µσ
( )
( ) ( ) ( ) 79.016
5.20.45.25.15.20.1 222
1
2
=−++−+−
=
−=
∑=
N
XN
ixi
x
µσ
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
44
Empirinio vidurkio Empirinio vidurkio (statistikos) skirstinys(statistikos) skirstinysPopulPopuliiaacijacija
,0,1,2,3
1 2 3 4
P(X)
,0,1,2,3
1 1,5 2 2,5 3 3,5 4⎯X
P(⎯X)
µ = 2 5.µ = 2 5. µ x = 2 5.µ x = 2 5.
σ x = 0 79.σ x = 0 79.σ = 112.σ = 112.Svarbu skirti šiuos du skirstinius !!!
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
45
Parametro taškinis įvertis yra atsitiktinis dydis.Koks šio įverčio tikslumas ir patikimumas?
P j j j j j( )Θ Θ Θ− < < + = −ε ε α1
taškinis įvertis
nežinomas parametras
tikslumas patikimumas
INTERVALINIAI ĮVERČIAI
Θ j Θ j
pasikliautinasis intervalas pasikliovimolygmuo
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
46
Apklausus 400 atsitiktinai atrinktų respondentų, 32 respondentai atsakė, kad jie nepatenkinti paslaugos kokybe. Kokia dalis populiacijos nepatenkinta paslaugos kokybe? (išvadą pateikite su 95 % garantija) 08,0
40032ˆ ==p
107.0053.0
400)08.01(08.096.108.0
400)08.01(08.096.108.0
)ˆ1(ˆˆ)ˆ1(ˆˆ 2/2/1
≤≤
−⋅⋅+≤≤
−⋅⋅−
−⋅⋅−≤≤
−⋅⋅− −
p
p
nppZpp
nppZp αα
107.0053.0
400)08.01(08.096.108.0
400)08.01(08.096.108.0
)ˆ1(ˆˆ)ˆ1(ˆˆ 2/2/1
≤≤
−⋅⋅+≤≤
−⋅⋅−
−⋅⋅−≤≤
−⋅⋅− −
p
p
nppZpp
nppZp αα
)107,0;053,0()(95,0 =pPI96,1
025,02/
025,0 −==
Zα
96,1975,02/1
975,0 ==−
Zα
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
47
PASIKLIAUTINOJO INTERVALO RADIMO BENDRASIS ALGORITMAS
1. Maksimalaus tikėtinumo, momentų ar kitu metodu randamasstebimo atsitiktinio dydžio X skirstinio nežinomo parametro Θtaškinis įvertis Θ .
2. Parenkama statistika ( )U Θ , priklausanti nuo parametro Θ irpasiskirsčiusi pagal žinomą pasiskirstymo dėsnį.
Statistika ( )U Θ parenkama priklausomai nuo :a) X tikimybių skirstinio tipo;b) nežinomų parametrų skaičiaus;c) imties didumo;
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
48
Pavyzdžiui, kai X skirstinys yra normalusis ( )X N~ ,µ σ ,parametro µ pasikliautinojo intervalo radimui naudojamosšios statistikos:
a) kai σ žinomas
( )ZX
n Z N=− µσ
, ~ , 0 1 ;b) kai σ nežinomas
( )tX
sn St n=
−−
µ, ~ t 1 .
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
49
3. Parenkamas pasikliovimo lygmuo
{ }99.0 ;95.0 ;9.01 ∈−α
4. Randami kvantiliai uα2 ir u1 2−α tenkinantys lygtį
( )( )P u U uα α α2 21 1< < = −−Θ (*)
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
50
1. Lygtis (*) pertvarkoma į jai ekvivalenčią lygtį
( )P Θ Θ Θ− < < + = −ε ε α1Parametro
taškinis įvertis
Tikslumas Nežinomasparametras
Patikimumas
Pasikliautinasis intervalas
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
51
PASIKLIAUTINOJO INTERVALO RADIM O PAVYZDYS
Duota atsitiktinė im tis ( )nxxxx …;; 21= . Žinoma, kad stebimo atsitiktinio
dydžio X skirstinys yra normalusis ( )σµ ,~ NX . Abu parametrai µ ir σnežinomi.
Rasti nežinomo parametro µ pasikliautinąjį intervalą. Sprendimas
1. Geriausias parametro µ taškinis įvertis yra empirinis vidurkis X (rastas taikant momentų ir maksimalaus tikėtinumo metodus)
∑=
==n
iiX
nX
1
1µ
2. Pasikliautinojo intervalo sudarymui pasirenkam e statistiką
( )1~, −−
= nSttnS
Xt µ
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
52
3. Pasirenkame pasikliovimo lygmenį 1 − α .
4. Randame Stjudento skirstinio kvantilius t nα2 1; − ir t n1 12− −α ;
5. Pertvarkę lygtį
αµαα −=⎟⎟
⎠
⎞⎜⎜⎝
⎛<
−< −−− 11;11; 22 nn t
SXtP ,
gauname
αµ αα −=⎟⎟⎠
⎞⎜⎜⎝
⎛−<<− −−− 11;1;1 22 nn t
nSXt
nSXP
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
53
POPULIACIJAX~N(µ;σ)
.
...
...
...
. . .X1
Xn
X2
X1 X2 X3 XK
Atsitiktinės imtys
n-imties didumas
Imčių vidurkiai
Imčių vidurkių tikimybinis skirstinys nx
σσ =
µµ =x
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
54
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
55
Normaliojo skirstinio parametrų įverčiai
Pavyzdžiui, duota klientų išlaidų telekomunikacijųpaslaugoms kovo mėnesį imtis. Apskaičiuosime klientųišlaidų vidurkio 0,95 pasikliautinąjį intervalą.
SPSS meniu: Analyze Descriptive statistics Explore .
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
56
),(~ 2σµNX
);()(1;
21;
211
−−−− ⋅−⋅−=
nnt
nSXt
nSXPI ααα µ
))1(;)1(()( 2
1;2
2
2
1;2
1
22
1
−−−
−−⋅−⋅
=nn
nSnSPIαα
α χχσ
čia ∑=
−⋅−
=n
ii XX
nS
1
22)(
11 , nepaslinktas populiacijois
dispersijos 2σ taškinis įvertis.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
57
Descriptives
98,30 1,1696,02
100,58
97,2897,00
1426,64237,77
21234213
52,00,363 ,075,053 ,150
MeanLower BoundUpper Bound
95% Confidence Intervalfor Mean
5% Trimmed MeanMedianVarianceStd. DeviationMinimumMaximumRangeInterquartile RangeSkewnessKurtosis
KovasStatistic Std. Error
Apskaičiuojame populiacijos vidurkio µ pasikliautinąjį intervalą:
)58,100;02,96()(95,0 =µPI . Išvada: su 95% garantija galime teigti, kad klientų vidutinės išlaidostelekomunikacijų paslaugoms kovo mėnesį buvo nuo 96,02 iki 100,58 Lt.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
58
Vidurkių pasikliautinųjų intervalų grafikai
SPSS meniu: Graph Error bar (Simple, Summaries for groups of cases)
475425383164239N =
Miestas
KitasPanevėžysŠiauliaiKlaipėdaKaunasVilnius
95%
CI K
ovas
140
130
120
110
100
90
80
70
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
59
Hipotezių tikrinimas
Hipoteze statistikoje vadinamas teiginys apie nežinomus populiacijųpožymių (kintamųjų) skirstinius.
Pavyzdžiui, statistinėmis hipotezėmis bus šie teiginiai:
• stebimo atsitiktinio dydžio skirstinys yra normalusis;
• atsitiktinio dydžio vidurkis lygus 100;
• dviejų atsitiktinių dydžių vidurkiai yra lygūs;
• vieno atsitiktinio dydžio dispersija yra didesnė negu kito ir t.t.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
60
HIPOTEZIŲ TIKRINIMAS
. . .
PARAMETRINĖS
Suderinamumo
AtsitiktinumoNepriklausomumoHomogeniškumo
NEPARAMETRINĖS
HIPOTEZĖS
H F x No o o: ( ) ( ),≡ µ σHH
o
a
: ,: .
µ µµ µ
1 2
1 2
=<
HH
o
a
: ,: .
µ µµ µ
=≠
0
0
HH
o
a
: ,: .
σ σσ σ
1 2
1 2
=≠
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
61
Hipotezių tikrinimo klaidos
Populiacija
Ho teisinga Ho klaidinga
Atmesti Ho I rūšies klaidasu tikimybe α(reikšmingumo lygmuo)
Teisingas sprendimas su tikimybe 1-β(kriterijaus galia)
Neatmesti Ho
Teisingas sprendimas su tikimybe 1-α
II rūšies klaida su tikimybe β
Sprendimaspagal imtiesduomenis
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
62
Kriterijaus galia (kriterijui su kairia kritine sritimi)
plotas = α
( )0Huf
αu u
( )aHuf( )uf
plotas = β−1 plotas = β
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
63
Kriterijaus galia – tai tikimybė atmesti hipotezę Ho , kai ji klaidinga.
Kriterijaus galia priklauso nuo:
– tikrosios populiacijos parametro reikšmės;
– reikšmingumo lygmens α;
– standartinio nuokrypio ir imties didumo n.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
64
Bendroji hipotezės tikrinimo schema (1)
10. Formuluojamos nulinė H0 ir alternatyvioji Ha hipotezės.
20. Parenkamas reikšmingumo lygmuo
};01,0;05,0;1,0{∈α
30. Hipotezei H0 tikrinti parenkama statistika U, kurios tankio funkcija, kai H0, teisinga, yra f(u|H0).
ČIA DAŽNIAUSIAI DAROMOS KLAIDOS !!!
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
65
α
0HU
40. Parinktam reikšmingumo lygmeniui
randamos kritinės reikšmės, hipotezės priėmimo sritis
ir kritinė sritis UK.
Hipotezės kritinė sritis gali būti dvipusė ir vienpusė. Tai priklauso nuo tikrinamos hipotezės.
plotas = 2α
( )0Huf
plotas = 2αplotas = α−1
0u2
αu21 α−u
Kritinėsritis
Kritinėsritis
Hipotezės priėmimo sritis
u
Bendroji hipotezės tikrinimo schema (2)
00 : Θ=ΘH
0: Θ≠ΘaH
),[],( 2/12/ +∞−∞= −αα uuK ∪U
),( 2/12/0 αα −= uuHU
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
66
Bendroji hipotezės tikrinimo schema (3)
50. Pagal imties duomenis apskaičiuojama stebėtoji statistikos U reikšmėuimt ir priimamas sprendimas. Jeigu uimt patenka į kritinę sritį, tai
hipotezė H0 atmetama.
plotas = 2α
( )0Huf
plotas = 2αplotas = α−1
0u2
αu21 α−u
Kritinėsritis
Kritinėsritis
Hipotezės priėmimo sritis
u
uimt ?
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
67
p-reikšmė
plotas = α
( )0Huf
plotas = α−1
0u αu
Kritinė sritis
Hipotezės priėmimo sritis
u
plotas = imtα
( )0Huf
0u imtu u
α<p
0H
α≥p
0H
Jeigu , tai hipotezė
atmetama.
, tai hipotezė
neatmetama.
Jeigu
imtp α=
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
68
⎩⎨⎧
≠=
.:,:
0
00
θθθθ
aHH
0: θθ<aH
PASTABA: dažnai tikrinant hipotezes statistikos paketai skaičiuoja p reikšmę tik vienai alternatyvai, o kitoms alternatyvoms Jūs turite apskaičiuoti patys!!!Pavyzdžiui, t kriterijui paketas SPSS skaičiuoja p reikšmę dvipusei kritinei sričiai (Sig 2-tailed), t.y. hipotezei
Vienpusėms alternatyvoms p reikšmes Jūs turite apskaičiuoti patys:•jeigu alternatyva yra
0: θθ >aH
ir stebėta Stjudento statistikos reikšmė timt≤0, taip p reikšmė=p*/2, čia p*- dvipusės kritinės srities p reikšmė, jeigu timt>0, tai p reikšmė=1-p*/2;•jeigu alternatyva yra
ir timt>0, taip p reikšmė=p*/2, jeigu timt≤0, tai p reikšmė=1-p*/2.Tos pačios taisyklės tinka ir standartinio normaliojo skirstinio statistikai Z.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
69
Hipotezė apie proporciją (1)
StatistikaStatistika::
SprendimasSprendimas::
H0: p = 0,10Ha: p < 0,10α = 0,05n = 200Kritinė reikšmė:
Z0-1.645
.05Reject
Z0-1.645
.05RejectAtmesti
α=0,05
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
70
Hipotezė apie proporciją (2)
Z0-1.645
.05Reject
Z0-1.645
.05Reject
H0: p = 0,10Ha: p < 0,10α = 0,05n = 200Kritinė reikšmė:
12.2
200)10,01(10,0
10,020011
)1(ˆ
00
0 −=−⋅
−=
−⋅−
≅
npp
ppZ 12.2
200)10,01(10,0
10,020011
)1(ˆ
00
0 −=−⋅
−=
−⋅−
≅
npp
ppZ
StatistikaStatistika::
SprendimasSprendimas::
Atmesti
α=0,05
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
71
Hipotezė apie proporciją (3)
Z0-1.645
.05Reject
Z0-1.645
.05Reject
H0: p = 0,10Ha: p < 0,10α = 0,05n = 200Kritinė reikšmė:
12.2
200)10,01(10,0
10,020011
)1(ˆ
00
0 −=−⋅
−=
−⋅−
≅
npp
ppZ 12.2
200)10,01(10,0
10,020011
)1(ˆ
00
0 −=−⋅
−=
−⋅−
≅
npp
ppZ
StatistikaStatistika::
SprendimasSprendimas::
Atmesti
α=0,05
AtmestiAtmesti HH00 ((αα = 0= 0,,05) 05) ..
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
72
Ačiū už dėmesį !
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
73
PROJEKTAS,,EMPIRINIŲ DUOMENŲ IR INFORMACIJOS HSM TYRIMAMS
KAUPIMAS IR VALDYMAS: LIETUVOS HSM DUOMENŲ ARCHYVAS (LIDA)”
Mokymo kursas,,Statistinė analizė humanitarinių ir socialinių
mokslų tyrimuose”
2. POŽYMIŲ PRIKLAUSOMUMO TYRIMAS
Vytautas JANILIONIS
2008
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
74
Mokymo kurso turinys:
1. Statistiniai metodai ir programinės priemonės HSM tyrimuose (teorinė paskaita, 3 ak. val.).
2. Požymių priklausomumo tyrimas (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak. val.).
3. Dispersinė analizė (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak. val.).
4. Regresinė analizė (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak. val.)
5. Faktorinė analizė (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak. val.).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
75
Ar kintamieji yra priklausomi, ar nepriklausomi?
Pavyzdžiui:
• ar yra priklausomybė tarp politinių pažiūrų ir amžiaus; • ar nusikalstamumo lygis priklauso nuo bedarbystės lygio;• ar atlyginimo dydis priklauso nuo išsimokslinimo lygio;• ar mokymosi rezultatai priklauso nuo mokymo metodikos;• ar užsienio politikos kursas priklauso nuo to, kokia partija yra valdžioje;• ar dviejų ekspertų vertinimai yra suderinti;• ar dvi žmonių grupės sutaria vienu ar kitu klausimu.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
76
Nagrinėsime šiuos uždavinius:
1. Kaip apibrėžti dviejų kintamųjų sąryšį turint atsitiktinę imtį;
2. Kaip daryti išvadas apie dviejų kintamųjų ryšio stiprumą visoje
populiacijoje, turint tik atsitiktinę duomenų imtį;
3. Kaip prognozuoti, t.y. įvertinti, vieno kintamojo reikšmes remiantis
kito kintamojo reikšmių imtimi, jei žinoma, kad tarp dviejų
kintamųjų yra pakankamai didelė koreliacija.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
77
Iš koreliacijos koeficiento negalima nustatyti koreliacijos priežasties !!!
• kintamasis X daro poveikį kintamajam Y;• kintamasis Y daro poveikį kintamajam X;• abu kintamieji X ir Y yra veikiami trečio kintamojo.
Du kintamieji X ir Y didelę koreliaciją gali turėti dėl trijų priežasčių:
Todėl koreliacinės analizės metu nustatytas ryšys negali būti interpretuojamas kaip priežastingumas, o tik kaip asociacijos arba ryšio matas.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
78
• intervalų ir santykių skalės
• X ir Y tikimybiniai skirstiniai yra normalieji
Koreliacijos koeficientas įvertina tiesinio ryšio stiprumą
( ) ( ) 2 2 2 2 y y x x
y x y x
s s
k r
y x
xy
− −
• − = = = ρ
0 1 2 3 4 5 6 7 8
01234567r =-1
r = 0,85
0
2
4
6
8
10
12
14
r = 0
Pirsono koreliacijos koeficientas
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
79
;0:0 =ρH
;0: ≠ρaH
Hipotezei Ho tikrinti naudojama Stjudento statistika
21 2
−−
= nr
rt , t~St(n-2).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
80
Spirmeno ranginis koreliacijos koeficientas
• Santykių, intervalų ir tvarkos skalės
Spirmeno ranginis koreliacijos koeficientas
įvertina ryšio stiprumą monotoniškumo prasme
0
1
2
3
4
5
6
X 1 2 3 4 5 6
X
Y
0
0.5
1
1.5
2
2.5
3
3.5
X 1 2 3 4 5
X
Y
00.5
11.5
22.5
33.5
44.5
5
X 1 2 3 4 5 6
X
Y
rs= 1 rs= 1rs= 0.6
)1(
)(61 2
1
2
−
−−==
∑=
nn
ryrxr
n
iii
SSρ
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
81
;0:0 =sH ρ
;0: ≠saH ρ
Hipotezei Ho tikrinti naudojama Stjudento statistika
21 2
−−
= nr
rts
s, t~St(n-2).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
82
Požymių priklausomumo lentelėsTarkime, kad stebime atsitiktinių dydžių porą (X, Y).
Atsitiktinis dydis X įgyja I skirtingų reikšmiųAtsitiktinis dydis Y įgyja J skirtingų reikšmių
X\Y y1 y2 … yJ ∑
x1 o11 o12 … o1J o1•
x2 o21 o22 … o2J o2•
xI oI1 oI2 … oIJ oI•
∑ o•1 o•2 … o•J n
SPSS meniu: Analyze Descriptive Statistics Crosstabs...
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
83
Požymių priklausomumo lentelės
Tarkime, kad stebime atsitiktinių dydžių porą (X, Y).
SPSS meniu: Analyze Descriptive Statistics Crosstabs...
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
84
Požymių priklausomumo lentelėsAr Jūs gaunate informacijos apie firmos teikiamas paslaugas? * Ar Jūs asmeniškai naudojatės
firmos teikiama paslauga? Crosstabulation
94 417 511
18,4% 81,6% 100,0%
63,5% 46,0% 48,4%
8,9% 39,5% 48,4%54 490 544
9,9% 90,1% 100,0%
36,5% 54,0% 51,6%
5,1% 46,4% 51,6%148 907 1055
14,0% 86,0% 100,0%
100,0% 100,0% 100,0%
14,0% 86,0% 100,0%
Count% within Ar Jūs gaunateinformacijos apie firmosteikiamas paslaugas?% within Ar Jūsasmeniškai naudojatėsfirmos teikiamapaslauga?% of TotalCount% within Ar Jūs gaunateinformacijos apie firmosteikiamas paslaugas?% within Ar Jūsasmeniškai naudojatėsfirmos teikiamapaslauga?% of TotalCount% within Ar Jūs gaunateinformacijos apie firmosteikiamas paslaugas?% within Ar Jūsasmeniškai naudojatėsfirmos teikiamapaslauga?% of Total
Taip
Ne
Ar Jūs gaunateinformacijos apie firmosteikiamas paslaugas?
Total
Taip Ne
Ar Jūs asmeniškainaudojatės firmos
teikiama paslauga?Total
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
85
Požymių priklausomumo lentelės
Tikriname hipotezę:H0 : ,,Atsitiktiniai dydžiai X ir Y yra nepriklausomi“.Ha : ,,Atsitiktiniai dydžiai X ir Y yra priklausomi“.
Hipotezės tikrinimui taikome kriterijų su dešine kritine sritimi:
( ) ( )( )( )11~ 2
1 1
22 −−
−= ∑ ∑
= =
JIE
EOI
i
J
j ij
ijij χχ
čia Oij – stebėtas dažnis (observed frequency),
Eij – tikėtinas (laukiamas) dažnis (expected frequency).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
86
Požymių priklausomumo lentelėsLentelė 2x2 χ2 χ2 su Jeito
pataisa H0
Kramerio Cir
p-reikšmė
X\Y Ne Taip
Ne 10 10 20 0 0 neatmesta 0Taip 10 10 20 1
20 20 40
∑
∑
∑
∑
∑
X\Y Ne Taip
Ne 11 9 20 0,4 0,1 neatmesta 0,1Taip 9 11 20 0,527
20 20 40
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
87
Požymių priklausomumo lentelėsLentelė 2x2 χ2 χ2 su Jeito
pataisa H0
Kramerio Cir
p-reikšmė
X\Y Ne Taip
Ne 15 5 20 10 8,1 atmesta 0,5Taip 5 15 20 0,02
20 20 40
∑
∑
∑
∑
X\Y Ne Taip
Ne 20 0 20 40 36,1 atmesta 1Taip 0 20 20 0,000
20 20 40
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
88
X3 * Y3 Crosstabulation
15 5 2010,0 10,0 20,0
5 15 2010,0 10,0 20,0
20 20 4020,0 20,0 40,0
CountExpected CountCountExpected CountCountExpected Count
0
1
X3
Total
0 1Y3
Total
Požymių priklausomumo lentelės
Chi-Square Tests
10,000b 1 ,0028,100 1 ,004
10,465 1 ,001,004 ,002
9,750 1 ,002
40
Pearson Chi-SquareContinuity Correction a
Likelihood RatioFisher's Exact TestLinear-by-LinearAssociationN of Valid Cases
Value df
Asymp.Sig.
(2-sided)Exact Sig.(2-sided)
Exact Sig.(1-sided)
Computed only for a 2x2 tablea.
0 cells (,0%) have expected count less than 5. The minimum expected count is10,00.
b.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
89
Požymių priklausomumo lentelės
Symmetric Measures
,500 ,002,500 ,002,447 ,002
40
PhiCramer's VContingency Coefficient
Nominal byNominal
N of Valid Cases
ValueApprox.
Sig.
Not assuming the null hypothesis.a.
Using the asymptotic standard error assuming the nullhypothesis.
b.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
90
χ2 kriterijaus taikymo nepriklausomumo hipotezės tikrinimui schema
Ar požymių priklausomumo lentelės formatas yra 2x2?
Ar nors vienam langelyje Eij<5?
Ar visuose langeliuose 1E ij ≥ ir
ne daugiau kaip 20% langelių Eij<5?
χ2 kriterijaus taikyti negalima. Vietoje jo naudojamas Fišerio tikslus kriterijus (Fisher's Exact test)
χ2 kriterijus su Jeito pataisa
( )∑ ∑
= =
−−=
I
1i
J
1j ij
2ijij
E0,5E
χO
2
(χ2 test with Yates' Continuity Correction)
Taikome χ2 kriterijų
( )∑ ∑
= =
−=
I
1i
J
1j ij
ijij
EEO
χ2
2
χ2 kriterijaus taikyti negalima. Lentelėje reikia apjungti stulpelius (eilutes), kuriuose yra langelių netenkinančių aukščiau pateiktų sąlygų ir pradėti nuo pradžios.
TAIP NE
TAIPTAIPNE NE
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
91
1.HipotezėH0: Kintamieji X ir Y yra nepriklausomiHa: Kintamieji X ir Y yra priklausomi
2.Statistika
Laisvės laipsnių skaičius: (I - 1)(J - 1)EiluEiluččiiųų sk.sk.,, StulpeliStulpeliųų sksk..
StebStebėėtas (observed) datas (observed) dažžnisnisTikTikėėtinas (etinas (expectedxpected) da) dažžnisnis
( ) ( )( )( )11~ 2
1 1
22 −−
−= ∑ ∑
= =
JIE
EOI
i
J
j ij
ijij χχ
Nepriklausomumo hipotezNepriklausomumo hipotezėės tikrinimas , s tikrinimas , χχ22 kritkriteerijusrijus
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
92
Nepriklausomumo hipotezNepriklausomumo hipotezėės tikrinimas, s tikrinimas, χχ22 kritkriteerijusrijus
Tarkime, kad Jūs esate analitikas ir norite išsiaškinti ar yra ryšys tarp prekės A ir prekės B pirkimo? Atsitiktinai atrinktų 286 pirkėjų apklausos rezultatai pateikti lentelėje.
Y- Ar perkate prekę B ? X- Ar perkate
prekę A ? Ne Taip Iš
viso Ne 84 32 116 Taip 48 122 170 Iš viso 132 154 286
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
93
Nepriklausomumo hipotezės tikrinimas, χ2 kriterijus
Ho:Ha:α =l.l. =Kritinė reikšmė:
StatistikaStatistika::
SprendimasSprendimas::
IIššvadavada::
χ20
Reject
χ20
RejectAtmesti
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
94
Nepriklausomumo hipotezės tikrinimas, χ2 kriterijus
Ho: X ir Y yra nepriklausomiHa: X ir Y yra priklausomiα =l.l. =Kritinė reikšmė:
StatistikaStatistika::
SprendimasSprendimas::
IIššvadavada::
χ20
Reject
χ20
RejectAtmesti
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
95
Nepriklausomumo hipotezės tikrinimas, χ2 kriterijus
H0: X ir Y yra nepriklausomi
Ha: X ir Y yra priklausomi
α = 0,05l.l. =Kritinė reikšmė:
StatistikaStatistika::
SprendimasSprendimas::
IIššvadavada::
χ20
Reject
χ20
RejectAtmesti
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
96
Nepriklausomumo hipotezės tikrinimas, χ2 kriterijus
H0: X ir Y yra nepriklausomiHa: X ir Y yra priklausomi
α = 0,05l.l. = (2-1)(2-1)=1Kritinė reikšmė:
StatistikaStatistika::
SprendimasSprendimas::
IIššvadavada::
χ20 3.841
Reject
χ20 3.841
Reject
αα =0=0,,0505
Atmesti
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
97
Nepriklausomumo hipotezNepriklausomumo hipotezėės tikrinimas, s tikrinimas, χχ22 kriterijuskriterijus
Y- Ar perkate prekę B? Ne Taip
X- Ar perkate prekę A?
O E O E Iš viso
Ne 84 53,5 32 62,5 116 Taip 48 78,5 122 91,5 170 Iš viso 132 132 154 154 286
Y- Ar perkate prekę B? Ne Taip
X- Ar perkate prekę A?
O E O E Iš viso
Ne 84 53,5 32 62,5 116 Taip 48 78,5 122 91,5 170 Iš viso 132 132 154 154 286
EEijij ≥≥ 55 visuose langeliuosevisuose langeliuose
170170··132 132 286286
170170··154 154 286286
116116··132 132 286286
154154··132 132 286286
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
98
Nepriklausomumo hipotezės tikrinimas, χ2 kriterijus
H0: X ir Y yra nepriklausomiHa: X ir Y nėra nepriklausomi
α = 0,05l.l. = (2-1)(2-1)=1Kritinė reikšmė:
StatistikaStatistika::
χ20 3.841
Reject
χ20 3.841
Reject
αα =0=0,,0505
Atmesti
( )15,54
2
1
2
1
22 =
−= ∑ ∑
= =i j ij
ijij
EEO
χ
( )∑ ∑
= =
=−−
=I
1i
J
1j ij
2
ijij2 Yates 39,52
E0,5E
χO
Sprendimas:Sprendimas:
IIššvadavada::
((χχ2 test with Yates' Continuity Correction)2 test with Yates' Continuity Correction)
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
99
Nepriklausomumo hipotezės tikrinimas, χ2 kriterijus
H0: X ir Y yra nepriklausomiHa: X ir Y yra nepriklausomi
α = 0,05l.l. = (2-1)(2-1)=1Kritinė reikšmė:
StatistikaStatistika::
SprendimasSprendimas::
IIššvadavada::
χ20 3.841
Reject
χ20 3.841
Reject
αα =0=0,,0505
χχ22 = 54= 54,,2929
Atmesti
AtmestiAtmesti HH00 ((αα = 0= 0,,05)05)
Tarp kintamTarp kintamųųjjųų X ir Y yra statistiX ir Y yra statistišškai kai reikreikššmingas rymingas ryššys.ys.
39,52χ 2 Yates =
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
100
SPSSSPSS Pirsono ir Spirmeno koreliacijos koeficientai
Tvarkos skalė
Vardų skalė
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
101
Ryšio stiprumo matai tvarkos skalėje
(rxi>rxj) ir (ryi> ryj) arba (rxi <rxj) ir (ryi< ryj), tai pora vadinama suderinta. Suderintų porų skaičius imtyje žymimas raide P;
(rxi>rxj) ir (ryi< ryj) arba (rxi<rxj) ir (ryi>ryj), tai pora vadinama nesuderinta. Suderintų porų skaičius imtyje žymimas raide Q;
(rxi=rxj) ir (ryi≠ryj), tai pora vadinama surišta x-su, tokių porų skaičius imtyje žymimas raide Tx;
(rxi≠rxj) ir (ryi=ryj), tai pora vadinama surišta y-u, tokių porų skaičius imtyje žymimas raide Ty;
(rxi=rxj) ir (ryi=ryj), tai pora vadinama surišta x-u ir y-u, tokių porų skaičius imtyje žymimas raide Txy.
Surištų porų skaičių imtyje žymėsime T=Tx+Ty+Txy
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
102
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
103
Kendalo ranginės koreliacijos koeficientai
)1(21
−⋅
−=
nn
QPaτ 11 ≤≤− aτ
yxb TQPTQP
QP++++
−=τ
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
104
Kendalo ranginės koreliacijos koeficientai
Correlations
1,000 ,778**, ,002
10 10,778** 1,000,002 ,
10 101,000 ,915**
, ,00010 10
,915** 1,000,000 ,
10 10
Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)N
Pirmas ekspertas (a)
Antras ekspertas (a)
Pirmas ekspertas (a)
Antras ekspertas (a)
Kendall's tau_b
Spearman's rho
Pirmasekspertas
(a)
Antrasekspertas
(a)
Correlation is significant at the .01 level (2-tailed).**.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
105
Kendalo ranginės koreliacijos koeficientai
)1(21
−⋅
−=
nn
QPaτ 11 ≤≤− aτ
yxb TQPTQP
QP++++
−=τ
)1()(
2 −⋅−⋅
=mn
QPmcτ 11 ≤≤− cτ),min( JIm =
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
106
Gudmeno ir Kraskelo koeficientas γ
γ
Gudmeno ir Kraskelo koeficientas γ parodo kokių porųimtyje yra daugiau suderintų ar nesuderintų.
lygus įverčiui tikimybių skirtumo, kuris parodo kiek tikimybė, kad atsitiktinai parinkta pora bus suderinta, didesnė užtikimybę, kad ji bus nesuderinta, kai γ>0 ir atvirkščiai, kai γ<0.
QPQP
+−
=γ
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
107
Samerio (Sommer’s) koeficientai
yYX TQP
QPd++
−=
xXY TQP
QPd++
−=
2/)( yx TTQPQPd+++
−=
.
X * Y Crosstabulation
Count
5 10 1510 10
5 10 10 25
12
X
Total
1 2 3Y
Total
Directional Measures
,857 ,048 12,247 ,000,750 ,084 12,247 ,000
1,000 ,000 12,247 ,000
SymmetricX DependentY Dependent
Somers' dOrdinal by OrdinalValue
Asymp.Std. Errora Approx. Tb
Approx.Sig.
Not assuming the null hypothesis.a.
Using the asymptotic standard error assuming the null hypothesis.b.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
108
Vardų skalė
Fi (Phi) koeficientas, tai ryšio matas 2x2 lentelėms dar vadinamas tarpusavio sutapimo koeficientu. Jis apibrėžiamas taip:
.
n/2χφ =
φ.
Koeficiento kitimo sritis 2x2 lentelei yra [0; 1].
Kontingencijos koeficientas C (Pirsono kontingencijos koeficientas)
),min(1),min(0,2
2
JIJIC
nC −
≤≤+
=χ
χ
.
Matome, kad C neviršija 1. Naudojant šį koeficientą, reikia atsižvelgti į tai, kad didžiausia C reikšmė priklauso nuo eilučių ir stulpelių skaičiaus lentelėje. Pavyzdžiui, lentelei 4x4, Cmax=0,866.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
109
Vardų skalė
Kramerio V koeficientas
( )10,
1,1min≤≤
−−= V
JIV φ
22 × φLentelei Kramero V koeficientas sutampa su koeficientu
Gudmeno ir Kraskelo ryšio koeficientai
λλλ ,, YXXY
Jie dar vadinami sąlyginės prognozės indeksais ir įvertina vieno požymio kategorijos nuspėjamumo santykį klaidos sumažėjimą, kai žinoma kito požymio kategorija.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
110
Vardų skalėλλλ ,, YXXYGudmeno ir Kraskelo ryšio koeficientai
3,0=XYλ 6,0=YXλ 45,0=λPavyzdžiui, jei
galima sakyti, kad spėjimo klaida sumažėja 30%, jei spėjant X naudojamasi informacija apie Y ir spėjimo klaida sumažėja 60%,jei spėjant Y naudojamasi informacija apie X.
Koeficientas įvertina spėjimo klaidos sumažėjimą, kai kintamieji yra simetriniai.
λ
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
111
Kapa
.
Tėvo apibūdinimas * Mamos apibūdinimas Crosstabulation
Count
88 10 2 10014 40 6 6018 10 12 40
120 60 20 200
1 tipas2 tipas3 tipas
Tėvo apibūdinimas
Total
1 tipas 2 tipas 3 tipasMamos apibūdinimas
Total
Symmetric Measures
,492 ,051 9,456 ,000200
KappaMeasure of AgreementN of Valid Cases
ValueAsymp.
Std. Errora Approx. Tb Approx. Sig.
Not assuming the null hypothesis.a.
Using the asymptotic standard error assuming the null hypothesis.b.
Kapa <0,40 silpnas suderinamumas, sutarimas,0,40<= Kapa<= 0,75 vidutiniškas suderinamumas, sutarimas,
Kapa>0,75 stiprus suderinamumas, sutarimas.
IxI lentelė
Vardųskalė
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
112
Ačiū už dėmesį !
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
113
PROJEKTAS,,EMPIRINIŲ DUOMENŲ IR INFORMACIJOS HSM TYRIMAMS
KAUPIMAS IR VALDYMAS: LIETUVOS HSM DUOMENŲ ARCHYVAS (LIDA)”
Mokymo kursas,,Statistinė analizė humanitarinių ir socialinių
mokslų tyrimuose”
3. DISPERSINĖ ANALIZĖ
Vytautas JANILIONIS
2008
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
114
Mokymo kurso turinys:
1. Statistiniai metodai ir programinės priemonės HSM tyrimuose (teorinė paskaita, 3 ak. val.).
2. Požymių priklausomumo tyrimas (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak. val.).
3. Dispersinė analizė (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak. val.).
4. Regresinė analizė (teorinė paskaita, 1 ak.val. ir praktinis seminaras, 2 ak. val.)
5. Faktorinė analizė (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak. val.).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
115
DISPERSINDISPERSINĖĖ ANALIZANALIZĖĖR.A.FiR.A.Fiššeriseris (1918, 1925, 1935m.)(1918, 1925, 1935m.)
Stebimų atsitiktinių dydžių skirstinių priklausomybės nuo kiekybinių arba kokybinių faktorių tyrimas vadinamasDISPERSINE ANALIZEDISPERSINE ANALIZE.
AA
YY
Vienfaktorinė dispersinė analizė su fiksuotais faktoriais (I modelis).Stebimo atsitiktinio dydžio Ytikimybių skirstinys priklauso nuofaktoriaus A, kuris yra I skirtinguoselygmenyse.
1 pvz. A – politinės pažiūros 2 pvz. A - mokymo metodikaY – amžius Y - mokymo rezultatai
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
116
DISPERSINDISPERSINĖĖS ANALIZS ANALIZĖĖS S MODELIAIMODELIAI
I modelis (modelis su fiksuotais faktoriais).Faktorių lygmenys parenkami pagal planą. Tyrinėtoją domina tik tie faktoriaus A lygmenys,kuriuos jis pasirinko.
II modelis (modelis su atsitiktiniais faktoriais).Faktorių lygmenys parenkami atsitiktinai išdidelio (arba begalinio) skaičiaus galimųlygmenų.
III modelis (mišrus modelis).Dalis faktorių atitinka I modelį, o kita dalis -II modelį.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
117
Vienfaktorinė dispersinė analizėPilnas randomizuotas faktorinis eksperimento planas
Faktorius A Kintamasis Y
a1 R1
R2 1Y R3
a2 R4
R5 2Y R6
a3 R7
R8 3Y R9
•Y
Pagal faktorių A skiriame 3 nepriklausomas populiacijas.
Kiekvienoje populiacijoje matuojame tąpatį priklausomą kintamąjį Y (intervalųarba santykių skalė).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
118
Dvifaktorinė dispersinė analizėPilnas randomizuotas faktorinis eksperimento planas
Faktorius B
b1 b2 b3
a1 R1
R2 11Y R3
R7
R8 12Y R9
R13
R14 13Y R15
•1Y Faktorius A
a2 R4
R5 21Y R6
R10
R11 22Y R12
R16
R17 23Y R18
•2Y
1•Y 2•Y 3•Y ••Y
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
119
Vienfaktorinė dispersinė analizėPilnas randomizuotas-blokinis faktorinis eksperimento planas
Blokuotieji duomenys dažniausiai gaunami, kai tų pačių objektų požymį matuojame keletąkartų (repeated measures). Blokuotųjų duomenų dispersinė analizė tinka ne tik pakartotiniams matavimams. Svarbu kad bloką sudarančius duomenis vienytų kokia nors bendra informacija.
Faktorius A
a1 a2 ••• aJ R1 R2
R3........ 1Y
R4 R5
R1 R2
R3........ 2Y
R4 R5
•••
R1 R2
R3........ JY
R4 R5
•Y
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
120
Dvifaktorinė dispersinė analizėPilnas randomizuotas-blokinis faktorinis eksperimento planas
Faktorius B
b1 b2 b3
a1 R1
R2 11Y R3
R1
R2 12Y R3
R1
R2 13Y R3
•1Y Faktorius A
a2 R1
R2 21Y R3
R1
R2 22Y R3
R1
R2 23Y R3
•2Y
1•Y 2•Y 3•Y ••Y
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
121
VIENFAKTORINĖ DISPERSINĖ ANALIZĖ (One-Way Analysis of Variance)
Stebimo atsitiktinio dydžio Y skirstinys priklauso nuo faktoriaus A, kuris
yra I skirtinguose lygmenyse IAAA ,,, 21 … .
Tarkime, kad yra I imčių, kurios kiekvienos didumas yra Iini , , 1= ,
∑=
=I
iinn
1 .
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
122
DUOMENŲ MATRICA
A Y 1 y11
1 y12
1 y13
2 y21 2 y22
2 y23
2 y24
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
123
Faktorius A (Mokymo metodas) Faktoriaus lygmenys
a1
a2
a3
Respondentai Priklausomas
kintamasis 21 h 17 h 31 h
Y 27 h 25 h 28 h 29 h 20 h 22 h
Faktorius A (Mokymo metodas) Faktoriaus lygmenys
a1
a2
a3
Respondentai Priklausomas
kintamasis 21 h 17 h 31 h
Y 27 h 25 h 28 h 29 h 20 h 22 h
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
124
Kiekvieną stebėjimą ijy išskaidome į du dėmenis:
I1,...,=i ,n1,...,=j , iijiij ey += β
i-tos grupės vidurkis iiM(Y β=)
čia iβ - nežinomi parametrai, eij - nepriklausomi atsitiktiniai dydžiai,
kurių skirstinys standartinis normalusis ( )N 0 2,σ .
Hipotezė apie vidurkių lygybę IH ββ == ...: 10
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
125
XX
f(X)f(X)
ββ1 1 = β= β2 2 = β= β33
XX
f(X)f(X)
ββ1 1 == ββ22 ββ33
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
126
Išskaidome vidurkį iβ į komponentę, nepriklausančią nuo iA ir
komponentę apibūdinančia lygmens iA poveikį:
ijiijiij eey +α+β=+β−β+β= 000 )(,
)(YM=β 0 , ),(~ eij Ne σ0 , )( ii YM=β ,
čia iα faktoriaus A i-tojo lygmens efektas.
Tą pačią hipotezę H 0 galime užrašyti per efektus.
010 =α==α IH ...:
aH : “ne visi iα tarpusavyje lygūs”.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
127
Nulinės hipotezės tikrinimui naudojama Fišerio statistika
e
ASSSSF =
, čia
( )∑=
⋅⋅⋅ −=I
iiiA nyySS
1
2
nuokrypių kvadratų suma, apibūdinanti faktoriaus A poveikį stebimo atsitiktinio dydžio Y vidurkiui;
( )∑ ∑= =
⋅−=I
i
n
jiije
i
yySS1 1
2
nuokrypių kvadratų suma, apibūdinanti atsitiktinių klaidų faktoriaus E poveikį stebimo atsitiktinio dydžio Y vidurkiui, kurį modelyje nusako atsitiktinis dydis eij;
⋅⋅y – imties Y empirinis vidurkis;
⋅iy – imties Y i empirinis vidurkis;
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
128
NUOKRYPIŲ KVADRATŲ SUMOS
( )∑ ∑= =
⋅⋅−=I
i
n
jijp
i
yySS1 1
2– bendroji nuokrypių kvadratų suma;
eAp SSSSSS +=;
Nuokrypių kvadratų vidurkiai (faktorinė ir liekamoji empirinės dispersijos):
,1,1
1eeAA SS
InSSSS
ISS
−=
−=
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
129
F I Š E R I O K R I T E R I J U S
e
ASSSSF =
J e i H 0 te is in g a , ta i
( ) InIFF −=−= 2121 ,1 čia ,,~ νννν .
H ip o te z ė s t ik r in im u i n a u d o ja m a s F iš e r io k r i te r i ju s s u d e š in e k r i t in e
s r i t im i
( ) [ )∞== −− ,,021210 ;;1;;1 νναννα FF KH FF
.
H 0 a tm e ta m a , k a i s te b ė to j i k r i te r i ja u s s ta t i s t ik o s r e ik š m ė p a te n k a į k r i t in ę
s r i t į KimtF F∈ , p r ie š in g u a tv e ju s te b ė j im ų d u o m e n y s n u l in e i
h ip o te z e i n e p r ie �ta ra u ja .
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
130
Vienfaktorinės dispersinės analizės rezultatų lentelė
Nuokrypių
šaltinis Nuokrypių kvadratų
suma
Laisvės laipsniai
ν
Nuokrypių kvadratų vidurkis
Fišerio statistika
Fimt
( )imtimt FFP >=α
Faktorius A SSA I – 1 ASS e
ASSSS
imtα
Atsitiktinių klaidų
faktorius E
SSe n – I eSS
Visi faktoriai
SSp n – 1
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
131
PAGRINDINIAI VIENFAKTORINPAGRINDINIAI VIENFAKTORINĖĖS DISPERSINS DISPERSINĖĖS ANALIZS ANALIZĖĖS S UUŽŽDAVINIAIDAVINIAI
1. Rasti parametrų taškinius ir intervaliniusįverčius.
2. Patikrinti hipotezę apie stebimo atsitiktinio dydžio Yvidurkių lygybę prie skirtingų faktoriaus A lygmenų
3. Sugrupuoti faktoriaus A lygmenis į homogeniškumogrupes (daugiakartinio palyginimo metodai).
β β β β0 1 2, , ,..., I
,,,:"
,...:
IiβvisineH
βββH
ia
I
1210
=
===
:,,Bent du vidurkiai tarpusavyje nelygūs”.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
132
Pavyzdys
Atsitiktinai atrinkta 12 darbuotojų, kurie atsitiktinai paskirti į 4 grupes. Kiekviena grupė buvo mokoma atlikti tam tikrą darbą taikant skirtingąmokymo metodą.
Ar mokymosi vidutinis laikas priklauso nuo mokymo metodo?(α =0,05).
M1 M2 M3 M4
10 11 13 189 16 8 235 9 9 25
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
133
Pavyzdys
StatistikaStatistika: :
SprendimasSprendimas::
AtmestiAtmesti HH00 ((αα = = 0,0,0505))
H0: β1 = β2 = β3 = β4
Ha: ,,Bent du vidurkiai nelygūs’’.
α = 0,05ν1 = 3 ν2 = 8
FFimtimt== 1111,,66 66..
FF00 4.074.07
αα = .05= .05
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
134
Source ofSource ofVariationVariation
Degrees ofDegrees ofFreedomFreedom
Sum ofSum ofSquaresSquares
MeanMeanSquareSquare
((VarianceVariance
FF
(Methods)(Methods) 4 4 -- 1 = 31 = 3 348348 116116 11,611,6
ErrorError 12 12 -- 4 = 84 = 8 8080 1010
TotalTotal 12 12 -- 1 = 111 = 11 428428
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
135
Daugkartiniai lyginimai
Daugkartiniai lyginimų kriterijai skirstomi į apriorinius ir aposteriorinius (post hoc).
Aprioriniai lyginimai planuojami prieš dispersinę analizę arba vietoje jos.
Aposterioriniai (post hoc) lyginimai vykdomi po to, kai jau žinomi analizės rezultatai (hipotezės apie kelių vidurkių lygybe tikrinimo rezultatai) .
Yra daug skirtingų daugkartinio lyginimo kriterijų. Dauguma kriterijų (tik su skirtingais reikšmingumo lygmenimis) galima naudoti ir kaip apriorinius ir kaip aposteriorinius daugkartinius lyginimus.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
136
Daugkartiniai lyginimai
Yra daug skirtingų aposteriorinių (Post Hoc) daugkartinių lyginimų kriterijų. Vien SPSS pateikia 18.skirtingų kriterijų: LSD (Least Significant Diferense - mažiausiai reikšmingo skirtumo), Benferonio (Bonferroni) , Šefe (Scheffe), Tjukio (Tukey) ir kiti taikomi kai lyginamų populiacijų dispersijos yra lygios (Equal Variances Assumed). Tamhane T2, Dunnett T3, Games-Howell, Dunnett C. kriterijai, taikomi kai lyginamųpopuliacijų dispersijos nėra lygios (Equal Variances Not Assumed).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
137
Daugkartiniai lyginimai
Aprioriniai kriterijai
Tradiciškai aprioriniams priskiriami kriterijai, taikomi hipotezėms apie tiesines populiacijų vidurkių daugdaras (kontrastus) tikrinti. Tiesiniu populiacijų vidurkių kontrastu (contrast) vadinama suma
∑=
=I
iiic
1,βψ 0
1=∑
=
I
iic
0:0 =ψH.0: ≠ψaH
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
138
Daugkartiniai lyginimai
Kai I=6 pasirinkę
41
4321 −==== cccc21
65 == cc
( ) ( )432165 41
21 ββββββψ +++−+=
gauname
,SPSS įvesdami kontrastus spragtelėkite dialogo langelio One-Way ANOVA mygtukąContrasts...Coefficients įrašykite pirmojo koeficiento reikšmę ir spragtelėkite mygtuką Add. Tokiu pat būdu įrašykite likusius koeficientus.
Sprendimo priėmimo taisyklė: H0 atmetama (kontrastas statistiškai reikšmingai skiriasi nuo nulio), jeigu p-reikšmė p < α. H0 neatmetama, jeigu p ≥α ; čia α — reikšmingumo lygmuo.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
139
DVIFAKTORINĖ DISPERSINĖ ANALIZĖ SU PASTOVIAIS FAKTORIAIS
Atsitiktinio dydžio Y skirstinys gali priklausyti nuo faktoriaus A, kuris yra I skirtinguose lygmenyse
A1, A2, ...,AI
ir nuo faktoriaus B, kuris yra J skirtinguose lygmenyse
B1,B2,...,BJ.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
140
Dvifaktorinė dispersinė analizėPilnas randomizuotas faktorinis eksperimento planas
FaFaktorius Bktorius B ((Mokymo metodas)Mokymo metodas)FaktoriFaktoriųųlygmenyslygmenys
19 h19 h ☺☺ 20 h20 h ☺☺ 22 h22 h ☺☺FaktoriusFaktorius AA AukAukšštata 11 h11 h ☺☺ 17 h17 h ☺☺ 31 h31 h ☺☺(Motyvacija)(Motyvacija) 27 h27 h 25 h25 h 31 h31 hŽŽemaema
29 h29 h 30 h30 h 49 h49 h
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
141
Dvifaktorinė dispersinė analizė
Pažymėkime
( ) JjIiyyyyY ijKijyjijij ,1,,1,,...,,, 321 === atsitiktinio dydžio Y imtį, gautą prie faktoriaus A lygmens AI ir faktoriaus B lygmens Bj . Tuomet stebėjimų vektorius
( )IJYYYY ,...,, 1211= .
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
142
Dvifaktorinė dispersinė analizė
Tarkime, kad ( )eijij NY σβ ,~ , tuomet matavimus yijkgalime išreikšti dviejų dėmenų suma ( ) ,, ijijijkijijk YMey ββ =+=
( )eijk Ne σ,0~
KkJjIi ,1,,1,,1 ===
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
143
Dvifaktorinė dispersinė analizė
( ) ( )+−+−+= ⋅⋅
ji
jiijkyγα
βββββ 000
( )( )
ijkjiij e
ij
++−++ ⋅⋅
αγ
ββββ 0
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
144
Dvifaktorinė dispersinė analizė
0β – generalinės aibės vidurkis, 0β =M(Y),
∑=
⋅ β−β=β−β=αJ
jijii J 1
001
– pagrindinis faktoriaus A
i – tojo lygio efektas;
ij)(αγ – faktoriaus A i – tojo lygio ir faktoriaus B j– tojo lygio sąveikos efektas.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
145
Dvifaktorinė dispersinė analizė
Dvifaktorinės dispersinės analizės pilnoji nuokrypių kvadratų suma
( )2
1 1 1∑ ∑ ∑= = =
−=I
i
J
j
K
kijkp yySS
išskaidoma į keturis dėmenis
eABBAp SSSSSSSSSS +++=,
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
146
Dvifaktorinė dispersinė analizė
čia
( ) ∑∑==
⋅⋅⋅⋅⋅ α=−=I
ii
I
iiA JKyyJKSS
1
2
1
2 ˆ
dauginame iš J•K, nes fiksavus faktoriaus A – tąjį lygį yra atlikta J•K matavimų
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
147
Dvifaktorinė dispersinė analizė
( )∑ ∑= =
⋅⋅⋅⋅⋅ =−=J
j
J
jjjB IKyyIKSS
1 1
22 γ;
( )( ) ( )∑ ∑ ∑ ∑= = = =
⋅⋅⋅⋅⋅⋅⋅⋅ =+−+=I
i
J
j
I
i
J
j ijjiijAB KyyyyKSS1 1 1 1
2γα ;
( )∑ ∑ ∑= = =
⋅−=I
i
J
j
K
kijijke yySS
1 1 1
2;
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
148
Dvifaktorinė dispersinė analizė
Hipotezių tikrinimas: H I0 1 2 0: ...α α α= = = = (Faktoriaus A visų lygių efektai lygūs nuliui, t.y. stebimo atsitiktinio dydžio vidurkis nepriklauso nuo faktoriaus A). H a :,,Ne visi α i i I, ,= 1 lygūs nuliui“. Hipotezės tikrinimui naudojamas Fišerio kriterijus su dešinine kritine sritimi.
FSS
SSF I I J KA
e= − −~ ( ( ), ( ) )1 1
SS
SSA
P100% - faktoriaus A poveikio stebimo atsitiktinio dydžio Y vidurkiui laipsnis
išreikštas procentais.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
149
Dvifaktorinės dispersinės analizė lentelė
Nuokrypių šaltinis Source of variation
Nuokrypių kvadratų suma
Sum of squares
Laisvės laipsnių skaičius
d.f.
Nuokrupių kvadratų vidurkis
Mean square
Fišerio statistika F-ratio αimt
Sig. level Faktoriai
(Main efects) A B
SSA
SSB
I-1
J-1
SS
SS
IA
A=−1
SSSS
JB
B=−1
FSS
SSimtA A
e=
FSS
SSimtB B
e=
αimtA
αimtB
Faktorių sąveika
(Interactions) A B
SSAB
(I-1)(J-1)
SS
SS
I JAB
AB=− −( )( )1 1
FSS
SSimtAB AB
e=
αimtAB
Atsitiktinių klaidų
faktorius (Residual)
SSe
IJ(K-1)
SSSS
IJ Ke
e=−( )1
-
-
Visi faktoriai (Total)
SSP IJK-1 - - -
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
150
Ačiū už dėmesį !
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
151
PROJEKTAS,,EMPIRINIŲ DUOMENŲ IR INFORMACIJOS HSM TYRIMAMS
KAUPIMAS IR VALDYMAS: LIETUVOS HSM DUOMENŲ ARCHYVAS (LIDA)”
Mokymo kursas,,Statistinė analizė humanitarinių ir socialinių
mokslų tyrimuose”
4. REGRESINĖ ANALIZĖ
Vytautas JANILIONIS
2008
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
152
Mokymo kurso turinys:
1. Statistiniai metodai ir programinės priemonės HSM tyrimuose (teorinė paskaita, 3 ak. val.).
2. Požymių priklausomumo tyrimas (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak. val.).
3. Dispersinė analizė (teorinė paskaita, 1 ak.val. ir praktinis seminaras, 2 ak. val.).
4. Regresinė analizė (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak. val.)
5. Faktorinė analizė (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak. val.).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
153
REGRESINĖ ANALIZĖ
1. Ar stebimi atsitiktiniai dydžiai yra priklausomi?
2. Koks yra ryšio tarp jų stiprumas?
3. Kokia yra jų statistinės priklausomybės analizinėišraiška?
Funkcinė priklausomybė - tai neatsitiktinių dydžių priklausomybė. Esant funkcinei priklausomybei, žinant vienų dydžių reikšmes galima tiksliai apskaičiuoti kito dydžio reikšmę.
Statistinė priklausomybė – tai priklausomybė tarp atsitiktinių dydžių, kai kiekvieną galimą vieno atsitiktinio dydžio reikšmę atitinka tam tikras antrojo dydžio reikšmių skirstinys.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
154
PAGRINDINIAI REGRESINĖS ANALIZĖS UŽDAVINIAI
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛=
2
211
,...,,, kXfY βββX
Y Regresijos funkcijos parametrai
1. Regresinės funkcijos analizinės išraiškos radimas.2. Regresijos funkcijos nežinomų parametrų taškinių
ir intervalinių įverčių radimas.3. Hipotezių apie regresijos funkcijos parametrus tikrinimas.4. Prognozavimo paklaidų vertinimas.5. Regresijos modelio prielaidų tikrinimas.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
155
VIENO KINTAMOJO TIESINĖ REGRESINĖ ANALIZĖ
- analizinė išraiška
- taškiniai įverčiai
- intervaliniai įverčiai( ) -αεββ-εβP
xbbyarbaxββy
ss
rβxss
ryβ
XββY
iiiii
x
y
x
y
1ˆˆ
ˆˆ
ˆ,-ˆ.2
.1
1010
10
10
=+<<
+=+=
==
+=
3. Hipotezių tikrinimas
H Hi a i0 0 0: , : .β β= ≠
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
156
4. Prognozavimo paklaidų įvertinimas
Prognozuojamų reikšmių pasikliautinoji juosta
Χ+=Υ 10ˆˆˆ ββ
VIENO KINTAMOJO TIESINĖ REGRESINĖ ANALIZĖ
( ) ( )( )P y x y y xp p p p p− < < + = −ε ε α1
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
157
VIENO KINTAMOJO TIESINĖ REGRESINĖ ANALIZĖ
• (Y|X=x) sąlyginis skirstinys yra normalusis. • Sąlyginis vidurkis yra tiesinė funkcija M(Y|X=x)= x10 ββ + . • Sąlyginė dispersija yra pastovi D(Y|X=x)=const. • Stebėjimai n1,2iyx ii ,...,),,( = yra nepriklausomi. 1-4 prielaidos ekvivalentiškos prielaidai, kad dvimačio atsitiktinio dydžio skirstinys yranormalusis.
Y
X
5. Regresijos modelio prielaidų tikrinimas
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
158
1 uždavinys. Regresijos funkcijos analizinės išraiškos radimas
Tiesinė funkcija
YY = mX + b
b = Y-interceptX
Changein Y
Change in X
m = Slope
XY 10 ββ +=
1β
0β
)(1 αβ tg=α
atkarpa (intercept)
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
159
1 uždavinys. Regresijos funkcijos analizinės išraiškos radimas.
Populiacijos ir imties regresijos lygtys
PopuliacijaPopuliacija
AtsitiktinAtsitiktinėė imtisimtis
Y Xi i i= + +β β ε0 1
iii XY εββ ˆˆˆˆ10 ++= iii XY εββ ˆˆˆˆ10 ++=
☺ ☺☺
☺
☺☺☺
☺☺☺☺
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
160
1 uždavinys. Regresijos funkcijos analizinės išraiškos radimas
IŠTIESINIMO METODAS Reikia parinkti tokią koordinačių sistemą, kuriojeeksperimento taškai išsidėsto tiesėje (arba pakankamai arti jos). 1 pavyzdys. Laipsninė funkcija.
.~,ln~,ln~,ln~,~~~~
lnlnln
1100
10
10
0 1
β=ββ=β==
β+β=
β+β=β= β
XXYY
XY
XYXY
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
161
1 uždavinys. Regresijos funkcijos analizinės išraiškos radimas
2 pavyzdys. Rodiklinė funkcija.
.~,~,~,ln~,~~~~
ln
1100
10
10
10
β=ββ=β==
β+β=
β+β== β+β
XXYY
XY
XYeY X
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
162
2 uždavinys. Regresijos funkcijos nežinomų parametrųtaškinių ir intervalinių įverčių radimas
Išlaidos reklamai (x 100 Lt)
500400300200100
Pard
avim
as (
x 1
00 L
t)
6000
5000
4000
3000
2000
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
163
2 uždavinys. Regresijos funkcijos nežinomų parametrųtaškinių ir intervalinių įverčių radimas.
ε2
Y
X
ε1 ε3
ε4
^^
^ε2
Y
X
ε1 ε3
ε4
^^
^^
Y Xi i= +β β0 1Y Xi i= +β β0 1
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
164
2 uždavinys. Regresijos funkcijos nežinomų parametrųtaškinių ir intervalinių įverčių radimas.
Kiekvienai iš tos pačios populiacijos sudarytai imčiai gausime vis kitas empirinės tiesinės regresijos lygties koeficientų reikšmes. Vadinasi, galima kalbėti apie atsitiktinius dydžius B0 ir B1.
Pažymėkime tų atsitiktinių dydžių empirinius vidurkius b0 ir b1, o standartinius nuokrypius 0bs ir 1bs . Standartiniai nuokrypiai 0bs ir 1bs
literatūroje dažnai dar vadinami standartinėmis koeficientų 0β ir 1β
paklaidomis. Jie apibrėžiami lygybėmis:
∑=
−= n
ii
eb
xx
ss
1
2
2
)(1 , n
sxss ebb
222
10+⋅=
.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
165
2 uždavinys. Regresijos funkcijos nežinomų parametrųtaškinių ir intervalinių įverčių radimas
Galima kalbėti ir apie vidurkių 0β ir 1β pasikliautinuosius intervalus. Jei patenkintosanksčiau aptartos pasikliautinųjų intervalų sudarymo sąlygos, t.y. a.d. B0 ir B1 turi normalųjį skirstinį, tai vidurkių 0β ir 1β pasikliautinieji intervalai (pasikliovimo lygmuo lygus α−1 ) randami pagal formules:
11 2;2/112;2/11 bnbn stbstb ⋅−≤≤⋅− −−− αα β ,
00 2;2/002;2/10 bnbn stbstb ⋅−≤≤⋅− −−− αα β .
Čia 2;2/ −ntα pažymėtas Stjudento skirstinio su n-2 laisvės laipsniais α/2 kvantilis.
Intervalinių įverčių skaičiavimas nesiskiria nuo aprašytųjų Modulyje PARAMETRŲ
TAŠKINIAI IR INTERVALINIAI ĮVERČIAI.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
166
3 uždavinys. Hipotezių apie regresijos lygtieskoeficientų reikšmingumą tikrinimas
Nulinė hipotezė 0: 10 =βH .
Alternatyvioji hipotezė 0: 1 ≠βaH
Šios hipotezės tikrinimui naudojamas Sjudento t kriterijus
)1(~1
11 −= ntTBS
B
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
167
3 uždavinys. Hipotezių apie regresijos lygties koeficientųreikšmingumą tikrinimas.
Regresijos lygties koeficientų lentelė
Koeficientai
Regresijos lygties koeficientai b i
(Unstandardized Coefficients)
Normuoti koeficientai
(Standardized Coefficients)
Stebėta Stjudento statistikos reikšmė
(t)
Stebėtas reikšmin
gumo lygmuo
(p-reikšmė)
(Sig.) Koeficientų
taškiniai įverčiai
(B)
Koeficientų standartinės
paklaidos (Std. Error)
(Beta)
β0 (Constant)
b0 0bs
0
00bs
bimtt =
0imtα
β1
b1
1bs y
x
ssbBETA 1=
1
11bs
bimtt =
1imtα
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
168
Coefficientsa
520,609 142,259 3,660 ,001 232,621 808,596
9,958 ,459 ,962 21,681 ,000 9,028 10,888
(Constant)Išlaidos reklamai(x 100 Lt)
Model1
B Std. Error
UnstandardizedCoefficients
Beta
Standardized
Coefficients
t Sig.LowerBound
UpperBound
95% ConfidenceInterval for B
Dependent Variable: Pardavimas (x 100 Lt)a.
Gavome imties regresijos lygtį parduota=520,61+9,96*reklama.Išvada. Padidinus išlaidas reklamai vienu vienetu, pardavimai padidėja vidutiniškai 9,96 vienetais. Abu regresijos lygties koeficientai yra reikšmingi, nes atmestos abi nulinės hipotezės apie koeficientų lygybę nuliui.
)60,808;62,232()( 095,0 =βPI )89,10;03,9()( 195,0 =βPI
Apskaičiuojame populiacijos regresijos lygties koeficientųpasikliautinuosius intervalus:
.
Išvada. Su 95% garantija galime prognozuoti, kad padidinus išlaidas reklamai vienu vienetu, pardavimai vidutiniškai padidės nuo 9,03 iki 10,89 vienetų.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
169
4 uždavinys. Prognozavimo paklaidų įvertinimas
Plot of Fitted Model
x
y
0 0,5 1 1,5 2 2,5 30
0,4
0,8
1,2
1,6
2
Prognozuojamų reikšmių pasikliautinoji juosta
Υ Χ= +β β0 1
( ) ( )( )P y x y y xp p p p p− < < + = −ε ε α1
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
170
4 uždavinys. Prognozavimo paklaidų įvertinimas.
| | | | | | | | | | | | | | |
0 100 200 300 400 500 600 700Confidence | |
Interval: 351.8 511.9Prediction | |
Interval: 194.1 669.6
Y sąlyginio vidurkio pasikliautinasis intervalas
Individualios Y reikšmės pasikliautinasis intervalas
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
171
4 uždavinys. Prognozavimo paklaidų įvertinimas
Y sąlyginio vidurkio pasikliautinasis intervalas
( )( )∑
=
−−−
−
−+=
⋅−≤=≤⋅−
n
ii
pY
YnpYn
XX
XXn
SS
StYXXYEStY
1
2
2
ˆ
ˆ2/,2ˆ2/1,2
1
kur
ˆ)(ˆαα
( )( )∑
=
−−−
−
−+=
⋅−≤=≤⋅−
n
ii
pY
YnpYn
XX
XXn
SS
StYXXYEStY
1
2
2
ˆ
ˆ2/,2ˆ2/1,2
1
kur
ˆ)(ˆαα
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
172
4 uždavinys. Prognozavimo paklaidų įvertinimas
Kas įtakoja pasikliautinojo intervalo plotį?
1. Pasikliovivimo lygmuo (1 - α)2. Duomenų sklaida (s)3. Imties didumas (n)4. Taško Xp atstumas nuo X vidurkio
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
173
4 uždavinys. Prognozavimo paklaidų įvertinimas
Intervaliniai įverčiai (Interval Estimates)
Dep Var Pred Std Err Low95% Upp95% Low95% Upp95%
Obs SALES Value Predict Mean Mean Predict Predict1 1.000 0.600 0.469 -0.892 2.092 -1.837 3.037 2 1.000 1.300 0.332 0.244 2.355 -0.897 3.4973 2.000 2.000 0.271 1.138 2.861 -0.111 4.1114 2.000 2.700 0.332 1.644 3.755 0.502 4.8975 4.000 3.400 0.469 1.907 4.892 0.962 5.837
YY prognozprognozėė, , kai kai XX = 4= 4
Y vidurkio pasikliautinasisintervalas
SSYYY reikšmės pasikliautinasisintervalas
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
174
Standartinė regresijos paklaida
Apibrėžtumo koeficientasS
nee i
i
n=
− =∑1
22
1
r SS SSR P2 = /Y X= +β β0 1
Prognozės paklaida
e y yi i i= −Nuokrypių kvadratų sumos:
SS aP ii
n=
=∑ 2
1SSR i
i
n=
=∑ε 2
1
SS ee ii
n=
=∑ 2
1SS SS SSP R e= +
Y
X
( )x yi i,
ei
εi
aiyi
y
x xi
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
175
Apibrėžtumo koeficientas
Regresinėje analizėje naudojamos trys nuokrypių kvadratų sumos:
Bendroji nuokrypių kvadratų suma (total sum of squares)
∑∑==
=−=n
ii
n
iip ayySS
1
2
1
2)( .
Ji apibūdina a.d. Y reikšmių sklaidą apie vidurkį. Regresinė nuokrypių kvadratų suma (regresion sum of squares)
∑∑==
ε=−=n
ii
n
iiR yySS
1
2
1
2)( .
Ji apibūdina eksperimento taškų sklaidos apie vidurkį y dalį, kuri paaiškinama Y tiesine regresija X atžvilgiu (t.y. jų tiesine priklausomybe) – "paaiškinama nuokrypių dalis".
Liekanų kvadratų suma (residual (eror) sum of squares)
∑∑==
=−=n
ii
n
iie eyySS
1
2
1
2)(
apibūdina eksperimento taškų sklaidą apie regresijos tiesę, t.y. taškų sklaidos apie vidurkį y dalį, kuri nepaai�kinama tiesine regresija – "nepaaiškinama nuokrypių dalis".
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
176
eRp SSSSSS +=
Apibrėžtumo koeficientas parodo, kuri atsitiktinio dydžio Y sklaidos dalis apie vidurkį y paaiškinama tiesine regresija. Kuo 2r →1, tuo geriau regresijos modelis apibūdina eksperimento taškus. Daugumoje statistinės analizės paketų išvedamas dydis 2r ⋅100 [%]. Statistikos paketai regresinės analizės rezultatus pateikia lentelėmis. Žemiau pateikta paketo SPSS lentelės struktūra. Modelis
(Model)
Koreliacijoskoeficientas
(R)
Apibrėžtumo koeficientas (R Square)
Pataisytas apibrėžtumo koeficientas
(Adjusted R Square)
Standartinė regresijos paklaida
(Std. Error of the Estimate)
1 r 2r 2adjr
2es
p
RSSSS
r =2
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
177
Regresijos modelio rodiklių suvestinė
Model Summary b
,962a ,925 ,923 221,52 2,162Model1
R R SquareAdjustedR Square
Std. Errorof the
EstimateDurbin-W
atson
Predictors: (Constant), Išlaidos reklamai (x 100 Lt)a.
Dependent Variable: Pardavimas (x 100 Lt)b.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
178
KELIŲ KINTAMŲJŲ REGRESINĖ ANALIZĖ
X 1X 2
X k
...
Y
Kokia yra statistinė priklausomybė tarpnepriklausomų kintamųjų X1, X2, …, Xkir priklausomo kintamojo Y ?
( ) εβββ
εββββ
+=Υ
+++++=Υ
kk
kk
XXXf
XXX
,...,,,,...,,
...
2121
22110Tiesinė
Netiesinė
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
179
PAGRINDINIAI KELIŲ KINTAMŲJŲ REGRESINĖS ANALIZĖS UŽDAVINIAI
1. Regresinės funkcijos analizinės išraiškos radimas.2. Regresijos funkcijos nežinomų parametrų taškinių
ir intervalinių įverčių radimas.3. Hipotezių apie regresijos funkcijos parametrus tikrinimas.4. Prognozavimo paklaidų įvertinimas.5. Regresijos modelio prielaidų tikrinimas.6. Optimalios regresijos lygties sudarymas.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
180
X2
Y
X1E(Y) = β0 + β1X1i + β2X2i
β0
Yi = β0 + β1X1i + β2X2i + εi
ResponsePlane
(X1i,X2i)
(Observed Y)
εi
X2
Y
X1E(Y) = β0 + β1X1i + β2X2i
β0
Yi = β0 + β1X1i + β2X2i + εi
ResponsePlane
(X1i,X2i)
(Observed Y)
εi
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
181
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
182
Optimalios kelių kintamųjų tiesinės regresijos lygties sudarymas
Regresinės analizės modelis yra vertingesnis, kuomažesniu kintamųjų skaičiumi jis nusakomas. Suprantama,reikia stengtis, kad kintamųjų KXXX ,...,, 21 skaičiaus sumažinimas iš esmės nepablogintų Y prognozės tikslumo. Pagrindiniai regresijos lygties optimalumo kriterijai:
• suvestinis apibrėžtumo koeficientas 12 →r • standartinė regresijos paklaida 1→eS • regresijos lygtyje nėra kintamųjų, kurie reikšmingai
nepagerina Y prognozavimo
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
183
Visų regresijų metodas
22110
220
110
0
XXYXYXY
Y
βββββββ
β
++=+=+=
=
Kai 10=K , tai galimų skirtingų regresijos lygčių skaičiusyra 102422 10 ==K
.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
184
PAŽINGSNINĖS REGRESIJOS METODAI
• kintamųjų įrašymo metodas (Forward)
• kintamųjų išbraukimo metodas (Backward)
• mišrus kintamųjų įrašymo–išbraukimo metodas (Stepwise)
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
185
TIESINĖS REGRESIJOS MODELIO PRIELAIDOS
Assumptions of the Linear Regression Model
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
186
Tiesinės regresijos modelio prielaidos
• (Y|X=x) sąlyginis skirstinys yra normalusis. • Sąlyginis vidurkis yra tiesinė funkcija M(Y|X=x)= x10 ββ + . • Sąlyginė dispersija yra pastovi D(Y|X=x)=const. • Stebėjimai n1,2iyx ii ,...,),,( = yra nepriklausomi. 1-4 prielaidos ekvivalentiškos prielaidai, kad dvimačio atsitiktinio dydžio skirstinys yranormalusis.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
187
Dispersinės analizės (ANOVA) rezultatų lentelė
Nuokrypių šaltinis
Nuokrypių kvadratų suma
(Sum of Squares)
Laisvės laipsniųskaičius
(df)
Nuokrypių kvadratų vidurkis
(Mean Square)
Stebėta Fišerio statistikos reikšmė
(F)
Reikšmingumo
lygmuo (Sig.)
Regresija (Regression)
SSR
1 RSS=RSS
e
Rimt
SSSSF =
imtα Atsitiktiniai
faktoriai (paklaidos) (Residual)
SSe
n-2
2−=
nSS
SS ee
Total
SSp
n-1
H0: β1 = β2 = β3 = β4= …=0Ha: Bent vienas βi nelygus nuliui.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
188
Tiesinės regresijos modelio prielaidų tikrinimo SPSS meniu
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
189
Multikolinearumas
Tarp nepriklausomų kintamųjų yra stipriai koreliuojančių.
1. Dispersijos mažėjimo daugiklis VIF (Variance Inflation Factor)2. Tolerancija (Tolerance).
3. Sąlygojimo indeksas (Condition index).VIF
aTolerancij 1=
Jeigu 4<VIF<10 - galima įtarti, kad kintamasis yra multikolinearus (nuo vidutinio iki stipraus) .
Jeigu VIF>=10 - kintamasis ,,per daug multikolinearus”.
Jeigu 10<Sąlygojimo indeksas <= 30 tai galima įtarti, kad kintamasis yra multikolinearus (nuo vidutinio iki stipraus).
Sąlygojimo indeksas >30 rodo stiprų multikolinearumą (regresijos koeficientų įverčiai yra nestabilūs).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
190
Išskirčių nustatymas (Outlier diagnostics)
• Liekamosios paklaidos.• Standartizuotosios liekamosios paklaidos. • Stebėjimo įtakos indeksas (Leverage).• Kuko matas D (Cook’s D).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
191
Standatizuotosios liekamosios paklaidosStandardized Residuals
.
syi−
= ii
yZRESID
Stebėta reikšmė yra išskirtis, jeigu standartizuotosios liekamosios paklaidos modulis viršija 3,5.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
192
Kuko matas D (Cook’s D)
Kuko matas D atsižvelgia į standartizuotąją liekaną ir į stebėjimo įtakos indeksą.
'( )
i ii
i i
h eCook s Dp h s h
⎛ ⎞⎛ ⎞⎛ ⎞= ⎜ ⎟⎜ ⎟⎜ ⎟ − −⎝ ⎠⎝ ⎠⎝ ⎠
2
2
11 1
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
193
DFFITSDFFITS statistikos įvertina i-tojo stebėjimo įtaką y prognozei.
Didelės DFFITS reikšmės rodo, kad i-tasis stebėjimas reikšmingai įtakoja prognozę.
Belsley, Kuh, ir Welsch rekomenduoja stebėtas yi reikšmes, kurioms DFFITS statistikos reikšmė yra didesnes už
priskirti išskirtims.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
194
DFBETAS
DFBETAS statistikos įvertina i-tojo stebėjimo įtaką regresijos lygties koeficientui βj
Didelės DFBETASj reikšmės rodo, kad i-tasis stebėjimas reikšmingai įtakoja regresijos lygties koeficientą βj
Belsley, Kuh, ir Welsch rekomenduoja i-tąjį stebėjimą, kuriam DFBETAS reikšme didesnes už
priskirti išskirtims.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
195
Matas Reikšmė
leverage >2p/n
abs(ZRESID) > 3,5
CooksD > 4/n
abs(DFFITS)
p – parametrų skaičius modelyje (įskaitant konstantą), n –stebėjimų skaičius.
>
abs(DFBETAS) >
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
196
Regression Standardized Residual
1,81,0,2-,6-1,4-2,2
HistogramDependent Variable: Pardavimas (x 100 Lt)
Freq
uenc
y
14
12
10
8
6
4
2
0
Std. Dev = ,99 Mean = 0,0
N = 40,00
Liekamųjų paklaidųnormalumo tikrinimas
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: Pardavimas (x 100 Lt)
Observed Cum Prob
1,00,75,50,250,00E
xpec
ted
Cum
Pro
b
1,00
,75
,50
,25
0,00
Išvada. Vizualiai palyginę, galime teigti, kad standartizuotųjų liekanų histograma yra suderinta su standartinio normaliojo skirstinio kreive (t.y. standartizuotųjųliekanų skirstinys yra suderintas su standartiniu normaliuoju skirstiniu).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
197
Liekamųjų paklaidų normalumo tikrinimas
Suderinamumo hipotezės tikrinimo rezultatai (Kolmogorovo-Smirnovo statistika)
One-Sample Kolmogorov-Smirnov Test
ZRE_1 Standardized
Residual N 40
Normal Parameters(a,b) Mean ,0000 Std. Deviation ,98710Most Extreme Differences Absolute ,075 Positive ,055 Negative -,075Kolmogorov-Smirnov Z ,477Asymp. Sig. (2-tailed) ,977
a Test distribution is Normal. b Calculated from data.
Išvada. Suderinamumo hipotezė neatmesta (p=0,977>0,05), standartizuotųjų liekanų skirstinys yra suderintas su standartiniu normaliuoju skirstiniu.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
198
Homoskedastiškumas / Heteroskadastiškumas
X
SR
X
SR
X
SR
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
199
Ačiū už dėmesį !
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
200
PROJEKTAS,,EMPIRINIŲ DUOMENŲ IR INFORMACIJOS HSM TYRIMAMS
KAUPIMAS IR VALDYMAS: LIETUVOS HSM DUOMENŲ ARCHYVAS (LIDA)”
Mokymo kursas,,Statistinė analizė humanitarinių ir socialinių
mokslų tyrimuose”
5. Faktorinė analizė
Vytautas JANILIONIS
2008
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
201
Mokymo kurso turinys:
1. Statistiniai metodai ir programinės priemonės HSM tyrimuose (teorinė paskaita, 3 ak. val.).
2. Požymių priklausomumo tyrimas (teorinė paskaita, 1 ak.val. ir praktinis seminaras, 2 ak. val.).
3. Dispersinė analizė (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak. val.).
4. Regresinė analizė (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak. val.)
5. Faktorinė analizė (teorinė paskaita, 1 ak. val. ir praktinis seminaras, 2 ak. val.).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
202
FAKTORINFAKTORINĖĖ ANALIZANALIZĖĖ
IstorijaIstorija
Faktorinės analizės pradininkas –
CharlesCharles SpearmanSpearman
(Čarlzas Spirmenas, 1863 - 1945)
Prieš beveik 100 metų SpearmanSpearman iškėlėhipotezę, kad didžiulė įvairovė žmogaus protinių gabumų - matematinių, kalbos, artistinių, loginio samprotavimo įgūdžių ir t.t. -gali bgali būūti paaiti paaišškinti vienu bendrojo intelekto kinti vienu bendrojo intelekto "faktoriumi"faktoriumi““, kurį jis pavadino gg.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
203
FAKTORINFAKTORINĖĖ ANALIZANALIZĖĖ
Tikslai ir uTikslai ir užždaviniaidaviniai
FaktorinFaktorinėė analizanalizėė taikoma dideliam stebimųkintamųjų kiekiu sumažinti, juos pakeičiant tiesiogiai nestebimais (latentiniais) faktoriaisfaktoriais.
FaktorinFaktorinėės analizs analizėės modelio prielaida:s modelio prielaida: egzistuoja tokie tiesiogiai nestebimi faktoriaifaktoriai, kuriais galime paaiškinti stebimų kintamųjųtarpusavio koreliaciją. Kitaip tariant, turėdami n kintamųjų, galime nustatyti k latentinių faktorių (k < n), kurie charakterizuoja n kintamųjųaibę.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
204
F1
Faktoriaus sFaktoriaus sąąvokavokaX1
X2
X3
FaktoriusFaktorius Fj – tai tiesiogiai nestebimas (latentinis) kintamasis, kuris vienija tam tikrą grupę susijusiųkintamųjų Xi.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
205
MatematinisMatematinis modelismodelis
112121111 uFaFaFaX mm ++++= …
222221212 uFaFaFaX mm ++++= ……………………………………………………..
kmkmkkk uFaFaFaX ++++= …2211
kFFF ,,, 21 …imii aaa ,,, 21 …ku
- bendrieji latentiniai faktoriai - faktorių svoriai
- specifinis kintamojo Xk faktorius
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
206
MatematinisMatematinis modelismodelis
Faktorių svoriai parodo, kaip stipriai kintamasis koreliuoja su faktoriumi.
Faktoriaus svoris, ija Interpretacija
6.0≥ija Faktorių jF ir kintamąjį iX sieja stiprus ryšys
6.03.0 <≤ ija Faktorių jF ir kintamąjį iX sieja ryšys
3.0<ija Tarp faktoriaus jF ir kintamojo iX ryšio nėras
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
207
Matematinis modelis Matematinis modelis
XX11 XX22 XX33 XX44 XX55
FF11 FF22
u1 u2 u3 u4 u5
Faktoriai F1 ir F2 apibūdina kintamuosius X1, X2, X3, X4 ir X5
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
208
PavyzdysPavyzdys
Faktorių jF svoriai ija Kintamieji, iX
1ia 2ia 3ia Loginis mąstymas, 1X 0.82 0.63 0.44 Gramatika, 2X 0.68 0.64 0.21 Literatūra, 3X 0.28 0.59 0.18 Algebra, 4X 0.45 0.20 0.38 Geometrija, 5X 0.50 0.17 0.69 Fizika, 6X 0.41 0.13 0.37 Lotynų, 8X 0.58 0.70 0.20
Prancūzų, 9X 0.32 0.68 0.17
Istorija, 10X 0.25 0.43 0.12
Technologijos, 11X 0.49 0.09 0.60
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
209
PavyzdysPavyzdys
Geometrija
Fizika
Prancūzų
Lotynų
Algebra
Loginis mąstymas
Literatūra Gramatika
Istorija
Technologijos
Bendrieji protiniaigebėjimai
Kalbiniai įgūdžiai
Inžinieriniai gebėjimai
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
210
FaktorinFaktorinėės analizs analizėės tipais tipai
Tiriančioji
Patvirtinančioji
FAKTORINFAKTORINĖĖ ANALIZANALIZĖĖ
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
211
FaktorinFaktorinėės analizs analizėės pries priešštaringumastaringumas
Faktorinė analizė yra gana prieštaringas daugiamatės statistinės analizės uždavinys, nes:
•išskirti faktoriai yra nevienareikšmiai;
• Išskirtus faktorius ne visada lengva interpretuoti;
• Ne visada galime išskirti faktorius, apibendrinančius stebimo reiškinio kintamuosius;
• Išskirtų faktorių patikimumas labai priklauso nuo pradinių kintamųjų, t.y. prieš taikant faktorinę analizę būtina įsitikinti, kad stebėtą reiškinįaprašantys kintamieji buvo tinkamai parinkti.
Šiam uždaviniui dažniausiai neegzistuoja vienintelis sprendinys, t.y.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
212
FaktorinFaktorinėės analizs analizėės s lyglygččiiųų sprendimo sprendimo
metodaimetodai
PagrindiniPagrindiniųų faktorifaktoriųų
DidDidžžiausio tikiausio tikėėtinumo tinumo
MinimaliMinimaliųųjjųų liekanliekanųų
…………..........
PagrindiniPagrindiniųų komponenkomponenččiiųų
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
213
Faktorinės analizės modeliuose stebimus kintamuosius iX išreiškiame faktorių jF tiesinėmis daugdaromis:
iikikiii UdFaFaFaX ++++= …2211 kur
iX - kintamasis,
ija - faktoriaus svoris (kintamojoXi ir faktoriaus Fj koreliacijos koeficientas),
jF - faktorius,
iU - specifinis faktorius, susijęs tik su kintamuoju , iX
id - specifinio faktoriaus svoris. ir yra tenkinamos sąlygos:
1) 0),cov( =ji FF , bendrieji faktoriai yra nekoreliuoti tarpusavyje ir 1=jDF
2) ),(~ 2iii NX σµ , kiekvienas stebimas kintamasis yra pasiskirstęs pagal normalųjį dėsnį
3) 0),cov( =ji UU , specifiniai faktoriai yra nekoreliuoti tarpusavyje ir jjDU τ= (dispersija yra lygi konstantai)
4) 0),cov( =ij UF , bendrieji ir specifiniai faktoriai yra nekoreliuoti tarpusavyje
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
214
Pagrindinė komponentė yra kintamasis, kurį galime išreikšti stebimų kintamųjų tiesine daugdara:
pipiii XbXbXbC +++= …2211 ,
čia 1C - pirmoji (išskirta) komponentė,
ijb - kintamojo svoris (kintamojo Xj ir komponentės Ci koreliacijos koeficientas). ir yra tenkinamos sąlygos:
1) 0),cov( =ji CC , komponentės yra nekoreliuotos tarpusavyj, 2) kDCDCDC ≥≥≥ …21 , komponentės yra išdėstytos dispersijų mažėjimo tvarka, t.y.
pirmoji komponentė paaiškina didžiausią dalį pradinių kintamųjų dispersijos, antroji mažesnę ir t.t.,
3) pk DXDXDXDCDCDC +++=+++ …… 2121 , komponenčių dispersijų suma yra lygi pradinių kintamųjų dispersijų sumai.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
215
FaktorinFaktorinėės analizs analizėės etapais etapaiDuomenDuomenųų tikimas faktorinei analizeitikimas faktorinei analizei
,
Faktorinė analizė taikoma tik kiekybiniams kintamiesiems (intervalų arba santykių skalė).
0H
aH
– koreliacijų matrica yra vienetinė, t.y. visi kintamieji yranekoreliuoti.
– koreliacijų matrica nėra vienetinė.
Bartleto sferiškumo kriterijus tikrina hipotezę:
KMO kriterijus tikrina, ar stebimus duomenis išvis įmanoma apibendrinti tam tikru faktorių rinkiniu. Naudojant šį kriterijų yra nustatomi “per daug” multikolinearūskintamieji, kuriuos reikėtų pašalint iš modelio, t.y. dalinės koreliacijos tarp kintamųjųneturėtų būti labai didelės, jeigu norime gauti skirtingų faktorių rinkinį. Jeigu bendrasis KMO yra mažesnis už 0.6, tuomet stebimiems kintamiesiems faktorinėanalizė yra netaikytina .
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
216
FaktorinFaktorinėės analizs analizėės etapais etapai
FaktoriFaktoriųų iiššskyrimasskyrimas
,
Faktorinės analizės lygčių sistemos sprendimo metodo parinkimas:
• pagrindinių komponenčių,• pagrindinių faktorių, • didžiausio tikėtinumo ir kt.
Faktorių skaičiaus nustatymas:
• Kaiserio kriterijus. Faktoriaus Fj tikrinė reikšmė > 1.
• Faktorių tikrinių reikšmių grafikas.
• Intuicija.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
217
FaktoriFaktoriųų tikrinitikriniųų reikreikššmimiųų grafikasgrafikas
Faktoriaus numeris
Tikr
inė
reik
šmė
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
218
FaktorinFaktorinėės analizs analizėės etapais etapai
FaktoriFaktoriųų sukimassukimas
,
Faktorių sukimas – tai faktorių svorių matricos transformavimas įlengviau interpretuojamą pavidalą.
Ortogonalus faktorių sukimas – tai faktorių ašių sukimas išlaikant statųkampą (90 laipsnių) tarp ašių.
Faktorius 1F
Faktorius 2F
0.7
0.6 0.2
0.9Pasuktas faktorius 1F
Pasuktas faktorius 2F
Kintamasis 1X
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
219
FaktorinFaktorinėės analizs analizėės etapais etapaiFaktoriFaktoriųų sukimassukimas
Statistinės analizės paketuose yra įdiegta įvairių ortogonalių ir neortogonalių faktoriųsukimo metodų: VARIMAX, QUARTIMAX, EQUIMAX, PROMAX ir kt.
VARIMAX sukimas – tai ortogonalus faktorių sukimas maksimizuojantis fakoriaus jF svorių
njjj bbb ,,, 21 … kavadratų dispersiją kintamųjų nXXX ,,, 21 … atžvilgiu. Faktorių sukimas neįtakoja bendros faktoriais paaiškinamos dispersijos dalies, t.y. tikrinių reikšmių suma ∑ kλ lieka nepakitusi. Tačiau pasikeičia faktorių svoriai ijb ir kiekvieno faktoriaus paaiškinama bendrosios dispersijos dalis ∑⋅ ki λλ /100 . Vienas iš faktorinės analizės trūkumų yra tai, kad skirtingų faktorių sukimo procedų rezultatai yra skirtingi. Taigi, išskirtų faktorių interpretacija labai priklauso nuo sukimo metodo parinkimo.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
220
SPSSSPSSAnalyzeAnalyze Data Data reductionreduction FactorFactor......
Analizuojami kintamieji
Stebėti kintamieji
Faktoriųsukimas
Faktoriųreikšmės
Analizės parametrai
Aprašomoji statistika Faktorių
išskyrimas
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
221
SPSSSPSS
AnalyzeAnalyze Data Data reductionreduction FactorFactor... ... DescriptivesDescriptives......
Aprašomoji statistika
Pradinis (nepasuktas) sprendinys
KMO ir Bartletosferiškumokriterijus
Kintamųjųkoreliacinėmatrica
Kintamųjųkoreliacijųreikšmingumas
Koreliacinės matricos determinantas
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
222
SPSSSPSSAnalyzeAnalyze Data Data reductionreduction FactorFactor... ... ExtractionExtraction......
FaktoriųIšskyrimo metodo parinkimas
Koreliacijos matrica
Nepasuktas sprendinys
Faktorių tikriniųreikšmiųgrafikas
Faktoriųskaičiaus išskyrimo kriterijus
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
223
SPSSSPSSAnalyzeAnalyze Data Data reductionreduction FactorFactor... ... RotationRotation......
Faktoriųsukimo metodo parinkimas
Pasuktas sprendinys
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
224
SPSSSPSS
AnalyzeAnalyze Data Data reductionreduction FactorFactor... ... ScoresScores......
Sukurti naujus kintamuosius
Faktorių reikšmiųskaičiavimo metodo parinkimas
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
225
PavyzdysPavyzdys
Apklausos duomenys įrašyti faile atsakymai.sav. Kiekvienas teiginys įvertintas skalėje nuo 1 iki 7, (1 - „visiškai nesutinku“, 7 - „visiškai sutinku“).
1X = „Aš labai stengiuosi stiprinti santykius su savo dabartiniu partneriu“,
2X = „Jei išsiskirčiau su savo dabartiniu partneriu, prarasčiau daug mėgstamų laisvalaikio užsiėmimų“,
3X = „Jei išsiskirčiau su savo dabartiniu partneriu, prarasčiau daug bendrų draugų“,
4X = „Įdomiau būtų pradėti naują pažintį, negu tęsti santykius su dabartiniu partneriu“,
5X = „Labiau noriu būti vienas, negu su dabartiniu partneriu“,
6X = „Aš linkęs silpninti santykius su dabartiniu partneriu“.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
226
DuomenysDuomenys
Imties didumas n=50
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
227
KoreliacinKoreliacinėė analizanalizėėFaktorinė analizė neturi prasmės nekoreliuotiems duomenims, todėl pirmiausiai reikia analizuotikintamųjų 621 ,,, XXX … koreliacinę matricą. Koreliacinės analizės tikslas yra nustatyti visiškainekoreliuotus arba silpnai tarpusavyje koreliuotus kintamuosius ir pašalinti juos iš pradiniųkintamųjų rinkinio. Kartais kintamieji gali ir per daug stipriai koreliuoti tarpusavyje(multikolinearumo problema).
Correlation Matrix a
1,000 ,857 ,747 -,373 -,420 -,296,857 1,000 ,816 -,219 -,238 -,142,747 ,816 1,000 -,255 -,348 -,219
-,373 -,219 -,255 1,000 ,621 ,592-,420 -,238 -,348 ,621 1,000 ,664-,296 -,142 -,219 ,592 ,664 1,000
,000 ,000 ,004 ,001 ,019,000 ,000 ,063 ,048 ,162,000 ,000 ,037 ,007 ,063,004 ,063 ,037 ,000 ,000,001 ,048 ,007 ,000 ,000,019 ,162 ,063 ,000 ,000
X_1X_2X_3X_4X_5X_6X_1X_2X_3X_4X_5X_6
Correlation
Sig. (1-tailed)
X_1 X_2 X_3 X_4 X_5 X_6
Determinant = ,019a.
Kintamieji 1X , 2X ir 3X reikšmingai stipriai koreliuoja tarpusavyje, hipotezės apie koreliacijoskoeficientų lygybę nuliui, atmestos (p = 0,000 < 0,05).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
228
Anti-image Matrices
,210 -,131 -,013 ,045 ,066 ,013-,131 ,172 -,125 -,007 -,058 -,017-,013 -,125 ,307 -,020 ,071 ,004,045 -,007 -,020 ,540 -,152 -,157,066 -,058 ,071 -,152 ,426 -,203,013 -,017 ,004 -,157 -,203 ,504,756a -,690 -,053 ,133 ,221 ,040
-,690 ,649a -,546 -,022 -,215 -,057-,053 -,546 ,811a -,049 ,195 ,010,133 -,022 -,049 ,824a -,317 -,301,221 -,215 ,195 -,317 ,735a -,438,040 -,057 ,010 -,301 -,438 ,767a
X_1X_2X_3X_4X_5X_6X_1X_2X_3X_4X_5X_6
Anti-image Covariance
Anti-image Correlation
X_1 X_2 X_3 X_4 X_5 X_6
Measures of Sampling Adequacy(MSA)a.
DuomenDuomenųų tinkamumas tinkamumas faktorineifaktorinei analizeianalizei
Matricos įstrižainėje yra Kintamojo stebėjimų tinkamumo matas – MSA (Measure of samplingAdequacy). Rekomenduojama iš pradinių kintamųjų rinkinio pašalintikintamuosius, kuriems 5,0<MSA . Mūsų atveju visų kintamųjų MSAreikšmės yra didesnės už 0,5 - visi kintamųjų 621 ,,, XXX … stebėjimaiyra tinkami faktorinei analizei.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
229
DuomenDuomenųų tinkamumas tinkamumas faktorineifaktorinei analizeianalizei
KMO and Bartlett's Test
,747
183,60115
,000
Kaiser-Meyer-Olkin Measure of SamplingAdequacy.
Approx. Chi-SquaredfSig.
Bartlett's Test ofSphericity
KMO matas parodo, ar analizuojamiems duomenims iš viso galima takyti faktorinę analizę. Jeigu šio kriterijaus reikšmė yra mažesnė už 0,6, tuomet faktorinė analizė nepriimtina. Mūsų atveju KMO= 0,747,todėl duomenų aibė pakrnčiamai tinka faktorinei analizei. Bartleto sferiškumo kriterijus (KMO and Bartlett‘s Test) parodo, ar tarp analizuojamųkintamųjų yra statistiškai reikšmingai koreliuojančių, t.y. tikrinama hipotezė „Visi stebimikintamieji yra nekoreliuoti“. Gavome, kad nulinė hipotezė yra atmesta(p=0,000<0,05).Turimiems duomenims faktorinė analizė turi prasmę.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
230
FaktoriFaktoriųų iiššskyrimasskyrimasTotal Variance Explained
3,297 54,951 54,951 3,297 54,951 54,951 2,611 43,524 43,5241,603 26,718 81,669 1,603 26,718 81,669 2,289 38,145 81,669
,420 7,005 88,674,328 5,465 94,139,248 4,131 98,270,104 1,730 100,000
Component123456
Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings
Extraction Method: Principal Component Analysis.
Faktorių išskyrimui naudojome pagrindinių komponenčių metodą (Principal Components). Faktoriaus 1F tikrinė reikšmė (Initial Eigenvalues) yra lygi 3,297 ir tai sudaro net 55% bendros visų kintamųjų dispersijos. Pastebėsime, kad faktoriais 1F ir 2F galime paaiškinti 82% visos kintamųjų 1X , 2X , 3X , 4X , 5X ir 6X dispersijos. Likę faktoriai 63 ,, FF … paaiškina tik nedidelę dispersijos dalį (18%), todėl juos atmetame.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
231
FaktoriFaktoriųų iiššskyrimasskyrimasTotal Variance Explained
3,297 54,951 54,951 3,297 54,951 54,951 2,611 43,524 43,5241,603 26,718 81,669 1,603 26,718 81,669 2,289 38,145 81,669
,420 7,005 88,674,328 5,465 94,139,248 4,131 98,270,104 1,730 100,000
Component123456
Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings
Extraction Method: Principal Component Analysis.
Kaiserio kriterijus (Extraction Sums of Squared Loadings). Rekomenduoja išskirti tik tuos faktorius, kurių tikrinės reikšmės yra didesnės už 1. Gauti rezultatai rodo, kad tikslinga išskirti tik faktorius
1F ir 2F (tikrinės reikšmės atitinkamai lygios 3,297 ir 1,603).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
232
Faktorių tikrinių reikšmių grafike (Scree plot) aiškiai matomas „lūžis“ tarp tikriniųreikšmių 2 ir 3, kuris rodo, kad reikia nagrinėti tik 2 faktorius.
654321
Factor Number
3
2
1
0
Eige
nval
ue
Scree Plot
FaktoriFaktoriųų iiššskyrimasskyrimas
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
233
FaktoriFaktoriųų iiššskyrimasskyrimasTotal Variance Explained
3,297 54,951 54,951 3,297 54,951 54,951 2,611 43,524 43,5241,603 26,718 81,669 1,603 26,718 81,669 2,289 38,145 81,669,420 7,005 88,674,328 5,465 94,139,248 4,131 98,270,104 1,730 100,000
Component123456
Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings
Extraction Method: Principal Component Analysis.
Atlikus faktorių sukimą, jų struktūra buvo optimizuota (Rotation Sums of Squared Loadings), t.y. dabar faktoriai 1F ir 2F yra beveik vienodos svarbos. Prieš sukimą faktorius 1F paaiškino 55% bendros visų kintamųjų dispersijos, o po sukimo šis rodiklis sumažėjo iki 44%. Tačiau faktoriui 2F šis rodiklis padidėjo nuo 27% iki 38%. Bendra faktoriais 1F ir 2F paaiškinama dispersijos dalis yra nepakitusi (82%).
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
234
Communalities
1,000 ,8741,000 ,9271,000 ,8371,000 ,7161,000 ,7771,000 ,769
X_1X_2X_3X_4X_5X_6
Initial Extraction
Extraction Method: Principal Component Analysis.
Component Matrix a
,865 ,356,780 ,564,797 ,449
-,653 ,538-,713 ,519-,610 ,630
X_1X_2X_3X_4X_5X_6
1 2Component
Extraction Method: Principal Component Analysis.2 components extracted.a.
Kintamųjų bendrumai (Communalities) po faktorių išskyrimo rodo, kokią kiekvieno kintamojo dispersijos dalį galime paaiškinti faktoriais 1F ir 2F . Pavyzdžiui, 87,4% kintamojo 1X dispersijos galime paaiškinti faktoriais 1F ir 2F . Analogiškai interpretuojami ir likusių kintamųjų 2X , ..., 6X bendrumai. Faktorių svorių matrica (Component Matrix) parodo kintamųjų ir faktorių ryšius. Priminsime, kad faktorius ir kintamasis laikomi stipriai susiję, jeigu faktoriaus svoris 6.0≥ija . Faktorių svorių matricoje matome, kad pavyzdžiui, faktorius 1F
yra reikšmingai susijęs su visais kintamaisiais 1X , 2X , 3X , 4X , 5X ir 6X . Tačiau minėti kintamieji aprašo skirtingus dalykus, todėl faktoriaus 1F neįmanoma tinkamai interpretuoti.
FaktoriFaktoriųų iiššskyrimasskyrimas
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
235
FaktoriFaktoriųų iiššskyrimasskyrimas
1,00,50,0-0,5-1,0
Component 1
1,0
0,5
0,0
-0,5
-1,0
Com
pone
nt 2
X_6X_5X_4X_3
X_2
X_1
Component Plot
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
236
FaktoriFaktoriųų sukimassukimas
Rotated Component Matrixa
,894 -,276,961 -,061,901 -,160
-,161 ,831-,220 ,854-,070 ,874
X_1X_2X_3X_4X_5X_6
1 2Component
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.
Rotation converged in 3 iterations.a.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
237
FaktoriFaktoriųų sukimassukimas
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
238
FaktoriFaktoriųų interpretavimasinterpretavimas
Faktoriai buvo pasukti naudojant ortogonalųjį Varimax sukimą (žr. Rotated Component Matrix).
Po sukimo faktorius 1F yra stipriai susijęs su kintamaisiais 1X , 2X ir 3X (svoriai didesni už 0,6)ir
visiškai nenusijęs su kintamaisiais 4X , 5X ir 6X (svoriai moduliu mažesni už 0,3). Faktorius 2F
yra stipriai susijęs su kintamaisiais 4X , 5X ir 6X (svoriai moduliu didesni už 0,6 )ir visiškai
nenusijęs su kintamaisiais 1X , 2X ir 3X (svoriai moduliu mažesni už 0,3). Taigi, dabar faktorius
interpretuoti yra žymiai lengviau.
Faktorius 1F yra stipriai susijęs su kintamaisiais 1X , 2X ir 3X , kuriais įvertinama dabartinių santykių vertė, todėl faktorių 1F galime pavadinti „Dabartinių santykių vertė“. Panašiai samprotaudami apibūdinsime ir kitą faktorių: kintamaisiais 4X , 5X ir 6X įvertinama alternatyvos vertė, todėl 2F galime įvardinti „Alternatyvos vertė“.
ESF/2004/2.5.0-K01-021/SUT-167BPD2004-ESF-2.5.0-03-05/0042
Lietuvos duomenų archyvas (LIDA)
239
Ačiū už dėmesį !