Upload
vunguyet
View
225
Download
6
Embed Size (px)
Citation preview
UNIVERZA NA PRIMORSKEM
PEDAGOŠKA FAKULTETA
BORIS KOŽUH
STATISTIČNE METODE V PEDAGOŠKEM
RAZISKOVANJU
KOPER 2010
OSNOVNI POJMI ................................................................................................................................................ 6
I. MNOŢIČNI POJAVI ........................................................................................................................................... 6
II. STATISTIČNE MNOŢICE IN ENOTE ................................................................................................................... 6
III. SPREMENLJIVKE ........................................................................................................................................... 8
1. Opisne in številske spremenljivke ............................................................................................................. 8
2. Merske lestvice ......................................................................................................................................... 9
3. Uporaba statističnih metod .................................................................................................................... 12
4. Zvezne in nezvezne spremenljivke .......................................................................................................... 13
5. Odvisne in neodvisne spremenljivke ...................................................................................................... 14
IV. PARAMETRI ................................................................................................................................................ 15
DRUGO POGLAVJE ......................................................................................................................................... 16
UREJEVANJE PODATKOV ............................................................................................................................ 16
I. UREJEVANJE PODATKOV ZA OPISNE SPREMENLJIVKE .................................................................................... 16
II. UREJEVANJE PODATKOV ZA ŠTEVILSKE SPREMENLJIVKE ............................................................................. 22
1. Ranžirna vrsta ........................................................................................................................................ 23
2. Frekvenčna porazdelitev ........................................................................................................................ 24
III. PRIPRAVA PODATKOV ZA RAČUNALNIŠKO OBDELAVO ......................... NAPAKA! ZAZNAMEK NI DEFINIRAN.
1. Zbiranje podatkov ................................................................................. Napaka! Zaznamek ni definiran.
2. Seznam spremenljivk ............................................................................. Napaka! Zaznamek ni definiran.
3. Zapisovanje vrednosti ........................................................................... Napaka! Zaznamek ni definiran.
4. Neposredno in posredno vnašanje ........................................................ Napaka! Zaznamek ni definiran.
TRETJE POGLAVJE ........................................................................................................................................ 27
RANGI ................................................................................................................................................................. 27
I. ABSOLUTNI RANGI ........................................................................................................................................ 27
II. RELATIVNI RANGI ........................................................................................................................................ 28
III. ZNAČILNI KVANTILNI RANGI IN KVANTILI ........................................... NAPAKA! ZAZNAMEK NI DEFINIRAN.
1. Delitev na polovici ................................................................................ Napaka! Zaznamek ni definiran.
2. Delitev na četrtine ................................................................................. Napaka! Zaznamek ni definiran.
3. Delitev na desetine ................................................................................ Napaka! Zaznamek ni definiran.
4. Delitev na stotine .................................................................................. Napaka! Zaznamek ni definiran.
ČETRTO POGLAVJE ....................................................................................................................................... 29
SREDNJE VREDNOSTI .................................................................................................................................... 29
I. PRIMERJANJE MNOŢIC ................................................................................................................................... 29
II. SREDNJE VREDNOSTI .................................................................................................................................... 30
III. IZRAČUNAVANJE ARITMETIČNE SREDINE .................................................................................................... 33
1. Računanje iz individualnih podatkov ..................................................................................................... 33
2. Računanje iz frekvenčne porazdelitve ................................................... Napaka! Zaznamek ni definiran.
IV. TEHTANA ARITMETIČNA SREDINA ....................................................... NAPAKA! ZAZNAMEK NI DEFINIRAN.
Tehtan strukturni odstotek .................................................................................. Napaka! Zaznamek ni definiran.
PETO POGLAVJE ............................................................................................................................................. 34
RAZPRŠENOST ................................................................................................................................................. 34
I. POJEM RAZPRŠENOSTI ................................................................................................................................... 34
II. VIRI RAZPRŠENOSTI ..................................................................................................................................... 35
III. MERJENJE RAZPRŠENOSTI ........................................................................................................................... 36
1. Razpršenost podatkov za nominalne spremenljivke ............................................................................... 37
2. Razpršenost podatkov za ordinalne spremenljivke ................................................................................ 38
3. Razpršenost podatkov za intervalne spremenljivke ................................................................................ 39
IV. MERE RAZPRŠENOSTI ................................................................................................................................. 40
1.Variacijski razmik ................................................................................................................................... 40
2. Decilni razmik ........................................................................................................................................ 41
3. Kvartilni razmik ..................................................................................................................................... 42
4. Kvartilni odklon ..................................................................................................................................... 42
5. Povprečni absolutni odklon ................................................................................................................... 43
6. Varianca in standardni odklon ............................................................................................................... 44
V. IZRAČUNAVANJE VARIANCE ........................................................................................................................ 45
1. Računanje iz individualnih podatkov ..................................................................................................... 45
2. Računanje iz frekvenčne porazdelitve ................................................... Napaka! Zaznamek ni definiran.
VI. RELATIVNA MERA RAZPRŠENOSTI ....................................................... NAPAKA! ZAZNAMEK NI DEFINIRAN.
VII. RELATIVNI ODKLON ........................................................................... NAPAKA! ZAZNAMEK NI DEFINIRAN.
VIII. ANALIZA RAZPRŠENOSTI ......................................................................................................................... 46
Računanje pojasnjene in nepojasnjene variance ...................................... Napaka! Zaznamek ni definiran.
ŠESTO POGLAVJE ........................................................................................................................................... 49
NORMALNA PORAZDELITEV ...................................................................................................................... 49
I. POJEM IN ZNAČILNOSTI ................................................................................................................................. 49
II. UPORABA TABELE IN ZAKONITOSTI ....................................................... NAPAKA! ZAZNAMEK NI DEFINIRAN.
1. Določanje odstotka vrednosti, ki so pod neko vrednostjo spremenljivke ............... Napaka! Zaznamek ni
definiran.
2. Določanje odstotka vrednosti, ki so nad neko vrednostjo spremenljivke ............... Napaka! Zaznamek ni
definiran.
3.Določanje odstotka vrednosti, ki so v nekem razmiku ............................ Napaka! Zaznamek ni definiran.
4.Določanje rezultata, pod katerim je dani odstotek enot ......................... Napaka! Zaznamek ni definiran.
5.Določanje meja, med katerima je dani odstotek enot ............................ Napaka! Zaznamek ni definiran.
6. Upoštevanje narave zveznih spremenljivk ............................................. Napaka! Zaznamek ni definiran.
SEDMO POGLAVJE ......................................................................................................................................... 51
KORELACIJE .................................................................................................................................................... 51
I. POJEM IN VRSTE KORELACIJE ........................................................................................................................ 51
1. Razmerje med korelacijo in vzročno-posledičnimi zvezami ................................................................... 54
2. Korelacijski grafikon.............................................................................................................................. 55
3. Pozitivna in negativna korelacija ........................................................................................................... 56
4. Linearna in nelinearna korelacija ......................................................................................................... 56
II. INDEKS KORELACIJE..................................................................................................................................... 57
III. KORELACIJSKI KOEFICIENTI ........................................................................................................................ 58
1. Pearsonov korelacijski koeficient .......................................................................................................... 58
Interpretacija Pearsonovega korelacijskega koeficienta ......................................................................................... 60
2. Korelacija ranga .................................................................................................................................... 61
3. Biserialni korelacijski koeficient ........................................................... Napaka! Zaznamek ni definiran.
4. Točkovni biserialni korelacijski koeficient ............................................ Napaka! Zaznamek ni definiran.
5. Tetrakorični korelacijski koeficient ....................................................... Napaka! Zaznamek ni definiran.
6. Korelacijsko razmerje ........................................................................... Napaka! Zaznamek ni definiran.
IV. REGRESIJA .................................................................................................................................................. 63
V. PARCIALNA KORELACIJA ............................................................................................................................. 65
1. Parcialni korelacijski koeficent prvega reda ........................................ Napaka! Zaznamek ni definiran.
2. Parcialni korelacijski koeficent drugega reda ...................................... Napaka! Zaznamek ni definiran.
OSMO POGLAVJE ............................................................................................................................................ 66
VZORČENJE ...................................................................................................................................................... 66
I. OSNOVNE MNOŢICE IN VZORCI ...................................................................................................................... 66
1. Zakaj sploh vzorčimo ............................................................................................................................. 67
2. Posploševanje z vzorca na osnovno množico ......................................................................................... 68
3. Reprezentativnost vzorca ....................................................................................................................... 69
O razpršenosti spremenljivke v osnovni mnoţici ................................................................................................... 69
O velikosti vzorca .................................................................................................................................................. 69
O načinu izbora enot v vzorec ................................................................................................................................ 70
4. Izbiranje vzorcev .................................................................................................................................... 70
Slučajnostni izbor .................................................................................................................................................. 70
Sistematični izbor .................................................................................................................................................. 72
Namenski izbor ...................................................................................................................................................... 75
Priloţnostni izbor ................................................................................................................................................... 75
Enostopenjsko in večstopenjsko vzorčenje ............................................................................................................ 76
Izbiranje s ponavljanjem ........................................................................................................................................ 78
Stratificirano vzorčenje ....................................................................................... Napaka! Zaznamek ni definiran.
Veliki in mali vzorci .............................................................................................................................................. 78
Odvisni in neodvisni vzorci ................................................................................................................................... 79
5. Enostavni slučajnostni vzorec ................................................................................................................ 80
6. Posploševanje na hipotetično osnovno množico .................................................................................... 80
7. Oznake za parametre ............................................................................................................................. 81
II. OCENJEVANJE PARAMETROV ....................................................................................................................... 82
1. Množica vzorcev in množica vseh vzorcev ............................................ Napaka! Zaznamek ni definiran.
2. Porazdelitev vzorčnih parametrov ........................................................ Napaka! Zaznamek ni definiran.
3. Ocenjevanje aritmetične sredine z velikimi enostavnimi slučajnostnimi vzorci ..... Napaka! Zaznamek ni
definiran.
Standardna napaka ocene aritmetične sredine ..................................................... Napaka! Zaznamek ni definiran.
4. Ocenjevanje strukturnega odstotka z velikimi enostavnimi slučajnostnimi vzorci . Napaka! Zaznamek ni
definiran.
Standardna napaka ocene strukturnega odstotka ................................................. Napaka! Zaznamek ni definiran.
5. Ocenjevanje standardnega odklona z velikimi enostavnimi slučajnostnimi vzorci Napaka! Zaznamek ni
definiran.
6. Ocenjevanje Pearsonovega korelacijskega koeficienta z velikimi enostavnimi slučajnostnimi vzorci
.................................................................................................................. Napaka! Zaznamek ni definiran.
Standardna napaka ocene korelacijskega koeficienta .......................................... Napaka! Zaznamek ni definiran.
III. PREIZKUŠANJE HIPOTEZ .............................................................................................................................. 84
1. Preizkušanje hipotez o razliki med aritmetičnimi sredinami z velikimi enostavnimi slučajnostnimi
vzorci .......................................................................................................................................................... 85
Standardna napaka .............................................................................................. Napaka! Zaznamek ni definiran.
2. Preizkušanje hipotez o razliki med strukturnimi odstotki z velikimi enostavnimi slučajnostnimi vzorci
.................................................................................................................. Napaka! Zaznamek ni definiran.
Standardna napaka .............................................................................................. Napaka! Zaznamek ni definiran.
3. Preizkušanje hipotez o razliki med standardnimi odkloni z velikimi enostavnimi slučajnostnimi vzorci
.................................................................................................................. Napaka! Zaznamek ni definiran.
Standardna napaka razlike .................................................................................. Napaka! Zaznamek ni definiran.
4. Preizkušanje hipotez o razliki med Pearsonovimi korelacijskimi koeficienti z velikimi enostavnimi
slučajnostnimi vzorci ................................................................................ Napaka! Zaznamek ni definiran.
Standardna napaka razlike .................................................................................. Napaka! Zaznamek ni definiran.
IV. Χ2-PREIZKUS ............................................................................................................................................... 87
1. Preizkušanje hipoteze neodvisnosti ........................................................................................................ 87
Prostostne stopinje .............................................................................................. Napaka! Zaznamek ni definiran.
Pričakovane frekvence ........................................................................................ Napaka! Zaznamek ni definiran.
Hitrejši način računanja vrednosti χ2 .................................................................. Napaka! Zaznamek ni definiran.
Poročanje o preizkusu pri računalniški obdelavi ................................................. Napaka! Zaznamek ni definiran.
Pogoj za uporabo χ2-preizkusa ............................................................................ Napaka! Zaznamek ni definiran.
Ukrepi pri neizpolnjenih pogojih ........................................................................ Napaka! Zaznamek ni definiran.
2. Preizkušanje hipoteze enake verjetnosti ................................................................................................. 89
V. KOEFICIENTI KONTINGENCE ........................................................................................................................ 90
1. Pearsonov kontingenčni koeficient ........................................................................................................ 91
2. Cramérjev koeficient .............................................................................................................................. 92
3.Koeficient ............................................................................................ Napaka! Zaznamek ni definiran.
VI. NAPAKE PRI OCENJEVANJU PARAMETROV IN PREIZKUŠANJU HIPOTEZ ........................................................ 93
LITERATURA .................................................................................................................................................... 94
PRVO POGLAVJE
OSNOVNI POJMI
I. Mnoţični pojavi
V empiričnih pedagoških raziskavah proučujemo enkratne pojave in mnoţične
pojave. Enkratni pojavi so tisti, ki nastopajo samo enkrat, mnoţični pa se
pojavljajo večkrat (več kot le enkrat). Osnovna šola Ledina je enkraten pojav,
osnovna šola nasploh pa mnoţični pojav (saj jih je v Sloveniji več kot petsto).
Učenec J. M. iz kraja C. je enkratni pojav, učenec osnovne šole pa je mnoţični
pojav.
Pri proučevanju mnoţičnih pojavov pogosto uporabljamo statistične metode, pri
preučevanju enkratnih pa ne. S temi, sicer bolj kvantitativnimi metodami,
proučujemo hkrati kvantitativne in kvalitativne značilnosti in zakonitosti
vzgojnih (pedagoških) pojavov. Čeprav je definicija mnoţičnih pojavov
preprosta, je slabo uporabna za presojo, kdaj uporabiti statistične metode, kdaj
pa ne. Če bomo, na primer imeli "mnoţico" dveh ali treh učiteljev, ne bomo za
njeno preučevanje uporabili statističnih metod (pa čeprav po definiciji gre za
mnoţični pojav). Naj velja, da bomo statistične metode uporabili takrat, ko
bomo preučevali vendarle "malo bolj mnoţične" pojave - mnoţice velikosti od
ene vzgojne skupine navzgor (šolskega oddelka, učne skupine, kroţka in
podobno). Šele pri takšni velikosti bodo statistične metode zares uporabne.
Seveda ni nobene ostre meje, kar se zlasti lepo vidi, če si zastavimo napačno
vprašanje: "Pri kateri velikosti skupine ţe smemo uporabiti statistične metode?"
Odgovor na takšno vprašanje bi seveda bil: "Ţe pri dveh enotah!" Vendar pa
raba statističnih metod na tako majhnih skupinah ni smiselna in smotrna.
II. Statistične mnoţice in enote
Enote, ki sestavljajo mnoţice v pedagoških raziskavah, so lahko učenci, gojenci,
učitelji, dijaki, ravnatelji, a tudi šole, vrtci, dijaški domovi, učbeniki, delovni
zvezki, učni načrti, računalniki, šolsko pohištvo, šolske stavbe, učne ure,
ekskurzije, šolske ocene, izdelki učencev, vprašanja, računalniki itd.
V empiričnih raziskavah nas vedno zanima neka konkretna skupina. Da bi jo
lahko preučili, jo moramo natančno opredeliti. Tako dobimo statistično
mnoţico; zanjo potem lahko uporabimo statistične metode. Opredeliti jo,
pomeni določiti pogoje, ki opredeljujejo, kdo vanjo sodi in kdo ne. To so
opredeljujoči pogoji:
- s stvarnim opredeljujočim pogojem določimo, kaj (ali kdo) so enote te
mnoţice,
- s krajevnim opredeljujočim pogojem določimo geografske razseţnosti
mnoţice,
- s časovnim opredeljujočim pogojem določimo čas, v katerem bomo zajeli
mnoţico.
Vse enote, ki ustrezajo opredeljujočim pogojem, sodijo v tako opredeljeno
statistično mnoţico. S temi pogoji so natančno določene enote statistične
mnoţice in s tem tudi celotna statistična mnoţica. Če katerikoli od teh pogojev
manjka, statistična mnoţica ni zadosti natančno določena in se ne ve, kdo (ali
kaj) jo sestavlja.
Ilustrirajmo to z nekaj primeri ustrezno opredeljenih statističnih mnoţic:
Ravnatelji osnovnih šol v Sloveniji v šolskem letu 1998/99.
Dijaki gimnazij v Ljubljani na dan 20. februarja 2001.
Osnovne šole v dolenjski regiji v šolskem letu 1999/2000.
Preprosteje je, če časovni opredeljujoči pogoj ni določen v predolgem intervalu
(celo šolsko leto, semester, polletje ali kaj podobnega). Če se nanaša na celo
šolsko leto, moramo zajeti (v nekem smislu čakati) vse enote, ki se pojavijo v
tistem šolskem letu. V prvem primeru bi bili to vsi ravnatelji, tudi tisti, ki so
med šolskim letom postali ravnatelji. Za praktično izvedbo raziskave je to
pogosto precejšnja ovira (še zlasti za zbiranje podatkov). Običajno
opredeljujemo mnoţice v celih šolskih letih le kadar jemljemo podatke iz ţe
obstoječe dokumentacije: npr. iz dokumentacije zavoda za statistiko, zavoda za
šolstvo, ministrstev in podobno. Kadar pa sami zbiramo podatke, si mnoţice
pogosteje opredeljujemo trenutno - z nekim datumom. Res je, da tudi dan
(datum) ni povsem dosledno trenutna opredelitev; tudi dan je interval
štiriindvajsetih ur.
Ne bomo širili razprave o časovnem pogoju na filozofska vprašanja trenutnega
opredeljevanja statističnih mnoţic. Zato le povejmo, da nekatere pojave moramo
opredeliti intervalno: število opravljenih učnih ur (npr. v enem tednu, mesecu ali
šolskem letu), število pobegov iz dijaškega doma (npr. v mesecu ali letu), število
seminarjev, ki so se jih učitelji udeleţili (npr. v zadnjih treh letih) itd. Takšnih
mnoţic nikakor ne moremo opredeliti trenutno; mnoge pa lahko opredelimo
trenutno ali intervalno. Bistveno je, da je časovni opredeljujoči pogoj jasno in
nedvoumno določen.
Statistično mnoţico v raziskovalnem poročilu običajno imenujemo raziskovalna
mnoţica ali tudi kar kratko - mnoţica. Bistveno drugače pa statistične mnoţice
imenujemo v vzorčnih raziskavah, kjer iz mnoţice izberemo le manjši del.
Takrat celotno statistično mnoţico imenujemo osnovna mnoţica, manjši izbrani
del pa vzorec (ali redkeje: vzorčna mnoţica).
III. Spremenljivke
Enote statistične mnoţice imajo nešteto lastnosti. Vsaka takšna lastnost je
spremenljivka. Naštejmo nekaj najpogostejših enot in njihovih lastnosti. Seveda
lahko naštejemo le nekaj najpomembnejših lastnosti, saj jih je v resnici nešteto.
Tabela 1. Statistične enote in spremenljivke
enota lastnosti ali spremenljivke
učenec starost, ocene, prizadevnost, spol, narodnost,
interesi, telesna višina, telesna teţa itd.
učitelj leta prakse, stopnja izobrazbe, kateri predmet uči,
kraj, kjer je zaposlen itd.
šola število učencev na šoli, stopnja šole (osnovna,
srednja itd.), kako dolgo ţe deluje, koliko oddelkov
ima, koliko je zaposlenih itd.
učbenik število strani, avtor, cena, format, število ilustracij,
leto izdaje itd.
delavska univerza katere programe izvaja, število zaposlenih, kraj, v
katerem ima sedeţ itd.
Proučevati enote (in s tem mnoţice) pomeni proučevati njihove lastnosti –
spremenljivke. Zato je spremenljivka osrednji pojem statistike. Vsebina
praktično vseh statističnih metod je obdelava podatkov za spremenljivke. Ker
vsakokrat raziskujemo pedagoške pojave z drugačnim namenom, bomo
vsakokrat proučevali neke druge spremenljivke (tudi takrat, ko bo šlo za
podobne ali celo iste mnoţice!).
1. OPISNE IN ŠTEVILSKE SPREMENLJIVKE
Spremenljivke lahko delimo po različnih kriterijih. Začeli bomo z eno
preprostejših delitev: po tem, kako spremenljivkam izraţamo vrednosti.
Spremenljivke, ki jim vrednosti izraţamo z besedami, imenujemo opisne ali
atributivne. Takšne spremenljivke so spol, narodnost, stopnja izobrazbe itd.
Tabela 2. Opisne spremenljivke
spremenljivka vrednosti
spol ţenski, moški
stopnja šole osnovna, srednja, višja, visoka itd.
znanje tujega
jezika
pasivno, aktivno
ali tudi: dobro, srednje, slabo
prisotnost vedno, pogosto, včasih, nikoli
šolski uspeh odličen, prav dober, dober, zadosten, nezadosten
Spremenljivke, ki jim vrednosti izraţamo s številkami, imenujemo številske ali
numerične.
Tabela 3. Številske spremenljivke
spremenljivka vrednosti
telesna višina v cm 154, 155, 156 itd
starost v letih 9, 10, 11, 12 itd.
leta prakse 2, 15, 24, 33 itd
število učencev v oddelku 19, 20, 21, 22, 23 itd.
Majhno nejasnost v tej delitvi povzroča dejstvo, da vrednosti nekaterih
spremenljivk izraţamo hkrati besedno in številčno. Najbolj značilen primer so
šolske ocene. Ali je šolska ocena opisna ali številska spremenljivka? V takšnih
primerih moramo razmisliti, kakšna je narava spremenljivke. Bistvena je namreč
narava spremenljivke in ne zgolj oblika, kako so zapisane vrednosti. Razmislek
bi nam hitro pokazal, da je pri šolski oceni bistvena beseda in ne številka.
Odlična ocena je povsod najboljša, vedno je med ocenami najvišja, izraţena pa
je lahko z različnimi številkami (pri nas s številko 5, na Poljskem s številko 6, v
Italiji s številko 1, na naših univerzah s številko 10, na italijanskih s 30 itd.). Po
svojem bistvu je opisna in ne številska spremenljivka.
2. MERSKE LESTVICE
Veliko večji pomen v statistiki ima delitev glede na vrsto informacije, ki jo
vsebujejo rezultati merjenja (podatki, vrednosti spremenljivke). Glede na ta
kriterij razlikujemo štiri vrste spremenljivk (štiri merske lestvice):
1. nominalne,
2. ordinalne,
3. intervalne,
4. razmernostne.
Nominalne spremenljivke vsebujejo informacijo, po kateri lahko ugotovimo le
ali se enote razlikujejo ali se ne razlikujejo. Takšna spremenljivka je spol. Po
spolu lahko ugotovimo ali sta dva učenca enakega ali različnega spola. Za
vrednosti nominalnih spremenljivk uporabljamo raje izraz kategorije. Nekatere
nominalne spremenljivke imajo le dve kategoriji, nekatere pa več kategorij:
Tabela 4. Nominalne spremenljivke z dvema kategorijama
spremenljivka kategorije
spol moški, ţenski
ali je dijak član neke organizacije je član, ni član
ali se pri pisnem izpitu lahko uporablja
literatura
da, ne
ali ima učenka svojo pisalno mizo ima, nima
Tabela 5. Nominalne spremenljivke z več kategorijami
spremenljivka kategorije
narodnost Kitajec, Francoz, Slovenec itd.
smer študija na univerzi pedagogika, pravo, kemija, strojništvo
itd.
kakšne oddaje učenci najraje
gledajo na TV
športne, informativne, dokumentarne,
izobraţevalne itd.
kakšno strokovno literaturo
učiteljice uporabljajo
revije, knjige, časopise, priročnike itd.
Nikakor ni mogoče kategorij nominalne spremenljivke razvrstiti po velikosti od
manjših do večjih, ker te lastnosti nominalne spremenljivke nimajo.
Poenostavljeno bi lahko rekli, da so vse kategorije na isti ravni. Nominalne
spremenljivke so čiste atributivne spremenljivke in nimajo kvantitativne osnove.
Pri presojanju, ali je neka spremenljivka nominalna ali "pa kaj več", moramo biti
pazljivi in presoditi na podlagi bistva spremenljivke in ne na podlagi
poimenovanja njenih kategorij. Pokaţimo to s primerom: V neki anketi smo
učence vprašali, ali jim je bila všeč gledališka predstava. Kot moţne odgovore
smo postavili le kategoriji DA in NE. Toda ta spremenljivka ni nominalna.
Zadovoljnost se stopnjuje; ne gre za to, da eni sploh niso zadovoljni, drugi so pa
popolnoma zadovoljni. Gre v bistvu za niţjo in višjo stopnjo zadovoljnosti.
Podobno je z mnogimi takšnimi pojavi (zainteresiranost, motiviranost itd.).
Nominalno spremenljivko bi dobili, če bi učence, npr. vprašali, ali so bili na
gledališki predstavi. Tukaj bi odgovori DA in NE bili bistveno drugačni kot v
prejšnjem vprašanju. Zunanji videz imena spremenljivke ali njenih kategorij nas
lahko pogosto zavede.
Ordinalne spremenljivke vsebujejo takšno informacijo, po kateri lahko
ugotovimo ali so enote enake ali različne in nekaj več: vrednosti se stopnjujejo
in so lahko večje ali manjše. Vrednosti takšne spremenljivke lahko razvrstimo
od najmanjše do največje (in s tem tudi enote). Za dve enoti lahko torej
ugotovimo, katera je na lestvici višje in katera niţje. Vrednostim ordinalne
spremenljivke običajno rečemo stopnje (redkeje pa kategorije). Stopnje na tej
lestvici niso vse na isti ravni kot pri nominalnih spremenljivkah, temveč se
stopnjujejo - izraţajo neko količino (kvantitativno osnovo). Značilna ordinalna
spremenljivka je stopnja izobrazbe. Ordinalne spremenljivke najpogosteje
dobimo pri anketiranju, opazovanju ter uporabi ocenjevalnih lestvic in lestvic
stališč. Pogosto se ţe iz oblike anketnega vprašanja vidi, da gre za ordinalno
spremenljivko: npr. "koliko ste zadovoljni..." ali "koliko berete..." itd. Tudi
kategorije ordinalne spremenljivke nakazujejo kvantitativno osnovo: zelo,
srednje, malo; pogosto, včasih, redko itd. Zato kategorijam ordinalne
spremenljivke pogosteje rečemo stopnje kot kategorije.
Pri ordinalni spremenljivki sicer vemo, katere stopnje so višje in katere so niţje,
ne vemo pa, kakšne so razlike med posameznimi stopnjami. Zato tudi ne
moremo reči, da so intervali med posameznimi stopnjami povsod enaki.
Največkrat vemo iz izkušenj, da ti intervali še zdaleč niso enaki. Ordinalno
lestvico si lahko zamislimo kot stopnišče z neenakimi stopnicami. Tudi, če bi pri
kakšni ordinalni spremenljivki intervali bili enaki (kar je teoretično moţno), bi
nam to dejstvo ostalo skrito.
Za stopnje ordinalnih spremenljivk poleg besed pogosto uporabljamo tudi
številke (za šolske ocene in šolski uspeh, za range v ranţirni vrsti itd.). Te
številke ustvarjajo videz, da gre za enake intervale. Zdi se, da je razlika med
zadostno in dobro oceno enaka razliki med dobro in prav dobro oceno. Pa
seveda ni. Tudi rangi, npr. kot vrstni red prihoda v cilj pri krosu, zakrivajo
dejanske razlike v doseţkih med učenci. Zdi se, kakor da so doseţki učencev
enakomerno nanizani od prvega do zadnjega; kakor da so razlike med njimi
enake (saj so med vsemi rangi enake razlike: med 4. do 5. je enaka razlika kot
med 16. in 17.). V bistvu so med posameznimi ocenami in tudi med
posameznimi rangi razlike neenake (seveda v tisti lastnosti, ki jo s temi ocenami
ali rangi izraţamo). Podobno je s spremenljivko doseţek na testu znanja, le da je
tu neenakost intervalov bolj zakrita. Zdi se, da je zares interval med, npr. 20 in
21 točk enak intervalu med 12 in 13 točk (vsakokrat gre le za eno točko in na
videz je "točka tu enaka točki tam"). Pa ni, saj je naraščanje teţavnosti od naloge
do naloge v testu neenakomerno. Vendarle pa je izenačenost intervalov pri
doseţkih na testu znanja v splošnem večja kot pri mnogih drugih ordinalnih
spremenljivkah.
Seveda bi bila izenačenost (enakost!) intervalov med posameznimi stopnjami
neke merske lestvice zelo dobrodošla lastnost. Nekatere spremenljivke, ki so
vmes med ordinalnimi in intervalnimi, pogosto obravnavamo kot intervalne
(npr. doseţke na testih znanja v točkah, rezultate na nekaterih ocenjevalnih
lestvicah in lestvicah stališč itd.). Pri tem pa vendarle ne smemo pozabiti,
kakšno je njihovo bistvo, zato moramo biti previdni v interpretaciji takšnih
rezultatov.
Intervalne spremenljivke so številske in imajo vse lastnosti ordinalnih
spremenljivk, le intervali med stopnjami so povsod enaki. Katere
spremenljivke so torej intervalne? To so tiste, ki imajo natančno določeno
mersko enoto (temperaturna lestvica v Celzijusovih stopinjah in podobno).
Intervalno lestvico si lahko zamislimo kot stopnišče z enako visokimi
stopnicami. Zaradi enakih intervalov lahko določimo, kakšna je razlika med
katerimikoli vrednostmi. Nimajo pa intervalne spremenljivke absolutne ničle. To
ni vselej vidno ţe na pogled. Zamislimo si test znanja, katerega vrednosti bi
tvorile intervalno lestvico. Ali ima takšna spremenljivka absolutno ničlo? Ker s
testom merimo znanje, lahko to vprašanje konkretiziramo: ali nič točk na testu
pomeni ničelno znanje? Seveda ne pomeni (pa čeprav se zdi, da je tako - v
vsakdanjem ţivljenju bi takšen rezultat vsi komentirali: »Ah, saj nič ne zna!«).
Doseţek nič točk pomeni, da je imel učenec premalo znanja, da bi pravilno rešil
vsaj eno nalogo. Da ničla res ni absolutna, se lahko prepričamo tudi s preprostim
poskusom. V test dodamo še eno izredno lahko nalogo – sedaj bo isti učenec
dosegel točko. Pa je vendar to isti učenec; gre za isto znanje. Prvič bi površno
presodili, da ta učenec nič ne zna; drugič bi rekli, da nekaj malega le zna.
Ničelna točka je torej odvisna od teţavnosti nalog. Če so vse naloge v testu zelo
teţke, bo ničelna točka visoko in jo bodo le redki presegli. Če so naloge v testu
zelo lahke, bo ničelna točka nizko in jo bodo mnogi presegli. Vidimo, da ničelna
točka ni absolutna, ampak se lahko premika.
Razmernostne spremenljivke so tiste intervalne spremenljivke, ki imajo
absolutno ničlo. Ta lastnost razmernostnih spremenljivk omogoča presojo,
kolikokrat je neka vrednost večja od neke druge vrednosti. Takšnih primerjav
nam zgolj intervalne lestvice ne omogočajo (ker nimajo absolutne ničle).
Razmernostne spremenljivke so starost, telesna višina in teţa, število otrok v
razredu ali vzgojni skupini, število ur pouka, čas učenja, število prebranih knjig,
skok v višino itd.
Temperaturna lestvica Celzijusa nima absolutne ničle in je intervalna
spremenljivka. Zato ne moremo reči, da je temperatura 80° C štirikrat večja od
temperature 20° C. Temperaturna lestvica Calvina ima absolutno ničlo in
temperatura 80° K zares je štirikrat večja od temperature 20° K.
Vendar je ta prednost razmernostnih spremenljivk (v primerjavi z intervalnimi)
tako majhna, da nam omogoča le majhen korak naprej v statistični obdelavi.
Zato pogosto razmernostne in intervalne spremenljivke obravnavamo enako.
3. UPORABA STATISTIČNIH METOD
Zakaj je sploh pomembno vedeti, kakšne so spremenljivke? Od narave
spremenljivke je namreč odvisno, katere statistične metode zanjo lahko
uporabimo. Veljata dve pomembni splošni pravili:
1. Čim višje je spremenljivka v tej delitvi, tem več statističnih metod lahko
uporabimo pri obdelavi podatkov zanjo. Najmanj statističnih metod lahko
uporabimo za nominalne, nekaj več za ordinalne, še več za intervalne in
največ (vse!) za razmernostne.
2. Vse statistične metode, ki veljajo za neko vrsto spremenljivk, lahko
uporabimo za vse vrste, ki so višje v tej delitvi. Če neko metodo lahko
uporabimo, na primer za ordinalne spremenljivke, jo lahko tudi za intervalne
in razmernostne.
Pri vseh statističnih metodah bomo še sproti navajali, za katere spremenljivke jih
lahko uporabimo in za katere ne.
4. ZVEZNE IN NEZVEZNE SPREMENLJIVKE
Numerične spremenljivke lahko imajo vse vrednosti v nekem intervalu ali pa le
nekatere. Prve so zvezne in druge nezvezne. Za prispodobo bomo vzeli jato
ptičev. Predstavimo si telefonske ţice med dvema drogovoma ob cesti in ptiče
na njih. Nekateri ptiči se nagnetejo in sedijo na ţicah tesno drug ob drugem.
Druge vrste ptičev ne prenašajo telesnega dotika in sedijo na ţicah drug od
drugega oddaljeni decimeter ali dva. Stisnjeni drug ob drugega nam ponazarjajo
zvezne spremenljivke, ptiči na razmakih pa nezvezne.
Telesna višina je tipična zvezna spremenljivka. Če je učenec imel na začetku
šolskega leta 156 cm in na koncu 159 je v tem intervalu moral preiti čez vse
višine: npr. ni mogel “preskočiti” višine 158,65 cm. Podobno je tudi z
vrednostmi telesnih višin za skupino učencev: med najmanjšim in največjim
učencem v razredu lahko imajo ostali učenci kakršnokoli višino. Pri tem
moramo opozoriti, da v praksi običajno meritve telesne višine izraţamo v celih
centimetrih. Če bi omenjenega učenca vsakih nekaj mesecev merili pri šolskem
zdravniku, bi v kartoteki imel zabeleţene višine: 156, 157, 158 in na koncu 159
cm. Toda to ne spremeni bistva spremenljivke: učenec je postopno rasel od 156
cm do 157 cm itd. Zvezne spremenljivke lahko imajo vse vrednosti v nekem
intervalu. Ime zvezne izhaja iz tega, da se vrednosti nizajo neprekinjeno
(zvezno, brez “praznih mest”, med vrednostmi ni “preskokov”).
Število učencev v razredu je tipična nezvezna spremenljivka. Če je najmanjše
moţno število, npr. šestnajst in največje petindvajset, ima lahko ta
spremenljivka vrednosti le 16, 17, 18, 19, 20, 21 22, 23, 24 in 25. Med
sosednjima vrednostma ni nobene vrednosti (npr. med 16 in 17).
Naredimo še kratko miselno vajo. Imamo spremenljivko doseţek na testu
znanja. Vrednosti so izraţene v celih točkah. Za pravilno rešitev učenec dobi
točko, za nepravilno pa nič točk. To je nezvezna spremenljivka. Kaj pa, če
učitelj daje za delne rešitve po pol točke? Ali je sedaj, ko se pojavijo vmesne
vrednosti (npr. 11,5), ta spremenljivka zvezna? Odgovor je ne! Res je, da so
moţne vmesne vrednosti, toda med 11,5 in 12 spet ni nobenih vrednosti.
Spremenljivka lahko ima “samo” vrednosti enajst, enajst in pol, dvanajst,
dvanajst in pol itd. Torej je nezvezna.
Moramo povedati še to, da zvezne spremenljivke v praksi izraţamo z
nezveznimi vrednostmi. To smo videli ţe pri telesni višini; podobno je s
starostjo, telesno teţo, temperaturo itd. Navsezadnje je tudi znanje zvezna
spremenljivka, vedno pa jo izraţamo s točkami ali ocenami, ki so nezvezne.
Obratno pa je pri obdelavi podatkov. Mnoge nezvezne spremenljivke brez večje
škode obdelujemo kot da so zvezne, saj je to bolj preprosto.
5. ODVISNE IN NEODVISNE SPREMENLJIVKE
Spremenljivke po vlogi, ki jo imajo v medsebojnih povezavah, delimo na
neodvisne in odvisne. V najpreprostejših primerih proučujemo povezanost dveh
spremenljivk. V vsakem paru dveh povezanih spremenljivk ima ena vlogo
neodvisne (to je tista, ki deluje) in druga vlogo odvisne (tista na katero deluje).
Takšne vloge jim dajemo glede na naravo povezanosti med njima in glede na
namen raziskave. Ista spremenljivka je lahko v enem paru odvisna, v nekem
drugem paru pa neodvisna. Celo v istem paru lahko spremenljivki zamenjata
vlogi. Mnoge povezave vzgojnih pojavov niso enoznačne in enostranske. V paru
čas domačega učenja in šolska ocena štejemo, da je čas domačega učenja
neodvisna spremenljivka in šolska ocena odvisna. Vemo, da več učenja v
splošnem pomeni boljše ocene. Vendar je zveza tudi obratna: ocena, ki jo
učenec dobi v šoli, vpliva na to, koliko se bo učil. Torej je lahko tudi ocena
neodvisna in čas domačega učenja odvisna. Takšni primeri so na pedagoškem
področju pogosti. Zato so te delitve večinoma začasne. Hkrati pa poznamo vrsto
spremenljivk, ki so v pedagoških raziskavah „trajno” neodvisne. Spol je
spremenljivka, ki v pedagoških raziskavah nastopa vedno kot neodvisna
(seveda, kadar sploh nastopa), podobno je z narodnostjo, starostjo itd. Večina
„pravih” vzgojnih pojavov pa stalno menja vloge neodvisnih in odvisnih
spremenljivk.
Omenimo še, da izraz neodvisna spremenljivka, seveda ne pomeni, da je ta
spremenljivka neodvisna v kakšnem absolutnem smislu: da ni od ničesar
odvisna. Ni takšnih pojavov, ki bi bili absolutno neodvisni. Izraz pomeni le, da
je imenovana spremenljivka tista, ki vpliva (pa še pri tem smo videli, da je vpliv
pogosto obojestranski).
IV. Parametri
Vrednosti spremenljivke so značilne za vsako posamezno enoto mnoţice. Po teh
vrednostih enote lahko primerjamo, razvrščamo, grupiramo itd. Podobno vlogo,
kot jo ima vrednost spremenljivke za enoto, ima parameter za neko mnoţico.
Parametri so številske značilnosti mnoţice. V splošnem parameter določamo iz
vrednosti spremenljivke za posamezne enote. Najpogostejši parametri v
pedagoških raziskavah so: strukturni odstotki, srednje vrednosti, mere
razpršenosti, kazalci korelacije itd.
DRUGO POGLAVJE UREJEVANJE PODATKOV
Podatke za proučevane spremenljivke moramo pred statistično obdelavo
primerno urediti. S tem si olajšamo njihovo obdelavo in jo naredimo pregledno.
S pojavom in vse bolj mnoţično uporabo računalnikov se je urejanje podatkov
bistveno spremenilo. Za ročno obdelavo podatkov podatke zares uredimo, za
računalniško jih pa le “pripravimo”. Ker je za dobro razumevanje (in uporabo!)
statističnih postopkov obdelave podatkov, potrebno poznati tudi postopke
računanja (bolj literarno povedano: “poleg rezultatov moramo poznati tudi pot
do teh”), bomo na kratko prikazali postopke za urejanje podatkov in pripravo za
računalniško obdelavo.
I. Urejevanje podatkov za opisne spremenljivke
Podatke za opisno spremenljivko uredimo tako, da sestavimo frekvenčno tabelo.
Za vsako kategorijo spremenljivke določimo frekvenco, tako pripravljene
podatke pa vnesemo v frekvenčne tabele. Frekvence so lahko absolutne ali
relativne. Absolutna frekvenca pove, koliko je enot v določeni kategoriji neke
spremenljivke, relativna pa, kolikšen del celotne mnoţice je v tej kategoriji.
Relativne frekvence praviloma vedno izraţamo v odstotkih.
S tem smo uredili podatke in prikazali njihovo strukturo, kar je ţe prvi korak v
statistično obdelavo. Takšne odstotke, ki kaţejo notranjo delitev neke mnoţice,
imenujemo strukturni odstotki, tabele pa pogosto tudi strukturne tabele ali
kratko strukture (nič hudega ne bo, če ji rečemo frekvenčna tabela). Spodaj
imamo primer tabele po spremenljivki spol za neko mnoţico.
Tabela 6. Strukturna tabela učencev po spolu
kategorije f f %
ţenski 25 43,1
moški 33 56,9
skupaj 58 100,0
Vidimo, da je ţensk v tej mnoţici nekaj manj kot polovica in moških več kot
polovica vseh. Število vseh enot v mnoţici je 58; to število imenujemo numerus
in označujemo z oznako N. To lahko zapišemo: N = 58.
Če je spremenljivka ordinalna in ima več kot dve stopnji, včasih dodamo še
stolpec z kumulativnimi odstotnimi frekvencami. To so zbirne frekvence, ki
povedo, koliko odstotkov enot je skupaj do te stopnje (rečemo tudi: “koliko jih
je pod to kategorijo”). Vendar kumulativne frekvence delamo le takrat, ko jih
zares potrebujemo. Kumulativne frekvence dobimo tako, da seštejemo vse
frekvence za niţje kategorije. Spodaj imamo tabelo za spremenljivko šolski
uspeh.
Tabela 7. Strukturna tabela učencev po šolskem uspehu
šolski uspeh f f % F %
nezadosten 3 3,9 0
zadosten 11 14,5 3,9
dober 38 50,0 18,4
prav dober 17 22,4 68,4
odličen 7 9,2 90,8
skupaj 76 100,0 100,0
Kumulativna frekvenca 68,4% nam pove, da je toliko učencev z uspehom niţjim
od prav dobrega.
Rezultate v statistiki praviloma zaokroţamo na dve decimalki; vendar z
nekaterimi izjemami. Izjemo vidimo v obeh prejšnjih tabelah. Uveljavilo se je
namreč pravilo, da se odstotne frekvence v tabelah zaokroţajo na eno
decimalno mesto. To pa ne velja za tiste odstotke, ki jih nameravamo uporabiti
za nadaljnje obdelave. Tam velja splošno pravilo o zaokroţanju vrednosti na dve
decimalni mesti. Seveda ne bo nič narobe, če odstotke v tabeli zaokroţimo na
dve decimalni mesti, vendar ni potrebno. Po eni strani je škoda dela, po drugi
strani pa je takšna tabela manj pregledna. Toda pozor: na manj kot eno
decimalko pa ne!
Na takšen način uredimo in prikaţemo podatke za vse spremenljivke v raziskavi.
Pogosto pa poleg stanja po posameznih spremenljivkah proučujemo tudi
povezanost med spremenljivkama. Za takšne namene moramo narediti drugačne
tabele. Tabela lahko prikazuje strukturo posamezne spremenljivke ali pa
strukturo več spremenljivk hkrati. Prve imenujemo enostavne ali enkratne
strukture, druge pa večkratne ali sestavljene strukture. Največkrat prikazujemo v
večkratni strukturi dve spremenljivki; večkratna struktura za več spremenljivk je
namreč izredno nepregledna. Kadar proučujemo povezanost več spremenljivk
hkrati, podatkov ne urejamo v obliki strukturnih tabel.
Spodaj imamo primer večkratne strukture za spremenljivki stopnja izobrazbe in
stališče (o nekem pojavu).
Tabela 8. Frekvenčna tabela zaposlenih po izobrazbi in stališču
sem za ne morem
se odločiti
sem proti skupaj
srednja izobrazba 12 6 28 46
višja izobrazba 5 3 7 15
visoka izobrazba 11 2 4 17
skupaj 28 11 39 78
Podatki so sicer urejeni, vendar tabela slabo kaţe povezanost med
spremenljivkama. Zato je treba izračunati še odstotne frekvence. Odstotne
frekvence lahko izračunamo na tri načine in tako lahko nastanejo tri različne
tabele. Spodaj so prikazane vse tri. V prvi so odstotki računani po kategorijah
izobrazbe, v drugi po kategorijah stališča, v tretji pa iz celotnega numerusa
(N=78).
Tabela 9. Strukturna tabela zaposlenih po stališču, posebej za vsako izobrazbo
sem za ne morem se
odločiti
sem proti skupaj
srednja izobrazba 12
26,1
6
13,0
28
60,9
46
100,0
višja izobrazba 5
33,3
3
20,0
7
46,7
15
100,0
visoka izobrazba 11
64,7
2
11,8
4
23,5
17
100,0
skupaj 28
35,9
11
14,1
39
50,0
78
100,0
V tej tabeli smo v vodoravnih vrsticah računali odstotke iz vsote na koncu vrtice
(desno). Tako v prvi vrstici frekvenca 12 predstavlja 26,1% od vsote 46 (na
desnem koncu vrstice). Zato vsi odstotki v vrstici tvorijo skupaj 100,0% (26,1%
+ 13,0% + 60,9% = 100,0%). Enako je v ostalih vrsticah.
Tabela 10. Strukturna tabela zaposlenih po izobrazbi, posebej za vsako stališče
sem za ne morem se
odločiti
sem proti skupaj
srednja izobrazba 12
42,9
6
54,5
28
71,8
46
59,0
višja izobrazba 5
17,9
3
27,3
7
17,9
15
19,2
visoka izobrazba 11
39,3
2
18,2
4
10,3
17
21,8
skupaj 28
100,0*
11
100,0
39
100,0
78
100,0
V tej tabeli smo v navpičnih stolpcih računali odstotke iz vsote na dnu stolpca
(spodaj). Tako v drugem stolpcu frekvenca 6 predstavlja 54,5% od vsote 11 (na
dnu stolpca). Zato vsi odstotki v stolpcu tvorijo skupaj 100,0% (54,5% + 27,3%
+ 18,2% = 100,0%). Enako je v ostalih stolpcih.
Tabela 11. Strukturna tabela zaposlenih po izobrazbi in stališču
sem za ne morem se
odločiti
sem proti skupaj
srednja izobrazba 12
15,4
6
7,7
28
35,9
46
59,0
višja izobrazba 5
6,4
3
3,8
7
9,0
15
19,2
visoka izobrazba 11
14,1
2
2,6
4
5,1
17
21,8
skupaj 28
35,9
11
14,1
39
50,0
78
100,0
V tej tabeli smo v okencih računali odstotke iz celotnega numerusa (N = 78).
Tako v prvem okencu (levo zgoraj) frekvenca 12 predstavlja 15,4% od
numerusa 78. Odstotki iz vseh okenc tvorijo skupaj 100,0% (15,4% + 7,7% +
35,9% + 6,4% + 3,8% + 9,0% + 14,1% + 2,6% + 5,1% = 100,0%). Tudi v
okencih »skupaj« so vsi odstotki izračunani iz celotnega numerusa.
Prva tabela je primerna za odgovarjanje na vprašanje, kako izobrazba vpliva na
stališče. Iz izkušenj vemo, da imajo ljudje z različno izobrazbo različna stališča,
po katerih jih sprašujemo v raziskavi. Torej sta ti dve spremenljivki povezani.
Če sta povezani, moramo presoditi, katera je neodvisna in katera odvisna.
Sodimo, da je v tem paru izobrazba neodvisna spremenljivka in stališče
odvisna. Ker je to smiselna smer povezave, je prav ta tabela tisto, kar najbolj
potrebujemo. Zato praktično vedno pri proučevanju povezanosti med dvema
spremenljivkama izračunavamo odstotke na takšen način kot v prvi tabeli (torej
po kategorijah neodvisne spremenljivke).
Druga tabela je primerna za interpretacijo vpliva stališča na izobrazbo, kar je
seveda nesmiselno. Zato v praksi takšnih tabel ne uporabljamo.
Tretja tabela ni primerna za interpretacijo povezanosti med spremenljivkama;
iz nje izvemo le to, koliko je enot v vsakem okencu (in koliko je to odstotkov).
Ker ni primerna za interpretacijo povezanosti, je pravzaprav nepotrebno
omenjeni dve spremenljivki sploh prikazovati v takšni tabeli.
Če sta spremenljivki, ki ju proučujemo, povezani, je smiselna prva tabela, če pa
nista povezani, pa je edina smiselna tabela pravzaprav nepotrebna (to je tretja
tabela).
In še drobna tehnična zadeva: ponekod v tabeli vsota odstotkov iz okenc v
vrstici ali stolpcu ni enaka napisani vsoti na koncu vrstice ali stolpca (npr.
100,0). To se zgodi zaradi vmesnih zaokroţanj. Tudi v naših tabelah se je to na
enem mestu zgodilo (vsota označena z zvezdico). Ne gre za vsebinski problem,
to je le tehnični problem. V takšnih primerih imamo na voljo več moţnosti:
V okencu "skupaj" zapišemo vsoto 100,0 in jo označimo z zvezdico, v opombi
pa napišemo, da zaradi zaokroţanja vsota vmesnih odstotkov ni 100,0.
Enega izmed odstotkov v vrstici ali stolpcu zaokroţimo (proti pravilom) tako, da
dobimo vsoto 100,0 in tako zaokroţeni odstotek označimo z zvezdico; znova v
opombi bralcem pojasnimo zadevo.
Zapišemo vsoto tako kot znese (npr. 100,1), jo označimo z zvezdico in v
opombi to pojasnimo itd.
Moţnosti je še več. Zagotovo je najslabša, da nič ne ukrenemo in bralcem sploh
ničesar ne pojasnimo.
II. Urejevanje podatkov za številske spremenljivke
Urejeni opisni podatki so ţe primerni za interpretacijo, pri številskih podatkih pa
je drugače. Številski podatki nam le malo pokaţejo samo s tem, da so urejeni.
Urejevanje je potrebno predvsem zaradi laţje nadaljnje obdelave. Odkar se za
obdelavo podatkov uporabljajo računalniški programi, je urejevanje številskih
podatkov postalo skoraj nepotrebno. Številske podatke uredimo na dva načina.
1. RANŢIRNA VRSTA
Kadar je število enot majhno, zadostuje, da podatke razvrstimo po velikosti.
Tako urejen niz podatkov je ranţirna vrsta. Običajno začnemo z najmanjšo
vrednostjo in končamo z največjo. Med tema so razvrščene vse ostale vrednosti.
Tiste, ki se pojavljajo večkrat, tolikokrat tudi napišemo. V ranţirni vrsti morajo
biti vsi podatki (vse vrednosti, ki se pojavljajo). Iz ranţirne vrste se vidi vsak
podatek, število vseh podatkov in poloţaj vsakega podatka med ostalimi.
Poglejmo primer neurejene vrste podatkov in ranţirne vrste.
Podatki o letih prakse za skupino učiteljev:
22, 16, 7, 3, 29, 27, 11, 9, 14, 5, 10, 5, 8, 17, 26, 13.
Ranţirna vrsta za iste podatke:
3 5 5 7 8 9 10 11 13 14 16 17 22 26 27 29
Pogosto v ranţirni vrsti k vrednostim spremenljivke pripišemo še absolutne
range. Absolutni rangi kaţejo vrstni red enot v ranţirni vrsti. Najniţji vrednosti
damo rang 1 (ena), naslednji 2 (dva) in tako do konca ranţirne vrste.
Tabela 12. Ranţirna vrsta z vrednostmi spremenljivke in absolutnimi rangi
x 3 5 5 7 8 9 10 11 13 14 16 17 22 26 27 29
R 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Pri določanju rangov lahko trčimo ob vprašanje, kaj narediti v primeru dveh (ali
več) enakih vrednosti. V našem primeru imamo dve enoti z vrednostjo 5 let
prakse. Na voljo imamo vsaj dve moţnosti. Prva je ta, ki smo jo uporabili v
zgornjem primeru: čeprav sta vrednosti enaki, smo jima dali različna zaporedna
ranga (dva in tri). To je preprostejša rešitev, čeprav manj natančna. Namreč, ni
najbolje, da imajo enaki rezultati različne range.
Druga moţnost je dati enakim vrednostim enake range. Takšnim rangom rečemo
vezani rangi, prejšnjim pa nevezani. Za isti primer bomo naredili ranţirno vrsto
z vezanimi rangi.
Tabela 13. Ranţirna vrsta z vezanimi rangi
x 3 5 5 7 8 9 10 11 13 14 16 17 22 26 27 29
R 1 2,5 2,5 4 5 6 7 8 9 10 11 12 13 14 15 16
Vezani rang smo v tem primeru določili kot povprečni rang: sešteli smo ranga
dva in tri ter delili z dva. Takšen način je nekoliko manj pregleden, potrebna je
večja pazljivost in tudi interpretacija ni več tako preprosta; je pa vsekakor bolj
natančen.
Če ranţirno vrsto sestavljamo za posamično spremenljivko in podatke naprej
obdelujemo brez povezav z drugimi spremenljivkami, običajno izberemo prvi,
preprostejši način.
Kadar pa je z rangi povezano še kaj drugega, izberemo raje vezane range. Še
zlasti v vzgojni praksi: če bi bilo od rangov odvisno karkoli pomembnega za
posameznike, ki jih razvrščamo, izberemo vezane range. Na primer - pri
sestavljanju ranţirne vrste za sprejem na neko srednjo šolo (kjer je več
kandidatov za vpis kot prostih mest) nikakor ne moremo uporabiti neenakih
rangov za enake vrednosti. Lahko bi se namreč zgodilo, da bi izmed učencev z
enakim doseţkom nekateri bili sprejeti in nekateri ne. Kaj narediti v takem
primeru s kandidati za vpis, presega namen te knjige (mimogrede: to sploh ni
lahek problem v praksi).
Če je število enot večje od običajnega šolskega razreda, postane ranţirna vrsta
zaradi dolţine slabo pregledna. Zato pri večjih numerusih uporabljamo bolj
ekonomičen način urejevanja numeričnih podatkov - frekvenčno porazdelitev.
2. FREKVENČNA PORAZDELITEV
Ta način urejevanja podatkov smo v nekoliko drugačni podobi videli ţe pri
opisnih podatkih. Vsaki vrednosti spremenljivke določimo frekvenco (število
enot, ki imajo takšno vrednost). Za primer bomo vzeli telesne višine učencev in
prikazali preprosto frekvenčno porazdelitev:
Tabela 14. Frekvenčna porazdelitev
telesna višina f
142 3
146 6
147 7
149 9
152 8
155 5
157 2
159 1
V tej frekvenčni porazdelitvi je najmanjša frekvenca ena in največja devet.
Vrednosti so porazdeljene v razponu med 142 in 159. Takšno preprosto
frekvenčno porazdelitev v praksi redko uporabljamo.
Običajno je razpon numeričnih vrednosti velik in je potrebno frekvenčno
porazdelitev strniti. To storimo tako, da zdruţimo več vrednosti in seštejemo
njihove frekvence. Zdruţenim vrednostim rečemo razredi. Zaradi praktičnih
razlogov zdruţujemo tako, da dobimo deset do dvajset razredov (raje bliţe k
deset) in da so vsi enako široki (zajemajo enako širok razpon vrednosti).
Poglejmo primer frekvenčne porazdelitve za rezultate na testu znanja:
Tabela 15. Frekvenčna tabela
razredi f f% F F%
8 - 12 2 1,7 0 0
13 - 17 5 4,2 2 1,7
18 - 22 8 6,7 7 5,8
23 - 27 11 9,2 15 12,5
28 - 32 17 14,2 26 21,7
33 - 37 21 17,5 43 35,8
38 - 42 15 12,5 64 53,3
43 - 47 15 12,5 79 65,8
48 - 52 12 10,0 94 78,3
53 - 57 10 8,3 106 88,3
58 - 62 4 3,3 116 96,7
N=120
Opišimo podrobno to frekvenčno porazdelitev. Vrednosti spremenljivke so
porazdeljene na enajst razredov. Vsi razredi imajo enako širino. Širino razreda
izberemo tako, da celoten razpon vrednosti delimo z ţeljenim številom razredov
in zaokroţimo na najbliţje celo število. V našem primeru je bil največji rezultat
xmax=61, najniţji rezultat xmin=8 in razpon 61-8+1=54 (dodajanje enke bomo
pojasnili pozneje). Ta razpon smo delili z deset in rezultat 5,4 zaokroţili na 5.
Širina razreda je i=5 (čeprav se na prvi pogled zdi, da je med 8 in 12 točk razpon
le štiri). Običajne frekvence (f) ţe poznamo. Tako nam frekvenca 2 pove, da sta
dva učenca dosegla rezultat med osem in dvanajst točk. V drugem stolpcu so te
frekvence izraţene v odstotkih (relativne frekvence). Če sluţijo le interpretaciji,
je zadosti, da so zaokroţene na eno decimalko, če pa sluţijo nadaljnjim
preračunavanjem, pa morajo biti zaokroţene na dve decimalki. Tretji stolpec so
kumulativne frekvence F. Te nadomeščajo absolutne range. Kumulativna
frekvenca pove, koliko enot ima niţje vrednosti od danega razreda (koliko jih je
pod tem razredom). V četrtem stolpcu so te frekvence preračunane v odstotke
(relativne kumulativne frekvence).
Kakšne lastnosti ima frekvenčna porazdelitev in kaj nam omogoča? Podatki so
prikazani strnjeno, kar je ekonomično za nadaljnjo obdelavo. Čim manj je
razredov, tem večji je prihranek časa pri obdelavi. Vendar pa se z zdruţevanjem
podatkov in tvorjenjem razredov del informacije o podatkih izgubi. Iz
frekvenčne porazdelitve se vidi, npr. da je pet učencev doseglo rezultate med 13
in 17 točk, ne vidi se pa natančno za vsakega učenca, koliko točk je dosegel.
Treba je še omeniti, zakaj smo pri računanju razpona prišteli ena. Število točk na
testu znanja je nezvezna spremenljivka. Vrednosti, ki se pojavljajo, so osem,
devet, deset itd. Zaradi laţje obdelave si zamislimo, da je spremenljivka zvezna.
Tedaj se najniţji rezultat začne pri 7,5 in najvišji konča pri 61,5. Razpon bi torej
morali računati tako: 61,5 - 7,5 = 54. Ker takšne vrednosti zapisujemo kot 61 in
7, moramo na koncu dodati tisti dve polovički - od tod torej +1.
Preprosto povedano: vse numerične spremenljivke obdelujemo kot da so zvezne.
S tem je obdelava preprostejša in enotna. Takšen način se sicer rahlo upira
našemu (običajnemu) razumevanju pojavov; bistveno pa je, da ne naredi nobene
stvarne škode podatkom.
Nekoč se je frekvenčna porazdelitev uporabljala predvsem zaradi nadaljnje
obdelave podatkov, odkar se uporabljajo računalniki, pa predvsem le za njihov
prikaz.
TRETJE POGLAVJE RANGI
S pomočjo rangov določamo poloţaj posameznega rezultata med ostalimi.
Range v vsakdanjem ţivljenju zelo pogosto srečujemo in uporabljamo. Opis
turističnega potovanja se začne navadno: „Prvi dan se preko Ljubelja
odpeljemo.... Podobno je v športu: „Rajmond Debevec je osvojil šesto mesto....
Ali tudi v ljudskih rekih: „V tretje gre rado!”
Pravzaprav gre tudi pri empiričnem proučevanju vzgojnih pojavov za podobno
uporabo rangov. Da bi bolje razumeli in pojasnili pojave, jih med seboj
primerjamo in razvrščamo. Temu sluţi metoda rangov. Poznamo dve temeljni
vrsti rangov – absolutne range in relativne range.
I. Absolutni rangi
Ta rang smo spoznali ţe pri ranţirni vrsti. Ranţirno vrsto sestavimo tako, da
rezultate (vrednosti spremenljivke) razvrstimo po velikosti. Običajno začnemo z
najmanjšo vrednostjo in končamo z največjo. Najmanjša vrednost dobi absolutni
rang ena (R=1), naslednja večja dva (R=2) in tako do največje vrednosti.
Vendar takšne range le redko uporabljamo. Ranţirna vrsta nam je bolj potrebna
kot način urejanja podatkov. Pogosteje absolutni rangi nastanejo v praksi, ko
proučujemo spremenljivko, ki se ne da numerično meriti. Kako izmeriti
prizadevnost učencev? Instrumenta za merjenje prizadevnosti nimamo. Sploh pa
ne gre na numeričen način - prizadevnost ni intervalna spremenljivka. Če bi
učence vprašali, kakšna je njihova prizadevnost, bi dobili preveč subjektivne in
povrhu zelo nezanesljive samoocene. V takem primeru lahko učitelj razvrsti
učence po prizadevnosti od najmanj prizadevnega do najbolj prizadevnega.
Dobljeni rangi so ocena prizadevnosti. To je bolje, kot če bi imeli za učence
nenatančne opise, npr.: "Marko je precej prizadeven, Andreja je med najbolj
prizadevnimi..." itd. Seveda je uporabnost dobljenih rangov predvsem odvisna
od učitelja (od njegove strokovnosti, objektivnosti itd.). Vendar poglabljanje v
to, ţe presega namen te knjige. Dodajmo le: če bi v kakšnem primeru dvomili,
ali lahko dobimo dovolj dobre range, jih pač ne bi uporabili.
II. Relativni rangi
Absolutni rangi so uporabni le znotraj neke skupine; primerjave med skupinami
so moţne le za enako velike skupine. Da bi primerjali poloţaje v različno velikih
skupinah, potrebujemo relativne range. Relativni rang izračunamo tako:
formula: P= R/N
Relativni rang pove, kolikšen del skupine je pod določeno vrednostjo (pod
določenim rezultatom). Torej bi rang 0,20 pomenil, da je ena petina skupine (ali
20%) pod tem rezultatom. Učenec, ki bi pri neki uspešnosti imel rang 0,60, bi
rekel: "Šestdeset odstotkov skupine je slabših od mene, štirideset odstotkov pa je
boljših".
Vrednosti relativnih rangov se gibljejo med nič in ena. Vrednosti malo nad nič
pomenijo zelo nizek poloţaj (na začetku ranţirne vrste), vrednosti okoli 0,50
pomenijo srednji poloţaj (na sredini ranţirne vrste), vrednosti blizu ena pa
pomenijo zelo visok poloţaj.
ČETRTO POGLAVJE SREDNJE VREDNOSTI
I. Primerjanje mnoţic
Posameznike (posamezne enote statistične mnoţice) po neki spremenljivki
primerjamo tako, da primerjamo njihove vrednosti, doseţene v tej spremenljivki.
Tako, npr. če sta na testu znanja iz kemije učenca Marko in Aleš dosegla 26
oziroma 14 točk, bomo iz teh dveh doseţkov takoj videli, da je Marko dosegel
več točk (da ima višji rezultat; da je njegov doseţek boljši). Včasih višja
vrednost spremenljivke sicer pomeni slabši doseţek (npr. večje število napak pri
nareku pomeni slabši doseţek), vendar to ne spremeni bistva pri primerjanju
doseţkov posameznikov. Kaj izbrati, kadar ţelimo primerjati statistične
mnoţice? Kaj sploh pomeni primerjava mnoţic in za kaj to potrebujemo?
Npr. ţelimo vedeti:
Ali so bolje pisali test učenci v 8.a razredu ali v 8.b?
Ali se plače učiteljev v srednjem šolstvu razlikujejo od plač učiteljev v
osnovnem šolstvu?
Ali študenti ob delu študirajo dlje od rednih študentov?
itd.
Pri primerjavi dveh mnoţic bi sicer lahko primerjali vse rezultate iz ene mnoţice
z vsemi iz druge, vendar bi hitro ugotovili, da je to uspešno le, kadar imajo
mnoţice komaj nekaj enot. Pri količkaj večjih mnoţicah je to praktično
nemogoče. Lahko bi izbrali iz vsake mnoţice le po eno enoto za primerjavo,
vendar se takoj postavi vprašanje, katere enote izbrati? Če je najboljši
posameznik v eni mnoţici dosegel višji rezultat od najboljšega v drugi mnoţici,
to še ne pomeni, da je hkrati ta mnoţica boljša. Podobno velja tudi za najniţje
doseţke. Hitro bi spoznali, da takšni postopki ne omogočajo dobre in zanesljive
primerjave. Najbolj zanesljivo primerjavo nam omogočajo tiste vrednosti, ki so
na sredini porazdelitve. Te vrednosti so najbolj tipične, največ jih je, okoli
sredine so najbolj nakopičene itd. Zato bomo rešitev iskali v tej smeri. Takšne
vrednosti imenujemo srednje vrednosti.
II. Srednje vrednosti
Naravi pojavov in spremenljivk na pedagoškem področju najbolj ustrezajo
naslednje tri srednje vrednosti:
modus (Mo),
mediana (Me)in
aritmetična sredina (M).
Modus je točka (vrednost), kjer so vrednosti spremenljivke najbolj zgoščene
(nakopičene). V najpreprostejšem primeru je to vrednost, ki se najpogosteje
pojavlja. Npr. če ima v nekem razredu največ učencev oceno prav dobro (4) pri
nekem predmetu, je ta ocena hkrati modus (modus je torej 4).
Modus lahko določimo celo za nominalne spremenljivke (čeprav je res, da to
nima skoraj nobenega praktičnega pomena). Je zelo preprosta srednja vrednost:
hitro in preprosto se ga da daločiti, je lahko razumljiv in preprost za
interpretacijo. Ker pa za določanje modusa niso potrebne vse vrednosti v
mnoţici, pogosto ne omogoča zanesljivih primerjav med mnoţicami. Povrhu
tega se lahko zgodi, da je točk z največjo gostoto vrednosti hkrati več; takrat je
tudi več modusov. V takšnih primerih običajno primerjava mnoţic ni mogoča.
Moduse sicer lahko določimo, vendar praktično ne sluţijo ničemur.
Mediana je vrednost, od katere ima polovica mnoţice višje vrednosti, polovica
pa niţje. Npr. razvrstimo učence v razredu po velikosti od najmanjšega do
največjega. Poiščemo učenca, ki je na sredini (polovica učencev v razredu je
večjih od njega, polovica pa manjših). Telesna višina tega učenca je mediana
(npr.153 cm).
Za mediano moramo imeti vsaj ordinalno spremenljivko. Za nominalne
spremenljivke je ne moremo določiti, ker ni večjih in manjših vrednosti. Tudi
mediana je preprosta srednja vrednost: včasih se jo da določiti brez računanja
(na pogled), je lahko razumljiva in dovolj preprosta za interpretacijo. Za
določanje mediane niso potrebne vse vrednosti v mnoţici. Zato tudi ona ne
omogoča zanesljivih primerjav med mnoţicami. Pogosto se lahko zgodi, da
imajo sicer različne mnoţice enako mediano. V takšnih primerih bi primerjava
vodila do napačnih sklepov.
Aritmetična sredina je kvocient med vsoto vseh vrednosti in številom enot v
mnoţici. To definicijo lahko izrazimo z obrazcem:
M= ∑x/N
V vsakdanji uporabi jo imenujemo povprečje ali povprečna vrednost. Da bi
lahko vrednosti seštevali, morajo biti spremenljivke vsaj intervalne. Za
nominalne spremenljivke aritmetične sredine ne moremo uporabiti; za ordinalne
pa je uporaba aritmetične sredine neustrezna (nekorektna). Ker je določena iz
vrednosti spremenljivke za vse enote v mnoţici, omogoča aritmetična sredina
zanesljivejše primerjave. Občutljiva je na vsako spremembo: če se vrednost ene
same enote spremeni, se bo spremenila tudi vrednost aritmetične sredine. Vsaka
še tako mala razlika med dvema mnoţicama se pozna na vrednosti aritmetične
sredine. Hkrati to pomeni, da moramo za izračunavanje aritmetične sredine
zbrati podatke za vse enote v mnoţici; torej bo običajno z aritmetično sredino
več dela kot z mediano ali modusom. Tudi interpretacija aritmetične sredine ni
tako preprosta kot pri mediani in modusu. To, da upošteva vse vrednosti v
mnoţici, ima tudi slabo stran: odvisna je tudi od ekstremnih vrednosti (te pa
lahko včasih precej popačijo splošno sliko o neki mnoţici).
Zaradi naštetih lastnosti za primerjave skoraj vedno uporabljamo aritmetično
sredino. Mediano in modus pravzaprav uporabljamo le dodatno ob aritmetični
sredini, samostojno pa bolj izjemoma.
Omeniti moramo posebno okoliščino uporabe srednjih vrednosti na pedagoškem
področju. Zelo pogosto imamo ordinalne spremenljivke, npr. šolske ocene.
Velikokrat so razmere takšne, da uporaba modusa ali mediane ne omogoča
primerjave; uporaba aritmetične sredine pa je za ocene neustrezna. Za ilustracijo
bomo navedli podatke za dva oddelka na neki šoli:
Tabela 19. Ocene za dva oddelka učencev
Oddelek Ocene Mediana Aritmetična
sredina
8.a 2,2,2,3,3,3,3,3,4,4,4,4,4,4,4,4,
4,4,4,4,4,4,4,5,5,5
Me = 4 M = 3,69
8.b 2,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,
5,5,5,5,5,5,5,5,5,5
Me = 4 M = 4,23
Primerjava median teh dveh oddelkov bi vodila k napačnemu sklepu, da sta
oddelka po ocenah enaka, vendar pa ţe pogled na ocene pokaţe, da to ni res.
Uporaba aritmetične sredine za ordinalne spremenljivke sicer ni ustrezna,
pokaţe pa, da so ocene v drugem oddelku višje kot v prvem (kar seveda je res).
Če bi vztrajali pri uporabi povsem ustreznih metod, bi s tem onemogočili
primerjavo oddelkov. V podobnih primerih bi vendarle uporabili aritmetično
sredino, pri interpretaciji pa bi morali biti previdni: npr. lahko bi rekli, da so
ocene v drugem oddelku višje, ne bi pa smeli reči, da so višje v povprečju za
0,54 ocene (čeprav je razlika med aritmetičnima sredinama res 0,54!).
Če posplošimo, lahko rečemo, da sicer včasih lahko uporabimo kakšno ne
povsem ustrezno statistično metodo, vendar moramo vedeti, kaj to pomeni in
kako to upoštevati pri interpretaciji.
III. Izračunavanje aritmetične sredine
Ker se modus in mediana zares neprimerno redkeje uporabljata, ne bomo
predstavili postopkov za njuno računanje. Ti postopki bi le neznatno prispevali k
razumevanju modusa in mediane in s tem k boljši poznejši interpretaciji. Bralec
lahko poišče te postopke v drugih virih (npr. Sagadin 1992).
Sicer bomo ti dve srednji vrednosti v praksi največkrat dobili s pomočjo
računalniške obdelave. Z aritmetično sredino pa je nekoliko drugače. Res je da
bomo tudi njo dobili najpogosteje s pomočjo računalnika, a vendar jo postopek
računanja dopolnilno pojasni. To je zlasti pomembno zaradi interpretacije. Zato
bomo postopke računanja aritmetične sredine podrobno prikazali.
1. RAČUNANJE IZ INDIVIDUALNIH PODATKOV
Za izračunavanje aritmetične sredine pravzaprav ni nujno, da so individualni
podatki urejeni v ranţirno vrsto. Aritmetično sredino dobimo tako, da vse
vrednosti v skupini seštejemo in delimo z numerusom skupine. Ker pa običajno
zaradi bolj preglednega dela vendarle podatke urejamo, bomo pokazali
računanje aritmetične sredine iz ranţirne vrste.
Imamo podatke o telesni višini dečkov iz nekega 6. razreda osnovne šole.
x 147 148 150 152 152 155 155 157 162 165 165 168 x = 1876
formula:
M= ∑x/N
M= 1876/12
M= 156,33
PETO POGLAVJE RAZPRŠENOST
I. Pojem razpršenosti
Razpršenost vrednosti spremenljivke je zelo preprost pojav: enote mnoţice se po
vrednostih neke spremenljivke med seboj razlikujejo, ali krajše - vrednosti
spremenljivke so od enote do enote različne. Pokaţimo to na nekaj primerih:
Tabela 13. Razpršenost spremenljivk
spremenljivka mnoţica vrednosti
spol udeleţenci jezikovnega tečaja 7 je moških in 5 ţensk
stopnja
izobrazbe
zaposleni v šoli 6 z srednjo, 22 z višjo,
19 z visoko in 3 z
akademsko izobrazbo
leta prakse ravnatelji osnovnih šol v nekem
mestu
10, 15, 16, 19, 22, 24,
25, 28, 30, 32
telesna višina otroci v vzgojni skupini 133, 133, 135, 136, 138,
138, 139, 141, 142, 142,
142, 144, 145, 146, 147,
147
Vidimo, da se v vseh navedenih primerih pojavlja razpršenost. Razpršenosti ne
bi bilo, če bi, npr. bili vsi udeleţenci tečaja istega spola, če bi imeli vsi zaposleni
na neki šoli enako izobrazbo, če bi imeli vsi ravnatelji enako število let prakse
ali, če bi bili vsi otroci v vzgojni skupini enako visoki. Razpršenost je pojem, ki
se vedno nanaša na neko mnoţico vrednosti, nikdar pa ne na eno samo vrednost.
Enota je sicer lahko ena, vendar moramo imeti zanjo več vrednosti. Npr. lahko
imamo enega dijaka (torej je numerus „skupine” 1), a bi zanj imeli ocene iz
angleščine v štirih letih srednje šole. Če bi ta dijak imel v vseh letih enako
oceno, potem je v mnoţici njegovih ocen razpršenost enaka nič (razpršenosti ni);
če ocene ne bi bile enake, potem je razpršenost večja od nič (razpršenost je). Da
bi lahko govorili o razpršenosti, moramo imeti vsaj dve vrednosti.
Iz tabele vidimo, da se pri spremenljivki spol vse enote ne razlikujejo med seboj
(saj je več udeleţencev enakega spola - sedem moških in tudi pet ţensk). Kljub
temu v celi mnoţici razpršenost obstaja; zadostovalo bi, da se le ena enota
razlikuje od ostalih. Podobno je z drugo in četrto spremenljivko. Pri tretji
spremenljivki so celo vse enote med seboj različne.
II. Viri razpršenosti
Zakaj so enote med seboj različne? Zakaj vse vrednosti niso enake? Zakaj
obstaja razpršenost? Če sta lahko dve enoti v neki spremenljivki enaki, zakaj ne
bi mogle biti vse?
Začnimo z zadnjim vprašanjem. Odgovor je preprost: v neki mnoţici so lahko
vse enote enake (natančneje povedano: vrednost spremenljivke je pri vseh
enotah enaka). Razpršenost v takšni skupini bi bila enaka nič; ne bi je bilo.
Zakaj pa niso vsi primeri takšni? Razmislek o katerikoli konkretni spremenljivki
nam hitro da odgovor. Vsi novorojenčki bi bili istega spola, če na njihov spol ne
bi nič vplivalo. Vsi učenci bi imeli enako oceno iz nekega predmeta, če na to
oceno ne bi nič vplivalo. Vzrok razpršenosti so torej vplivi. Tako, npr. na ocene
vpliva motivacija učencev (bolj motivirani imajo v splošnem boljše ocene),
pogoji za domače učenje (čim boljši pogoji, tem boljše ocene), čas učenja in še
nešteto drugih dejavnikov. Razpršenost neke spremenljivke je torej vedno
posledica vplivov drugih spremenljivk, kar odpira vrsto novih vprašanj.
Prvo vprašanje je: koliko je sploh vplivov? Nasplošno jih je nešteto; pedagogika
jih ne bo nikoli prav vseh odkrila, kaj šele natančno proučila. Tudi če izberemo
kakšen prav preprost pedagoški pojav, nam bo, navkljub dolgotrajnemu
proučevanju, del vplivov vedno ostal skrit. Največkrat uspemo pojasniti le
najpomembnejše (pa tudi te samo deloma!). To hkrati ne pomeni, da
raziskovanje in proučevanje vplivov pravzaprav nima smisla; da nikamor ne
vodi. Po tem, ko vsaj deloma opišemo in pojasnimo en vpliv, vemo več kot pred
tem.
Če v neki mnoţici ni razpršenosti, ali to pomeni, da nič ni vplivalo na
spremenljivko? Odgovor je: ne, ne pomeni! Vplivi so lahko tako delovali, da so
se njihovi učinki med seboj uravnovesili (skupen učinek v eni smeri se je ujel s
skupnim učinkom v drugi smeri). To se bo v praksi zgodilo le redkokdaj; zato
bodo redki primeri, da za neko spremenljivko ni prav nobene razpršenosti. Za
primer vzemimo razpršenost po spolu: kljub temu, da je učiteljski poklic izrazito
feminiziran, bomo le izjemoma našli šolo, na kateri ne bo zaposlen niti en
učitelj. V manjših mnoţicah se to pogosteje zgodi (čim manjše so, tem
pogosteje). Med učitelji prvega razreda na neki šoli so pogosto same ţenske,
med učitelji prvega razreda v celi regiji pa se ţe pogosteje najde kak moški.
Iz dosedaj povedanega jasno izhaja, zakaj sploh proučujemo razpršenost:
predvsem zato, da bi s pomočjo razpršenosti proučili vplive. Pravzaprav je
razpršenost eden najpomembnejših pojavov v statistiki. Na razpršenosti temelji
večina statističnih metod.
III. Merjenje razpršenosti
Razpršenost pomeni razlike med enotami; zato bodo vsi postopki merjenja
razpršenosti temeljili na teh razlikah. Ker pa razpršenosti ne merimo zaradi nje
same (le redkokdaj primerjamo mnoţice po razpršenosti), bo merjenje
razpršenosti najpogosteje del nekega drugega statističnega postopka. V takem
primeru ne bomo neposredno izračunali stopnje razpršenosti: zanimal nas bo
predvsem rezultat tega drugega postopka.
1. RAZPRŠENOST PODATKOV ZA NOMINALNE SPREMENLJIVKE
Pri nominalnih spremenljivkah, kjer se vrednosti (kategorije) nič ne stopnjujejo,
lahko le ugotavljamo, ali so enote enake ali različne. Tukaj ne moremo govoriti
o velikosti razlik – govorimo lahko le o njihovem obstoju. Za merjenje
razpršenosti bomo ugotavljali, koliko je v mnoţici različnih posameznikov.
Torej bomo preštevali različne posameznike. To bomo ilustrirali s primerom
mnoţice študentov v predavalnici. Za začetek bomo obravnavali razpršenost po
spremenljivki spol.
Primer 1.
V predavalnici je 34 študentk in noben študent. Po spolu ni nikakršnih
razlik in torej nikakršne razpršenosti (razpršenost je enaka nič).
Primer 2.
V predavalnici je 33 študentk in eden študent. Ta eden se razlikuje od
ostalih 33 (po spolu) in to pomeni, da v skupini ţe obstaja nekakšna
razpršenost. Enaka razpršenost bi seveda bila tudi v primeru, če bi v
skupini bilo 33 moških in ena ţenska.
V drugem primeru se le ena enota razlikuje od ostalih 33; to je najmanjša moţna
razpršenost v tej skupini. Manjša ne more biti (lahko je le ničelna in je torej ni).
Čim več bo različnih posameznikov, tem večja bo razpršenost. Pri spolu bo
največja moţna razpršenost, ko bo v skupini polovica enot enega spola, polovica
enot pa drugega spola. Takrat bo v skupini največje moţno število različnih
enot.
Pri spremenljivkah, ki imajo več kot dve vrednosti bo situacija malo drugačna, a
v bistvu še vedno zelo podobna: čim več bo različnih enot, tem večja bo
razpršenost. Lahko si zamislimo, kako bi bilo pri spremenljivkah s tremi
kategorijami, s štirimi itd. Paradoksalno – najpreprostejša bo situacija takrat, ko
bo moţnih kategorij spremenljivke več, kot je enot v mnoţici. Največja
razpršenost bo, ko bodo vse enote različne. Ilustrirajmo to s primerom:
Primer 3.
V predavalnici je 34 študentov in vsak je drugačne narodnosti. Po tej
spremenljivki je v skupini največja moţna razpršenost.
Pri nominalnih spremenljivkah gre le za preštevanje števila različnih enot v
mnoţici. Če ţe hočemo primerjati mnoţice po razpršenosti, bi to najpreprosteje
naredili tako, da bi uporabili strukturne odstotke za posamezne kategorijo (in te
potem primerjali). Vendar to le poredko potrebujemo. Zato ne obstaja posebna
mera razpršenosti za nominalne spremenljivke. V nadaljnjih statističnih
metodah, ki temeljijo na razpršenosti, neposredno uporabimo število različnih
enot.
2. RAZPRŠENOST PODATKOV ZA ORDINALNE SPREMENLJIVKE
Pri teh spremenljivkah se vrednosti ţe stopnjujejo. Ker stopnje teh spremenljivk
ne naraščajo enakomerno (med sosednjimi stopnjami niso enaki intervali),
razlike pravzaprav niso merljive. Lahko, npr. rečemo, da je med srednjo in
visoko izobrazbo večja razlika kot med srednjo in višjo izobrazbo, ne moremo
pa natančno reči, kolikšna je ta razlika. Na koncu nam ostane enaka rešitev kot
pri nominalnih spremenljivkah: preštevanje števila različnih posameznikov (ali
nasplošno – enot).
Ker pa vendarle ordinalne spremenljivke imajo numerično (kvantitativno)
osnovo in med njihovimi stopnjami gre za večje in manjše razlike, je škoda le
preštevati razlike in sploh ne upoštevati, ali so te večje ali manjše. Ideja, da bi
upoštevali tudi velikost teh razlik, je dobra, a teţko uresničljiva; končno bi
vodila do zelo zapletenih kazalcev razpršenosti, ki bi jih bilo zelo teţko
interpretirati. Zato se v praksi uporabljata dve različni rešitvi:
1. večinoma obravnavamo ordinalne spremenljivke enako kot nominalne –
razpršenost merimo s preštevanjem različnih enot v skupini,
2. včasih obravnavamo ordinalne spremenljivke kot intervalne – razpršenost
merimo kot pri intervalnih spremenljivkah.
Enako obravnavanje ordinalnih in intervalnih spremenljivk se nanaša samo na
postopek izračunavanja mere razpršenosti, nikakor pa ne na interpretacijo
dobljenih rezultatov. Pri interpretaciji rezultatov moramo upoštevati naravo
ordinalnih spremenljivk. Najmanj kar o tem lahko rečemo je: pri interpretaciji
rezultatov moramo biti veliko bolj previdni.
3. RAZPRŠENOST PODATKOV ZA INTERVALNE SPREMENLJIVKE
Čeprav v tem poglavju izrecno obravnavamo intervalne spremenljivke, bo vse
povedano veljalo tudi za razmernostne. Razmernostne spremenljivke namreč pri
merjenju razpršenosti ne omogočajo skoraj nič več kot intervalne. Bistvena
lastnost za merjenje razpršenosti je intervalnost in to imata obe vrsti
spremenljivk.
Pri intervalnih spremenljivkah lahko merimo razlike med vrednostmi. Zato
merjenje razpršenosti za intervalne spremenljivke temelji na velikosti razlik in
ne zgolj na njihovem številu. Preštevanje različnih enot pri zveznih intervalnih
spremenljivkah ne vodi do cilja, saj so na splošno vse enote različne. Tako, npr.
pri starosti ne moremo najti niti dveh enakih učencev (saj bi se morala roditi v
istem trenutku); tudi dveh enako visokih učencev ni in podobno. Res je, da v
praksi največkrat višino merimo kot nezvezno spremenljivko (v celih
centimetrih) in lahko ima več učencev enako višino. Tudi starost običajno
izraţamo v celih letih (ali pri dojenčkih v celih mesecih) in tudi tukaj lahko ima
več enot enako vrednost. Pri nezveznih intervalnih spremenljivkah pa so enake
vrednosti pri različnih enotah običajen pojav in bi preštevanje razlik bilo moţno.
Toda merjenje razpršenosti za intervalne spremenljivke zgolj na podlagi
preštevanja razlik bi bilo nenatančno in zato tudi premalo zanesljivo. Ker bi tako
izkoristili le majhen del informacije, ki jo vsebujejo podatki, bi bila tudi korist
od takšnega postopka majhna.
IV. Mere razpršenosti
Za intervalne spremenljivke obstaja več različnih mer razpršenosti. Našteli
bomo nekaj bolj znanih:
1. variacijski razmik,
2. kvartilni razmik,
3. decilni razmik,
4. kvartilni odklon,
5. povprečni absolutni odklon,
6. varianca,
7. standardni odklon.
1.VARIACIJSKI RAZMIK
To je najpreprostejša mera razpršenosti. Zanjo potrebujemo le najniţjo in
najvišjo vrednost spremenljivke v skupini. Sklepamo takole: če sta najvišji in
najniţji rezultat daleč vsaksebi, potem so rezultati zelo razpršeni.
formula
VR= xmax-xmin
Za nezvezne podatke je treba dodati 1 in je potemtakem obrazec takšen:
formula VR= xmax-xmin+1
Slabosti takšnega merjenja razpršenosti so očitne:
razpršenost merimo le na podlagi dveh enot,
razpršenost merimo na podlagi najbolj ekstremnih rezultatov.
Prva slabost pomeni, da ne upoštevamo, kako so porazdeljeni ostali rezultati
med tema dvema. Ilustrirajmo posledice tega s preprostim izmišljenim primerom
(zaradi nazornosti je nekoliko pretiran).
Tabela 24. Računanje variacijskega razmika
doseţki na testu znanja v točkah variacijski razmik
prva skupina 2, 4, 5, 7, 9, 13, 17, 23, 24, 25, 27, 29 VR = 29-2+1 = 28
druga skupina 2, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 29 VR = 29-2+1 = 28
Po variacijskem razmiku bi sodili, da je razpršenost v obeh skupinah enaka,
vidimo pa, da je v prvi skupini veliko večja.
Druga slabost pomeni pravzaprav naslednje: razpršenost v skupini merimo po
rezultatih, ki nekako “najmanj sodijo” v skupino (so izstopajoči, netipični).
To slabost je moţno zmanjšati ali celo odpraviti. Zmanjšamo jo tako, da ne
upoštevamo najbolj ekstremnih rezultatov. Na ta način dobimo naslednja
razmika.
2. DECILNI RAZMIK
Da bi odpravili vpliv ekstremnih rezultatov, izločimo deset odstotkov
najniţjih rezultatov in deset odstotkov najvišjih rezultatov.
Decilni razmik je ţe nekoliko bolj zanesljiva mera razpršenosti. Sicer še
vedno temelji le na dveh vrednostih, a ne več na ekstremnih. Kljub temu se
še lahko zgodi, da ostanejo še kakšni izstopajoči rezultati. Da bi še bolj
zanesljivo izločili ekstremne rezultate, lahko naredimo še korak naprej.
3. KVARTILNI RAZMIK
Pri tem razmiku izločimo kar 25 % najniţjih in 25 % najvišjih rezultatov.
Kvartilni razmik je le malenkost boljši od decilnega. Ta prednost pride v
poštev zlasti takrat, kadar je ekstremnih rezultatov veliko (čeprav se ob
velikem številu ekstremnih rezultatov lahko ţe vprašamo: kateri rezultati so
potem sploh tipični za to skupino?).
4. KVARTILNI ODKLON
Dosedanje mere izraţajo razpršenost kot razdaljo med dvema točkama, ki sta
simetrično postavljeni vsaka na svoji polovici porazdelitve vseh vrednosti.
Ker je običajno porazdelitev vrednosti numeričnih spremenljivk vsaj
pribliţno simetrična, lahko mero razpršenosti poenostavimo in vzamemo le
polovico dosedanjih razmikov. Vzeli bi le razmik med sredino porazdelitve
in izbrano točko. Če bi bila porazdelitev vrednosti idealno simetrična, bi bilo
vseeno, katero smer bi izbrali – navzgor ali navzdol. Kot sredino porazdelitve
izberemo aritmetično sredino (zaradi prednosti, ki jih ima glede na ostale
srednje vrednosti). Takšen razmik imenujemo odklon, ker meri, koliko se
neka vrednost odklanja od aritmetične sredine. Tako lahko nastane variacijski
odklon, decilni odklon in kvartilni odklon. V praksi se je uveljavil le slednji.
Izračunamo ga preprosto tako, da delimo kvartilni razmik na polovico:
Pravzaprav je pomen kvartilnega odklona bolj simbolen kot praktičen. Nima,
namreč, nikakršnih prednosti pred kvartilnim razmikom. Pomaga nam le, da
z njim uvedemo pojem odklona.
S temi tremi razmiki in kvartilnim odklonom nismo odpravili slabosti, ki
izhajajo iz tega, da merimo razpršenost v skupini le na podlagi dveh
vrednosti. Tudi to se da odpraviti.
5. POVPREČNI ABSOLUTNI ODKLON
Če ţelimo dobiti bolj zanesljivo in natančno mero razpršenosti, moramo
upoštevati vse vrednosti v mnoţici. Treba je izmeriti vse razlike. Ni pa
potrebno iskati razlik med vsemi rezultati (odklonov vsakega od vseh
ostalih). Izberemo si neko izhodiščno točko (običajno je to aritmetična
sredina) in izmerimo odklone vsake vrednosti od te točke. To so individualni
odkloni. Iz teh izračunamo povprečni absolutni odklon. Izračunan je kot
aritmetična sredina, zato se imenuje povprečni absolutni odklon. Pri
izračunu vzamemo absolutne vrednosti vseh odklonov (brez predznaka).
Vsota negativnih odklonov je namreč enaka vsoti pozitivnih; upoštevanje
relativnih vrednosti bi pomenilo, da je skupna vsota enaka nič; to bi vodilo
do napačnega sklepa, da je tudi razpršenost enaka nič.
Interpretiramo ga izhajajoč iz naslednjega: vse vrednosti se odklanjajo od
aritmetične sredine, ene bolj, druge manj; povprečje vseh teh odklonov je
povprečni absolutni odklon.
Izračunamo ga po naslednjem obrazcu:
Formula PO = Σ|x−M| /N
Ilustrirajmo to z enostavnim primerom. Imamo podatke o starosti učencev:
x 8 12 12 13 15
Numerus skupine je 5, aritmetična sredina pa 12,00. Kakšen je povprečni
absolutni odklon?
Tabela 25. Računanje povprečnega absolutnega odklona
x |x−M|
8 4
12 0
12 0
13 1
15 3
Σ|x−M| = 8
POM = 8/5 =1,60
Povprečni absolutni odklon je daljica - to je enorazseţnostna mera
razpršenosti.
Kljub temu, da je ta odklon zanesljiva in natančna mera razpršenosti, se v
praksi redko uporablja. Če bi nas zanimala zgolj razpršenost posameznih
spremenljivk, bi pravzaprav takšna mera zadostovala. Ker pa razpršenost
merimo predvsem zaradi povezanosti med dvema spremenljivkama, bomo
poiskali dvorazseţnostno mero razpršenosti.
6. VARIANCA IN STANDARDNI ODKLON
Dvorazseţnostno mero razpršenosti dobimo najpreprosteje tako, da
individualne odklone kvadriramo (daljice pretvorimo v kvadrate!) in iz teh
poiščemo povprečen kvadrat. Takšen kvadrat je varianca. Zanjo uporabljamo
oznako σ2. Po svoji naravi se le v eni lastnosti razlikuje od povprečnega
absolutnega odklona - namesto ene razseţnosti ima dve! Povprečni absolutni
odklon je daljica, varianca pa je lik. To omogoča analizo povezanosti med
dvema spremenljivkama. Ko ţe imamo varianco, lahko za preprostejše
analize uporabimo enorazseţnostno mero razpršenosti - stranico tega
kvadrata (kvadratni koren iz variance). To je preprosteje, kot če bi poleg
variance, izračunali še povprečni absolutni odklon. Takšna mera se imenuje
standardni odklon. Oznaka zanj je σ. Čeprav ni enak povprečnemu
absolutnemu odklonu, ga interpretiramo podobno (ali celo enako). To ni
povsem pravilno, vsekakor pa je enostavno (napaka pri tem pa je neznatna).
Interpretacijo standardnega odklona (in variance) bomo prikazali na primeru
osebnih dohodkov skupine učiteljev. V skupini 206 učiteljev smo dobili M =
128500 in σ = 15800. Aritmetična sredina nam pove, da je povprečna plača
slabih stotrideset tisoč. Standardni odklon nam pove, da učiteljske plače
odstopajo od sredine navzgor in navzdol v povprečju za skoraj šestnajst tisoč
tolarjev (seveda pri enih več in pri drugih manj). Varianca je v tem primeru
σ2 = 249640000 (skoraj 250 milijonov!) in se je ne da smiselno interpretirati.
Seveda lahko rečemo, da je povprečni kvadrat odstopanj podatkov od
aritmetične sredine slabih 250 milijonov, vendar nam to nič ne pomeni.
Ţe standardni odklon redko uporabimo za interpretacijo; variance pa
pravzaprav nikdar. Varianca je namenjena za nekaj povsem drugega - za
analizo povezanosti.
V. Izračunavanje variance
1. RAČUNANJE IZ INDIVIDUALNIH PODATKOV
Varianco lahko izračunamo neposredno z dopolnitvijo postopka računanja
povprečnega absolutnega odklona ob uporabi istega obrazca. Vse posamične
odklone bomo kvadrirali, kvadrate sešteli in delili z numerusom. Kvadratni
koren iz variance je standardni odklon. Osnovni obrazec za varianco je:
Formula σ2 = (x-M)
2 / N
Ilustrirajmo ta postopek z istim primerom:
Tabela 26. Računanje variance
x x-M (x-M)2
8 -4 16
12 0 0
12 0 0
13 1 1
15 3 9
x = 60 (x-M)2= 26
M=60/5 = 12,00
σ2 = 26/5 = 5,20 σ = 2,28
VIII. Analiza razpršenosti
Z merjenjem razpršenosti smo naredili le prvi korak. Izračunana varianca
nam ne pove veliko; podobno tudi relativna mera razpršenosti ne. Povedali
smo ţe, da je proučevanje odvisnosti med spremenljivkami eden glavnih
namenov merjenja razpršenosti. To nam omogoča šele analiza razpršenosti.
Zamislimo si neko mnoţico zaposlenih, za katere imamo podatke o osebnem
dohodku. Za to mnoţico lahko izračunamo varianco osebnih dohodkov.
Varianca je izračunana iz razlik med osebnimi dohodki enot v mnoţici.
Zanima nas, zakaj se pojavlja razpršenost osebnih dohodkov. Postavimo si
konkretno vprašanje: ali mogoče spol vpliva na osebne dohodke? Ali so torej
osebni dohodki ţensk različni od osebnih dohodkov moških?
Vse zaposlene v mnoţici bomo razdelili v dve skupini: skupino ţensk in
skupino moških. Običajno bo po tej delitvi situacija naslednja: imeli bomo
razlike med posamezniki v skupini moških, razlike med posameznicami v
skupini ţensk, pa tudi skupina moških kot celota se bo razlikovala od skupine
ţensk. Prve in druge bomo imenovali razlike znotraj skupin, slednje pa
razlike med skupinama. Sedaj razmislimo, od kod izvirajo prve razlike in od
kod druge. Na razlike znotraj skupin nikakor ne vpliva spol, saj so vse enote
v svoji skupini enakega spola (z malo humorja lahko rečemo takole: na
razlike med moškimi ne vpliva spol, saj so vsi moški moški; podobno velja
tudi za ţenske). Torej je vir teh razlik lahko vse ostalo, le spol ne. Po drugi
strani pa, če med skupinama so razlike, je njihov vir zagotovo spol. Razlike
med skupinami so povezane s spolom, razlike znotraj skupin pa so povezane
z ostalimi dejavniki.
Sedaj se bomo lotili izračunavanja varianc. Najprej bomo izračunali po
običajnih postopkih variance, kot jih poznamo iz začetka tega poglavja.
1. Iz razlik med vsemi posamezniki v celi mnoţici bomo izračunali
varianco; imenujemo jo skupna varianca ali celotna varianca.
2. Iz razlik znotraj skupine moških bomo izračunali varianco za to
skupino. Ne bo je treba posebej imenovati, če pa ţe, ji recimo kar
običajno: varianca v skupini moških.
3. Iz razlik znotraj skupine ţensk bomo tudi izračunali varianco. Lahko jo
imenujemo varianca v skupini ţensk.
Poleg teh treh varianc bomo izračunali še dve novi. Zanju bodo potrebni novi
postopki računanja. Po svoji statistični naravi sta to navadni varianci, čeprav
neizkušeno oko zaradi drugačnega postopka računanja tega takoj ne opazi.
Bistvo je še vedno enako: vzamemo odklone od aritmetične sredine, jih
kvadriramo in seštejemo ter na koncu delimo z numerusom.
1. Iz razlik med skupino ţensk in skupino moških bomo izračunali
posebno varianco; imenovali jo bomo varianca med skupinami.
2. Iz variance v skupini moških in variance v skupini ţensk (iz obeh
torej!) bomo izračunali posebno varianco; imenovali jo bomo varianca
znotraj skupin.
Pozor! Podobnost imen nas lahko zmede. V imenu zadnje variance je
uporabljena mnoţinska oblika: varianca znotraj skupin. Ne smemo je zamenjati
z varianco znotraj skupine moških ali z varianco znotraj skupine ţensk. Sicer
smo namenoma ti dve varianci imenovali malo drugače: varianca v skupini
moških in varianca v skupini ţensk. Prvo bi bilo moţno imenovati tudi varianca
znotraj skupine moških; podobno pa tudi drugo: varianca znotraj skupine ţensk.
Takšni imeni bi bili pravilni in vsebinsko smiselni (saj bi izraţali tisto, kar ti
varianci merita); lahko bi pa to vodilo k zamenjevanju z varianco znotraj skupin.
Varianca med skupinami je izračunana iz razlik med moškimi in ţenskami
(osebni dohodki v skupini moških se razlikujejo od osebnih dohodkov v skupini
ţensk). Vir teh razlik je torej spol. Ker smo s takšno delitvijo cele skupine
zaposlenih (in izračunavanjem varianc) uspeli določiti, kolikšen del razlik je
povezan s spolom, bomo to varianco imenovali pojasnjena varianca.
Ostale so še razlike znotraj obeh skupin. Zakaj se moški med seboj razlikujejo
po osebnih dohodkih? Zakaj se ţenske med seboj razlikujejo po osebnih
dohodkih? Hipotetično lahko začnemo naštevati vire teh razlik: zaradi razlik v
stopnji izobrazbe, zaradi razlik v delovni dobi, zaradi različnih dodatnih funkcij
itd. Takšnih virov je lahko zelo veliko. V najpreprostejših primerih jih poznamo
vse, večinoma pa le nekaj najpomembnejših. Ker nasplošno vseh ne poznamo,
imenujemo varianco izračunano iz teh razlik nepojasnjena varianca. Vpeljimo
še oznake za vse te variance:
Tabela 32. Označevanje varianc
varianca vir razlik oznaka
skupna varianca med vsemi enotami
mnoţice
2CELOTNA ali
2SK
varianca v skupini
moških
med vsemi moškimi 21 ali
2m
varianca v skupini
ţensk
med vsemi ţenskami 22 ali
2ţ
pojasnjena varianca med moškimi in
ţenskami
2POJASNJENA ali
2M
nepojasnjena varianca razlike znotraj obeh
skupin
2NEPOJASNJENA ali M
2
Razmislek o razlikah med vsemi enotami, o razlikah v skupini moških in v
skupini ţensk ter razlikah med skupinami, nam hitro pokaţe, da je vsota
nepojasnjene variance in pojasnjene variance enaka skupni varianci v celi
mnoţici:
2
CELOTNA = 2POJASNJENA +
2NEPOJASNJENA
ali
2
SK = 2
M + M2
Če pojasnjeno in nepojasnjeno varianco izrazimo v odstotkih od celotne
variance, bomo vedeli, kolikšen deleţ v celotni varianci predstavlja povezanost
osebnih dohodkov s spolom, in koliko povezanost z vsemi ostalimi dejavniki.
Pojasnili smo delovanje spremenljivke spol. Na ta način lahko z delitvijo celotne
mnoţice po katerikoli spremenljivki pojasnimo njen vpliv. Vsakokrat nam bo
razmerje med pojasnjeno in nepojasnjeno varianco pokazalo, kolikšen je vpliv
izbrane spremenljivke. To je najpreprostejši način analiziranja razpršenosti, ki
pa odgovori le na del vprašanj o povezanosti med pojavi.
Če bi nas v opisanem primeru zanimalo, kolikšen deleţ v skupni varianci izvira
iz neke naslednje spremenljivke, npr. stopnje izobrazbe, bi razdelili celotno
mnoţico na skupine izenačene po izobrazbi (recimo na tiste s srednjo izobrazbo,
z višjo izobrazbo in z visoko izobrazbo). Po povsem enakem postopku bi
izračunali pojasnjeno in nepojasnjeno varianco. Toda sedaj bi bil spol v skupini
„vseh ostalih vplivov”. Na ta način vsakokrat pojasnimo le povezanost z eno
samo neodvisno spremenljivko. To ne bo vedno dovolj in bomo morali poseči
tudi po bolj zapletenih statističnih metodah.
ŠESTO POGLAVJE NORMALNA PORAZDELITEV
I. Pojem in značilnosti
Normalna porazdelitev je najpomembnejša porazdelitev, ki jo srečujemo v
teoriji in praksi statističnih postopkov. To je teoretična porazdelitev. Mnoge
empirične porazdelitve, ki jih dobimo z merjenjem pedagoških pojavov,
primerjamo z njo. Značilen primer so testni rezultati. Rezultati merjenja znanja s
pomočjo testov se porazdeljujejo pribliţno normalno (čim večje je število enot,
tem bolj se porazdelitev pribliţuje normalni). Pri proučevanju spremenljivk,
katerih porazdelitev je podobna normalni, se bomo lahko opirali na njene
zakonitosti. Še večji pomen ima normalna porazdelitev pri vzorčenju.
Grafični prikaz normalne porazdelitve:
grafični prikaz
Vidimo, da je krivulja normalne porazdelitve zvonasta, simetrična in se
asimptotično pribliţuje osi x. Znana je tudi kot Gaussova krivulja. Iz enačbe se
vidi, da je oblika normalne porazdelitve odvisna od aritmetične sredine in od
standardnega odklona (variance). Sprememba aritmetične sredine prestavlja
krivuljo levo-desno po osi x; standardni odklon pa spreminja njen razpon
(raztegnjenost). Pri manjši razpršenosti je bolj koničasta, pri večji razpršenosti
pa bolj sploščena. Nestalnost njene lege in oblike je nepraktična lastnost.
Da bi zakonitosti normalne porazdelitve lahko preprosto uporabljali, jo bomo
standardizirali. Enostavno povedano: na os x ne bomo nanašali surovih
vrednosti spremenljivke x, temveč izpeljane vrednosti »z« (standardizirane
odklone). Dobili bomo le eno samo krivuljo; s standardiziranjem smo odpravili
vpliv aritmetične sredine in standardnega odklona (razpršenosti). Imenovali jo
bomo standardizirana normalna porazdelitev.
Kakšne lastnosti ima ta porazdelitev? Nekatere so ostale nespremenjene
(simetričnost, en vrh, zvonasta oblika, asimptotičnost itd.). Aritmetična sredina
te porazdelitve je 0. Namreč, rezultati, ki se od povprečja nič ne odklanjajo,
imajo z-vrednost 0 (to je na sredini). To je hkrati aritmetična sredina
standardizirane normalne porazdelitve. Vrednosti, ki so manjše od povprečja,
imajo negativne z-vrednosti in leţijo na levi strani krivulje. Vrednosti, ki so
večje od povprečja, imajo pozitivne z-vrednosti in leţijo na desni strani krivulje.
Standardni odklon te porazdelitve je enak 1.
Dobili smo eno samo porazdelitev, ki bo uporabna za vse primere. Hkrati pa
smo sprejeli tudi ceno za to poenostavitev: vsakokrat bomo morali preračunavati
surove rezultate v z-vrednosti in obratno.
Za vrednosti te porazdelitve lahko sestavimo tabelo, ki bo olajšala uporabo. V
tabeli je za vsako vrednost »z« ploščina pod krivuljo »P« (%) in vrednost
ordinate »y«. Ker je krivulja simetrična, je v tabeli samo desna polovica. Leva
polovica se od desne razlikuje le v tem, da so vrednosti »z« negativne. Vse
ostalo je enako.
Grafični prikaz krivulje
SEDMO POGLAVJE KORELACIJE
I. Pojem in vrste korelacije
O povezanosti med pojavi smo ţe govorili, največ pri razpršenosti. Nasploh so
vprašanja povezanosti pojavov med najpomembnejšimi vprašanji vsake
znanosti. Zato je proučevanje povezanosti med vzgojnimi pojavi ena
najpomembnejših nalog in ciljev pedagogike.
Na kakšne povezanosti sploh mislimo? Opišimo jih s primeri. Ti primeri
temeljijo predvsem na izkušnjah:
1. Vemo, da na ocene v šoli vpliva, koliko se učenec uči. Nasplošno lahko
rečemo, da kdor se več uči, dobi boljše ocene. Hkrati vemo, da ocene niso
odvisne samo od učenja, še manj pa samo od tega, koliko se kdo uči. Na ocene
vpliva še marsikaj drugega, npr. kako se uči, koliko ima predznanja, kako je
motiviran, kakšne so njegove siceršnje intelektualne sposobnosti itd. Vendarle
pa se ne da zanikati povezanosti med časom učenja in ocenami.
2. Vemo, da je uspešnost učencev v šoli povezana z izobrazbo njihovih staršev:
otroci bolj izobraţenih staršev so nasploh bolj uspešni. Res je, da obstajajo
številne izjeme, nekatere celo ekstremne (zelo izobraţeni starši - izredno
neuspešni otroci in obratno), pa vendar zveza je takšna, kot smo povedali na
začetku.
3. Spol in stališča so nasplošno povezani: po nekaterih stališčih se ţenske
nasploh razlikujejo od moških. Seveda ne gre prezreti, da se tudi ţenske med
seboj razlikujejo po stališčih in podobno tudi moški. Verjetno se stališča moških
in ţensk o koristnosti računalniškega programa Word ne razlikujejo; zagotovo
pa se razlikujejo njihova stališča, npr. o splavu, o socialni zaščiti mater itd.
Da so našteti pojavi res povezani, ne moremo prezreti; hkrati pa »čutimo«, da te
zveze niso »čiste«. Ob vrsti primerov, ki te zveze potrjujejo, obstajajo tudi
primeri, ki so povsem drugačni – kakor da ni omenjene povezanosti. Občutek
nam pravi, da zveze so, hkrati pa, kakor da jih ni. Da bi takšne povezanosti bolje
razumeli, bomo na kratko opisali neko drugo vrsto povezanosti – funkcijsko
povezanost.
Funkcijska povezanost je povezanost dveh spremenljivk. Na odvisno
spremenljivko vpliva samo neodvisna spremenljivka in nič drugega. Razmerje
med njima lahko izrazimo s pomočjo tabele, grafičnega prikaza in enačbe.
Vsaki vrednosti neodvisne spremenljivke ustreza ena ali več točno določenih
vrednosti odvisne spremenljivke
Vzemimo za primer zvezo med številom kupljenih jajc in zneskom, ki ga je za
jajca treba plačati. To funkcijo lahko izrazimo z enačbo:
formula y = 25x
Cena enega jajca je 25 SIT; za dve jajci plačamo 50 SIT, za tri 75 SIT itd. Za
kakršnokoli število jajc se da natančno izračunati skupni znesek plačila. Zveza je
funkcijska. Ker je cena enega jajca določena, je znesek odvisen samo od števila
jajc.
Pri korelaciji pa ni tako kot pri funkciji. Čeprav iz izkušenj vemo, da čas učenja
vpliva na doseţeno oceno, pa hkrati vemo, da samo iz časa učenja ne moremo
določiti ocene. Zakaj ne? Ker na doseţeno oceno vpliva še marsikaj drugega in
ne le čas učenja. Zveza med tema spremenljivkama ni funkcijska. Takšne zveze
imenujemo korelacijske. Nasplošno lahko rečemo, da več učenja pomeni večjo
oceno. Vendar ni nujno, da je pri vseh učencih tako. Delujejo še drugi vplivi.
Mnogi vplivi so slučajnostni in jih ni mogoče povsem izločiti. Zato pravimo, da
med tema spremenljivkama obstaja le neka splošna tendenca povezanosti. Torej,
nasploh povezanost obstaja; posamični primeri pa lahko odstopajo od te
zakonitosti (nekateri tudi znatno). Čim več je takih odstopanj (ali čim večja so ta
odstopanja) tem rahlejša je zveza med pojavoma. In seveda obratno – čim manj
jih je, tem tesnejša je zveza. Zato pri korelacijah lahko govorimo o jakosti
(tesnosti) zveze. Kot prispodobo lahko vzamemo kozarec z vodo. Funkcijo si
lahko predstavimo kot poln kozarec vode, korelacijo pa kot deloma poln
kozarec. Čim bolj je poln, tem močnejša je korelacija; čim manj je vode v
kozarcu, tem šibkejša je korelacija. Pri polnem kozarcu je korelacija
najmočnejša (najtesnejša) in je ţe funkcijska. Pri napol polnem kozarcu je vpliv
neodvisne spremenljivke pribliţno polovičen, pri praznem kozarcu pa vpliva
sploh ni več in korelacije ni (korelacija je enaka nič). Takšna ponazoritev nam
bo pomagala pri razumevanju najsplošnejše mere za jakost korelacije.
Z dosedanjim razmišljanjem smo mimogrede vpeljali pojem korelacije kot zveze
med dvema spremenljivkama; druge vplive pa smo obravnavali kot ostale, kot
nekaj postranskega ali celo motečega. Za začetek je to nujno. Svet je seveda
nedeljiva celota, kjer je pravzaprav vse povezano z vsem. Povsem izoliranega
pojava ni. Tudi pri vzgojnih pojavih je tako. Pri proučevanju tistih pedagoških
zakonitosti, ki se kaţejo kot zveze med pojavi, je praktično nemogoče zajeti vse
moţne zveze. Pomislimo, koliko različnih pojavov vpliva na ocene, ki jih učenci
dobijo. Mnogo jih pedagogika ţe pozna in smo nekatere ţe zgoraj našteli.
Vendar pomislimo na učenca, ki ima doma bolnega brata. Skrb in misel nanj
bosta zanesljivo vplivala na oceno, če bo tisti dan vprašan. Ali sosednji učenec,
ki se je med odmorom spotaknil in ga boli koleno. Nešteto je različnih vplivov.
Zato nekateri delijo vse vplive na bistvene in slučajne. Mi se bomo ukvarjali z
bistvenimi; za slučajne bo zadosti, da se zavedamo, da sploh delujejo. Vendar je
tudi bistvenih vplivov lahko veliko.
Zato bomo pri obravnavanju povezanosti med pojavi za začetek vzeli
najpreprostejšo moţno situacijo: korelacijo med dvema spremenljivkama.
Preučevali bomo, kako neodvisna spremenljivka x vpliva na odvisno
spremenljivko y. Pri tem bomo potisnili v ozadje vse ostale vplive – bistvene in
tudi slučajne. Obravnavali jih bomo kot skupno kategorijo – ostali vplivi.
Njihovega vpliva ne bomo posebej obravnavali in preučevali. Ko bomo
obvladali takšne preproste situacije, se bomo lahko usmerili še na delovanje
ostalih bistvenih vplivov. Takrat bomo proučevali povezanost več spremenljivk
hkrati.
1. RAZMERJE MED KORELACIJO IN VZROČNO-POSLEDIČNIMI ZVEZAMI
Za popolnejše razumevanje korelacijske odvisnosti moramo pojasniti še njeno
razmerje z vzročno-posledičnimi zvezami. Ali gre za različni zvezi ali je njuno
bistvo zelo podobno? Ali močna korelacija pomeni hkrati tudi vzročno
povezanost med dvema pojavoma?
Da bi še bolje nakazali, kaj nas zanima, se bomo spomnili, kako so nekoč
objavljali rezultate raziskav. Nekoč smo lahko prebrali, da kajenje povzroča
pljučnega raka. Morda ga res povzroča, a šlo je v resnici za ugotovljeno precej
opazno korelacijo med tema pojavoma. Podobno so pisali, da margarina
povzroča raka, nato da paradiţnik povzroča raka in podobno. V vseh primerih so
se avtorji takšnih člankov (morda tudi ustrezni strokovnjaki) opirali na
ugotovljeno korelacijo. Če je torej korelacija pozitivna in ni zanemarljivo nizka,
pomeni, da res tisti, ki npr. več kadijo, tudi pogosteje zbolevajo za rakom.
Vendar korelacija ne dokazuje in ne potrjuje vzročne zveze. Spremenljivki, ki
sta korelacijsko povezani, sta lahko v vzročni zvezi ali pa tudi ne. Sam izračun
korelacijskega koeficienta ničesar ne dokazuje. Takšne moči nima noben
korelacijski koeficient. Vzročne zveze so najpomembnejše zveze med pojavi;
korelacija teh zvez ne more dokazati.
Da je res tako, bomo pojasnili z znanim primerom dveh spremenljivk, ki sta v
močni pozitivni korelacijski zvezi. Imamo podatke za vse učence neke osnovne
šole o dveh spremenljivkah: dolţina palca na levi roki (cm) in doseţek na testu
bralnih spretnosti v točkah. Izračunani Pearsonov korelacijski koeficient ima
visoko pozitivno vrednost. To pomeni, da v splošnem učenci z daljšim palcem
bolje berejo in učenci s krajšim palcem slabše. Bralec nam tukaj mora verjeti na
besedo, da je korelacija res visoka in pozitivna. Malce pozneje bo tudi brez
praktičnega dokazovanja vidno, da je res tako. Kako pojasniti korelacijo med
tema spremenljivkama? Celo brez globljega poznavanja pojavov lahko
presodimo, da med dolţino palca in bralnimi spretnostmi ni vzročne zveze.
Dolţina palca ni vzrok za boljše bralne spretnosti. Še manj pa je obratno – da bi
dobre bralne spretnosti bile vzrok za hitrejšo rast palca!?
Imamo torej primer, kjer korelacija je, vzročne zveze pa ni. Lahko bi sicer
ugovarjali, češ da so vsi pojavi na svetu na nek način med seboj (vzročno)
povezani. Vendar bi bilo to pretirano. Neposredne vzročne zveze v našem
primeru ni. In če imamo ta en primer, je to ţe dokaz: korelacija ne pomeni
tudi vzročne zveze. Zakaj je potem korelacija pozitivna in močna? Zakaj učenci z daljšim palcem
bolje berejo? Odgovor je na dlani. Učenci, npr. prvega razreda so majhni in
imajo majhne prste. Hkrati tudi slabše berejo, saj hodijo v šolo šele manj kot
leto. Učenci drugega razreda so ţe malo večji (njihovi prsti tudi) in bolje berejo,
učenci tretjega razreda so še večji in še bolje berejo itd. do osmega razreda.
Učenci višjih razredov ne berejo bolje, ker so večji, ampak ker hodijo v šolo
dlje časa. V ozadju zveze med dolţino palca in bralnimi spretnostmi je starost.
Če bi vzeli samo učence, npr. šestega razreda, bi bil korelacijski koeficient med
tema spremenljivkama zelo nizek (okoli ničle). Pogosto je tako, da neka tretja
spremenljivka povzroča visoko korelacijo med določenima pojavoma.
Ali to pomeni, da korelacijska zveza nič ne pomeni, da kaţe le neko posredno ali
celo navidezno povezanost? Čeprav korelacija ne more dokazovati vzročne
zveze, je vendarle zelo koristna. Korelacija nam nakaţe povezane pojave. Šele
poglabljanje v bistvo preučevanih pojavov (povezano tudi z morebitnimi
eksperimenti) nam lahko potrdi vzročno zvezo. V našem primeru nas je
poznavanje bistva pojavov obvarovalo pred prenagljenim sklepom, češ:
»korelacija med dolţino palca in bralnimi spretnostmi potrjuje, da je med njima
tudi vzročna zveza«.
2. KORELACIJSKI GRAFIKON
Podobno kot pri funkciji, lahko tudi pri korelaciji vse vrednosti obeh
spremenljivk prikaţemo v grafikonu (korelacijski grafikon). Ta je drugačen od
grafičnega prikaza funkcije.
Za primer bomo vzeli vrednosti naslednjih dveh spremenljivk: uspeh v osmem
razredu osnovne šole in uspeh v prvem razredu srednje šole.
grafični prikaz
V grafikonu smo potegnili sredinsko črto med označenimi točkami. To je
regresijska črta. Točke v grafikonu se zgoščajo okoli te črte. Črta je le
zamišljena – pribliţno takšna bi bila, če ostalih vplivov ne bi bilo. Vpliv x na y
»vleče« točke k regresijski črti; ostali vplivi »vlečejo« točke od regresijske črte.
Če je oblak točk zgoščen blizu regresijske črte, je korelacija med x in y močna.
Če so točke daleč od regresijske črte, je korelacija šibka (saj so ostali vplivi
močni). Torej lahko ţe iz oblike oblaka točk v grafikonu sodimo, kako močno x
vpliva na y. Če se točke ne bi zgoščale v oblak in bi bile enakomerno razpršene
po vsem grafikonu, potem korelacije med x in y ne bi bilo. Ker si idealno
enakomerno porazdeljenost lahko le zamislimo, bomo za katerekoli
spremenljivke vedno ugotovili vsaj zelo rahlo korelacijo. Tudi zato moramo biti
pri interpretaciji korelacije previdni.
Poglejmo nekaj značilnih grafikonov. V primeru A je korelacija močna (zgoščen
oblak), v primeru B je šibka (majhna zgoščenost - komaj zaznaven oblak) in v
priemru C ni korelacije (oblaka ni).
grafični prikazi (oblaki točk)
3. POZITIVNA IN NEGATIVNA KORELACIJA
Poleg jakosti, ki smo jo šele omenili (in jo bomo natančneje obdelali pozneje),
ima korelacija tudi smer. Če vrednosti neodvisne spremenljivke naraščajo, lahko
naraščajo tudi vrednosti odvisne spremenljivke. To je pozitivna korelacija. V
korelacijskem grafikonu je regresijska črta usmerjena iz levega spodnjega kota v
desni zgornji kot.
grafični prikaz
Če ob naraščanju vrednosti »x«, vrednosti »y« padajo, gre za negativno
korelacijo. V korelacijskem grafikonu leţi regresijska črta drugače:
grafični prikaz
Preprost primer pozitivne korelacije je: »čim več učenja, tem večja ocena«.
Primer negativne korelacije je korelacija med tremo in oceno (»ob večji tremi je
ocena niţja« in obratno). Oba primera sta poenostavljena in sluţita le za laţje
razumevanje smeri korelacije in ne za njeno dokazovanje.
Nekateri kazalci korelacije imajo predznak, ki nam pove, ali je korelacija
pozitivna ali negativna. Drugi kazalci nimajo predznaka in moramo za
interpretacijo smeri pazljivo pregledati vse rezultate.
4. LINEARNA IN NELINEARNA KORELACIJA
Regresijska črta je lahko premica, ali pa ne (seveda: le del premice). Kadar ni
premica, je korelacija nelinearna, kadar pa je premica, je korelacija linearna. V
realnih primerih regresijska črta nikdar ne bo idealna premica. Zato bomo kot
linearno korelacijo šteli tiste primere, ko je regresijska črta vsaj pribliţno ravna
(kadar ni izrazito zakrivljena). Šele pri izraziti ukrivljenosti bomo korelacijo
obravnavali kot nelinearno.
Linearna korelacija je preprostejša za interpretacijo. Kako se sploh izraţa
linearnost in nelinearnost korelacije (razen na grafičnem prikazu)? Pri linearni
korelaciji se spreminjajo vrednosti odvisne spremenljivke linearno s
spreminjanjem vrednosti neodvisne spremenljivke. Preprosteje lahko rečemo, da
naraščajo ali padajo vrednosti »y« sorazmerno z naraščanjem ali padanjem
vrednosti »x« (enakomerno). Smer je vedno enaka: če je, npr. korelacija
pozitivna, je »povsod« pozitivna (pri naraščanju »x« vedno naraste tudi »y«).
Pri nelinearni korelaciji sta vsaj dve teţavi pri interpretaciji. Prva je v
neenakomernem spreminjanju »y«, kadar se »x« sicer enakomerno spreminja.
Zato je bistveno teţje pojasniti spreminjanje »y« ob spreminjanju vrednosti »x«.
Druga teţava je v tem, da je nelinearna korelacija lahko v nekem delu pozitivna,
v drugem pa negativna. Preprosto se sliši, npr. da čim več se nekdo uči, tem
višjo oceno bo dosegel. Vsakdo razume tudi naslednjo zakonitost: čim več
športnik trenira, tem boljši bo njegov doseţek. Pa vendar vse ni tako preprosto:
prav zadnji primer nam lahko nazorno pokaţe teţave pri interpretaciji nelinearne
korelacije. Doseţki športnika naraščajo do neke meje. Za to mejo bi
povečevanje časa treninga prineslo zmanjšanje doseţkov. To je pojav
pretreniranosti (športnik je treniral preveč!). Grafični prikaz takšne korelacije je
prikazan spodaj. Do točke A je korelacija pozitivna, od te točke naprej pa
negativna (več treninga prinaša niţje doseţke). Primer je poenostavljen, saj smo
morali zanemariti še nekaj: naraščanje rezultatov ima svoje meje ne glede na
trening (preprosto povedano: tudi če bi korelacija bila ves čas pozitivna, doseţki
ne bi naraščali v nedogled). Vendar ta poenostavitev v ničemer bistvenem ne
spremeni spoznanja, da je nelinearno korelacijo veliko teţje interpretirati kot
linearno.
grafični prikaz
II. Indeks korelacije
Kako bi nasploh lahko merili korelacijo, smo deloma videli v poglavju o
pojasnjeni in nepojasnjeni varianci. To bomo tukaj razširili. Poglejmo na skici,
kako se izraţa korelacija med neodvisno spremenljivko »x« in odvisno
spremenljivko »y«.
grafični prikaz
Pojasnjena varianca je posledica delovanja neodvisne spremenljivke »x«,
nepojasnjena varianca pa posledica delovanja vseh ostalih vplivov skupaj. To je
nekoliko poenostavljena razlaga. Tako bi namreč bilo, če bi bil »x« popolnoma
neodvisen od ostalih vplivov. V praktičnih primerih je le izjemoma tako. Vendar
je tudi tako poenostavljena situacija zadosti dobra za razlago postopka
ugotavljanja jakosti korelacije. Ne smemo pa pozabiti, da je tak postopek vedno
le pribliţen. Odstopanja stvarnih primerov od idealizirane slike zgoraj bomo
lahko vedno upoštevali v interpretaciji. Razmerje med pojasnjeno varianco in
celotno varianco nam bo kazalo, kako močno »x« vpliva na »y« (seveda
pomnimo: vsakokrat gre za varianco odvisne spremenljivke »y«). To razmerje
imenujemo indeks korelacije:
I =
Vrednosti indeksa korelacije so med 0 in 1. Vrednost nič pomeni, da ni
nikakršne korelacije med x in y (pojasnjene variance sploh ni in torej x ne vpliva
na y). Vrednost 1 pomeni, da je korelacija najmočnejša (nepojasnjene variance
sploh ni, kar pomeni, da samo x vpliva na y). Takšna korelacija je pravzaprav
funkcija. Stvarni primeri so med tema skrajnostima.
Poglejmo grafični prikaz za nekaj moţnih primerov med tema skrajnostima (ob
teh se lahko znova spomnimo prispodobe s kozarcem vode):
grafični prikaz
III. Korelacijski koeficienti
Indeks korelacije nam sluţi le kot osnova za razumevanje merjenja jakosti
korelacije. V praksi ga uporabljamo le izjemoma. Za praktično rabo
uporabljamo korelacijske koeficiente. Teh je več, glede na naravo spremenljivk
in korelacije med njimi.
1. PEARSONOV KORELACIJSKI KOEFICIENT
Kadar imamo dve povezani spremenljivki, ki sta obe intervalni in je zveza med
njima linearna, lahko uporabimo Pearsonov korelacijski koeficient (rxy). Ta med
vsemi korelacijskimi koeficienti najbolje odraţa povezanost med
spremenljivkama. Če le moremo, ga uporabimo. Pri interpretaciji ostalih
koeficientov se pogosto opiramo na njega. V pomoč nam je, če je nek drug
koeficient primerljiv s Pearsonovim. Takšne koeficiente interpretiramo podobno
kot Pearsonovega. Ostale koeficiente pa interpretiramo samostojno in brez
primerjave s Pearsonovim.
Osnovni obrazec za Pearsonov korelacijski koeficient je:
formula
Cxy je kovarianca, σx in σy sta običajna standardna odklona za spremenljivki x
in y. Nobene od teh treh količin nam ni treba izračunati do konca; za vse tri
zadostuje le števec iz obrazcev za računanje.
Pokazali bomo samo postopek za računanje Pearsonovega korelacijskega
koeficienta iz individualnih podatkov. Postopek za računanje iz frekvenčne
porazdelitve je precej zapleten; ima pa samo še simboličen pomen. Ţe pri
manjših numerusih bomo za izračunavanje uporabili računalnik, pri večjem
numerusu pa zagotovo.
V tabeli imamo vse potrebne obrazce. Seveda bi lahko uporabili daljši postopek
(s celimi obrazci in ne samo s števci), vendar nam ne bi prinesel nič več kot
krajši.
Tabela 34. Obrazci za kovarianco in varianci
osnovni obrazec števec
kovarianca
varianca za x
varianca za y
Kadar računamo samo s števci, je obrazec za Pearsonov korelacijski koeficient
podoben prejšnjemu:
Kx in Ky sta vsoti kvadratov za x in y; Kxy pa je vsota pravokotnikov za
odklone obeh spremenljivk hkrati.
Pokaţimo potek vsega postopka s primerom. Imamo podatke iz neke šole. Pri
delu maketarskega kroţka smo merili čas, ki so ga učenci potrebovali za
sestavljenje dveh maket. Spremenljivka x je čas potreben za sestavo prve makete
in y za sestavo druge makete (v minutah).
Tabela 35. Računanje Pearsonovega korelacijskega koeficienta
učenec x y x2 y
2 xy
1 10 6 100 36 60
2 19 10 361 100 190
3 18 7 324 49 126
4 29 12 841 144 348
5 18 8 324 64 144
6 14 6 196 36 84
7 22 12 484 144 264
8 17 6 289 36 102
9 16 9 256 81 144
10 15 10 225 100 150
11 20 10 400 100 200
12 16 8 256 64 128
Σ 214 104 4056 954 1940
Kx
Ky
Kxy
rxy = 0,76
Interpretacija Pearsonovega korelacijskega koeficienta
Vrednosti Pearsonovega koeficienta so med –1 in +1. O interpretaciji smeri
povezanosti (glede na predznak) smo nekaj ţe povedali. Pri pozitivnem
predznaku je povezanost med spremenljivkama takšna, da čim večjo vrednost x
ima enota, tem večjo ima tudi vrednost y. Seveda velja hkrati, da čim manjšo
vrednost x ima enota, tem manjšo ima tudi vrednost y. Preprosteje povedano:
nadpovprečnim vrednostim x ustrezajo nadpovprečne vrednosti y;
podpovprečnim vrednostim x ustrezajo podpovprečne vrednosti y. Pri
negativnem predznaku koeficienta je korelacija seveda negativna, kar pomeni:
nadpovprečnim vrednostim x ustrezajo podpovprečne vrednosti y;
podpovprečnim vrednostim x ustrezajo nadpovprečne vrednosti y.
Jakost korelacije interpretiramo glede na številčno vrednost koeficienta (pozor:
pri interpretaciji jakosti predznak sploh ni pomemben!). Vrednosti
korelacijskega koeficienta do 0,20 interpretiramo kot neznatno korelacijo, raje
kot zanemarljivo. Sodimo, da pravzaprav povezave ni in da je dobljeni
koeficient prej posledica slučajnega ujemanja podatkov, kot pa stvarne
povezanosti med njimi. Vrednosti koeficienta med 0,20 in 0,40 interpretiramo
kot rahlo ali šibko korelacijo (zveza je komaj opazna, a vendarle je!).
Korelacijske koeficiente med 0,40 in 0,70 interpretiramo kot srednje močno
korelacijo, med 0,70 in 0,85 kot močno korelacijo (x zelo vpliva na y) in
koeficiente nad 0,85 kot zelo močno korelacijo (skoraj ţe popolno povezanost).
Vendar se pri interpretaciji ne moremo ravnati le po tej lestvici. Vsekakor
moramo dobro poznati opazovane pojave. V interpretacijo moramo vključiti
dosedanje rezultate, pričakovanja, izkušnje itd. Ilustrirajmo s primeroma
konkretnost interpretacije.
Primer 1.
Dva učitelja sta vsak zase ocenjevala proste spise istih učencev. Za vsakega učenca
imamo dve oceni: eno mu je prisodil prvi učitelj, drugo pa je za isti spis dobil od
drugega učitelja. Naj bo korelacija med temi ocenami rxy = + 0,65. Interpretirali
bomo, da je korelacija pravzaprav visoka in rekli, da se učitelja zelo ujemata pri
ocenah prostih spisov.
Primer 2.
Če bi ista učitelja popravljala teste znanja (v katerih so naloge objektivnega tipa) za
iste učence in bi dobili rxy = + 0,75, bi takšno korelacijo ocenili kot nepričakovanao
nizko. Rekli bi, da se učitelja slabo ujemata in bi iskali razloge, zakaj se točkovanje
teh dveh učiteljev tako razlikuje. Skratka, niţji korelacijski koeficient bi interpretirali
kot precejšnjo povezanost, višjega pa kot šibko povezanost. Pri ocenah za proste
spise smo namreč pričakovali nizko ujemanje in nas je višina koeficienta (0,65)
presenetila. Pri vrednotenju testov znanja smo pričakovali popolno ujemanje (ali pa
vsaj skoraj popolno) in nas je presenetil nepričakovano nizek koeficient (0,75).
Še enkrat pa moramo opozoriti na nevarnosti vzročne interpretacije korelacije.
Nek pozitivni in visok koeficient lahko intepretiramo takole: učenci, ki so bolje
pisali test iz slovenščine, so hkrati bolje pisali tudi test iz matematike. Bolj
poljudno bi to lahko tudi takole rekli: čim boljši je učenec pri slovenščini tem
boljši je pri matematiki.
Ne bi pa bilo prav, če bi rekli pribliţno takole: učenci, ki so bolje pisali test iz
slovenščine, so zato bolje pisali tudi test iz matematike. Ena sama beseda
(...zato...)
popolnoma spremeni pomen interpretacije. Visoko ujemanje testnih rezultatov
nikakor še ne pomeni, da so drugi rezultati takšni zaradi prvih. Testni doseţki
učencev za različne predmete se navadno vedno visoko ujemajo in je
korelacijski koeficient pozitiven in visok. To velja za praktično vse predmete v
šoli. Če računamo korelacijo med testnimi rezultati za katerakoli dva predmeta,
bomo skoraj zanesljivo dobili visoko pozitivno korelacijo. Toda to še ne
pomeni, da imajo učenci dobre rezultate pri enem testu zaradi dobrih pri
drugem. Po drugi strani ne smemo takoj trditi, da vzročne zveze ni. Korelacijski
koeficient ne dokazuje niti prisotnosti niti odsotnosti vzročne zveze. Če se sedaj
vprašamo, zakaj je potem korelacija za različne šolske predmete pozitivna in
visoka, pomislimo na to, da bolj motivirani učenci dosegajo boljše rezultate pri
slovenščini in pri matematiki (ali kakšnem drugem predmetu). Podoben vpliv
imajo sposobnosti, prizadevnost, pogoji za učenje itd. Tudi negativni vplivi
delujejo podobno. Učenec, ki je veliko manjkal od pouka (npr. zaradi bolezni),
bo imel teţave pri večini predmetov itd. Teh ugotovitev bistveno ne spremeni
dejstvo, da se pri nekaterih učencih rezultati izrazito ne ujemajo (ob sijajnih
ocenah pri enih predmetih imajo slabe ocene pri drugih predmetih). Zaradi
takšnih primerov korelacija med doseţki iz različnih predmetov ne bo 1, temveč
»le« 0,70 ali kaj podobnega.
2. KORELACIJA RANGA
Vzgojni pojavi so takšne narave, da imamo zanje le redko na voljo intervalne
spremenljivke. Zato je raba Pearsonovega koeficienta redkost. To se zlasti
nanaša na značilnosti učencev, kot so: motivacija, marljivost, priljubljenost,
uspešnost, prilagodljivost itd. Učitelj (vzgojitelj, itd.) nam lahko učence
sorazmerno zanesljivo razvrsti v ranţirno vrsto. Iz takšnih rangov ţelimo
izračunati jakost in smer korelacije. Rangi niso intervalna spremenljivka, zato
Pearsonov korelacijski koeficient ne ustreza. V sili ga sicer lahko uporabimo
(zanemarimo pač ordinalno naravo rangov in jih obravnavamo kot intervalno
spremenljivko), vendar to ni najbolje. Lahko je le izhod v sili.
Korelacija med rangi je pozitivna, kadar velja: čim višje so rangirane enote po
eni spremenljivki (npr. prizadevnosti), tem višje so tudi pri drugi spremenljivki
(npr. uspešnosti). Če pa imajo pri prvi spremenljivki višje range tisti, ki imajo
pri drugi niţje range, je korelacija negativna. O jakosti korelacije pa odloča,
kako pogosto se rangi za enote ujemajo (bodisi v pozitivni ali v negativni smeri).
V tabeli sta pokazana primera popolne pozitivne in popolne negativne korelacije
med rangi; dodana sta še primera visoke korelacije obeh smeri. Primer je zaradi
enostavnosti kratek (majhen numerus). V resnici za tako majhne skupine ne bi
računali korelacije.
Tabela 36. Korelacije ranga popolna
pozitivna korelacija
visoka
pozitivna korelacija
popolna
negativna korelacija
visoka
negativna korelacija
R1 R2 R1 R2 R1 R2 R1 R2
1 1 1 2 1 7 1 7
2 2 2 1 2 6 2 5
3 3 3 3 3 5 3 6
4 4 4 5 4 4 4 4
5 5 5 4 5 3 5 3
6 6 6 6 6 2 6 1
7 7 7 7 7 1 7 2
Za nevezane range po dveh spremenljivkah določimo korelacijo tako, da
uporabimo Spearmanov korelacijski keficient. Nevezane range dobimo v večini
praktičnih primerov, ko nam, npr. učitelj razvrsti učence. Kadar se pa učitelj ne
more odločiti med dvema ali več učenci in jim prisodi enak rang, dobimo vezane
range.
Računanje tega koeficienta je zelo preprosto. Če je skupina zadosti velika, je
Spearmanov korelacijski koeficient primerljiv s Pearsonovim; to pomeni da ga
podobno interpretiramo.
Kadar imamo vezane range, uporabimo zanje Pearsonov korelacijski koeficient.
Postopek je popolnoma enak, kot smo ga ţe videli v poglavju o računanju
običajnega Pearsonovega korelacijskega koeficienta. Ker pa rangi niso ustrezna
spremenljivka za uporabo Pearsonovega korelacijskega koeficienta, bomo tega
sedaj imenovali Pearsonov korelacijski koeficient za range. Tudi simbol zanj je
malo drugačen. Ker smo postopek tam podrobno prikazali, bomo tukaj navedli
samo kratek primer. Pri obeh spremenljivkah imamo vezane range: v prvem
primeru sta dva najniţja ranga vezana na dva učenca, v drugem primeru so trije
najvišji rangi (7, 8 in 9) vezani na tri učence.
Tabela 38. Računanje Pearsonovega korelacijskega koeficienta za range
R1 R2
1,5 2
1,5 1
3 4
4 6
5 5
6 3
7 8
8 8
9 8
Zaradi interpretacije moramo vedeti, da Pearsonov korelacijski koeficient za
range ne odraţa povezanosti med spremenljivkama tako natančno, kot bi jo
odraţal, če bi imeli intervalne spremenljivke. Rangi namreč ne izraţajo natančno
razlike med posameznimi vrednostmi (v našem primeru med učenci). Najbolje
se to vidi pri ekstremnih vrednostih: še tako ekstremna vrednost bo imela rang le
za ena večji ali manjši od sosednje neekstremne vrednosti. Tudi pri vseh ostalih
vrednostih je tako.
IV. Regresija
Korelacija nam omogoča napovedovanje vrednosti ene spremenljivke, če nam je
znana vrednost druge spremenljivke. Če, npr. na doseţke učencev pri nekem
testu vpliva določeno predznanje, lahko iz predznanja napovedujemo doseţke na
testu znanja. To napovedovanje temelji na predpostavki, da je med
spremenljivkama funkcijska povezava.
Če nam je znana vrednost spremenljivke x, lahko po tej formuli napovemo
vrednost spremenljivke y. Takšen postopek je popolnoma pravilen, če je med
spremenljivkama res funkcijska zveza. Vse točke so na regresijski premici; ni
nikakršnih odstopanj. Napovedana vrednost res drţi. Napovedujemo lahko tudi
kar z grafikona.
Pri korelacijski zvezi točke niso na regresijski premici (saj ne gre za funkcijo) in
bodo napovedi vedno napačne. Pri močni korelaciji so točke zgoščene okoli
regresijske premice in bodo napake napovedovanja majhne. Pri šibki korelaciji
so točke daleč od regresijske premice in bodo napake pri napovedovanju velike.
Pri točkah, ki so nad regresijsko premico, so napovedi prenizke (učenec je
dosegel več kot smo napovedali); pri točkah pod njo pa so napovedi previsoke
(učenec je dosegel manj kot smo napovedali). Torej je jasno, da bo postopek
napovedovanja uspešen le pri močni korelaciji; le takrat ga bomo sploh
uporabili.
Nekoliko drugače pa je kadar napovedujemo rezultat za neko skupino: če iz
povprečnega x za neko skupino napovedujemo povprečni y za to skupino. V
takšnih primerih so napovedi sorazmerno zanesljive tudi pri šibkejši korelaciji.
Kako to razloţiti? Zamislimo si, da delamo posamične napovedi v tej skupini. V
splošnem bomo za neke učence pogrešili navzgor, za druge pa navzdol. V dovolj
veliki skupini se te napake pribliţno izenačijo in je skupinska napoved veliko
bolj zanesljiva kot posamične napovedi. Toda skupinske napovedi le redko
potrebujemo – od njih ni velike koristi. Zato se nasploh postopek napovedovanja
na podlagi korelacije bolj poredko uporablja.
V. Parcialna korelacija
Za razumevanje pojma parcialne korelacije se moramo vrniti k razlagi merjenja
jakosti korelacije na podlagi pojasnjene variance. Ponovno bomo pogledali
grafični prikaz razdelitve celotne variance odvisne spremenljivke (y):
grafični prikaz
Slika, v kateri je pojasnjena varianca posledica delovanja spremenljivke x,
nepojasnjena pa posledica delovanja vseh ostalih spremenljivk, je pravilna le
pod pogojem, da je x neodvisen od teh ostalih spremenljivk. Takrat je
pojasnjena varianca res posledica delovanja samo spremenljivke x. Če se za
ilustracijo izrazimo po ekološko bi rekli: »Pojasnjena varianca je čista, ni
onesnaţena z nobenimi primesmi«.
Če pa katera od spremenljivk iz skupine »ostale spremenljivke« vpliva na x, se
bo ta vpliv prenesel preko x na y. Pojasnjena varianca ne bo več posledica
delovanja samo spremenljivke x. V pojasnjeni varianci bo neposreden vpliv
spremenljivke x in posreden vpliv vseh spremenljivk, ki vplivajo na x. Znova
ilustrirajmo z ekološko prispodobo: pojasnjena varianca ne bo »čista«, temveč
bo »onesnaţena« še z drugimi vplivi. Podobno je seveda tudi z nepojasnjeno
varianco.
Tako na koncu ne moremo reči, da indeks korelacije izraţa res samo vpliv x na
y. Podobno velja tudi za korelacijske koeficiente. To dejstvo je neprijetno, saj
nam kvari enostavnost interpretacije korelacijskih koeficientov.
To slabost koeficientov lahko poskušamo odpraviti (ali bolje: omiliti!).
Načeloma si lahko zamislimo dva postopka: empiričnega in statističnega.
Pri empiričnem postopku moramo »preprečiti« vpliv takšne spremenljivke na x.
S tem bomo preprečili tudi njen posredni vpliv na y. Kako to doseči? Iz celotne
mnoţice bomo izbrali le tiste enote, za katere vemo, da so enake po tej
spremenljivki. Če so enake, ta spremenljivka ne bo povezana z x in potemtakem
tudi z y ne. V pojasnjeni varianci ne bo njenega deleţa. Če sedaj izračunamo
indeks korelacije (ali koeficient korelacije) bo ta, v večji meri kot prej, izraţal
vpliv x na y. Tako bi lahko izločali drugo za drugo vse neţelene spremenljivke.
Dobljeni kazalec korelacije bi vse bolje kazal korelacijo med x in y. Pojasnjena
varianca bi bila vse »čistejša«. Vendar ima na ţalost ta postopek veliko
pomanjkljivost: iskanje enakih enot po neki spremenljivki pomeni bistveno
zmanjševanje velikosti skupine (za katero računamo korelacijo med x in y).
Zaradi manjšega numerusa bo nasploh korelacijski koeficient manj zanesljiv.
Običajno je tako, da za eno ali dve »moteči« spremenljivki takšen postopek še
lahko uporabimo, za več pa teţko. Ţe po nekaj izločenih spremenljivkah se
namreč numerus tako zelo zmanjša, da nadaljnji postopek ne prinaša koristi.
Lahko zaključimo, da nam takšen postopek sicer lepo ilustrira smisel in način
izločanja vplivov; za praktične namene pa je skoraj neuporaben.
Veliko bolj je uporaben statistični postopek. V tem postopku izmerimo vrednosti
dodatne spremenljivke in matematično izločimo njen vpliv. Za ponazoritev bi
lahko preprosto rekli: izmerimo korelacijo med omenjeno spremenljivko in x ter
jo »odštejemo« iz korelacije med x in y. Dobljeni korelacijski koeficient
imenujemo parcialni korelacijski koeficient. Ta ne izraţa več neţelenih
posrednih vplivov omenjene spremenljivke na y. Po enakem postopku lahko
izločimo vse izbrane spremenljivke. Dobljeni parcialni korelacijski koeficient bo
vse bolje odraţal »pravo« povezanost med x in y. Vendar ima tudi ta postopek
pomanjkljivosti. Uporaben je le za izločanje spremenljivk, ki jih lahko izmerimo
na zadostni merski ravni.
OSMO POGLAVJE VZORČENJE
Čeprav je to poglavje najobseţnejše v celi knjigi, ne prinaša pravzaprav nobenih
vsebinsko novih statističnih metod. Tukaj bomo na nov način uporabili
dosedanje metode. Kot do sedaj, nas bodo predvsem zanimale srednje vrednosti,
strukturni odstotki, varianca in korelacije.
I. Osnovne mnoţice in vzorci
Mnoţice, ki jih raziskujemo, imenujemo statistične mnoţice, raziskovalne
mnoţice ali včasih kar kratko mnoţice. Za takšne mnoţice imamo podatke o
vseh enotah. Imeti podatke pomeni poznati za vse enote vrednosti vsaj ene
spremenljivke. Vendar nas le izjemoma zanima samo ena spremenljivka; zato
imamo običajno podatke za več spremenljivk. Nobena redkost niso empirične
raziskave, v katerih je spremenljivk nekaj deset; redkeje jih je nekaj sto ali še
več. Če, na primer sprašujemo učitelje (ali učence, dijake, starše itd.) o stališčih,
tega običajno ne počnemo le z enim vprašanjem. Podobno velja za večino
postopkov zbiranja podatkov.
Pogosto iz različnih razlogov ne moremo zbrati podatkov o vseh enotah
mnoţice. V takšnih primerih izberemo iz mnoţice le manjši del. V resnici nas
še vedno zanima cela mnoţica. Vsa raziskovalna vprašanja se nanašajo nanjo!
Tedaj bomo celo statistično mnoţico imenovali osnovna množica. S tem bomo
poudarili, da nas zanima ta mnoţica in da pravzaprav raziskujemo to mnoţico.
Manjši del mnoţice, ki smo ga izbrali in zanj zbrali podatke, bomo imenovali
vzorčna mnoţica ali pogosteje kar kratko vzorec. Na podlagi vzorca bomo
poskušali ugotoviti, kakšna je osnovna mnoţica. Naš cilj bo raziskati osnovno
mnoţico; vzorec bo le sredstvo za dosego tega cilja. Če bi imeli podatke za celo
mnoţico, ne bi bilo potrebno izbrati vzorca; tedaj te mnoţice ne bi imenovali
osnovna mnoţica.
Raziskave, kjer bo uporabljen takšen postopek, bomo imenovali vzorčne
raziskave, sam postopek pa vzorčenje. Postopek vzorčenja torej vsebuje
naslednje:
opredelitev osnovne mnoţice,
izbiro enega ali več vzorcev iz te osnovne mnoţice in
uporabo statističnih metod, ki omogočajo posploševanje z vzorca na
osnovno mnoţico.
1. ZAKAJ SPLOH VZORČIMO
Mnoţice, ki jih raziskujemo na pedagoškem področju, niso vedno lahko
dostopne. Trije razlogi so glavni, zakaj pedagoške raziskave opravljamo
pogosteje na vzorcih kot na celih mnoţicah.
1. Osnovne mnoţice so lahko zelo velike. Učencev osnovne šole v Sloveniji je
okoli dvesto tisoč (študent pedagogike na Kitajskem bere o desetih milijonih
učencev!). Redkokdaj je sicer raziskovalni problem takšen, da ţelimo v
raziskavo vključiti učence vseh razredov osnovne šole, stare od šest let do
petnajst let. Vendar je ţe mnoţica učencev osmega razreda v nekem šolskem
letu zelo velika za empirično raziskovanje, saj jih je več kot dvajset tisoč.
Mirno lahko rečemo, da so prevelike tudi mnoţice, kot npr.: bralci
mladinskega lista PIL, udeleţenci tekmovanja za bralno značko, maturanti v
nekem šolskem letu in podobno. Kadar je osnovna mnoţica prevelika,
izberemo za raziskovanje samo manjši del – vzorec.
2. Osnovne mnoţice so lahko geografsko zelo raztresene. Ravnateljev osnovne
šole v Sloveniji ni veliko več kot petsto, vendar so raztreseni po vsek krajih
in vaseh po Sloveniji. Velikost te mnoţice ni prevelika ovira za empirično
raziskavo, geografska raztresenost pa je. Če bi šlo le za anketiranje po pošti,
potem bi ne bilo pretirano teţko v raziskavo vključiti prav vseh ravnateljev.
Če pa bi ţeleli anketirati ravnatelje neposredno, bi morali potovati v več kot
petsto krajev (v mnoge zaradi enega samega anketiranca). Kadar je osnovna
mnoţica geografsko preveč raztresena, izberemo za raziskovanje samo
manjše geografsko področje (npr. ravnatelji v ljubljanski regiji, ali na
Koroškem itd.).
3. Osnovne mnoţice na pedagoškem področju se pogosto pojavljajo v več
zaporednih generacijah. Mnoţico vseh učencev, ki so se učili po nekem
učnem načrtu, sestavljajo vse generacije v času veljavnosti tega učnega
načrta. Če bi ţeleli v raziskavo zajeti celo mnoţico, bi morali ponavljati velik
del raziskovalnega postopka vsako leto, dokler bi veljal ta učni načrt. Po
nastopu zadnje generacije bi imeli podatke za celo osnovno mnoţico; šele
tedaj bi lahko obdelali zbrane podatke in zaključili raziskavo. Kadar je
osnovna mnoţica sestavljena iz več generacij, običajno izberemo za
raziskovanje samo eno generacijo (ali pa celo le del generacije).
2. POSPLOŠEVANJE Z VZORCA NA OSNOVNO MNOŢICO
Povedali smo ţe, da nas v resnici zanima osnovna mnoţica in ne vzorec. Vsa
raziskovalna vprašanja se nanašajo nanjo. Splošnejša vprašanja pogosto
razčlenimo na več podrobnejših (bolj statističnih) vprašanj.
Tabela 45. Razčlenitev raziskovalnih vprašanj
splošnejša raziskovalna vprašanja podrobna raziskovalna vprašanja
kakšna je osnovna mnoţica? kakšna je aritmetična sredina
osnovne mnoţice?
kakšen je odstotek nekega pojava v
osnovni mnoţici?
kakšna je varianca v osnovni
mnoţici (ali standardni odklon)?
kakšen je korelacijski koeficient v
osnovni mnoţici?
ali se osnovne mnoţice razlikujejo? ali se aritmetične sredine osnovnih
mnoţic razlikujejo?
ali se strukturni odstotki osnovnih
mnoţic razlikujejo?
ali se variance osnovnih mnoţic
razlikujejo?
ali se korelacijski koeficienti
osnovnih mnoţic razlikujejo?
Najpogosteje torej ţelimo ugotoviti, kakšna je vrednost nekega parametra v
osnovni mnoţici. Če bi podatke za osnovno mnoţico imeli, bi parameter
kratkomalo izračunali. Ker pa teh podatkov nimamo, moramo na podlagi
parametra v vzorcu oceniti, kakšen je parameter osnovne mnoţice. Zato ta
postopek posploševanja imenujemo ocenjevanje parametrov.
Morda so še pogostejša vprašanja, ali se osnovne mnoţice razlikujejo.
Najpogosteje si jih zastavljamo o dveh mnoţicah (npr. ali se razlikuje povprečna
štipendija študentov filozofske fakultete in ekonomske fakultete?). Kot
izhodišče tega postopka postavimo hipotezo, da se osnovni mnoţici ne
razlikujeta. V takšnem primeru bomo imeli dva vzorca in iz njune razlike bomo
poskusili ugotoviti ali se razlikujeta tudi osnovni mnoţici. Takšen postopek
posploševanja imenujemo preizkušanje hipotez.
3. REPREZENTATIVNOST VZORCA
Najpomembneje pri izbiri vzorca je, da si zagotovimo dobro reprezentativnost.
Reprezentativnost vzorca je lastnost, da je vzorec podoben osnovni mnoţici, iz
katere je izbran. Glede na to, da so v vzorcu samo enote iz osnovne mnoţice (in
nobene druge), je vzorec vedno podoben osnovni mnoţici. Čim bolj ji je
podoben, tem bolj je reprezentativen - ima večjo reprezentativnost. Seveda
ţelimo, da bodo ugotovitve o osnovni mnoţici, dobljene na podlagi vzorca, čim
bolj trdne (resnične, veljavne). Zato je dobro, da je vzorec kar najbolj podoben
osnovni mnoţici; da je kar najbolj reprezentativen. Običajno ne bo zadosti, da je
vzorec podoben osnovni mnoţici le po eni spremenljivki. Ţelimo, da ji je
podoben po vseh tistih spremenljivkah, ki jih proučujemo; še najbolje bi bilo kar
po vseh – tudi tistih, ki jih ne proučujemo! Za laţje razumevanje nadaljnje
razprave, bomo situacijo poenostavili in začasno obravnavali podobnost po eni
sami lastnosti.
Na reprezentativnost vzorca vplivajo v splošnem trije dejavniki:
razpršenost spremenljivke v osnovni mnoţici,
velikost vzorca,
način, kako je vzorec izbran.
O razpršenosti spremenljivke v osnovni mnoţici
Če se bodo enote v osnovni mnoţici razlikovale med seboj, se bodo razlikovale
tudi enote izbrane v vzorec. Zaradi tega se bo vzorec v splošnem razlikoval od
osnovne mnoţice. Čim bolj se bo razlikoval, tem manjša bo reprezentativnost.
Če bodo enote v osnovni mnoţici bolj različne, se bo nasploh tudi vzorec bolj
razlikoval od osnovne mnoţice. Če bodo razlike med enotami majhne, se tudi
vzorec ne bo mogel zelo razlikovati od osnovne mnoţice. Zamislimo si skrajni
primer, da bi bile vse enote v osnovni mnoţici enake. Tedaj bi bile tudi vse
enote v vzorcu enake in bi bil vzorec enak kot osnovna mnoţica (seveda le glede
te spremenljivke). Reprezentativnost tega vzorca bi bila popolna. Tedaj bi bilo
vseeno, katere enote bi izbrali v vzorec, saj bi bili vsi vzorci enaki. Tudi to,
kako velik vzorec bi izbrali, ne bi vplivalo na reprezentativnost.
O velikosti vzorca
Čim večji del osnovne mnoţice je izbran v vzorec, tem bolj bo vzorec podoben
osnovni mnoţici. Najmanj reprezentativen bo vzorec, v katerem bo le ena enota
(numerus vzorca je ena); najbolj reprezentativen pa vzorec, v katerem so vse
enote iz osnovne mnoţice (numerus vzorca je enak numerusu osnovne
mnoţice). V tem drugem primeru bi bila reprezentativnost vzorca popolna –
vzorec bi bil enak osnovni mnoţici. Z vidika reprezentativnosti bi bila to
najboljša rešitev; vendar v tem primeru ne bi od vzorčenja imeli nikakršne
koristi. Z vidika reprezentativnosti bi bilo dobro imeti kar največje vzorce, z
vidika ekonomičnosti pa kar najmanjše. Pri določanju velikosti vzorca bo
potemtakem vedno treba upoštevati oboje – reprezentativnost in ekonomičnost.
Večinoma v pedagoških raziskavah predstavljajo vzorci komaj nekaj odstotkov
osnovne mnoţice.
O načinu izbora enot v vzorec
Problem reprezentativnosti je na prvi pogled zelo preprosto rešljiv: v vzorec je
treba izbrati tiste enote, ki bodo kar najbolje predstavljale osnovno mnoţico.
Toda, katere so te enote? O osnovni mnoţici, namreč, ne vemo ničesar
natančnega. Če bi osnovno mnoţico dobro poznali, ne bi potrebovali vzorca.
Kakšna je osnovna mnoţica, bomo izvedeli šele na podlagi vzorca (pa še takrat
ne popolnoma natančno). Zatorej nekakšno “tehtanje” in presojanje, katere enote
osnovne mnoţice bi izbrali v vzorec, sploh ne pride v poštev. Kako lahko
izberemo enote v vzorec? V praksi se uporablja več načinov izbora enot.
4. IZBIRANJE VZORCEV
Osnovni način izbora vzorcev je slučajnostni izbor (podrobno bo opisan
pozneje). Ta je tako pomemben, da pogosto delimo vse načine izbora na:
1. slučajnostni izbor in
2. neslučajnostni izbor.
V literaturi srečamo tudi mnoţinsko obliko: slučajnostni izbori in neslučajnostni
izbori, ali pogosteje slučajnostni izbor in neslučajnostni izbori. Tukaj bomo
uporabili malo podrobnejšo delitev, ki nam bo nazorno izrazila načelne razlike
med izbori:
1. slučajnostni izbor,
2. sistematični izbor,
3. namenski izbor,
4. priloţnostni izbor.
Načinov izbora je še več, našteti so le najbolj značilni.
Slučajnostni izbor
Slučajnosten je tisti izbor, pri katerem imajo vse enote osnovne mnoţice enako
moţnost, da so izbrane v vzorec (enako verjetnost izbora). To lahko enotam
osnovne mnoţice zagotovimo z ţrebanjem. Moţni sta vsaj dve tehniki izvedbe
tega izbora.
Pri neposrednem loterijskem načinu (neposrednem ţrebanju) imamo v bobnu
lističe z imeni ali zaporednimi številkami vseh enot osnovne mnoţice. Iz dobro
premešanega bobna izvlečemo toliko lističev, kolikor naj bo numerus vzorca.
Izbrane enote sestavljajo vzorec. Ta postopek je zamuden in tehnično zahteven.
Zato se v praksi uporablja preprostejši način s posrednim ţrebanjem, kjer je
ţrebanje opravljeno vnaprej. V bobnu so lističi s števkami od nič do devet (0, 1,
2, 3, 4, 5, 6, 7, 8 in 9). Iz dobro premešanega bobna izvlečemo listek, zapišemo
izvlečeno števko v tabelo, listek pa damo nazaj v boben. Postopek ponavljamo
tako dolgo, da dobimo zadosti obseţno tabelo. To je tabela slučajnostnih številk,
ki jo pozneje uporabljamo za vse slučajnostne izbore. Ker je nastala z
ţrebanjem, izpolnjuje zahtevo slučajnostnega izbora (da morajo imeti vse enote
enako moţnost izbora v vzorec). Majhen izsek takšne tabele je prikazan spodaj
(večja tabela, za praktično rabo, je v prilogah).
Tabela 46. Slučajnostne številke
20273 66112 42160 71570 40689 41855
93257 62870 24815 03249 34851 75166
40673 53621 82990 72743 68947 38251
52077 48621 08041 53720 37108 85326
61262 42705 49049 72566 63821 09564
34760 41953 72195 38520 65530 85195
Iz tabele jemljemo zaporedne številke; enote s temi številkami so izbrane v
vzorec. Prikazali bomo uporabo tabele s primerom.
Iz osnovne mnoţice z numerusom 50 000 bomo izbirali vzorec (to je lahko, npr.
mnoţica vseh študentov ljubljanske univerze). Ker je numerus petmestno
število, bomo iz tablice jemali petmestna števila. To lahko delamo po vrsti z
leve proti desni, ali z desne proti levi, ali od spodaj navzgor itd. Če začnemo z
leve, bomo kot prvo izbrali enoto št. 20273, nato 66112, 42160 itd. Ker imajo
enote osnovne mnoţice na seznamu le številke od 1 do 50 000, bomo morali
preskočiti številko 66112 in vse ostale večje od 50 000 (takšnih enot v osnovni
mnoţici ni). Da ne bi prehitro izčrpali tabele, se lahko premikamo vsakokrat le
za eno mesto: tako bi izbrali 20273, nato 02736, nato 27366, 73661, 36611,
66112 itd. Poglejmo na še manjšem izseku tabele:
Tabela 47. Izbiranje enot
prva izbrana enota 20273 66112 42160 71570 40689 41855
druga izbrana enota 20273 66112 42160 71570 40689 41855
tretja izbrana enota 20273 66112 42160 71570 40689 41855
četrta izbrana enota 20273 66112 42160 71570 40689 41855
peta izbrana enota 20273 66112 42160 71570 40689 41855
šesta izbrana enota 20273 66112 42160 71570 40689 41855
itd 20273 66112 42160 71570 40689 41855
Spet bi izpustili vse prevelike številke in uporabili samo manjše od 50 000.
Tako bi izbirali, dokler ne bi dobili vzorca z ţeljenim numerusom. Najmanj, kar
torej za slučajnostni izbor potrebujemo, je tabela slučajnostnih številk in
oštevilčeni seznam enot osnovne mnoţice. Tabele slučajnostnih številk nam ni
treba narediti, saj takšne tabele vsebuje vsak dober priročnik iz statistike.
Za nas sta največjega pomena dve lastnosti slučajnostnih vzorcev.
1. Le za slučajnostni vzorec je moţno matematično izraziti razmerje med
osnovno mnoţico in vzorcem. To so statistične metode vzorčenja, s
pomočjo katerih na podlagi vzorca ugotovimo, kakšna je osnovna
mnoţica. O tem pozneje več.
2. Reprezentativnost slučajnostnega vzorca je boljša kot pri drugih načinih
izbire vzorcev.
Za ilustracijo povejmo, da vsakdanji “slučajnostni” načini večinoma ne ustrezajo
merilom slučajnostnega izbora; npr. da vzamemo seznam enot osnovne
mnoţice, zapremo oči in s svinčnikom izbiramo enote – tiste, ki jih zadene
konica svinčnika so v vzorcu, ostale pa ne.
Sistematični izbor
Ker izvedba slučajnostnega izbora vendarle ni povsem preprosta, se v praksi
pogosto kot nadomestilo zanj uporabljajo različne vrste sistematičnega izbora:
intervalni izbor, izbor s pomočjo datuma rojstva itd. Pri takšnem izboru iz
osnovne mnoţice izberemo vse enote po nekem, vnaprej opredeljenem sistemu.
Podrobno bomo obravnavali le dva omenjena načina (povejmo še, da nekateri
avtorji izbor s pomočjo datuma rojstva štejejo kot poseben način izbora).
Pri intervalnem izboru potrebujemo oštevilčen seznam enot osnovne mnoţice.
Iz tega seznama izberemo enote po nekem intervalu, npr. vsako petnajsto enoto
ali vsako štirideseto enoto in podobno. Interval izbiranja dobimo tako, da
numerus osnovne mnoţice delimo z ţeljenim numerusom vzorca in zaokroţimo
na prvo manjše celo število. To število je interval izbiranja. Vedno zaokroţimo
navzdol, kajti če bi zaokroţili navzgor, bi dobili malo manjši vzorec od
ţeljenega.
Prikaţimo izvedbo sistematičnega izbora s primeroma.
Tabela 48. Izbira sistematičnih vzorcev
prvi primer
numerus osnovne mnoţice
N
numerus vzorca n interval izbiranja
50 000 200 50 000 : 200 = 250
v vzorec izberemo vsako dvestopetdeseto enoto iz osnovne mnoţice
drugi primer
numerus osnovne mnoţice
N
numerus vzorca n interval izbiranja
6580 100 6580:100=65,8
ali 65
v vzorec izberemo vsako petinšestdeseto enoto iz osnovne mnoţice
Ko smo tako določili interval, začnemo z izbiranjem enot iz seznama osnovne
mnoţice. Vendar ne začnemo kar s prvo enoto na seznamu. Začetek določimo
običajno z ţrebanjem: izţrebamo eno število izmed vseh števil prvega intervala
(v prvem primeru izmed vseh števil od 1 do 250, v drugem primeru izmed vseh
števil od 1 do 65). Kot prvo izberemo izţrebano enoto in potem po seznamu do
konca vsako, npr. petinšestdeseto. Izţrebamo lahko tudi katerokoli številko s
seznama, začnemo s to enoto, gremo z intervalom do konca seznama in nato od
začetka seznama do izhodiščne točke. V vsakem primeru moramo iti enkrat
skozi ves seznam.
Če se enote na seznamu ne nizajo po kakšnem sistemu, je sistematični izbor
dober nadomestek za slučajnostni izbor. Primer moţnosti kakšnega posebnega
nizanja enot na seznamu osnovne mnoţice bomo podrobneje ilustrirali. Povejmo
le, da se pri empiričnem raziskovanju vzgojnih pojavov le izjemoma srečamo s
takšnim pojavom.
Vojaške enote so navadno sestavljene po desetinah. Ko stojijo vojaki v vrsti, so
vedno postavljeni v desetini po velikosti od največjega do najmanjšega; enako v
naslednji desetini in tako do konca. Če bi bil seznam sestavljen po istem vrstnem
redu, bi lahko pri sistematičnem izboru dobili vzorec vojakov s slabo
reprezentativnostjo (vsaj kar zadeva telesno teţo, višino in podobne spremenljivke).
Pojasnimo zakaj. Recimo, da je bil interval izbiranja 40. Če smo začeli z vojakom, ki
je na seznamu z zaporedno številko 29, bomo naprej izbrali štev. 69, 109, 149 itd. Na
devetem mestu je vedno vojak z majhno telesno višino (v desetini je le eden še
manjši). Tako bi dobili same nizke vojake v vzorcu. Če raziskujemo pojave
neodvisne od telesne višine (npr. znanje tujih jezikov, poznavanje radiotelegrafije in
podobno) takšen dogodek verjetno ne bo pomenil neke posebne teţave za raziskavo.
Če pa raziskavo dela proizvajalec obutve, oblačil in podobne opreme za vojake, bo
dobil rezultate, ki bodo slabo odraţali stvarno stanje v osnovni mnoţici; posledično
bo narejena oprema v povprečju premajhna.
Izbor po datumu rojstva lahko tudi dobro nadomesti slučajnostnega. Sicer ne
zahteva seznama enot cele osnovne mnoţice, a vendarle - enote morajo poznati
svoj datum rojstva (ali pa npr. v vrtcu moramo imeti podatke o datumu rojstva
za vse otroke v osnovni mnoţici). V nekaterih primerih je to laţje dobiti kot pa
seznam vseh enot. Moţnih izvedb tega izbora je več, opisali bomo le
najpreprostejšo.
Kot datum rojstva jemljemo le dan v mesecu (zanemarimo leto in mesec). V
boben damo listke s številkami od 1 do 31 in izţrebamo potrebno število listkov.
Vsi z izţrebanim rojstnim datumom so v vzorcu, ostali pa ne. Lahko štejemo, da
je v povprečju na vsak datum rojenih pribliţno 3,2 % ljudi (31 datumov po 3,2
% je pribliţno 100 %). Nenatančnosti povezane z datumi v februarju in z 31. v
mesecu bomo zanemarili. Če ţelimo, da bo v vzorcu 10 % enot iz osnovne
mnoţice, bomo izbrali tri ali štiri datume (z malo sreče bi lahko ţe s tremi
datumi dobili pribliţno 10% enot; za vsak primer bi raje vzeli en datum več).
Reprezentativnost tako izbranega vzorca bo v splošnem zelo dobra (skoraj tako
dobra kot pri slučajnostnem vzorcu), saj večinoma vzgojni pojavi niso povezani
z datumom rojstva. Pa vendarle moramo biti tudi tukaj pazljivi. V sicer zelo
redkih primerih se nam znova lahko zgodi, da bo reprezentativnost slaba. Tudi
to bomo ilustrirali s primerom.
Ţeleli smo izbrati zelo majhen vzorec in nam je bil tudi en sam datum preveč. Npr.
izţrebali smo 16. dan v mesecu (seveda kateregakoli meseca in kateregakoli leta). Da
bi dobili ţeleni mali vzorec, smo se odločili, da bomo vzeli vse rojene 16. v mesecu
toda le na soda leta. Če gre za osnovno mnoţico učiteljev, je pravzaprav vseeno, ali
je nekdo rojen na sodo ali na liho leto: v čem bistvenem se razlikujejo učitelji rojeni,
npr. 1957. ali 1958. leta? Pri učiteljih bi bila takšna rešitev v splošnem ustrezna.
Kadar pa gre za učence, denimo prvega razreda osnovne šole, je lahko ta razlika
usodna za reprezentativnost vzorca. Letos (jesen 2002) so v prvem razredu učenci
rojeni leta 1995 in 1996. Če izberemo učence, rojene na sodo leto, bodo to tisti rojeni
1996, če izberemo rojene na liho leto, bodo to učenci rojeni 1995. V prvem primeru
dobimo v povprečju mlajše učence, v drugem pa starejše. Eno leto več ali manj se pri
tej starosti zelo pozna.
Ker je za naš vzorec vseh rojenih 16. v mesecu preveč, bomo morali odvečne enote
izločiti na kak drug način (npr. tako, da izberemo tiste, ki imajo sodo hišno številko).
Seveda moramo pri vsakem dodatnem pogoju znova paziti.
Namenski izbor
Pri tem izboru strokovnjak, ki pozna raziskovane pojave in raziskovano osnovno
mnoţico, izbere tiste enote v vzorec, za katere sodi, da bodo omogočili kar
najboljše posplošitve na osnovno mnoţico. Merilo, “da bodo omogočili kar
najboljše posplošitve”, ni enoznačno, tudi če ga razumemo kot “tipične enote”,
“povprečne enote” ali kaj podobnega. Običajno to izvajamo tako, da izbiramo
enote po neki, za našo raziskavo pomembni, lastnosti enot (npr. po predznanju,
ali po neki sposobnosti itd.). Seveda moramo v tej lastnosti poznati celo osnovno
mnoţico, da bomo lahko izbrali enote, ki bodo zanjo reprezentativne. Toda
dobra reprezentativnost v eni lastnosti ne pomeni samodejno tudi dobre
reprezentativnosti po ostalih lastnostih. Moţno je sicer doseči zelo visoko
reprezentativnost v izbrani lastnosti (celo višjo kot pri slučajnostnem izboru),
toda to nam ne zagotavlja hkrati dobre reprezentativnosti v ostalih. Zato so
takšni vzorci lahko zelo nevarni. Vsak tak izbor je v veliki meri subjektiven, to
pa je dejavnik, ki se zelo izmika kontroli, koliko dobljeni podatki v vzorcu
odraţajo stanje v osnovni mnoţici.. Takšni vzorci so uporabni le v zelo
omejenih primerih.
Priloţnostni izbor
Velikokrat imamo na pedagoškem področju vzorce, ki niso dobljeni z nobenim
od opisanih načinov izbora. Opišimo nekaj takšnih pogostejših primerov.
Tabela 49. Priloţnostni vzorci
učitelj dela akcijsko
raziskavo o obremenjenosti
učencev z učenjem doma
raziskavo opravi na učencih svojega
oddelka, to pojmuje kot populacijsko
raziskavo in ne posplošuje rezultatov na
neko širšo mnoţico (osnovno mnoţico)
učence svojega oddelka pojmuje kot
vzorec iz neke osnovne mnoţice; to je
seveda priloţnostno izbran vzorec
študentka pedagogike
raziskuje stališča učencev
osmega razreda OŠ
za vzorec vzame učence osmega razreda
ene same osnovne šole (običajno tiste, kjer
je sama bila nekaj let prej učenka – saj jo
osebje šole pozna in veliko laţje dobi
dovoljenje za zbiranje podatkov);
takšen vzorec je priloţnostni
šolski pedagog raziskuje
delovne navade učencev
za vzorec vzame učence, npr. enega
oddelka na svoji osnovni šoli; takšen
vzorec je priloţnostni
raziskovalec na
andragoškem inštitutu
raziskuje neke probleme
nezaposlenih
za vzorec vzame vse nezaposlene,
prijavljene na zavodu za zaposlovanje v
enem kraju; takšen vzorec je priloţnostni
Vprašajmo se, ali ima vzorec, v katerem so učenci enega (konkretnega) oddelka
osmega razreda, kakšno reprezentativnost za osnovno mnoţico vseh učencev
osmega razreda v Sloveniji. Odgovor je nedvoumen: ima! Ţe to, da so učenci v
vzorcu hkrati enote cele osnovne mnoţice, zagotavlja vzorcu neko
reprezentativnost (v takšnem priloţnostnem vzorcu ni nikogar, ki sicer ni ţe v
tej osnovni mnoţici!). Zato bi bilo bolje vprašati: kakšna je reprezentativnost
tega vzorca? Običajno reprezentativnost priloţnostnih vzorcev niti zdaleč ne
dosega reprezentativnosti slučajnostnih vzorcev. V splošnem so glede
reprezentativnosti priloţnostni vzorci veliko slabši kot slučajnostni ali
sistematični vzorci; slabši so tudi od namenskih. Za resnejše raziskave (npr. za
znanstvene namene) takšni vzorci ne ustrezajo.
Največji problem priloţnostnih vzorcev je v tem, da se ne da matematično
opisati razmerja med priloţnostnim vzorcem in osnovno mnoţico. Zato ni
mogoče uporabiti statističnih metod za posploševanje s takšnega vzorca na
osnovno mnoţico. Pa vendar – tudi tukaj nekakšne moţnosti obstajajo (o tem
več v poglavju o hipotetičnih osnovnih mnoţicah).
Enostopenjsko in večstopenjsko vzorčenje
Pri enostopenjskem vzorčenju ţe takoj na prvi stopnji dobimo enote in s tem cel
vzorec. Tako so, npr. pri enostopenjskem slučajnostnem vzorčenju v bobnu za
ţrebanje vse enote osnovne mnoţice in izbiramo neposredno te enote. Vzorec pa
lahko izberemo tudi po več stopnjah: na prvi stopnji izbiramo večje celote
(podmnoţice) in šele iz teh posamezne enote. Opisali bomo nekaj primerov
večstopenjskega izbiranja vzorcev iz prakse.
Tabela 50. Večstopenjsko izbiranje vzorcev
osnovna mnoţica prva stopnja druga stopnja tretja stopnja
dijaki, ki se vpisali na
srednješolske
programe z omejenim
vpisom (na podlagi
izbirnega postopka) v
šolskem letu 1993/94
iz seznama
srednjih šol z
omejenim vpisom
je bilo izţrebano
16 šol
na izbranih šolah
je bil izbran s
sistematičnim
izborom vsak
četrti dijak
ni je bilo
učitelji razrednega
pouka na OŠ v
šolskem letu
1991/1992
iz seznama vseh
občin v Sloveniji
je bilo izţrebano
10 občin
v teh občinah sta
bili od vseh šol
izţrebani po dve
šoli
na izţrebanih
šolah je bil izbran
vsaki tretji učitelj
učenci osmega razreda
OŠ v šolskem letu
1996/97
iz seznama vseh
OŠ je bila izbrana
vsaka
petindvajseta šola
na izbranih šolah
je bilo izţrebano
po deset učencev
ni je bilo
Kakšen smisel ima večstopenjsko vzorčenje, bomo prikazali na prvem primeru
iz tabele. Če bi vzorčili slučajnostno in enostopenjsko, bi morali imeti seznam
vseh dijakov (okoli 10 000 dijakov). Ko bi izţrebali pribliţno 500 dijakov v
vzorec, bi dobili dijake raztresene praktično po vsej Sloveniji. Na nekatere
srednje šole bi bilo treba iti, npr. le zaradi enega ali dveh izbranih dijakov.
Običajno je takšen okvir vzorčenja za praktično izvedbo prezahteven in zaradi
velikih stroškov teţko uresničljiv. Pri opisanem dvostopenjskem postopku je
bilo treba obiskati samo šestnajst šol. V primeru z učitelji razrednega pouka je
bilo treba obiskati le dvajset šol (v Sloveniji je vseh osnovnih šol več kot
petsto).
Večstopenjsko vzorčenje pomeni velik prihranek časa za zbiranje podatkov v
vzorcu. Na prvi pogled je pri večstopenjskem vzorčenju več dela. Pri
enostopenjskem dobimo enote takoj pri prvem izbiranju, pri večstopenjskem pa
moramo izbirati večkrat zapored. Ne smemo pa pozabiti, da je določanje enot za
vzorec le majhen delček vsega, kar moramo narediti. Glavno delo pride na vrsto,
ko je treba izbrane enote zares poiskati in preučiti: anketirati, testirati, izmeriti
telesno višino, teţo in podobno.
Seveda bomo večjo ekonomičnost plačali z zmanjšano reprezentativnostjo
dobljenega vzorca. Večstopenjski vzorci imajo v splošnem slabšo
reprezentativnost. Čim več je stopenj, tem slabša je reprezentativnost. V
raziskovalni praksi je treba vsakokrat čim bolj natančno presoditi, kakšna je
reprezentativnost večstopenjskega vzorca v primerjavi z enostopenjskim. Od
tega je odvisna veljavnost pridobljenih podatkov in s tem cele raziskave.
Kadar bo osnovna mnoţica geografsko obsegala vso Slovenijo, ali pa večjo
regijo, bo pogosto treba večstopenjsko vzorčiti, sicer pa običajno ne. In raziskav,
kjer bi bile osnovne mnoţice tako obseţne, ni prav veliko.
Izbiranje s ponavljanjem
Pri slučajnostnem izboru s pomočjo tabele slučajnostnih številk se lahko zgodi,
da dobimo dvakrat isto številko in s tem isto enoto (ali celo še več kot dvakrat).
Verjetnost, da se to zgodi, je zelo majhna; zgodi se pa vendarle lahko. Tudi pri
neposrednem ţrebanju enot iz osnovne mnoţice se to lahko zgodi, če po vsakem
vlečenju listek s številko enote vrnemo v boben in naslednji listek izvlečemo
spet iz polnega bobna. Kaj narediti v takšnem primeru? Ponovno izbrano enoto
lahko vključimo v vzorec ali pa tudi ne. Če enoto vključimo v vzorec dvakrat
(ali celo večkrat), govorimo o vzorcih s ponavljanjem, če je vsaka enota lahko v
vzorcu samo enkrat, pa o vzorcih brez ponavljanja.
Matematika (statistika) bo ta pojav neznansko zanimal in ga bo vsekakor
poskušal preučiti na ravni prakse in teorije. Še zlasti, npr. moţnost, da se to
zgodi še tretjič, četrtič ali celo vsakokrat! Seveda so ti pojavi v matematiki
zdavnaj opisani in dobro preučeni.
Kaj pa takšen pojav pomeni za nas pedagoge, ki statistične metode uporabljamo
za preučevanje vzgojnih pojavov? Pomislimo na stvarni pomen ponovno
izvlečene enote. To je v konkretnem primeru nek učenec, učitelj, šola, učbenik
ali kaj podobnega. Kaj nam lahko, pri raziskovanju vzgojnih pojavov, “novega
pove” ponovno izvlečeni učenec? Saj bo ţe tako v vzorcu, z vsemi svojimi
podatki vred! In kaj pridobimo s tem, da iste podatke dvakrat upoštevamo?
Vsekakor bi bilo bolje, če bi namesto ponovno izbranega učenca izbrali nekega
drugega. Zato na pedagoškem področju uporabljamo praktično samo vzorce brez
ponavljanja.
Veliki in mali vzorci
Običajno imajo vzorci v pedagoških raziskavah od nekaj deset enot pa do nekaj
sto enot; vzorci z več kot tisoč enotami so zares redki. Če bi nas v neki raziskavi
zanimale, npr. le ocene učencev na prehodu iz razredne stopnje na predmetno
stopnjo osnovne šole, ne bi bilo pretirano teţko obdelati vzorca, ki bi imel celo
nekaj tisoč enot. Podatke bi izpisovali iz šolske dokumentacije in bi bilo skoraj
vseeno, ali na šoli vzamemo nekaj deset učencev ali pa vse učence. Dela bi bilo
le malo več – podobno tudi pozneje pri vnašanju teh podatkov v računalnik. V
takšnih primerih bi se lahko odločili za zelo velike vzorce. Ker pa pogosto
raziskave ne zajemajo tako preprostih empiričnih podatkov, zares veliki vzorci
ne bodo pogost pojav. Največkrat velikosti vzorcev ne presegajo nekaj sto enot.
Tudi laiku je jasno, da je kakršnokoli posploševanje na osnovno mnoţico tem
bolj zanesljivo, čim večji so vzorci (s tega vidika bi bilo najbolje vzeti kar celo
osnovno mnoţico!). Ekonomičnost dela je z druge strani v prid manjšim
vzorcem. Končna odločitev je vedno odvisna od konkretnih okoliščin vsake
raziskave.
Pri manjših vzorcih nasplošno moramo biti bolj previdni in zato bolj dosledni pri
upoštevanju vseh okoliščin vzorčenja. Načeloma veljajo za manjše in večje
vzorce enake statistične metode. Vendar je praksa pokazala, da pri večjih
vzorcih lahko brez večje škode postopke poenostavimo. Kadar je to opravičeno
in moţno, to tudi zares storimo. Zato v praksi razlikujemo velike in male vzorce.
Ostre meje med njimi ni. Za nekatere postopke velja meja trideset: vzorce z
manj kot tridesetimi enotami štejemo kot male, z več kot tridesetimi enotami pa
kot velike; za nekatere postopke je ta meja sto enot (ali pa celo še več).
Za male in velike vzorce lahko uporabimo rigorozne metode: za male je to
obvezno, za velike pa stvar odločitve (običajno se odločimo za poenostavljene
metode).
Povejmo to enostavno: če je neka metoda uporabna za male vzorce, je tudi za
velike – saj so veliki vsaj takšni kot mali (vsaj tako “dobri”). Obratno pa ne
velja, saj, kar je dopustno za velike vzorce, ni vedno dopustno tudi za male.
Odvisni in neodvisni vzorci
Pri postopkih primerjave dveh osnovnih mnoţic se srečamo s pojavom odvisnih
in neodvisnih vzorcev. Če se pri izbiri vzorca iz druge mnoţice ne oziramo na
to, kako smo izbrali vzorec iz prve mnoţice, dobimo neodvisna vzorca. Takšna
vzorca imata običajno različen numerus, lahko pa imata tudi enakega (to tukaj ni
bistveno).
Odvisne vzorce dobimo, kadar se pri izbiri drugega vzorca ravnamo po tem,
kako je bil izbran prvi vzorec. Najpogosteje dobimo odvisne vzorce na dva
načina:
1. Iz prve osnovne mnoţice izberemo neko enoto za prvi
vzorec. Nato v drugi osnovni mnoţici poiščemo
čimbolj podobno enoto. Ti enoti tvorita par dveh kar
najbolj izenačenih enot. Drugo enoto uvrstimo v drugi
vzorec. Tako nadaljujemo, dokler ne dobimo vzorcev z
ţeljenim numerusom. Takšna vzorca sta odvisna.
Rezultati enega vzorca so odvisni od rezultatov
drugega. Vzorca imata tudi enak numerus (saj sta
sestavljena iz parov). Takšen postopek imenujemo
postopek izbiranja po parih (ali še pogosteje:
izenačevanje po parih). Tudi, če bi enote za prvi
vzorec izbirali slučajnostno, za drugega ne bi mogli.
Zato to niso običajni slučajnostni vzorci. Uporabljamo
jih za posebne namene; običajno takrat, ko bi radi
dobili dve zelo izenačeni skupini (kot vzorca).
Izenačene skupine na začetku neke vzgojne akcije
omogočajo boljšo primerjavo na koncu. Zato odvisne
vzorce le redko izbiramo na prej opisani način.
Običajno to naredimo tako, da izbiramo pare iz neke
mnoţice in jih nato razdelimo na dve skupini. Ti
skupini pozneje pojmujemo kot vzorca iz dveh
hipotetičnih mnoţic. Zato so odvisni vzorci poseben
primer namenskega vzorčenja. Ker gre v resnici za
teţnjo izenačiti vzorca, se ta postopek imenuje tudi
izenačevanje po parih.
2. Pri istih učencih dvakrat ponovimo neko merjenje
(npr. testiranje znanja, anketiranje itd); recimo pred
neko vzgojno akcijo in po njej. Tako predstavlja vsak
učenec par sam s seboj. Iste učence na začetku
pojmujemo kot en vzorec, pri drugem merjenju pa kot
drugi vzorec. To sta odvisna vzorca; ta sta še bolj
podobna in odvisna kot pri izenačevanju po parih.
Odvisni vzorci se drugače obnašajo kot neodvisni. Glavna razlika je v tem, da so
standardne napake za odvisne vzorce manjše kot za neodvisne. Ta korist je tem
večja, čim bolje nam uspe izenačevanje parov. To lahko presodimo po višini
korelacije med rezultati obeh vzorcev (čim bolje je uspelo izenačevanje, tem
močnejša je korelacija). Redki so primeri odvisnih vzorcev, kadar gre za večje
vzorce. Skoraj brez izjem gre pri odvisnih vzorcih za male vzorce.
5. ENOSTAVNI SLUČAJNOSTNI VZOREC
To je vzorec, na katerem temeljijo vse statistične metode. Le za ta vzorec veljajo
vse statistične metode, ki jih bomo spoznali v nadaljevanju. Enostavni
slučajnostni vzorec je izbran slučajnostno in sicer enostopenjsko (za nas tudi:
brez ponavljanja). Seveda ne bomo vedno imeli takšnih vzorcev. Statistične
metode, ki so razvite za enostavne slučajnostne vzorce, bomo uporabili tudi za
vzorce, ki tega dobro nadomeščajo – torej predvsem za sistematične.
Reprezentativnost sistematičnih vzorcev je praktično enaka reprezentativnosi
slučajnostnih vzorcev. Razlike so zanemarljive, zato bodo napake pri uporabi
istih statističnih postopkov tudi za sistematične vzorce neznatne in zanemarljive!
To pa ne velja za priloţnostne vzorce.
6. POSPLOŠEVANJE NA HIPOTETIČNO OSNOVNO MNOŢICO
Kadar imamo priloţnostne vzorce, smo glede posploševanja na osnovno
mnoţico v slabem poloţaju; na prvi pogled v popolnoma brezizhodnem. Ni
statističnih metod, ki bi omogočale posplošitve s takšnih vzorcev. Pa vendar,
rešitev obstaja.
Za takšne primere si zamislimo neko povsem hipotetično osnovno mnoţico, iz
katere je ta (sicer priloţnostni) vzorec izbran slučajnostno. Ker zares ni bil
izbran slučajnostno, je ta situacija samo hipotetična (in mnoţica tudi). Sedaj
lahko posplošujemo s tega vzorca na hipotetično mnoţico; enako kot s
slučajnostnega vzorca na neko stvarno osnovno mnoţico.
Kakšna je korist od posploševanja na neko hipotetično mnoţico? Za odgovor na
to vprašanje moramo razmisliti, kakšna je ta mnoţica. Ker je hipotetična, in ker
smo zamislili, da je bil vzorec iz nje slučajnostno izbran, je naš vzorec podoben
hipotetični osnovni mnoţici. Ali še bolje: hipotetična osnovna množica je
podobna našemu vzorcu. Vse ugotovitve, ki jih pridobimo na takšnih vzorcih, so
uporabne za vsako podobno mnoţico. Zato lahko vsak uporabnik takšnih
rezultatov raziskovanja presodi, koliko so mnoţice, s katerimi ima sam opravka,
podobne priloţnostnemu vzorcu iz takšnega raziskovanja. Če so, lahko
omenjena spoznanja s pridom uporabi; če niso, pa ne.
Priloţnostni vzorci in posploševanje na hipotetično osnovno mnoţico se
uporabljajo v manj pomembnih raziskavah, v pilotskih raziskavah (uvod v
kakšno zahtevnejšo raziskavo) itd. Najpogosteje jih uporabljajo študentje pri
svojih prvih raziskavah: pri seminarskih in diplomskih nalogah. Nesmiselno je
od študenta zahtevati prave slučajnostne vzorce; saj največkrat ne gre za
raziskave, ki naj bi pomembneje vplivale na vzgojno prakso.
Še eno razliko med priloţnostnimi in slučajnostnimi vzorci moramo opisati.
Kadar imamo slučajnostni vzorec in posplošujemo na stvarno osnovno mnoţico,
moramo čimbolj podrobno opisati osnovno mnoţico. Napisati je treba vse, kar o
njej vemo (ţe od prej) in je pomembno za razumevanje končnih rezultatov.
Vzorec tedaj lahko opišemo le s stavkom ali dvema. Pravzaprav je nujno
potrebno le navesti, da je bil iz opisane osnovne mnoţice slučajnostno izbran
vzorec z določenim numerusom. Kadar gre za priloţnostni vzorec in hipotetično
mnoţico, pa je situacija obratna. Natančno je treba opisati izbrani vzorec in le z
enim stavkom omeniti hipotetično osnovno mnoţico. Ilustrirajmo samo ta zadnji
stavek: "Rezultate posplošujemo na hipotetično osnovno mnoţico učiteljev,
podobnih učiteljem iz našega vzorca".
Zaključimo torej: vsak priloţnostni vzorec lahko obravnavamo kot slučajnostni,
če posplošujemo na hipotetično osnovno mnoţico.
7. OZNAKE ZA PARAMETRE
Na področju vzorčenja velja pravilo, da označujemo parametre osnovne mnoţice
z velikimi črkami, parametre vzorca pa z malimi črkami. Naţalost je to pravilo
teţko dosledno upoštevati, ker so bile nekatere oznake ţe od prej uveljavljene za
kaj drugega. Pravilo upoštevamo tam, kjer se le da. Poglejmo oznake za
najpogostejše parametre:
Tabela 51. Označevanje parametrov
parameter osnovna mnoţica vzorec
numerus N n
strukturni odstotek P % p %
aritmetična sredina
M
x
standardni odklon σ s
Pearsonov korelacijski
koeficient
r r
Spearmanov korelacijski
koeficient
ρ ρ
Torej bo treba ob oznaki korelacijskega koeficienta vedno na nek način
povedati, ali gre za podatek o osnovni mnoţici ali o vzorcu. Običajno se to vidi
iz besedila; če ne, je treba izrecno poudariti, za kateri parameter gre.
II. Ocenjevanje parametrov
Zanima nas, kakšna je vrednost nekega parametra v osnovni mnoţici. Gre v
glavnem za štiri parametre: strukturni odstotek, aritmetično sredino, varianco in
korelacijski koeficient. Seveda nas včasih zanimajo vrednosti tudi nekaterih
ostalih parametrov, a najpogosteje nam zadostujejo omenjeni štirje.
Če bi imeli podatke za vse enote osnovne mnoţice, bi vrednost parametra
preprosto izračunali; postopke računanja parametrov ţe dobro poznamo.
Vrednost parametra v osnovni mnoţici, ki bi jo dobili z izračunavanjem iz
podatkov vseh enot, imenujemo tudi prava vrednost parametra (parameter
osnovne mnoţice, populacijski parameter itd.). Ker podatkov za vse enote
osnovne mnoţice nimamo, ne moremo izračunati prave vrednosti parametra.
Imamo samo podatke za enote v vzorcu. Na podlagi teh podatkov lahko le
ocenimo, kakšna je vrednost parametra v osnovni mnoţici. Moţni sta dve
različni oceni parametra osnovne mnoţice: točkovna ocena in intervalna ocena.
Točkovno oceno dobimo tako, da izračunamo vrednost parametra v vzorcu in
trdimo, da je vrednost parametra osnovne mnoţice enaka tej. Prikaţimo nekaj
primerov točkovnega ocenjevanja.
Tabela 52. Točkovne ocene parametrov
podatki za vzorec vzorčni parameter parameter osnovne
mnoţice
v vzorcu n=130 je 36
učencev z odlično oceno
odstotek odličnjakov
p = 27,69%
P = 27,69%
testni rezultati aritmetična sredina
x = 36,75
M = 36,75
podatki o telesni višini
dijakov
varianca
s2 = 125,45
σ2 = 125,45
testni rezultati za dva
predmeta
korelacijski koeficient
r = 0,66
r = 0,66
Če bi bila v vzorcu celotna osnovna mnoţica (kar je seveda nesmiselno), bi
točkovna ocena drţala. Ker pa je v vzorcu le del osnovne mnoţice, točkovna
ocena nasplošno ne drţi. Verjetnost, da je pravilna, je neznansko majhna
(praktično ničelna). Sicer je res, da točkovno oceno zelo preprosto pridobimo, a
je zaradi nezanesljivosti praktično neuporabna. Uporabimo jo lahko kvečjemu
kot sredstvo, da pridemo do bolj zanesljive ocene.
Ob točkovni oceni lahko spoznamo pojem tveganja v vzorčenju. Ta je namreč
stalni spremljevalec postopkov posploševanja z vzorca na osnovno mnoţico. Če
bi parameter osnovne mnoţice ocenili točkovno, bi tvegali praktično 100% - ţe
vnaprej bi namreč vedeli, da ocena ne bo pravilna. Moţnost, da imata vzorec in
osnovna mnoţica enak parameter, je zgolj teoretična. Vzorčni parameter pa ni
kakršenkoli. Če imamo vzorec z dobro reprezentativnostjo, bo vzorčni
parameter blizu parametru osnovne mnoţice. Kolikor bolj je vzorec podoben
osnovni mnoţici, toliko bolj je tudi njegov parameter “podoben” parametru
osnovne mnoţice (natančneje povedano: tem manjša je razlika med obema
parametroma). Pa vendar – enaka nista praktično nikdar!
Pojem intervalne ocene bomo predstavili s skrajnimi mejami iz prejšnjih
primerov.
Tabela 53. Intervalne ocene parametrov
podatki za vzorec vzorčni parameter parameter osnovne
mnoţice
v vzorcu n=130 je 36
učencev z odlično oceno
odstotek odličnjakov
p = 27,69%
od 0% do 100%
testni rezultati aritmetična sredina
x = 36,75
od 0 do neskončno
podatki o telesni višini
dijakov
varianca
s2 = 125,45
od 0 do neskončno
testni rezultati za dva
predmeta
korelacijski koeficient
r = 0,66
od –1 do +1
Poglejmo podrobneje prvo oceno. Ker odstotek odličnjakov v osnovni mnoţici
ne more biti manjši od 0% in ne večji od 100%, je takšen način ocenjevanja
popolnoma zanesljiv. Ocena odstotka v osnovni mnoţici je pravilna. Tveganja
pri takšnem ocenjevanju ni. Podobno velja za ostale tri parametre. Intervalna
ocena ima spodnjo in zgornjo mejo; trdimo, da je parameter osnovne mnoţice
med tema mejama.
Takoj je tudi vidno, da so ocene iz tabele nesmiselne in zato neuporabne. Vse
štiri ocene bi lahko postavili, ne da bi sploh imeli vzorec. V praksi ne bomo
uporabljali tako preprostega načina intervalnega ocenjevanja. Interval bo seveda
oţji, s tem bo pa gotovost, da je ocena pravilna, manjša. Pojavilo se bo tveganje,
da parameter osnovne mnoţice ni v tem intervalu. Čim širši bo interval, tem
manjše bo tveganje; čim oţji bo interval, tem večje bo tveganje. Oţji interval
pomeni bolj natančno oceno (skrajni primer je točkovna ocena), širši interval pa
manjše tveganje (skrajni primer je neskončno širok interval). Kompromis med
natančnostjo in zanesljivostjo ocene je pravilo, da tveganje ne sme biti večje od
5%. Tega pravila se v praksi drţimo brez izjem.
Da bi določili takšen interval, moramo poznati zakonitosti, ki veljajo za
razmerje med parametri osnovnih mnoţic in vzorcev.
III. Preizkušanje hipotez
Tako pogosto kot vrednost parametrov osnovne mnoţice nas zanima vprašanje,
ali se osnovne mnoţice razlikujejo. Ko govorimo o razlikah med mnoţicami,
mislimo na njihove parametre. Ali se aritmetične sredine osnovnih mnoţic
razlikujejo? Ali se strukturni odstotki razlikujejo? Ali se korelacijski koeficienti
razlikujejo itd.
Največkrat se omejimo na razliko dveh osnovnih mnoţic. To je namreč bolj
preprosto, kot če bi hoteli odgovoriti na vprašanje o več mnoţicah hkrati. Tudi
če imamo več mnoţic, si lahko primerjavo med parametri vedno razdelimo na
po dve in dve mnoţici in te dvojice primerjamo.
Če bi imeli podatke za cele osnovne mnoţice, bi, npr. izračunali njihove
aritmetične sredine in jih primerjali »na pogled«. Ţe najmanjša razlika med
sredinama pomeni, da se mnoţici razlikujeta. Te razlike ne bi bilo treba na
nikakršen dodatni način dokazovati. Dokazuje se sama!
Kadar pa imamo podatke le za dva vzorca iz teh osnovnih mnoţic, postopek ni
več tako preprost. Izračunane vzorčne aritmetične sredine same še ne povedo
dovolj o aritmetičnih sredinah osnovnih mnoţic. Tudi če sta vzorčni aritmetični
sredini različni, še ne moremo vedeti, ali se razlikujeta tudi aritmetični sredini
osnovnih mnoţic. Da res ne, si lahko razloţimo s preprostim premislekom: ţe,
če bi oba vzorca izbrali iz iste osnovne mnoţice, bi se njuni sredini razlikovali,
kaj šele, če ju izberemo iz različnih mnoţic. Zato bo potreben preizkus v tem
smislu: »Ali sta vzorčni sredini zadosti različni, da to potrjuje različnost
osnovnih mnoţic, ali ne?«.
Takšne statistične preizkuse imenujemo preizkusi ničelnih hipotez.
Za razvoj potrebnih statističnih postopkov si bomo zamislili mnoţico vseh parov
vzorcev iz obeh mnoţic. Večina ugotovitev, ki velja za parametre posameznih
vzorcev, smiselno velja tudi za pare vzorcev in razlike njihovih parametrov.
Zato splošnega dela razlage ne bomo ponavljali. Preizkušanje hipotez bomo
spoznali ob konkretnih parametrih.
1. PREIZKUŠANJE HIPOTEZ O RAZLIKI MED ARITMETIČNIMI SREDINAMI Z
VELIKIMI ENOSTAVNIMI SLUČAJNOSTNIMI VZORCI
Sprašujemo se, ali sta aritmetični sredini osnovnih mnoţic različni. Vzorčni
sredini se prektično vedno razlikujeta; o sredinah osnovnih mnoţic pa tega še ne
vemo. Glede tega postavimo prvo hipotezo:
Aritmetični sredini osnovnih množic se ne razlikujeta.
To je ničelna hipoteza. Zapišemo jo lahko matematično na dva načina:
M1 – M2 = 0
ali tudi
M1 = M2
Zaenkrat še ne vemo, ali je pravilna. Šele preizkus bo pokazal, kolikšna je
verjetnost, da je pravilna in kolikšna je verjetnost, da ni pravilna. Nasproti tej
hipotezi postavimo še nasprotno hipotezo:
Aritmetični sredini osnovnih množic se razlikujeta.
Tabela 63. Primeri sklepov
primer napačen sklep pravilen sklep
Mitjo smo videli v kinu. To je dokaz, da je bil v kinu.
Mitje nismo videli v kinu. To je dokaz, da Mitja ni
bil v kinu.
Ne vemo, ali je bil v kinu ali
ni bil (mi ga pač nismo
videli).
Videli smo učiteljevo
pisno pripravo na pouk.
To je dokaz, da je učitelj
imel pisno pripravo.
Nismo videli učiteljeve
pisne priprave na pouk.
To je dokaz, da učitelj ni
imel pisne priprave.
Ne vemo, ali je učitelj imel
pisno pripravo ali ne.
Osumljenca so zalotili pri
dejanju.
To je dokaz, da je dejanje
storil.
Osumljenca niso zalotili
pri dejanju.
To pomeni, da je
nedolţen.
Ne vemo, ali je nedolţen ali
ne.
Zaradi navedenega se, kadar obdrţimo ničelno hipotezo, skrbno izogibajmo
kakršnikoli interpretaciji o osnovnih mnoţicah. Če ţe na vsak način hočemo kaj
povedati o razlikah, interpretirajmo vzorčne razlike (seveda s posebnim
poudarkom, da se to nanaša na vzorce in ne na osnovne mnoţice).
Takšen preizkus imenujemo kratko z-preizkus. V statistiki uporabljamo še več
podobnih preizkusov: t-preizkus, F-preizkus, χ2-preizkus itd. Z-preizkus je
orodje, s katerim preizkušamo ničelne hipoteze za aritmetične sredine velikih
vzorcev, pa tudi hipoteze o večini ostalih parametrov velikih vzorcev. Omenjene
tri kritične vrednosti iz tabele normalne porazdelitve ponekod označujejo takole:
IV. χ2-preizkus
Le redko so vzgojni pojavi opisani s številskimi spremenljivkami; veliko
pogosteje z opisnimi (atributivnimi). Zato nam z-preizkus ne zadostuje.
Preizkušanje hipotez o aritmetičnih sredinah, o standardnih odklonih in
Pearsonovih korelacijskih koeficientih se nanaša le na številske spremenljivke.
Le preizkus hipotez o strukturnih odstotkih je uporaben tudi za opisne
spremenljivke. Vendar tudi s tem na mnoga vprašanja ne moremo odgovoriti.
Velikokrat nas zanima povezanost spremenljivk. Za številske spremenljivke
imamo na voljo več korelacijskih koeficientov, indeks korelacije in vzorčne
postopke, vezane na Pearsonov korelacijski koeficient (ti se lahko uporabijo tudi
za nekatere ostale korelacijske koeficiente, če so izpolnjeni določeni pogoji). Za
ugotavljanje povezanosti med samimi opisnimi spremenljivkami statistične
metode, ki smo jih doslej spoznali, niso ustrezne.
Preizkus, ki ga bomo spoznali v nadaljevanju, je zelo vsestranski in rešuje
mnoga vprašanja pri raziskovanju vzgojnih pojavov. Predvsem ga bomo
uporabili za preizkušanje dveh hipotez. To sta hipoteza neodvisnosti in hipoteza
enake verjetnosti.
1. PREIZKUŠANJE HIPOTEZE NEODVISNOSTI
Raziskujemo povezanost med dvema opisnima spremenljivkama. Sprašujemo
se, ali sta neki dve spremenljivki v osnovni mnoţici povezani. Seveda nimamo
podatkov za enote osnovne mnoţice, imamo pa vzorčne podatke za obe
spremenljivki. Vemo ţe, da nam podatki, urejeni v ustrezno strukturno tabelo,
veliko povedo o povezanosti med spremenljivkama. Če bi nas zanimal sam
vzorec, bi deloma lahko shajali s samimi strukturnimi odstotki. Vendar je v
središču našega raziskovanja cela osnovna mnoţica, o tej pa iz vzorčnih
podatkov ne moremo ničesar natančnega in zanesljivega povedati.
O stanju v osnovni mnoţici bomo postavili hipotezo neodvisnosti:
Spremenljivki sta v osnovni množici neodvisni.
To je posebna oblika ničelne hipoteze, saj pravi, da ni povezanosti med
spremenljivkama. Nasprotna tej hipotezi bi bila hipoteza, da sta spremenljivki v
osnovni mnoţici odvisni. Te nam izrecno ni treba postaviti, saj je skoraj vedno
enaka raziskovalni hipotezi. Vemo ţe, da z ničelno hipotezo ne mislimo povsem
resno; potrebujemo jo predvsem zaradi izvedbe statističnega postopka.
Hipotezo neodvisnosti bomo preizkusili s χ2-preizkusom. V preizkusu jo bomo,
ali zavrnili ali pa obdrţali (le prvi izid je ugoden). Poglejmo, kako poteka
preizkus.
Imamo podatke o dveh spremenljivkah za vzorec. Podatki so urejeni v
frekvenčni tabeli. Izbrali smo sorazmerno preprost in pogost primer s
pedagoškega področja: povezanost med spolom in stališčem. Njegova prepostost
je v tem, da ima neodvisna spremenljivka le dve kategoriji (moški-ţenske). Tudi
pri spremenljivki stališče
smo izbrali le tri kategorije (preprostejša je le še tabela 2x2).
Tabela 71. Frekvenčna tabela po spolu in stališču
sem za vseeno sem proti skupaj
moški 11 5 25 41
ţenske 43 16 20 79
skupaj 54 21 45 120
Ţe na pogled vidimo, da ţenske bolj soglašajo s tistim, kar je bilo v vprašanju.
Vendar so to podatki za vzorec. Kako je v osnovni mnoţici?
Frekvence, ki jih imamo v tabeli, so empirične ali stvarne frekvence (označimo
jih z fE). To pomeni, da odraţajo stvarno stanje med vprašanimi. Zaradi laţjega
razumevanja razlage bomo te frekvence preračunali v strukturne odstotke. Za
samo izvedbo preizkusa to ni potrebno, še več - gre za povsem nepotrebno delo!
Tabela 72. Odstotne frekvence
sem za vseeno sem proti skupaj
moški 26,8 12,2 61,0 100,0
ţenske 54,4 20,3 25,3 100,0
skupaj 45,0 17,5 37,5 100,0
Zamislili si bomo frekvence, ki bi jih pričakovali v tabeli, če bi veljala hipoteza
neodvisnosti. Če sta spol in stališče neodvisna, potem se odgovori ţensk in
moških v splošnem ne razlikujejo. Te frekvence bomo imenovali pričakovane ali
teoretične (fT). Kakšne frekvence pričakujemo? Poglejmo v prejšnji tabeli, npr.
frekvenco v levem spodnjem vogalu. To je odstotek tistih, ki so odgovorili »sem
za« v celi skupini (45,0%). Če se odgovori moških in ţensk ne razlikujejo,
potem mora biti odstotek tistih, ki sogašajo pri ţenskah in pri moških enak (in
sicer 45,0%). Tistih, ki jim je vseeno, mora biti pri obojih 17,5% in tistih, ki so
proti pri obojih 37,5%.
Pričakovane frekvence bodo torej takšne:
Tabela 73. Pričakovane frekvence
sem za vseeno sem proti skupaj
moški 45,0 17,5 37,5 100,0
ţenske 45,0 17,5 37,5 100,0
skupaj 45,0 17,5 37,5 100,0
Stvarne in pričakovane frekvence se ne ujemajo. To pomeni, da je stvarnost
drugačna kot trdi hipoteza. Zakaj se stvarno in zamišljeno stanje razlikujeta?
Prvič je to lahko zaradi slučajnega izbora enot v vzorec. Zaradi slučajnih
vplivov bo stanje v vzorcu vedno nekoliko drugačno kot v osnovni mnoţici. Te
razlike so predvidljive. Drugi vir razlik je lahko v tem, da stanje v osnovni
mnoţici ni takšno, kot trdi hipoteza neodvisnosti. Enostavno rečeno: moški in
ţenske se lahko v vzorcu razlikujejo zaradi slučajnih vplivov in zaradi tega, ker
se razlikujejo ţe v osnovni mnoţici. Na takšnem premisleku temelji naš
preizkus. Preprosto povedano: če bodo razlike med stvarnimi in pričakovanimi
frekvencami majhne, bomo sklepali: verjetno temeljijo na slučaju. Če bodo
razlike med temi frekvencami velike, bomo sklepali, da verjetno temeljijo na
razliki v osnovni mnoţici. Pri zadosti velikem razhajanju med frekvencami
bomo zavrnili hipotezo neodvisnosti in trdili, da je tudi v osnovni mnoţici
stališče odvisno od spola.
Izmeriti moramo razhajanje med stvarnimi in pričakovanimi frekvencami.
2. PREIZKUŠANJE HIPOTEZE ENAKE VERJETNOSTI
Anketiranci so, npr. odgovarjali na neko anketno vprašanje. Zanima nas, ali v
osnovni mnoţici kateri od odgovorov prevladuje. Imamo podatke za vzorec in
vidimo, da so frekvence odgovorov različne. Za neke odgovore se je odločilo
več anketirancev kot za druge. Običajno je tako; le izjemoma bi vsi odgovori
imeli enako frekvenco. Če bi nas zanimal vzorec, bi ţe na pogled iz frekvenc
lahko odgovorili na naše vprašanje. Če so frekvence enake, pomen, da noben
odgovor ne prevladuje in da so torej vsi enako pogosti. Če so frekvence
odgovorov različne, pomeni, da se več ljudi strinja z enimi odgovori kot pa z
drugimi. Teh sklepov ne bi bilo treba kako drugače dokazovati; oprli bi jih
neposredno na frekvence. Ilustrirajmo to s primeroma.
Študente četrtega letnika smo vprašali, kam bi šli na absolventski izlet.
Moţni odgovori so bili trije. Imamo frekvence za ta letnik:
A. Egipt 12
B. Sicilija 21
C. Španija 6
Nedvomno je, da največ študentov iz tega vzorca ţeli na Sicilijo, najmanj
pa v Španijo. To dejstvo je neizpodbitno. Ni ga potrebno dokazovati še na
kakšen način.
Če bi dobili odgovore:
D. Egipt 12
E. Sicilija 12
F. Španija 12
bi to spet neizpodbitno pomenilo, da so odgovori v vzorcu enakomerno
porazdeljeni. Tudi tega ne bi dodatno dokazovali.
Ne zanima nas vzorec, temveč osnovna mnoţica, iz katere je izbran. Zato zgolj
na pogled iz vzorčnih frekvenc ne moremo dovolj zanesljivo vedeti, kakšno je
stanje v osnovni mnoţici. Za to bo spet potreben χ2-preizkus.
Postavimo hipotezo enake verjetnosti:
Vsi odgovori v osnovni množici so enako verjetni.
Če bi hipoteza enake verjetnosti drţala, bi pričakovali v tabeli enake frekvence
vseh odgovorov. Spet bo preizkus hipoteze temeljil na razhajanju med stvarnimi
in pričakovanimi frekvencami.
V. Koeficienti kontingence
S χ2 -preizkusom hipoteze neodvisnosti smo samo ugotovili, da sta spremenljivki
v osnovni mnoţici odvisni. Ne vemo pa, kako močna je njuna odvisnost.
Potrebujemo mero, podobno korelacijskim koeficientom. Takšno mero lahko
dobimo iz vrednosti χ2 . Ta je temeljila na stopnji razhajanja med stvarnimi in
pričakovanimi frekvencami. Čim bolj se te razhajajo, tem večja je povezanost
med spremenljivkama v vzorcu. Na posreden način je ţe χ2 meril stopnjo
povezanosti. Koeficiente povezanosti med opisnimi spremenljivkami bomo
imenovali kontingenčni koeficienti.
Vendar je med kontingenčnimi koeficienti in χ2 – preizkusom neka še bolj
bistvena razlika. Preizkus χ2 se nanaša na povezanost spremenljivk v osnovni
množici. Čeprav je izračunan iz podatkov vzorca, odgovarja samo na vprašanje
o osnovni mnoţici (kot sicer vsi preizkusi in tudi ocenjevanje parametrov). V
raziskavi, ki ni vzorčna, uporaba χ2 – preizkusa nima smisla. Toda tudi v takšni
raziskavi izračunamo vrednost χ2 , iz nje pa koeficient kontingence.
Kontingenčni koeficienti se, preprosto povedano, nanašajo na skupino, ki je v
tabeli. Če imamo v tabeli raziskovalno mnoţico (ki ni osnovna mnoţica in iz nje
ni bil izbran vzorec), bo kontingenčni koeficient veljal zanjo. Če bomo imeli v
tabeli vzorec, se bo kontingenčni koeficient nanašal nanj! Če bi hoteli dobiti
kontingenčni koeficient za osnovno mnoţico, bi ga morali oceniti na podlagi
dobljenega (vzorčnega) iz tabele. Izračunati bi morali interval zaupanja in šele ta
bi se nanašal na osnovno mnoţico.
To pomeni, da kontingenčne koeficiente lahko uporabimo vedno, χ2 – preizkus
pa le v vzorčnih raziskavah. Pozor: razlikujmo χ2 – preizkus od računanja
vrednosti χ2 . Vrednost χ
2 lahko izračunamo kadarkoli, celoten χ
2 – preizkus pa
je smiseln le, kadar posplošujemo na osnovno mnoţico. Ponovimo: v raziskavi,
ki ni vzorčna, uporaba χ2 – preizkusa nima nikakršnega smisla.
1. PEARSONOV KONTINGENČNI KOEFICIENT
Vrednosti χ2
bomo preračunali v kontingenčni koeficient; ta bo kazal povezanost
podobno kot korelacijski keficienti. Koeficientov kontingence je več,
najpomembnejši je nedvomno Pearsonov kontingenčni koeficient.
Vrednosti tega koeficienta so med 0 in 1 in jih interpretiramo podobno kot sicer
korelacijske koeficiente. Nasplošno pri opisnih spremenljivkah dobimo niţje
stopnje povezanosti kot pri številskih. Zato običajno ţe niţje vrednosti
kontingenčnih koeficientov interpretiramo kot opazno stopnjo povezanosti. Še
zlasti to velja prav za Pearsonov kontingenčni koeficient (o tem malo pozneje
več).
Druga razlika interpretacije je v tem, da kontingenčni koeficienti nimajo
predznaka. Pri nominalnih spremenljivkah to ni teţava, saj pri teh ni negativne
ali pozitivne smeri. Pri ordinalnih spremenljivkah pozitivna in negativna smer
obstajata, vendar nam ju koeficient ne nakaţe. Zato je treba vsakokrat pazljivo
preučiti frekvence v tabeli in iz njih presoditi o smeri povezanosti. V primeru,
kjer smo preizkušali hipotezo o neodvisnosti med spolom in stališčem, je
vrednost Pearsonovega koeficienta C = 0,33. To je ţe skoraj srednje močna
povezanost, daleč od tega, da bi jo interpretirali kot komaj opazno. Za
interpretacijo smeri potrebujemo tabelo s strukturnimi odstotki.
Tabela 79. Strukturni odstotki po stališču (posebej za vsak spol)
sem za vseeno sem proti skupaj
moški 26,8 12,2 61,0 100,0
ţenske 54,4 20,3 25,3 100,0
skupaj 45,0 17,5 37,5 100,0
Pri manjših tabelah ţe pogled na tabelo zadosti dobro kaţe smer. Ţenske veliko
bolj soglašajo kot moški; hkrati je tudi pri ţenskah več takšnih, ki niso izrazito
ne za ne proti. Seveda potem zadnji stolpec kaţe, da so moški veliko bolj proti
kot ţenske.
Pri večjih tabelah moramo pogosto primerjati cele stolpce (drugega za drugim).
Tako bi najprej primerjali odstotke v prvem stolpcu: 26,8% in 54,4%. Več kot
polovica ţensk je izbrala odgovor »sem za«, pri moških pa komaj malo več kot
četrtina. Tako nadaljujemo še za ostale stolpce; iz vseh skupaj na koncu
ustvarimo celovito sliko smeri povezanosti. Pozor: tabele absolutnih frekvenc ne
omogočajo dobre interpretacije. Na koncu poglavja bomo podrobneje prikazali
nekatere teţave pri interpretaciji smeri povezanosti.
Pravo teţavo pri interpretaciji Pearsonovega kontingenčnega koeficienta pa
predstavlja njegova odvisnost od velikosti tabele. Tudi pri popolni povezanosti
med spremenljivkama koeficient ne doseţe vrednosti 1. To vrednost doseţe šele,
če je število kategorij obeh spremenljivk neskončno (neskončno velika tabela).
Poglejmo primer. V naši tabeli s spremenljivkama spol in stališče si zamislimo,
da so vse ţenske izbrale odgovor A, vsi moški pa odgovor C. Povezanost med
spremenljivkama je popolna (samo od spola je odvisno, kakšni so odgovori!). V
tem primeru bi bila tabela stvarnih frekvec takšna:
Tabela 80. Frekvence po spolu in stališču
sem za vseeno sem proti skupaj
moški 0 0 41 41
ţenske 79 0 0 79
skupaj 79 0 41 120
Pa vendar bi bil kontingenčni koeficient v takšnem primeru »zgolj« C = 0,71. Če
tega ne bi vedeli, bi ga napačno interpretirali, češ: »povezanost je precej
visoka«. V resnici je povezanost najmočnejša moţna –popolna.
2. CRAMÉRJEV KOEFICIENT
Kadar so nam pomembne primerjave med različnimi tabelami, lahko izberemo
Cramérjev koeficient. Postopek izračunavanja zagotavlja neodvisnost od
velikosti tabele in s tem primerljivost koeficientov iz različnih tabel. Kljub temu,
da Cramérjevi koeficienti lahko doseţejo vrednost 1, so nasplošno njihove
vrednosti manjše od vrednosti C. Zato koeficienta nista primerljiva in ju ne
moremo hkrati uporabljati in interpretirati. Če se odločimo za uporabo
Cramérjevih koeficientov, potem uporabljamo samo te.
Če izračunamo Cramérjev koeficient za naš primer, dobimo vrednost CCR =
0,27. Vidimo, da je manjša od navadnega in od korigiranega Pearsonovega
koeficienta.
VI. Napake pri ocenjevanju parametrov in preizkušanju
hipotez
Vsi statistični postopki posploševanja z vzorcev na osnovne mnoţice so
povezani s tveganjem. Brez tveganja ne gre. Zaradi tega lahko pride do napačnih
sklepov. Vir teh napak je tveganje. Čeprav so viri enaki, so napake in njihove
posledice pri ocenjevanju parametrov drugačne kot pri preizkušanju hipotez.
Pri ocenjevanju parametrov postavimo trditev, da je parameter osnovne mnoţice
v intervalu zaupanja. Pri tem tvegamo, da to morda ne drţi. Napaka, ki se nam
lahko zgodi je, da parameter osnovne mnoţice res ni v intervalu zaupanja. Torej,
naša ocena ne drţi. Zakaj se to lahko zgodi? Interval zaupanja smo oprli na
verjetnost, da je izbrani vzorec eden od tistih (npr. 95%), katerih parameter
odstopa od populacijskega za največ 1,96SE. Vendar vemo, da je med vsemi
vzorci tudi 5% takšnih, za katere to ne velja. Če smo naleteli pri izbiri vzorca na
enega takšnih, bo naša ocena nepravilna: parameter osnovne mnoţice ne bo v
intervalu zaupanja. Verjetnost takšnega dogodka je torej majhna, toda zgodi se
lahko! In če stalno ocenjujemo s petimi odstotki tveganja, se nam bo to zares
dogajalo v pribliţno petih odstotkih primerov. Če nismo pripravljeni sprejeti
tega tveganja, se moramo odpovedati vzorcem in pojave raziskovati na celih
mnoţicah.
Pri preizkušanju hipotez se lahko zgodita dve napaki. Imenujemo jih napake I.
vrste in napake II. vrste (tudi alfa napake in beta napake).
Napaka prve vrste se lahko zgodi pri zavrnitvi ničelne hipoteze. Če ničelno
hipotezo zavrnemo, v resnici pa je pravilna, je to napaka I. vrste ali alfa napaka.
Pravilnost ničelne hipoteze pomeni, da se osnovni mnoţici ne razlikujeta. Toda,
tudi iz takšnih mnoţic lahko dobimo vzorca, pri katerih z-vrednost presega 1,96.
Takšnih parov je največ 5%, zato se napaka prve vrste ne zgodi pogosto;
občasno se pa vendarle zgodi. Te napake imenujemo alfa napake, ker je njihova
verjetnost enaka vrednosti α. Napake I. vrste imajo lahko zelo hude posledice,
saj je v primeru, ko se nam to zgodi, naša trditev popolnoma napačna. Zato je
največje dopustno tveganje pri zavrnitvi ničelne hipoteze 5% (to je tudi največja
verjetnost, da pride do napake I. vrste).
Napaka druge vrste se lahko zgodi, ko ničelno hipotezo obdrţimo. Če ničelno
hipotezo obdrţimo, a je v resnici nepravilna, je to napaka II. vrste ali beta
napaka. Torej se osnovni mnoţici razlikujeta, mi smo pa obdrţali ničelno
hipotezo. Verjetnost te napake je največ 95%. Tako velika verjetnost za napake
II. vrste je moţna, ker te napake nimajo skoraj nobenih praktičnih posledic. Ko
ničelno hipotezo obdrţimo, ne trdimo o osnovni mnoţici nič. In če nič ne
trdimo, tudi kakšne vsebinske napake ne moremo zagrešiti. Če se ţe zgodi
napaka II. vrste, nam je lahko ţal, da smo obdrţali ničelno hipotezo (saj bi jo
lahko v resnici zavrnili) in da o osnovni mnoţici nismo ničesar ugotovili (čeprav
bi lahko). To je škoda, ni pa stvarne napake.
Zmanjševanje verjetnosti za napake I. vrste povečuje verjetnost nastopa napak
II. vrste in obratno. Če bi se torej odločili, da bomo zavračali ničelne hipoteze
šele ko z-vrednost preseţe 2,58, bi zmanjšali moţnost napak I. vrste na 1%, a
hkrati povečali moţnost napak II. vrste na 99%. Zato večinoma ostajamo pri
kritični vrednosti α=0,05. To je kompromis med verjetnostjo nastopanja obojih
napak.
LITERATURA
Blejec, M., Statistične metode za ekonomiste, Ljubljana 1973.
Blejec, M., Statistične metode za psihologe, Ljubljana 1959.
Cohen J., Statistical power analysis for the behavioral sciences, Hillsdale 1988.
Garrett, H. E., Statistika v psihologiji in pedagogiki, I. in II. del, Ljubljana 1957.
Guilford, J. P., Osnovi psihološke i pedagoške statistike, Beograd 1968.
Jamnik, R., Verjetnostni račun, Ljubljana 1971.
Koţuh, B., Statistične metode v pedagoškem raziskovanju, Ljubljana 2003.
Muţić, V., Metodologija pedagoškog istraţivanja, Sarajevo 1986.
Pavlić, I., Statistička teorija i primjena, Zagreb 1970.
Petz, B., Osnovne statističke metode, Zagreb 1970.
Sagadin, J., Osnovne statistične metode za pedagoge, Ljubljana 1992.
Serdar, V., Udţbenik statistike, Zagreb 1970.
Snidikor, Dţ. V. in Kohren V. G., Statistički metodi, Beograd 1971.
Yule, G. U. in Kendall, M. G., Uvod v teorijo statistike, I. zvezek, Ljubljana
1955.
Yule, G. U. in Kendall, M. G., Uvod v teorijo statistike, II. zvezek, Ljubljana
1956.
Yule, G. U. in Kendall, M. G., Uvod v teorijo statistike, III. zvezek, Ljubljana
1958.
Yule, G. U. in Kendall, M. G., Uvod v teorijo statistike, IV. zvezek, Ljubljana
1958.
Yule, G. U. in Kendall, M. G., Uvod v teorijo statistike, V. zvezek, Ljubljana
1959.
Tabela E. Slučajnostne številke
09115 18695 12253 75913 67202 11333 61626 00621 37625 64337 86327 06961 84709
61581 64804 57864 47755 24026 16438 26401 35439 92229 69041 29796 74669 22110
82265 92986 47294 07436 70569 67195 42685 03429 11519 32369 89112 48575 91865
34256 77326 78084 78753 05788 24065 04188 30612 76293 95733 99613 13203 16829
67189 64179 78866 37795 34842 27495 27242 35594 65661 75837 08558 86626 33524
47791 13774 77562 50234 11097 62857 62664 91994 65452 35723 06314 96087 41009
03535 34593 45170 48858 49835 55466 80349 67391 20558 62668 97689 44203 06830
59868 36326 45375 29487 98595 52964 11993 38422 72534 60334 07950 39835 61064
44547 76729 33277 49579 29284 53561 58779 41268 45552 10725 25918 39936 61593
78051 84673 74682 35567 67760 00549 07026 49173 18205 52686 35724 50609 54710
38438 76621 17204 90719 19482 67176 46776 84718 87547 78500 14619 55543 59702
62032 88185 09183 27701 46738 16351 89102 16574 10712 28924 99170 65299 00202
26803 60920 34401 44303 71954 78004 19142 47975 60783 15000 95742 62251 77829
93702 37650 41673 72974 12741 26236 95906 31041 31453 81651 29587 19778 02609
09317 83032 74027 31564 92495 21745 94856 57020 31208 63774 97504 84370 52333
73659 03468 64631 56056 32923 34076 66267 45647 88971 07562 51230 12803 73790
24740 13139 09160 86039 73805 01937 59160 17839 37149 92416 33680 47633 14413
94315 99167 63519 78736 62038 74044 25123 70949 68500 71145 22350 87582 24888
47099 64090 42111 86586 75225 32150 82119 02385 17015 01903 67140 72534 51431
37376 71250 60204 70422 43604 06600 62990 96423 20511 37855 71924 73478 65442
47905 88357 55910 27528 56612 64822 63325 38655 70212 38348 61578 13314 23708
04633 26080 52668 76562 45944 83250 72753 31915 57198 63909 86168 22475 44590
75741 24024 52554 15366 99327 81609 74249 04633 73783 73806 24870 08510 84423
49532 50420 63601 85080 71559 31508 75298 86220 34301 05286 68747 62450 40330
40866 25927 71812 47512 26914 60123 00985 80732 41331 87516 84383 21207 55683
52336 22846 21665 82576 01955 79239 50856 24453 87437 49217 55873 11502 32469
09262 00660 40634 22407 40206 05217 67373 13405 43527 04176 31902 51070 58328
91128 06127 52257 68568 11124 09046 99074 88842 28578 05322 54117 00586 64207
32152 44047 83026 63767 91256 67199 51349 31441 33674 08363 61429 94173 93871
06195 75910 58037 60368 06190 93131 04742 09177 30821 03215 26570 17988 74651
96423 43604 06600 79239 69587 21452 60178 27207 62217 58467 42564 89064 07145
55207 81968 83451 14733 78095 33828 98117 03938 68478 11624 45901 53945 75115
12133 57298 12989 80068 94545 03855 54389 61175 72022 28338 53618 95180 31199
60119 39101 14402 84960 76482 81823 53960 07910 29182 57082 71799 27315 44978
81352 00603 33510 69660 67934 95639 46584 99173 57310 83794 54539 12829 85685
65426 32932 94233 09095 65842 26698 60650 88432 81143 42614 15288 38265 26527
48012 69822 53297 72662 49868 37082 48406 73752 49837 28024 73615 90345 77330
22715 11271 06142 70895 25432 75749 80478 25432 56312 04613 77899 25490 36384
02008 85850 24390 35211 26350 23826 65203 21088 42892 07157 37162 92753 07764
15298 03542 96805 39225 12721 68701 41524 10395 25796 83156 69645 69582 43703
54801 28437 89036 38289 17425 63620 03845 62521 21007 26749 83962 89037 21569
10308 61823 50943 19261 91088 16723 51106 42309 54961 06087 23158 11218 09196
23256 88923 28386 61660 85345 25145 07142 39101 24032 95180 26426 88432 40815
73758 69835 25024 39854 38407 53245 48790 42564 32692 68206 87868 76125 40658
13250 25001 25470 91168 53451 00368 58809 27204 28338 76527 23598 00651 23857
75749 32974 65945 35841 76963 26001 24589 79450 18079 62324 08068 40656 92063
39962 89600 13871 79251 67518 49691 71990 12986 85068 94542 38405 65984 25467
09115 18695 12253 75913 67202 11333 61626 00621 37625 64337 86327
06961 84709
61581 64804 57864 47755 24026 16438 26401 35439 92229 69041 29796
74669 22110
82265 92986 47294 07436 70569 67195 42685 03429 11519 32369 89112
48575 91865
34256 77326 78084 78753 05788 24065 04188 30612 76293 95733 99613
13203 16829
67189 64179 78866 37795 34842 27495 27242 35594 65661 75837 08558
86626 33524
47791 13774 77562 50234 11097 62857 62664 91994 65452 35723 06314
96087 41009
03535 34593 45170 48858 49835 55466 80349 67391 20558 62668 97689
44203 06830
59868 36326 45375 29487 98595 52964 11993 38422 72534 60334 07950
39835 61064
44547 76729 33277 49579 29284 53561 58779 41268 45552 10725 25918
39936 61593
78051 84673 74682 35567 67760 00549 07026 49173 18205 52686 35724
50609 54710
38438 76621 17204 90719 19482 67176 46776 84718 87547 78500 14619
55543 59702
62032 88185 09183 27701 46738 16351 89102 16574 10712 28924 99170
65299 00202
26803 60920 34401 44303 71954 78004 19142 47975 60783 15000 95742
62251 77829
93702 37650 41673 72974 12741 26236 95906 31041 31453 81651 29587
19778 02609
09317 83032 74027 31564 92495 21745 94856 57020 31208 63774 97504
84370 52333
73659 03468 64631 56056 32923 34076 66267 45647 88971 07562 51230
12803 73790
24740 13139 09160 86039 73805 01937 59160 17839 37149 92416 33680
47633 14413
94315 99167 63519 78736 62038 74044 25123 70949 68500 71145 22350
87582 24888
47099 64090 42111 86586 75225 32150 82119 02385 17015 01903 67140
72534 51431
37376 71250 60204 70422 43604 06600 62990 96423 20511 37855 71924
73478 65442
47905 88357 55910 27528 56612 64822 63325 38655 70212 38348 61578
13314 23708
04633 26080 52668 76562 45944 83250 72753 31915 57198 63909 86168
22475 44590
75741 24024 52554 15366 99327 81609 74249 04633 73783 73806 24870
08510 84423
49532 50420 63601 85080 71559 31508 75298 86220 34301 05286 68747
62450 40330
40866 25927 71812 47512 26914 60123 00985 80732 41331 87516 84383
21207 55683
52336 22846 21665 82576 01955 79239 50856 24453 87437 49217 55873
11502 32469
09262 00660 40634 22407 40206 05217 67373 13405 43527 04176 31902
51070 58328
91128 06127 52257 68568 11124 09046 99074 88842 28578 05322 54117
00586 64207
32152 44047 83026 63767 91256 67199 51349 31441 33674 08363 61429
94173 93871
06195 75910 58037 60368 06190 93131 04742 09177 30821 03215 26570
17988 74651
96423 43604 06600 79239 69587 21452 60178 27207 62217 58467 42564
89064 07145
55207 81968 83451 14733 78095 33828 98117 03938 68478 11624 45901
53945 75115
12133 57298 12989 80068 94545 03855 54389 61175 72022 28338 53618
95180 31199
60119 39101 14402 84960 76482 81823 53960 07910 29182 57082 71799
27315 44978
81352 00603 33510 69660 67934 95639 46584 99173 57310 83794 54539
12829 85685
65426 32932 94233 09095 65842 26698 60650 88432 81143 42614 15288
38265 26527
48012 69822 53297 72662 49868 37082 48406 73752 49837 28024 73615
90345 77330
22715 11271 06142 70895 25432 75749 80478 25432 56312 04613 77899
25490 36384 02008 85850 24390 35211 26350 23826 65203 21088 42892
07157 37162 92753 07764
15298 03542 96805 39225 12721 68701 41524 10395 25796 83156 69645
69582 43703
54801 28437 89036 38289 17425 63620 03845 62521 21007 26749 83962
89037 21569
10308 61823 50943 19261 91088 16723 51106 42309 54961 06087 23158
11218 09196
23256 88923 28386 61660 85345 25145 07142 39101 24032 95180 26426
88432 40815
73758 69835 25024 39854 38407 53245 48790 42564 32692 68206 87868
76125 40658
13250 25001 25470 91168 53451 00368 58809 27204 28338 76527 23598
00651 23857
75749 32974 65945 35841 76963 26001 24589 79450 18079 62324 08068
40656 92063
39962 89600 13871 79251 67518 49691 71990 12986 85068 94542 38405
65984 25467