102
UNIVERZA NA PRIMORSKEM PEDAGOŠKA FAKULTETA BORIS KOŽUH STATISTIČNE METODE V PEDAGOŠKEM RAZISKOVANJU KOPER 2010

UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Embed Size (px)

Citation preview

Page 1: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

UNIVERZA NA PRIMORSKEM

PEDAGOŠKA FAKULTETA

BORIS KOŽUH

STATISTIČNE METODE V PEDAGOŠKEM

RAZISKOVANJU

KOPER 2010

Page 2: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

OSNOVNI POJMI ................................................................................................................................................ 6

I. MNOŢIČNI POJAVI ........................................................................................................................................... 6

II. STATISTIČNE MNOŢICE IN ENOTE ................................................................................................................... 6

III. SPREMENLJIVKE ........................................................................................................................................... 8

1. Opisne in številske spremenljivke ............................................................................................................. 8

2. Merske lestvice ......................................................................................................................................... 9

3. Uporaba statističnih metod .................................................................................................................... 12

4. Zvezne in nezvezne spremenljivke .......................................................................................................... 13

5. Odvisne in neodvisne spremenljivke ...................................................................................................... 14

IV. PARAMETRI ................................................................................................................................................ 15

DRUGO POGLAVJE ......................................................................................................................................... 16

UREJEVANJE PODATKOV ............................................................................................................................ 16

I. UREJEVANJE PODATKOV ZA OPISNE SPREMENLJIVKE .................................................................................... 16

II. UREJEVANJE PODATKOV ZA ŠTEVILSKE SPREMENLJIVKE ............................................................................. 22

1. Ranžirna vrsta ........................................................................................................................................ 23

2. Frekvenčna porazdelitev ........................................................................................................................ 24

III. PRIPRAVA PODATKOV ZA RAČUNALNIŠKO OBDELAVO ......................... NAPAKA! ZAZNAMEK NI DEFINIRAN.

1. Zbiranje podatkov ................................................................................. Napaka! Zaznamek ni definiran.

2. Seznam spremenljivk ............................................................................. Napaka! Zaznamek ni definiran.

3. Zapisovanje vrednosti ........................................................................... Napaka! Zaznamek ni definiran.

4. Neposredno in posredno vnašanje ........................................................ Napaka! Zaznamek ni definiran.

TRETJE POGLAVJE ........................................................................................................................................ 27

RANGI ................................................................................................................................................................. 27

I. ABSOLUTNI RANGI ........................................................................................................................................ 27

II. RELATIVNI RANGI ........................................................................................................................................ 28

III. ZNAČILNI KVANTILNI RANGI IN KVANTILI ........................................... NAPAKA! ZAZNAMEK NI DEFINIRAN.

1. Delitev na polovici ................................................................................ Napaka! Zaznamek ni definiran.

2. Delitev na četrtine ................................................................................. Napaka! Zaznamek ni definiran.

3. Delitev na desetine ................................................................................ Napaka! Zaznamek ni definiran.

4. Delitev na stotine .................................................................................. Napaka! Zaznamek ni definiran.

ČETRTO POGLAVJE ....................................................................................................................................... 29

SREDNJE VREDNOSTI .................................................................................................................................... 29

I. PRIMERJANJE MNOŢIC ................................................................................................................................... 29

II. SREDNJE VREDNOSTI .................................................................................................................................... 30

Page 3: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

III. IZRAČUNAVANJE ARITMETIČNE SREDINE .................................................................................................... 33

1. Računanje iz individualnih podatkov ..................................................................................................... 33

2. Računanje iz frekvenčne porazdelitve ................................................... Napaka! Zaznamek ni definiran.

IV. TEHTANA ARITMETIČNA SREDINA ....................................................... NAPAKA! ZAZNAMEK NI DEFINIRAN.

Tehtan strukturni odstotek .................................................................................. Napaka! Zaznamek ni definiran.

PETO POGLAVJE ............................................................................................................................................. 34

RAZPRŠENOST ................................................................................................................................................. 34

I. POJEM RAZPRŠENOSTI ................................................................................................................................... 34

II. VIRI RAZPRŠENOSTI ..................................................................................................................................... 35

III. MERJENJE RAZPRŠENOSTI ........................................................................................................................... 36

1. Razpršenost podatkov za nominalne spremenljivke ............................................................................... 37

2. Razpršenost podatkov za ordinalne spremenljivke ................................................................................ 38

3. Razpršenost podatkov za intervalne spremenljivke ................................................................................ 39

IV. MERE RAZPRŠENOSTI ................................................................................................................................. 40

1.Variacijski razmik ................................................................................................................................... 40

2. Decilni razmik ........................................................................................................................................ 41

3. Kvartilni razmik ..................................................................................................................................... 42

4. Kvartilni odklon ..................................................................................................................................... 42

5. Povprečni absolutni odklon ................................................................................................................... 43

6. Varianca in standardni odklon ............................................................................................................... 44

V. IZRAČUNAVANJE VARIANCE ........................................................................................................................ 45

1. Računanje iz individualnih podatkov ..................................................................................................... 45

2. Računanje iz frekvenčne porazdelitve ................................................... Napaka! Zaznamek ni definiran.

VI. RELATIVNA MERA RAZPRŠENOSTI ....................................................... NAPAKA! ZAZNAMEK NI DEFINIRAN.

VII. RELATIVNI ODKLON ........................................................................... NAPAKA! ZAZNAMEK NI DEFINIRAN.

VIII. ANALIZA RAZPRŠENOSTI ......................................................................................................................... 46

Računanje pojasnjene in nepojasnjene variance ...................................... Napaka! Zaznamek ni definiran.

ŠESTO POGLAVJE ........................................................................................................................................... 49

NORMALNA PORAZDELITEV ...................................................................................................................... 49

I. POJEM IN ZNAČILNOSTI ................................................................................................................................. 49

II. UPORABA TABELE IN ZAKONITOSTI ....................................................... NAPAKA! ZAZNAMEK NI DEFINIRAN.

1. Določanje odstotka vrednosti, ki so pod neko vrednostjo spremenljivke ............... Napaka! Zaznamek ni

definiran.

2. Določanje odstotka vrednosti, ki so nad neko vrednostjo spremenljivke ............... Napaka! Zaznamek ni

definiran.

3.Določanje odstotka vrednosti, ki so v nekem razmiku ............................ Napaka! Zaznamek ni definiran.

4.Določanje rezultata, pod katerim je dani odstotek enot ......................... Napaka! Zaznamek ni definiran.

5.Določanje meja, med katerima je dani odstotek enot ............................ Napaka! Zaznamek ni definiran.

Page 4: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

6. Upoštevanje narave zveznih spremenljivk ............................................. Napaka! Zaznamek ni definiran.

SEDMO POGLAVJE ......................................................................................................................................... 51

KORELACIJE .................................................................................................................................................... 51

I. POJEM IN VRSTE KORELACIJE ........................................................................................................................ 51

1. Razmerje med korelacijo in vzročno-posledičnimi zvezami ................................................................... 54

2. Korelacijski grafikon.............................................................................................................................. 55

3. Pozitivna in negativna korelacija ........................................................................................................... 56

4. Linearna in nelinearna korelacija ......................................................................................................... 56

II. INDEKS KORELACIJE..................................................................................................................................... 57

III. KORELACIJSKI KOEFICIENTI ........................................................................................................................ 58

1. Pearsonov korelacijski koeficient .......................................................................................................... 58

Interpretacija Pearsonovega korelacijskega koeficienta ......................................................................................... 60

2. Korelacija ranga .................................................................................................................................... 61

3. Biserialni korelacijski koeficient ........................................................... Napaka! Zaznamek ni definiran.

4. Točkovni biserialni korelacijski koeficient ............................................ Napaka! Zaznamek ni definiran.

5. Tetrakorični korelacijski koeficient ....................................................... Napaka! Zaznamek ni definiran.

6. Korelacijsko razmerje ........................................................................... Napaka! Zaznamek ni definiran.

IV. REGRESIJA .................................................................................................................................................. 63

V. PARCIALNA KORELACIJA ............................................................................................................................. 65

1. Parcialni korelacijski koeficent prvega reda ........................................ Napaka! Zaznamek ni definiran.

2. Parcialni korelacijski koeficent drugega reda ...................................... Napaka! Zaznamek ni definiran.

OSMO POGLAVJE ............................................................................................................................................ 66

VZORČENJE ...................................................................................................................................................... 66

I. OSNOVNE MNOŢICE IN VZORCI ...................................................................................................................... 66

1. Zakaj sploh vzorčimo ............................................................................................................................. 67

2. Posploševanje z vzorca na osnovno množico ......................................................................................... 68

3. Reprezentativnost vzorca ....................................................................................................................... 69

O razpršenosti spremenljivke v osnovni mnoţici ................................................................................................... 69

O velikosti vzorca .................................................................................................................................................. 69

O načinu izbora enot v vzorec ................................................................................................................................ 70

4. Izbiranje vzorcev .................................................................................................................................... 70

Slučajnostni izbor .................................................................................................................................................. 70

Sistematični izbor .................................................................................................................................................. 72

Namenski izbor ...................................................................................................................................................... 75

Priloţnostni izbor ................................................................................................................................................... 75

Enostopenjsko in večstopenjsko vzorčenje ............................................................................................................ 76

Izbiranje s ponavljanjem ........................................................................................................................................ 78

Stratificirano vzorčenje ....................................................................................... Napaka! Zaznamek ni definiran.

Veliki in mali vzorci .............................................................................................................................................. 78

Page 5: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Odvisni in neodvisni vzorci ................................................................................................................................... 79

5. Enostavni slučajnostni vzorec ................................................................................................................ 80

6. Posploševanje na hipotetično osnovno množico .................................................................................... 80

7. Oznake za parametre ............................................................................................................................. 81

II. OCENJEVANJE PARAMETROV ....................................................................................................................... 82

1. Množica vzorcev in množica vseh vzorcev ............................................ Napaka! Zaznamek ni definiran.

2. Porazdelitev vzorčnih parametrov ........................................................ Napaka! Zaznamek ni definiran.

3. Ocenjevanje aritmetične sredine z velikimi enostavnimi slučajnostnimi vzorci ..... Napaka! Zaznamek ni

definiran.

Standardna napaka ocene aritmetične sredine ..................................................... Napaka! Zaznamek ni definiran.

4. Ocenjevanje strukturnega odstotka z velikimi enostavnimi slučajnostnimi vzorci . Napaka! Zaznamek ni

definiran.

Standardna napaka ocene strukturnega odstotka ................................................. Napaka! Zaznamek ni definiran.

5. Ocenjevanje standardnega odklona z velikimi enostavnimi slučajnostnimi vzorci Napaka! Zaznamek ni

definiran.

6. Ocenjevanje Pearsonovega korelacijskega koeficienta z velikimi enostavnimi slučajnostnimi vzorci

.................................................................................................................. Napaka! Zaznamek ni definiran.

Standardna napaka ocene korelacijskega koeficienta .......................................... Napaka! Zaznamek ni definiran.

III. PREIZKUŠANJE HIPOTEZ .............................................................................................................................. 84

1. Preizkušanje hipotez o razliki med aritmetičnimi sredinami z velikimi enostavnimi slučajnostnimi

vzorci .......................................................................................................................................................... 85

Standardna napaka .............................................................................................. Napaka! Zaznamek ni definiran.

2. Preizkušanje hipotez o razliki med strukturnimi odstotki z velikimi enostavnimi slučajnostnimi vzorci

.................................................................................................................. Napaka! Zaznamek ni definiran.

Standardna napaka .............................................................................................. Napaka! Zaznamek ni definiran.

3. Preizkušanje hipotez o razliki med standardnimi odkloni z velikimi enostavnimi slučajnostnimi vzorci

.................................................................................................................. Napaka! Zaznamek ni definiran.

Standardna napaka razlike .................................................................................. Napaka! Zaznamek ni definiran.

4. Preizkušanje hipotez o razliki med Pearsonovimi korelacijskimi koeficienti z velikimi enostavnimi

slučajnostnimi vzorci ................................................................................ Napaka! Zaznamek ni definiran.

Standardna napaka razlike .................................................................................. Napaka! Zaznamek ni definiran.

IV. Χ2-PREIZKUS ............................................................................................................................................... 87

1. Preizkušanje hipoteze neodvisnosti ........................................................................................................ 87

Prostostne stopinje .............................................................................................. Napaka! Zaznamek ni definiran.

Pričakovane frekvence ........................................................................................ Napaka! Zaznamek ni definiran.

Hitrejši način računanja vrednosti χ2 .................................................................. Napaka! Zaznamek ni definiran.

Poročanje o preizkusu pri računalniški obdelavi ................................................. Napaka! Zaznamek ni definiran.

Pogoj za uporabo χ2-preizkusa ............................................................................ Napaka! Zaznamek ni definiran.

Ukrepi pri neizpolnjenih pogojih ........................................................................ Napaka! Zaznamek ni definiran.

2. Preizkušanje hipoteze enake verjetnosti ................................................................................................. 89

V. KOEFICIENTI KONTINGENCE ........................................................................................................................ 90

1. Pearsonov kontingenčni koeficient ........................................................................................................ 91

Page 6: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

2. Cramérjev koeficient .............................................................................................................................. 92

3.Koeficient ............................................................................................ Napaka! Zaznamek ni definiran.

VI. NAPAKE PRI OCENJEVANJU PARAMETROV IN PREIZKUŠANJU HIPOTEZ ........................................................ 93

LITERATURA .................................................................................................................................................... 94

Page 7: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

PRVO POGLAVJE

OSNOVNI POJMI

I. Mnoţični pojavi

V empiričnih pedagoških raziskavah proučujemo enkratne pojave in mnoţične

pojave. Enkratni pojavi so tisti, ki nastopajo samo enkrat, mnoţični pa se

pojavljajo večkrat (več kot le enkrat). Osnovna šola Ledina je enkraten pojav,

osnovna šola nasploh pa mnoţični pojav (saj jih je v Sloveniji več kot petsto).

Učenec J. M. iz kraja C. je enkratni pojav, učenec osnovne šole pa je mnoţični

pojav.

Pri proučevanju mnoţičnih pojavov pogosto uporabljamo statistične metode, pri

preučevanju enkratnih pa ne. S temi, sicer bolj kvantitativnimi metodami,

proučujemo hkrati kvantitativne in kvalitativne značilnosti in zakonitosti

vzgojnih (pedagoških) pojavov. Čeprav je definicija mnoţičnih pojavov

preprosta, je slabo uporabna za presojo, kdaj uporabiti statistične metode, kdaj

pa ne. Če bomo, na primer imeli "mnoţico" dveh ali treh učiteljev, ne bomo za

njeno preučevanje uporabili statističnih metod (pa čeprav po definiciji gre za

mnoţični pojav). Naj velja, da bomo statistične metode uporabili takrat, ko

bomo preučevali vendarle "malo bolj mnoţične" pojave - mnoţice velikosti od

ene vzgojne skupine navzgor (šolskega oddelka, učne skupine, kroţka in

podobno). Šele pri takšni velikosti bodo statistične metode zares uporabne.

Seveda ni nobene ostre meje, kar se zlasti lepo vidi, če si zastavimo napačno

vprašanje: "Pri kateri velikosti skupine ţe smemo uporabiti statistične metode?"

Odgovor na takšno vprašanje bi seveda bil: "Ţe pri dveh enotah!" Vendar pa

raba statističnih metod na tako majhnih skupinah ni smiselna in smotrna.

II. Statistične mnoţice in enote

Enote, ki sestavljajo mnoţice v pedagoških raziskavah, so lahko učenci, gojenci,

učitelji, dijaki, ravnatelji, a tudi šole, vrtci, dijaški domovi, učbeniki, delovni

zvezki, učni načrti, računalniki, šolsko pohištvo, šolske stavbe, učne ure,

ekskurzije, šolske ocene, izdelki učencev, vprašanja, računalniki itd.

V empiričnih raziskavah nas vedno zanima neka konkretna skupina. Da bi jo

lahko preučili, jo moramo natančno opredeliti. Tako dobimo statistično

mnoţico; zanjo potem lahko uporabimo statistične metode. Opredeliti jo,

pomeni določiti pogoje, ki opredeljujejo, kdo vanjo sodi in kdo ne. To so

opredeljujoči pogoji:

- s stvarnim opredeljujočim pogojem določimo, kaj (ali kdo) so enote te

mnoţice,

Page 8: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

- s krajevnim opredeljujočim pogojem določimo geografske razseţnosti

mnoţice,

- s časovnim opredeljujočim pogojem določimo čas, v katerem bomo zajeli

mnoţico.

Vse enote, ki ustrezajo opredeljujočim pogojem, sodijo v tako opredeljeno

statistično mnoţico. S temi pogoji so natančno določene enote statistične

mnoţice in s tem tudi celotna statistična mnoţica. Če katerikoli od teh pogojev

manjka, statistična mnoţica ni zadosti natančno določena in se ne ve, kdo (ali

kaj) jo sestavlja.

Ilustrirajmo to z nekaj primeri ustrezno opredeljenih statističnih mnoţic:

Ravnatelji osnovnih šol v Sloveniji v šolskem letu 1998/99.

Dijaki gimnazij v Ljubljani na dan 20. februarja 2001.

Osnovne šole v dolenjski regiji v šolskem letu 1999/2000.

Preprosteje je, če časovni opredeljujoči pogoj ni določen v predolgem intervalu

(celo šolsko leto, semester, polletje ali kaj podobnega). Če se nanaša na celo

šolsko leto, moramo zajeti (v nekem smislu čakati) vse enote, ki se pojavijo v

tistem šolskem letu. V prvem primeru bi bili to vsi ravnatelji, tudi tisti, ki so

med šolskim letom postali ravnatelji. Za praktično izvedbo raziskave je to

pogosto precejšnja ovira (še zlasti za zbiranje podatkov). Običajno

opredeljujemo mnoţice v celih šolskih letih le kadar jemljemo podatke iz ţe

obstoječe dokumentacije: npr. iz dokumentacije zavoda za statistiko, zavoda za

šolstvo, ministrstev in podobno. Kadar pa sami zbiramo podatke, si mnoţice

pogosteje opredeljujemo trenutno - z nekim datumom. Res je, da tudi dan

(datum) ni povsem dosledno trenutna opredelitev; tudi dan je interval

štiriindvajsetih ur.

Ne bomo širili razprave o časovnem pogoju na filozofska vprašanja trenutnega

opredeljevanja statističnih mnoţic. Zato le povejmo, da nekatere pojave moramo

opredeliti intervalno: število opravljenih učnih ur (npr. v enem tednu, mesecu ali

šolskem letu), število pobegov iz dijaškega doma (npr. v mesecu ali letu), število

seminarjev, ki so se jih učitelji udeleţili (npr. v zadnjih treh letih) itd. Takšnih

mnoţic nikakor ne moremo opredeliti trenutno; mnoge pa lahko opredelimo

trenutno ali intervalno. Bistveno je, da je časovni opredeljujoči pogoj jasno in

nedvoumno določen.

Statistično mnoţico v raziskovalnem poročilu običajno imenujemo raziskovalna

mnoţica ali tudi kar kratko - mnoţica. Bistveno drugače pa statistične mnoţice

imenujemo v vzorčnih raziskavah, kjer iz mnoţice izberemo le manjši del.

Takrat celotno statistično mnoţico imenujemo osnovna mnoţica, manjši izbrani

del pa vzorec (ali redkeje: vzorčna mnoţica).

Page 9: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

III. Spremenljivke

Enote statistične mnoţice imajo nešteto lastnosti. Vsaka takšna lastnost je

spremenljivka. Naštejmo nekaj najpogostejših enot in njihovih lastnosti. Seveda

lahko naštejemo le nekaj najpomembnejših lastnosti, saj jih je v resnici nešteto.

Tabela 1. Statistične enote in spremenljivke

enota lastnosti ali spremenljivke

učenec starost, ocene, prizadevnost, spol, narodnost,

interesi, telesna višina, telesna teţa itd.

učitelj leta prakse, stopnja izobrazbe, kateri predmet uči,

kraj, kjer je zaposlen itd.

šola število učencev na šoli, stopnja šole (osnovna,

srednja itd.), kako dolgo ţe deluje, koliko oddelkov

ima, koliko je zaposlenih itd.

učbenik število strani, avtor, cena, format, število ilustracij,

leto izdaje itd.

delavska univerza katere programe izvaja, število zaposlenih, kraj, v

katerem ima sedeţ itd.

Proučevati enote (in s tem mnoţice) pomeni proučevati njihove lastnosti –

spremenljivke. Zato je spremenljivka osrednji pojem statistike. Vsebina

praktično vseh statističnih metod je obdelava podatkov za spremenljivke. Ker

vsakokrat raziskujemo pedagoške pojave z drugačnim namenom, bomo

vsakokrat proučevali neke druge spremenljivke (tudi takrat, ko bo šlo za

podobne ali celo iste mnoţice!).

1. OPISNE IN ŠTEVILSKE SPREMENLJIVKE

Spremenljivke lahko delimo po različnih kriterijih. Začeli bomo z eno

preprostejših delitev: po tem, kako spremenljivkam izraţamo vrednosti.

Spremenljivke, ki jim vrednosti izraţamo z besedami, imenujemo opisne ali

atributivne. Takšne spremenljivke so spol, narodnost, stopnja izobrazbe itd.

Tabela 2. Opisne spremenljivke

spremenljivka vrednosti

spol ţenski, moški

stopnja šole osnovna, srednja, višja, visoka itd.

znanje tujega

jezika

pasivno, aktivno

ali tudi: dobro, srednje, slabo

prisotnost vedno, pogosto, včasih, nikoli

šolski uspeh odličen, prav dober, dober, zadosten, nezadosten

Page 10: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Spremenljivke, ki jim vrednosti izraţamo s številkami, imenujemo številske ali

numerične.

Tabela 3. Številske spremenljivke

spremenljivka vrednosti

telesna višina v cm 154, 155, 156 itd

starost v letih 9, 10, 11, 12 itd.

leta prakse 2, 15, 24, 33 itd

število učencev v oddelku 19, 20, 21, 22, 23 itd.

Majhno nejasnost v tej delitvi povzroča dejstvo, da vrednosti nekaterih

spremenljivk izraţamo hkrati besedno in številčno. Najbolj značilen primer so

šolske ocene. Ali je šolska ocena opisna ali številska spremenljivka? V takšnih

primerih moramo razmisliti, kakšna je narava spremenljivke. Bistvena je namreč

narava spremenljivke in ne zgolj oblika, kako so zapisane vrednosti. Razmislek

bi nam hitro pokazal, da je pri šolski oceni bistvena beseda in ne številka.

Odlična ocena je povsod najboljša, vedno je med ocenami najvišja, izraţena pa

je lahko z različnimi številkami (pri nas s številko 5, na Poljskem s številko 6, v

Italiji s številko 1, na naših univerzah s številko 10, na italijanskih s 30 itd.). Po

svojem bistvu je opisna in ne številska spremenljivka.

2. MERSKE LESTVICE

Veliko večji pomen v statistiki ima delitev glede na vrsto informacije, ki jo

vsebujejo rezultati merjenja (podatki, vrednosti spremenljivke). Glede na ta

kriterij razlikujemo štiri vrste spremenljivk (štiri merske lestvice):

1. nominalne,

2. ordinalne,

3. intervalne,

4. razmernostne.

Nominalne spremenljivke vsebujejo informacijo, po kateri lahko ugotovimo le

ali se enote razlikujejo ali se ne razlikujejo. Takšna spremenljivka je spol. Po

spolu lahko ugotovimo ali sta dva učenca enakega ali različnega spola. Za

vrednosti nominalnih spremenljivk uporabljamo raje izraz kategorije. Nekatere

nominalne spremenljivke imajo le dve kategoriji, nekatere pa več kategorij:

Tabela 4. Nominalne spremenljivke z dvema kategorijama

spremenljivka kategorije

spol moški, ţenski

ali je dijak član neke organizacije je član, ni član

ali se pri pisnem izpitu lahko uporablja

literatura

da, ne

ali ima učenka svojo pisalno mizo ima, nima

Page 11: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Tabela 5. Nominalne spremenljivke z več kategorijami

spremenljivka kategorije

narodnost Kitajec, Francoz, Slovenec itd.

smer študija na univerzi pedagogika, pravo, kemija, strojništvo

itd.

kakšne oddaje učenci najraje

gledajo na TV

športne, informativne, dokumentarne,

izobraţevalne itd.

kakšno strokovno literaturo

učiteljice uporabljajo

revije, knjige, časopise, priročnike itd.

Nikakor ni mogoče kategorij nominalne spremenljivke razvrstiti po velikosti od

manjših do večjih, ker te lastnosti nominalne spremenljivke nimajo.

Poenostavljeno bi lahko rekli, da so vse kategorije na isti ravni. Nominalne

spremenljivke so čiste atributivne spremenljivke in nimajo kvantitativne osnove.

Pri presojanju, ali je neka spremenljivka nominalna ali "pa kaj več", moramo biti

pazljivi in presoditi na podlagi bistva spremenljivke in ne na podlagi

poimenovanja njenih kategorij. Pokaţimo to s primerom: V neki anketi smo

učence vprašali, ali jim je bila všeč gledališka predstava. Kot moţne odgovore

smo postavili le kategoriji DA in NE. Toda ta spremenljivka ni nominalna.

Zadovoljnost se stopnjuje; ne gre za to, da eni sploh niso zadovoljni, drugi so pa

popolnoma zadovoljni. Gre v bistvu za niţjo in višjo stopnjo zadovoljnosti.

Podobno je z mnogimi takšnimi pojavi (zainteresiranost, motiviranost itd.).

Nominalno spremenljivko bi dobili, če bi učence, npr. vprašali, ali so bili na

gledališki predstavi. Tukaj bi odgovori DA in NE bili bistveno drugačni kot v

prejšnjem vprašanju. Zunanji videz imena spremenljivke ali njenih kategorij nas

lahko pogosto zavede.

Ordinalne spremenljivke vsebujejo takšno informacijo, po kateri lahko

ugotovimo ali so enote enake ali različne in nekaj več: vrednosti se stopnjujejo

in so lahko večje ali manjše. Vrednosti takšne spremenljivke lahko razvrstimo

od najmanjše do največje (in s tem tudi enote). Za dve enoti lahko torej

ugotovimo, katera je na lestvici višje in katera niţje. Vrednostim ordinalne

spremenljivke običajno rečemo stopnje (redkeje pa kategorije). Stopnje na tej

lestvici niso vse na isti ravni kot pri nominalnih spremenljivkah, temveč se

stopnjujejo - izraţajo neko količino (kvantitativno osnovo). Značilna ordinalna

spremenljivka je stopnja izobrazbe. Ordinalne spremenljivke najpogosteje

dobimo pri anketiranju, opazovanju ter uporabi ocenjevalnih lestvic in lestvic

stališč. Pogosto se ţe iz oblike anketnega vprašanja vidi, da gre za ordinalno

spremenljivko: npr. "koliko ste zadovoljni..." ali "koliko berete..." itd. Tudi

kategorije ordinalne spremenljivke nakazujejo kvantitativno osnovo: zelo,

Page 12: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

srednje, malo; pogosto, včasih, redko itd. Zato kategorijam ordinalne

spremenljivke pogosteje rečemo stopnje kot kategorije.

Pri ordinalni spremenljivki sicer vemo, katere stopnje so višje in katere so niţje,

ne vemo pa, kakšne so razlike med posameznimi stopnjami. Zato tudi ne

moremo reči, da so intervali med posameznimi stopnjami povsod enaki.

Največkrat vemo iz izkušenj, da ti intervali še zdaleč niso enaki. Ordinalno

lestvico si lahko zamislimo kot stopnišče z neenakimi stopnicami. Tudi, če bi pri

kakšni ordinalni spremenljivki intervali bili enaki (kar je teoretično moţno), bi

nam to dejstvo ostalo skrito.

Za stopnje ordinalnih spremenljivk poleg besed pogosto uporabljamo tudi

številke (za šolske ocene in šolski uspeh, za range v ranţirni vrsti itd.). Te

številke ustvarjajo videz, da gre za enake intervale. Zdi se, da je razlika med

zadostno in dobro oceno enaka razliki med dobro in prav dobro oceno. Pa

seveda ni. Tudi rangi, npr. kot vrstni red prihoda v cilj pri krosu, zakrivajo

dejanske razlike v doseţkih med učenci. Zdi se, kakor da so doseţki učencev

enakomerno nanizani od prvega do zadnjega; kakor da so razlike med njimi

enake (saj so med vsemi rangi enake razlike: med 4. do 5. je enaka razlika kot

med 16. in 17.). V bistvu so med posameznimi ocenami in tudi med

posameznimi rangi razlike neenake (seveda v tisti lastnosti, ki jo s temi ocenami

ali rangi izraţamo). Podobno je s spremenljivko doseţek na testu znanja, le da je

tu neenakost intervalov bolj zakrita. Zdi se, da je zares interval med, npr. 20 in

21 točk enak intervalu med 12 in 13 točk (vsakokrat gre le za eno točko in na

videz je "točka tu enaka točki tam"). Pa ni, saj je naraščanje teţavnosti od naloge

do naloge v testu neenakomerno. Vendarle pa je izenačenost intervalov pri

doseţkih na testu znanja v splošnem večja kot pri mnogih drugih ordinalnih

spremenljivkah.

Seveda bi bila izenačenost (enakost!) intervalov med posameznimi stopnjami

neke merske lestvice zelo dobrodošla lastnost. Nekatere spremenljivke, ki so

vmes med ordinalnimi in intervalnimi, pogosto obravnavamo kot intervalne

(npr. doseţke na testih znanja v točkah, rezultate na nekaterih ocenjevalnih

lestvicah in lestvicah stališč itd.). Pri tem pa vendarle ne smemo pozabiti,

kakšno je njihovo bistvo, zato moramo biti previdni v interpretaciji takšnih

rezultatov.

Intervalne spremenljivke so številske in imajo vse lastnosti ordinalnih

spremenljivk, le intervali med stopnjami so povsod enaki. Katere

spremenljivke so torej intervalne? To so tiste, ki imajo natančno določeno

mersko enoto (temperaturna lestvica v Celzijusovih stopinjah in podobno).

Intervalno lestvico si lahko zamislimo kot stopnišče z enako visokimi

stopnicami. Zaradi enakih intervalov lahko določimo, kakšna je razlika med

katerimikoli vrednostmi. Nimajo pa intervalne spremenljivke absolutne ničle. To

ni vselej vidno ţe na pogled. Zamislimo si test znanja, katerega vrednosti bi

tvorile intervalno lestvico. Ali ima takšna spremenljivka absolutno ničlo? Ker s

testom merimo znanje, lahko to vprašanje konkretiziramo: ali nič točk na testu

Page 13: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

pomeni ničelno znanje? Seveda ne pomeni (pa čeprav se zdi, da je tako - v

vsakdanjem ţivljenju bi takšen rezultat vsi komentirali: »Ah, saj nič ne zna!«).

Doseţek nič točk pomeni, da je imel učenec premalo znanja, da bi pravilno rešil

vsaj eno nalogo. Da ničla res ni absolutna, se lahko prepričamo tudi s preprostim

poskusom. V test dodamo še eno izredno lahko nalogo – sedaj bo isti učenec

dosegel točko. Pa je vendar to isti učenec; gre za isto znanje. Prvič bi površno

presodili, da ta učenec nič ne zna; drugič bi rekli, da nekaj malega le zna.

Ničelna točka je torej odvisna od teţavnosti nalog. Če so vse naloge v testu zelo

teţke, bo ničelna točka visoko in jo bodo le redki presegli. Če so naloge v testu

zelo lahke, bo ničelna točka nizko in jo bodo mnogi presegli. Vidimo, da ničelna

točka ni absolutna, ampak se lahko premika.

Razmernostne spremenljivke so tiste intervalne spremenljivke, ki imajo

absolutno ničlo. Ta lastnost razmernostnih spremenljivk omogoča presojo,

kolikokrat je neka vrednost večja od neke druge vrednosti. Takšnih primerjav

nam zgolj intervalne lestvice ne omogočajo (ker nimajo absolutne ničle).

Razmernostne spremenljivke so starost, telesna višina in teţa, število otrok v

razredu ali vzgojni skupini, število ur pouka, čas učenja, število prebranih knjig,

skok v višino itd.

Temperaturna lestvica Celzijusa nima absolutne ničle in je intervalna

spremenljivka. Zato ne moremo reči, da je temperatura 80° C štirikrat večja od

temperature 20° C. Temperaturna lestvica Calvina ima absolutno ničlo in

temperatura 80° K zares je štirikrat večja od temperature 20° K.

Vendar je ta prednost razmernostnih spremenljivk (v primerjavi z intervalnimi)

tako majhna, da nam omogoča le majhen korak naprej v statistični obdelavi.

Zato pogosto razmernostne in intervalne spremenljivke obravnavamo enako.

3. UPORABA STATISTIČNIH METOD

Zakaj je sploh pomembno vedeti, kakšne so spremenljivke? Od narave

spremenljivke je namreč odvisno, katere statistične metode zanjo lahko

uporabimo. Veljata dve pomembni splošni pravili:

1. Čim višje je spremenljivka v tej delitvi, tem več statističnih metod lahko

uporabimo pri obdelavi podatkov zanjo. Najmanj statističnih metod lahko

uporabimo za nominalne, nekaj več za ordinalne, še več za intervalne in

največ (vse!) za razmernostne.

2. Vse statistične metode, ki veljajo za neko vrsto spremenljivk, lahko

uporabimo za vse vrste, ki so višje v tej delitvi. Če neko metodo lahko

uporabimo, na primer za ordinalne spremenljivke, jo lahko tudi za intervalne

in razmernostne.

Page 14: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Pri vseh statističnih metodah bomo še sproti navajali, za katere spremenljivke jih

lahko uporabimo in za katere ne.

4. ZVEZNE IN NEZVEZNE SPREMENLJIVKE

Numerične spremenljivke lahko imajo vse vrednosti v nekem intervalu ali pa le

nekatere. Prve so zvezne in druge nezvezne. Za prispodobo bomo vzeli jato

ptičev. Predstavimo si telefonske ţice med dvema drogovoma ob cesti in ptiče

na njih. Nekateri ptiči se nagnetejo in sedijo na ţicah tesno drug ob drugem.

Druge vrste ptičev ne prenašajo telesnega dotika in sedijo na ţicah drug od

drugega oddaljeni decimeter ali dva. Stisnjeni drug ob drugega nam ponazarjajo

zvezne spremenljivke, ptiči na razmakih pa nezvezne.

Telesna višina je tipična zvezna spremenljivka. Če je učenec imel na začetku

šolskega leta 156 cm in na koncu 159 je v tem intervalu moral preiti čez vse

višine: npr. ni mogel “preskočiti” višine 158,65 cm. Podobno je tudi z

vrednostmi telesnih višin za skupino učencev: med najmanjšim in največjim

učencem v razredu lahko imajo ostali učenci kakršnokoli višino. Pri tem

moramo opozoriti, da v praksi običajno meritve telesne višine izraţamo v celih

centimetrih. Če bi omenjenega učenca vsakih nekaj mesecev merili pri šolskem

zdravniku, bi v kartoteki imel zabeleţene višine: 156, 157, 158 in na koncu 159

cm. Toda to ne spremeni bistva spremenljivke: učenec je postopno rasel od 156

cm do 157 cm itd. Zvezne spremenljivke lahko imajo vse vrednosti v nekem

intervalu. Ime zvezne izhaja iz tega, da se vrednosti nizajo neprekinjeno

(zvezno, brez “praznih mest”, med vrednostmi ni “preskokov”).

Število učencev v razredu je tipična nezvezna spremenljivka. Če je najmanjše

moţno število, npr. šestnajst in največje petindvajset, ima lahko ta

spremenljivka vrednosti le 16, 17, 18, 19, 20, 21 22, 23, 24 in 25. Med

sosednjima vrednostma ni nobene vrednosti (npr. med 16 in 17).

Naredimo še kratko miselno vajo. Imamo spremenljivko doseţek na testu

znanja. Vrednosti so izraţene v celih točkah. Za pravilno rešitev učenec dobi

točko, za nepravilno pa nič točk. To je nezvezna spremenljivka. Kaj pa, če

učitelj daje za delne rešitve po pol točke? Ali je sedaj, ko se pojavijo vmesne

vrednosti (npr. 11,5), ta spremenljivka zvezna? Odgovor je ne! Res je, da so

Page 15: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

moţne vmesne vrednosti, toda med 11,5 in 12 spet ni nobenih vrednosti.

Spremenljivka lahko ima “samo” vrednosti enajst, enajst in pol, dvanajst,

dvanajst in pol itd. Torej je nezvezna.

Moramo povedati še to, da zvezne spremenljivke v praksi izraţamo z

nezveznimi vrednostmi. To smo videli ţe pri telesni višini; podobno je s

starostjo, telesno teţo, temperaturo itd. Navsezadnje je tudi znanje zvezna

spremenljivka, vedno pa jo izraţamo s točkami ali ocenami, ki so nezvezne.

Obratno pa je pri obdelavi podatkov. Mnoge nezvezne spremenljivke brez večje

škode obdelujemo kot da so zvezne, saj je to bolj preprosto.

5. ODVISNE IN NEODVISNE SPREMENLJIVKE

Spremenljivke po vlogi, ki jo imajo v medsebojnih povezavah, delimo na

neodvisne in odvisne. V najpreprostejših primerih proučujemo povezanost dveh

spremenljivk. V vsakem paru dveh povezanih spremenljivk ima ena vlogo

neodvisne (to je tista, ki deluje) in druga vlogo odvisne (tista na katero deluje).

Takšne vloge jim dajemo glede na naravo povezanosti med njima in glede na

namen raziskave. Ista spremenljivka je lahko v enem paru odvisna, v nekem

drugem paru pa neodvisna. Celo v istem paru lahko spremenljivki zamenjata

vlogi. Mnoge povezave vzgojnih pojavov niso enoznačne in enostranske. V paru

čas domačega učenja in šolska ocena štejemo, da je čas domačega učenja

neodvisna spremenljivka in šolska ocena odvisna. Vemo, da več učenja v

splošnem pomeni boljše ocene. Vendar je zveza tudi obratna: ocena, ki jo

učenec dobi v šoli, vpliva na to, koliko se bo učil. Torej je lahko tudi ocena

neodvisna in čas domačega učenja odvisna. Takšni primeri so na pedagoškem

področju pogosti. Zato so te delitve večinoma začasne. Hkrati pa poznamo vrsto

spremenljivk, ki so v pedagoških raziskavah „trajno” neodvisne. Spol je

spremenljivka, ki v pedagoških raziskavah nastopa vedno kot neodvisna

(seveda, kadar sploh nastopa), podobno je z narodnostjo, starostjo itd. Večina

Page 16: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

„pravih” vzgojnih pojavov pa stalno menja vloge neodvisnih in odvisnih

spremenljivk.

Omenimo še, da izraz neodvisna spremenljivka, seveda ne pomeni, da je ta

spremenljivka neodvisna v kakšnem absolutnem smislu: da ni od ničesar

odvisna. Ni takšnih pojavov, ki bi bili absolutno neodvisni. Izraz pomeni le, da

je imenovana spremenljivka tista, ki vpliva (pa še pri tem smo videli, da je vpliv

pogosto obojestranski).

IV. Parametri

Vrednosti spremenljivke so značilne za vsako posamezno enoto mnoţice. Po teh

vrednostih enote lahko primerjamo, razvrščamo, grupiramo itd. Podobno vlogo,

kot jo ima vrednost spremenljivke za enoto, ima parameter za neko mnoţico.

Parametri so številske značilnosti mnoţice. V splošnem parameter določamo iz

vrednosti spremenljivke za posamezne enote. Najpogostejši parametri v

pedagoških raziskavah so: strukturni odstotki, srednje vrednosti, mere

razpršenosti, kazalci korelacije itd.

Page 17: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

DRUGO POGLAVJE UREJEVANJE PODATKOV

Podatke za proučevane spremenljivke moramo pred statistično obdelavo

primerno urediti. S tem si olajšamo njihovo obdelavo in jo naredimo pregledno.

S pojavom in vse bolj mnoţično uporabo računalnikov se je urejanje podatkov

bistveno spremenilo. Za ročno obdelavo podatkov podatke zares uredimo, za

računalniško jih pa le “pripravimo”. Ker je za dobro razumevanje (in uporabo!)

statističnih postopkov obdelave podatkov, potrebno poznati tudi postopke

računanja (bolj literarno povedano: “poleg rezultatov moramo poznati tudi pot

do teh”), bomo na kratko prikazali postopke za urejanje podatkov in pripravo za

računalniško obdelavo.

I. Urejevanje podatkov za opisne spremenljivke

Podatke za opisno spremenljivko uredimo tako, da sestavimo frekvenčno tabelo.

Za vsako kategorijo spremenljivke določimo frekvenco, tako pripravljene

podatke pa vnesemo v frekvenčne tabele. Frekvence so lahko absolutne ali

relativne. Absolutna frekvenca pove, koliko je enot v določeni kategoriji neke

spremenljivke, relativna pa, kolikšen del celotne mnoţice je v tej kategoriji.

Relativne frekvence praviloma vedno izraţamo v odstotkih.

S tem smo uredili podatke in prikazali njihovo strukturo, kar je ţe prvi korak v

statistično obdelavo. Takšne odstotke, ki kaţejo notranjo delitev neke mnoţice,

imenujemo strukturni odstotki, tabele pa pogosto tudi strukturne tabele ali

kratko strukture (nič hudega ne bo, če ji rečemo frekvenčna tabela). Spodaj

imamo primer tabele po spremenljivki spol za neko mnoţico.

Page 18: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Tabela 6. Strukturna tabela učencev po spolu

kategorije f f %

ţenski 25 43,1

moški 33 56,9

skupaj 58 100,0

Vidimo, da je ţensk v tej mnoţici nekaj manj kot polovica in moških več kot

polovica vseh. Število vseh enot v mnoţici je 58; to število imenujemo numerus

in označujemo z oznako N. To lahko zapišemo: N = 58.

Če je spremenljivka ordinalna in ima več kot dve stopnji, včasih dodamo še

stolpec z kumulativnimi odstotnimi frekvencami. To so zbirne frekvence, ki

povedo, koliko odstotkov enot je skupaj do te stopnje (rečemo tudi: “koliko jih

je pod to kategorijo”). Vendar kumulativne frekvence delamo le takrat, ko jih

zares potrebujemo. Kumulativne frekvence dobimo tako, da seštejemo vse

frekvence za niţje kategorije. Spodaj imamo tabelo za spremenljivko šolski

uspeh.

Tabela 7. Strukturna tabela učencev po šolskem uspehu

šolski uspeh f f % F %

nezadosten 3 3,9 0

zadosten 11 14,5 3,9

dober 38 50,0 18,4

prav dober 17 22,4 68,4

odličen 7 9,2 90,8

skupaj 76 100,0 100,0

Kumulativna frekvenca 68,4% nam pove, da je toliko učencev z uspehom niţjim

od prav dobrega.

Page 19: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Rezultate v statistiki praviloma zaokroţamo na dve decimalki; vendar z

nekaterimi izjemami. Izjemo vidimo v obeh prejšnjih tabelah. Uveljavilo se je

namreč pravilo, da se odstotne frekvence v tabelah zaokroţajo na eno

decimalno mesto. To pa ne velja za tiste odstotke, ki jih nameravamo uporabiti

za nadaljnje obdelave. Tam velja splošno pravilo o zaokroţanju vrednosti na dve

decimalni mesti. Seveda ne bo nič narobe, če odstotke v tabeli zaokroţimo na

dve decimalni mesti, vendar ni potrebno. Po eni strani je škoda dela, po drugi

strani pa je takšna tabela manj pregledna. Toda pozor: na manj kot eno

decimalko pa ne!

Na takšen način uredimo in prikaţemo podatke za vse spremenljivke v raziskavi.

Pogosto pa poleg stanja po posameznih spremenljivkah proučujemo tudi

povezanost med spremenljivkama. Za takšne namene moramo narediti drugačne

tabele. Tabela lahko prikazuje strukturo posamezne spremenljivke ali pa

strukturo več spremenljivk hkrati. Prve imenujemo enostavne ali enkratne

strukture, druge pa večkratne ali sestavljene strukture. Največkrat prikazujemo v

večkratni strukturi dve spremenljivki; večkratna struktura za več spremenljivk je

namreč izredno nepregledna. Kadar proučujemo povezanost več spremenljivk

hkrati, podatkov ne urejamo v obliki strukturnih tabel.

Spodaj imamo primer večkratne strukture za spremenljivki stopnja izobrazbe in

stališče (o nekem pojavu).

Tabela 8. Frekvenčna tabela zaposlenih po izobrazbi in stališču

sem za ne morem

se odločiti

sem proti skupaj

srednja izobrazba 12 6 28 46

višja izobrazba 5 3 7 15

visoka izobrazba 11 2 4 17

skupaj 28 11 39 78

Page 20: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Podatki so sicer urejeni, vendar tabela slabo kaţe povezanost med

spremenljivkama. Zato je treba izračunati še odstotne frekvence. Odstotne

frekvence lahko izračunamo na tri načine in tako lahko nastanejo tri različne

tabele. Spodaj so prikazane vse tri. V prvi so odstotki računani po kategorijah

izobrazbe, v drugi po kategorijah stališča, v tretji pa iz celotnega numerusa

(N=78).

Tabela 9. Strukturna tabela zaposlenih po stališču, posebej za vsako izobrazbo

sem za ne morem se

odločiti

sem proti skupaj

srednja izobrazba 12

26,1

6

13,0

28

60,9

46

100,0

višja izobrazba 5

33,3

3

20,0

7

46,7

15

100,0

visoka izobrazba 11

64,7

2

11,8

4

23,5

17

100,0

skupaj 28

35,9

11

14,1

39

50,0

78

100,0

V tej tabeli smo v vodoravnih vrsticah računali odstotke iz vsote na koncu vrtice

(desno). Tako v prvi vrstici frekvenca 12 predstavlja 26,1% od vsote 46 (na

desnem koncu vrstice). Zato vsi odstotki v vrstici tvorijo skupaj 100,0% (26,1%

+ 13,0% + 60,9% = 100,0%). Enako je v ostalih vrsticah.

Page 21: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Tabela 10. Strukturna tabela zaposlenih po izobrazbi, posebej za vsako stališče

sem za ne morem se

odločiti

sem proti skupaj

srednja izobrazba 12

42,9

6

54,5

28

71,8

46

59,0

višja izobrazba 5

17,9

3

27,3

7

17,9

15

19,2

visoka izobrazba 11

39,3

2

18,2

4

10,3

17

21,8

skupaj 28

100,0*

11

100,0

39

100,0

78

100,0

V tej tabeli smo v navpičnih stolpcih računali odstotke iz vsote na dnu stolpca

(spodaj). Tako v drugem stolpcu frekvenca 6 predstavlja 54,5% od vsote 11 (na

dnu stolpca). Zato vsi odstotki v stolpcu tvorijo skupaj 100,0% (54,5% + 27,3%

+ 18,2% = 100,0%). Enako je v ostalih stolpcih.

Page 22: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Tabela 11. Strukturna tabela zaposlenih po izobrazbi in stališču

sem za ne morem se

odločiti

sem proti skupaj

srednja izobrazba 12

15,4

6

7,7

28

35,9

46

59,0

višja izobrazba 5

6,4

3

3,8

7

9,0

15

19,2

visoka izobrazba 11

14,1

2

2,6

4

5,1

17

21,8

skupaj 28

35,9

11

14,1

39

50,0

78

100,0

V tej tabeli smo v okencih računali odstotke iz celotnega numerusa (N = 78).

Tako v prvem okencu (levo zgoraj) frekvenca 12 predstavlja 15,4% od

numerusa 78. Odstotki iz vseh okenc tvorijo skupaj 100,0% (15,4% + 7,7% +

35,9% + 6,4% + 3,8% + 9,0% + 14,1% + 2,6% + 5,1% = 100,0%). Tudi v

okencih »skupaj« so vsi odstotki izračunani iz celotnega numerusa.

Prva tabela je primerna za odgovarjanje na vprašanje, kako izobrazba vpliva na

stališče. Iz izkušenj vemo, da imajo ljudje z različno izobrazbo različna stališča,

po katerih jih sprašujemo v raziskavi. Torej sta ti dve spremenljivki povezani.

Če sta povezani, moramo presoditi, katera je neodvisna in katera odvisna.

Sodimo, da je v tem paru izobrazba neodvisna spremenljivka in stališče

odvisna. Ker je to smiselna smer povezave, je prav ta tabela tisto, kar najbolj

potrebujemo. Zato praktično vedno pri proučevanju povezanosti med dvema

spremenljivkama izračunavamo odstotke na takšen način kot v prvi tabeli (torej

po kategorijah neodvisne spremenljivke).

Druga tabela je primerna za interpretacijo vpliva stališča na izobrazbo, kar je

seveda nesmiselno. Zato v praksi takšnih tabel ne uporabljamo.

Page 23: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Tretja tabela ni primerna za interpretacijo povezanosti med spremenljivkama;

iz nje izvemo le to, koliko je enot v vsakem okencu (in koliko je to odstotkov).

Ker ni primerna za interpretacijo povezanosti, je pravzaprav nepotrebno

omenjeni dve spremenljivki sploh prikazovati v takšni tabeli.

Če sta spremenljivki, ki ju proučujemo, povezani, je smiselna prva tabela, če pa

nista povezani, pa je edina smiselna tabela pravzaprav nepotrebna (to je tretja

tabela).

In še drobna tehnična zadeva: ponekod v tabeli vsota odstotkov iz okenc v

vrstici ali stolpcu ni enaka napisani vsoti na koncu vrstice ali stolpca (npr.

100,0). To se zgodi zaradi vmesnih zaokroţanj. Tudi v naših tabelah se je to na

enem mestu zgodilo (vsota označena z zvezdico). Ne gre za vsebinski problem,

to je le tehnični problem. V takšnih primerih imamo na voljo več moţnosti:

V okencu "skupaj" zapišemo vsoto 100,0 in jo označimo z zvezdico, v opombi

pa napišemo, da zaradi zaokroţanja vsota vmesnih odstotkov ni 100,0.

Enega izmed odstotkov v vrstici ali stolpcu zaokroţimo (proti pravilom) tako, da

dobimo vsoto 100,0 in tako zaokroţeni odstotek označimo z zvezdico; znova v

opombi bralcem pojasnimo zadevo.

Zapišemo vsoto tako kot znese (npr. 100,1), jo označimo z zvezdico in v

opombi to pojasnimo itd.

Moţnosti je še več. Zagotovo je najslabša, da nič ne ukrenemo in bralcem sploh

ničesar ne pojasnimo.

II. Urejevanje podatkov za številske spremenljivke

Urejeni opisni podatki so ţe primerni za interpretacijo, pri številskih podatkih pa

je drugače. Številski podatki nam le malo pokaţejo samo s tem, da so urejeni.

Urejevanje je potrebno predvsem zaradi laţje nadaljnje obdelave. Odkar se za

obdelavo podatkov uporabljajo računalniški programi, je urejevanje številskih

podatkov postalo skoraj nepotrebno. Številske podatke uredimo na dva načina.

Page 24: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

1. RANŢIRNA VRSTA

Kadar je število enot majhno, zadostuje, da podatke razvrstimo po velikosti.

Tako urejen niz podatkov je ranţirna vrsta. Običajno začnemo z najmanjšo

vrednostjo in končamo z največjo. Med tema so razvrščene vse ostale vrednosti.

Tiste, ki se pojavljajo večkrat, tolikokrat tudi napišemo. V ranţirni vrsti morajo

biti vsi podatki (vse vrednosti, ki se pojavljajo). Iz ranţirne vrste se vidi vsak

podatek, število vseh podatkov in poloţaj vsakega podatka med ostalimi.

Poglejmo primer neurejene vrste podatkov in ranţirne vrste.

Podatki o letih prakse za skupino učiteljev:

22, 16, 7, 3, 29, 27, 11, 9, 14, 5, 10, 5, 8, 17, 26, 13.

Ranţirna vrsta za iste podatke:

3 5 5 7 8 9 10 11 13 14 16 17 22 26 27 29

Pogosto v ranţirni vrsti k vrednostim spremenljivke pripišemo še absolutne

range. Absolutni rangi kaţejo vrstni red enot v ranţirni vrsti. Najniţji vrednosti

damo rang 1 (ena), naslednji 2 (dva) in tako do konca ranţirne vrste.

Tabela 12. Ranţirna vrsta z vrednostmi spremenljivke in absolutnimi rangi

x 3 5 5 7 8 9 10 11 13 14 16 17 22 26 27 29

R 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Pri določanju rangov lahko trčimo ob vprašanje, kaj narediti v primeru dveh (ali

več) enakih vrednosti. V našem primeru imamo dve enoti z vrednostjo 5 let

prakse. Na voljo imamo vsaj dve moţnosti. Prva je ta, ki smo jo uporabili v

zgornjem primeru: čeprav sta vrednosti enaki, smo jima dali različna zaporedna

ranga (dva in tri). To je preprostejša rešitev, čeprav manj natančna. Namreč, ni

najbolje, da imajo enaki rezultati različne range.

Druga moţnost je dati enakim vrednostim enake range. Takšnim rangom rečemo

vezani rangi, prejšnjim pa nevezani. Za isti primer bomo naredili ranţirno vrsto

z vezanimi rangi.

Page 25: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Tabela 13. Ranţirna vrsta z vezanimi rangi

x 3 5 5 7 8 9 10 11 13 14 16 17 22 26 27 29

R 1 2,5 2,5 4 5 6 7 8 9 10 11 12 13 14 15 16

Vezani rang smo v tem primeru določili kot povprečni rang: sešteli smo ranga

dva in tri ter delili z dva. Takšen način je nekoliko manj pregleden, potrebna je

večja pazljivost in tudi interpretacija ni več tako preprosta; je pa vsekakor bolj

natančen.

Če ranţirno vrsto sestavljamo za posamično spremenljivko in podatke naprej

obdelujemo brez povezav z drugimi spremenljivkami, običajno izberemo prvi,

preprostejši način.

Kadar pa je z rangi povezano še kaj drugega, izberemo raje vezane range. Še

zlasti v vzgojni praksi: če bi bilo od rangov odvisno karkoli pomembnega za

posameznike, ki jih razvrščamo, izberemo vezane range. Na primer - pri

sestavljanju ranţirne vrste za sprejem na neko srednjo šolo (kjer je več

kandidatov za vpis kot prostih mest) nikakor ne moremo uporabiti neenakih

rangov za enake vrednosti. Lahko bi se namreč zgodilo, da bi izmed učencev z

enakim doseţkom nekateri bili sprejeti in nekateri ne. Kaj narediti v takem

primeru s kandidati za vpis, presega namen te knjige (mimogrede: to sploh ni

lahek problem v praksi).

Če je število enot večje od običajnega šolskega razreda, postane ranţirna vrsta

zaradi dolţine slabo pregledna. Zato pri večjih numerusih uporabljamo bolj

ekonomičen način urejevanja numeričnih podatkov - frekvenčno porazdelitev.

2. FREKVENČNA PORAZDELITEV

Ta način urejevanja podatkov smo v nekoliko drugačni podobi videli ţe pri

opisnih podatkih. Vsaki vrednosti spremenljivke določimo frekvenco (število

enot, ki imajo takšno vrednost). Za primer bomo vzeli telesne višine učencev in

prikazali preprosto frekvenčno porazdelitev:

Tabela 14. Frekvenčna porazdelitev

telesna višina f

142 3

146 6

147 7

149 9

152 8

155 5

157 2

159 1

Page 26: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

V tej frekvenčni porazdelitvi je najmanjša frekvenca ena in največja devet.

Vrednosti so porazdeljene v razponu med 142 in 159. Takšno preprosto

frekvenčno porazdelitev v praksi redko uporabljamo.

Običajno je razpon numeričnih vrednosti velik in je potrebno frekvenčno

porazdelitev strniti. To storimo tako, da zdruţimo več vrednosti in seštejemo

njihove frekvence. Zdruţenim vrednostim rečemo razredi. Zaradi praktičnih

razlogov zdruţujemo tako, da dobimo deset do dvajset razredov (raje bliţe k

deset) in da so vsi enako široki (zajemajo enako širok razpon vrednosti).

Poglejmo primer frekvenčne porazdelitve za rezultate na testu znanja:

Tabela 15. Frekvenčna tabela

razredi f f% F F%

8 - 12 2 1,7 0 0

13 - 17 5 4,2 2 1,7

18 - 22 8 6,7 7 5,8

23 - 27 11 9,2 15 12,5

28 - 32 17 14,2 26 21,7

33 - 37 21 17,5 43 35,8

38 - 42 15 12,5 64 53,3

43 - 47 15 12,5 79 65,8

48 - 52 12 10,0 94 78,3

53 - 57 10 8,3 106 88,3

58 - 62 4 3,3 116 96,7

N=120

Opišimo podrobno to frekvenčno porazdelitev. Vrednosti spremenljivke so

porazdeljene na enajst razredov. Vsi razredi imajo enako širino. Širino razreda

izberemo tako, da celoten razpon vrednosti delimo z ţeljenim številom razredov

in zaokroţimo na najbliţje celo število. V našem primeru je bil največji rezultat

xmax=61, najniţji rezultat xmin=8 in razpon 61-8+1=54 (dodajanje enke bomo

pojasnili pozneje). Ta razpon smo delili z deset in rezultat 5,4 zaokroţili na 5.

Širina razreda je i=5 (čeprav se na prvi pogled zdi, da je med 8 in 12 točk razpon

le štiri). Običajne frekvence (f) ţe poznamo. Tako nam frekvenca 2 pove, da sta

dva učenca dosegla rezultat med osem in dvanajst točk. V drugem stolpcu so te

frekvence izraţene v odstotkih (relativne frekvence). Če sluţijo le interpretaciji,

je zadosti, da so zaokroţene na eno decimalko, če pa sluţijo nadaljnjim

preračunavanjem, pa morajo biti zaokroţene na dve decimalki. Tretji stolpec so

kumulativne frekvence F. Te nadomeščajo absolutne range. Kumulativna

frekvenca pove, koliko enot ima niţje vrednosti od danega razreda (koliko jih je

pod tem razredom). V četrtem stolpcu so te frekvence preračunane v odstotke

(relativne kumulativne frekvence).

Kakšne lastnosti ima frekvenčna porazdelitev in kaj nam omogoča? Podatki so

prikazani strnjeno, kar je ekonomično za nadaljnjo obdelavo. Čim manj je

Page 27: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

razredov, tem večji je prihranek časa pri obdelavi. Vendar pa se z zdruţevanjem

podatkov in tvorjenjem razredov del informacije o podatkih izgubi. Iz

frekvenčne porazdelitve se vidi, npr. da je pet učencev doseglo rezultate med 13

in 17 točk, ne vidi se pa natančno za vsakega učenca, koliko točk je dosegel.

Treba je še omeniti, zakaj smo pri računanju razpona prišteli ena. Število točk na

testu znanja je nezvezna spremenljivka. Vrednosti, ki se pojavljajo, so osem,

devet, deset itd. Zaradi laţje obdelave si zamislimo, da je spremenljivka zvezna.

Tedaj se najniţji rezultat začne pri 7,5 in najvišji konča pri 61,5. Razpon bi torej

morali računati tako: 61,5 - 7,5 = 54. Ker takšne vrednosti zapisujemo kot 61 in

7, moramo na koncu dodati tisti dve polovički - od tod torej +1.

Preprosto povedano: vse numerične spremenljivke obdelujemo kot da so zvezne.

S tem je obdelava preprostejša in enotna. Takšen način se sicer rahlo upira

našemu (običajnemu) razumevanju pojavov; bistveno pa je, da ne naredi nobene

stvarne škode podatkom.

Nekoč se je frekvenčna porazdelitev uporabljala predvsem zaradi nadaljnje

obdelave podatkov, odkar se uporabljajo računalniki, pa predvsem le za njihov

prikaz.

Page 28: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

TRETJE POGLAVJE RANGI

S pomočjo rangov določamo poloţaj posameznega rezultata med ostalimi.

Range v vsakdanjem ţivljenju zelo pogosto srečujemo in uporabljamo. Opis

turističnega potovanja se začne navadno: „Prvi dan se preko Ljubelja

odpeljemo.... Podobno je v športu: „Rajmond Debevec je osvojil šesto mesto....

Ali tudi v ljudskih rekih: „V tretje gre rado!”

Pravzaprav gre tudi pri empiričnem proučevanju vzgojnih pojavov za podobno

uporabo rangov. Da bi bolje razumeli in pojasnili pojave, jih med seboj

primerjamo in razvrščamo. Temu sluţi metoda rangov. Poznamo dve temeljni

vrsti rangov – absolutne range in relativne range.

I. Absolutni rangi

Ta rang smo spoznali ţe pri ranţirni vrsti. Ranţirno vrsto sestavimo tako, da

rezultate (vrednosti spremenljivke) razvrstimo po velikosti. Običajno začnemo z

najmanjšo vrednostjo in končamo z največjo. Najmanjša vrednost dobi absolutni

rang ena (R=1), naslednja večja dva (R=2) in tako do največje vrednosti.

Vendar takšne range le redko uporabljamo. Ranţirna vrsta nam je bolj potrebna

kot način urejanja podatkov. Pogosteje absolutni rangi nastanejo v praksi, ko

proučujemo spremenljivko, ki se ne da numerično meriti. Kako izmeriti

prizadevnost učencev? Instrumenta za merjenje prizadevnosti nimamo. Sploh pa

ne gre na numeričen način - prizadevnost ni intervalna spremenljivka. Če bi

učence vprašali, kakšna je njihova prizadevnost, bi dobili preveč subjektivne in

povrhu zelo nezanesljive samoocene. V takem primeru lahko učitelj razvrsti

učence po prizadevnosti od najmanj prizadevnega do najbolj prizadevnega.

Dobljeni rangi so ocena prizadevnosti. To je bolje, kot če bi imeli za učence

nenatančne opise, npr.: "Marko je precej prizadeven, Andreja je med najbolj

prizadevnimi..." itd. Seveda je uporabnost dobljenih rangov predvsem odvisna

od učitelja (od njegove strokovnosti, objektivnosti itd.). Vendar poglabljanje v

to, ţe presega namen te knjige. Dodajmo le: če bi v kakšnem primeru dvomili,

ali lahko dobimo dovolj dobre range, jih pač ne bi uporabili.

Page 29: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

II. Relativni rangi

Absolutni rangi so uporabni le znotraj neke skupine; primerjave med skupinami

so moţne le za enako velike skupine. Da bi primerjali poloţaje v različno velikih

skupinah, potrebujemo relativne range. Relativni rang izračunamo tako:

formula: P= R/N

Relativni rang pove, kolikšen del skupine je pod določeno vrednostjo (pod

določenim rezultatom). Torej bi rang 0,20 pomenil, da je ena petina skupine (ali

20%) pod tem rezultatom. Učenec, ki bi pri neki uspešnosti imel rang 0,60, bi

rekel: "Šestdeset odstotkov skupine je slabših od mene, štirideset odstotkov pa je

boljših".

Vrednosti relativnih rangov se gibljejo med nič in ena. Vrednosti malo nad nič

pomenijo zelo nizek poloţaj (na začetku ranţirne vrste), vrednosti okoli 0,50

pomenijo srednji poloţaj (na sredini ranţirne vrste), vrednosti blizu ena pa

pomenijo zelo visok poloţaj.

Page 30: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

ČETRTO POGLAVJE SREDNJE VREDNOSTI

I. Primerjanje mnoţic

Posameznike (posamezne enote statistične mnoţice) po neki spremenljivki

primerjamo tako, da primerjamo njihove vrednosti, doseţene v tej spremenljivki.

Tako, npr. če sta na testu znanja iz kemije učenca Marko in Aleš dosegla 26

oziroma 14 točk, bomo iz teh dveh doseţkov takoj videli, da je Marko dosegel

več točk (da ima višji rezultat; da je njegov doseţek boljši). Včasih višja

vrednost spremenljivke sicer pomeni slabši doseţek (npr. večje število napak pri

nareku pomeni slabši doseţek), vendar to ne spremeni bistva pri primerjanju

doseţkov posameznikov. Kaj izbrati, kadar ţelimo primerjati statistične

mnoţice? Kaj sploh pomeni primerjava mnoţic in za kaj to potrebujemo?

Npr. ţelimo vedeti:

Ali so bolje pisali test učenci v 8.a razredu ali v 8.b?

Ali se plače učiteljev v srednjem šolstvu razlikujejo od plač učiteljev v

osnovnem šolstvu?

Ali študenti ob delu študirajo dlje od rednih študentov?

itd.

Pri primerjavi dveh mnoţic bi sicer lahko primerjali vse rezultate iz ene mnoţice

z vsemi iz druge, vendar bi hitro ugotovili, da je to uspešno le, kadar imajo

mnoţice komaj nekaj enot. Pri količkaj večjih mnoţicah je to praktično

nemogoče. Lahko bi izbrali iz vsake mnoţice le po eno enoto za primerjavo,

vendar se takoj postavi vprašanje, katere enote izbrati? Če je najboljši

posameznik v eni mnoţici dosegel višji rezultat od najboljšega v drugi mnoţici,

to še ne pomeni, da je hkrati ta mnoţica boljša. Podobno velja tudi za najniţje

doseţke. Hitro bi spoznali, da takšni postopki ne omogočajo dobre in zanesljive

primerjave. Najbolj zanesljivo primerjavo nam omogočajo tiste vrednosti, ki so

Page 31: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

na sredini porazdelitve. Te vrednosti so najbolj tipične, največ jih je, okoli

sredine so najbolj nakopičene itd. Zato bomo rešitev iskali v tej smeri. Takšne

vrednosti imenujemo srednje vrednosti.

II. Srednje vrednosti

Naravi pojavov in spremenljivk na pedagoškem področju najbolj ustrezajo

naslednje tri srednje vrednosti:

modus (Mo),

mediana (Me)in

aritmetična sredina (M).

Modus je točka (vrednost), kjer so vrednosti spremenljivke najbolj zgoščene

(nakopičene). V najpreprostejšem primeru je to vrednost, ki se najpogosteje

pojavlja. Npr. če ima v nekem razredu največ učencev oceno prav dobro (4) pri

nekem predmetu, je ta ocena hkrati modus (modus je torej 4).

Modus lahko določimo celo za nominalne spremenljivke (čeprav je res, da to

nima skoraj nobenega praktičnega pomena). Je zelo preprosta srednja vrednost:

hitro in preprosto se ga da daločiti, je lahko razumljiv in preprost za

interpretacijo. Ker pa za določanje modusa niso potrebne vse vrednosti v

mnoţici, pogosto ne omogoča zanesljivih primerjav med mnoţicami. Povrhu

tega se lahko zgodi, da je točk z največjo gostoto vrednosti hkrati več; takrat je

tudi več modusov. V takšnih primerih običajno primerjava mnoţic ni mogoča.

Moduse sicer lahko določimo, vendar praktično ne sluţijo ničemur.

Mediana je vrednost, od katere ima polovica mnoţice višje vrednosti, polovica

pa niţje. Npr. razvrstimo učence v razredu po velikosti od najmanjšega do

največjega. Poiščemo učenca, ki je na sredini (polovica učencev v razredu je

večjih od njega, polovica pa manjših). Telesna višina tega učenca je mediana

(npr.153 cm).

Page 32: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Za mediano moramo imeti vsaj ordinalno spremenljivko. Za nominalne

spremenljivke je ne moremo določiti, ker ni večjih in manjših vrednosti. Tudi

mediana je preprosta srednja vrednost: včasih se jo da določiti brez računanja

(na pogled), je lahko razumljiva in dovolj preprosta za interpretacijo. Za

določanje mediane niso potrebne vse vrednosti v mnoţici. Zato tudi ona ne

omogoča zanesljivih primerjav med mnoţicami. Pogosto se lahko zgodi, da

imajo sicer različne mnoţice enako mediano. V takšnih primerih bi primerjava

vodila do napačnih sklepov.

Aritmetična sredina je kvocient med vsoto vseh vrednosti in številom enot v

mnoţici. To definicijo lahko izrazimo z obrazcem:

M= ∑x/N

V vsakdanji uporabi jo imenujemo povprečje ali povprečna vrednost. Da bi

lahko vrednosti seštevali, morajo biti spremenljivke vsaj intervalne. Za

nominalne spremenljivke aritmetične sredine ne moremo uporabiti; za ordinalne

pa je uporaba aritmetične sredine neustrezna (nekorektna). Ker je določena iz

vrednosti spremenljivke za vse enote v mnoţici, omogoča aritmetična sredina

zanesljivejše primerjave. Občutljiva je na vsako spremembo: če se vrednost ene

same enote spremeni, se bo spremenila tudi vrednost aritmetične sredine. Vsaka

še tako mala razlika med dvema mnoţicama se pozna na vrednosti aritmetične

sredine. Hkrati to pomeni, da moramo za izračunavanje aritmetične sredine

zbrati podatke za vse enote v mnoţici; torej bo običajno z aritmetično sredino

več dela kot z mediano ali modusom. Tudi interpretacija aritmetične sredine ni

tako preprosta kot pri mediani in modusu. To, da upošteva vse vrednosti v

mnoţici, ima tudi slabo stran: odvisna je tudi od ekstremnih vrednosti (te pa

lahko včasih precej popačijo splošno sliko o neki mnoţici).

Zaradi naštetih lastnosti za primerjave skoraj vedno uporabljamo aritmetično

sredino. Mediano in modus pravzaprav uporabljamo le dodatno ob aritmetični

sredini, samostojno pa bolj izjemoma.

Page 33: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Omeniti moramo posebno okoliščino uporabe srednjih vrednosti na pedagoškem

področju. Zelo pogosto imamo ordinalne spremenljivke, npr. šolske ocene.

Velikokrat so razmere takšne, da uporaba modusa ali mediane ne omogoča

primerjave; uporaba aritmetične sredine pa je za ocene neustrezna. Za ilustracijo

bomo navedli podatke za dva oddelka na neki šoli:

Tabela 19. Ocene za dva oddelka učencev

Oddelek Ocene Mediana Aritmetična

sredina

8.a 2,2,2,3,3,3,3,3,4,4,4,4,4,4,4,4,

4,4,4,4,4,4,4,5,5,5

Me = 4 M = 3,69

8.b 2,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,

5,5,5,5,5,5,5,5,5,5

Me = 4 M = 4,23

Primerjava median teh dveh oddelkov bi vodila k napačnemu sklepu, da sta

oddelka po ocenah enaka, vendar pa ţe pogled na ocene pokaţe, da to ni res.

Uporaba aritmetične sredine za ordinalne spremenljivke sicer ni ustrezna,

pokaţe pa, da so ocene v drugem oddelku višje kot v prvem (kar seveda je res).

Če bi vztrajali pri uporabi povsem ustreznih metod, bi s tem onemogočili

primerjavo oddelkov. V podobnih primerih bi vendarle uporabili aritmetično

sredino, pri interpretaciji pa bi morali biti previdni: npr. lahko bi rekli, da so

ocene v drugem oddelku višje, ne bi pa smeli reči, da so višje v povprečju za

0,54 ocene (čeprav je razlika med aritmetičnima sredinama res 0,54!).

Če posplošimo, lahko rečemo, da sicer včasih lahko uporabimo kakšno ne

povsem ustrezno statistično metodo, vendar moramo vedeti, kaj to pomeni in

kako to upoštevati pri interpretaciji.

Page 34: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

III. Izračunavanje aritmetične sredine

Ker se modus in mediana zares neprimerno redkeje uporabljata, ne bomo

predstavili postopkov za njuno računanje. Ti postopki bi le neznatno prispevali k

razumevanju modusa in mediane in s tem k boljši poznejši interpretaciji. Bralec

lahko poišče te postopke v drugih virih (npr. Sagadin 1992).

Sicer bomo ti dve srednji vrednosti v praksi največkrat dobili s pomočjo

računalniške obdelave. Z aritmetično sredino pa je nekoliko drugače. Res je da

bomo tudi njo dobili najpogosteje s pomočjo računalnika, a vendar jo postopek

računanja dopolnilno pojasni. To je zlasti pomembno zaradi interpretacije. Zato

bomo postopke računanja aritmetične sredine podrobno prikazali.

1. RAČUNANJE IZ INDIVIDUALNIH PODATKOV

Za izračunavanje aritmetične sredine pravzaprav ni nujno, da so individualni

podatki urejeni v ranţirno vrsto. Aritmetično sredino dobimo tako, da vse

vrednosti v skupini seštejemo in delimo z numerusom skupine. Ker pa običajno

zaradi bolj preglednega dela vendarle podatke urejamo, bomo pokazali

računanje aritmetične sredine iz ranţirne vrste.

Imamo podatke o telesni višini dečkov iz nekega 6. razreda osnovne šole.

x 147 148 150 152 152 155 155 157 162 165 165 168 x = 1876

formula:

M= ∑x/N

M= 1876/12

M= 156,33

Page 35: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

PETO POGLAVJE RAZPRŠENOST

I. Pojem razpršenosti

Razpršenost vrednosti spremenljivke je zelo preprost pojav: enote mnoţice se po

vrednostih neke spremenljivke med seboj razlikujejo, ali krajše - vrednosti

spremenljivke so od enote do enote različne. Pokaţimo to na nekaj primerih:

Tabela 13. Razpršenost spremenljivk

spremenljivka mnoţica vrednosti

spol udeleţenci jezikovnega tečaja 7 je moških in 5 ţensk

stopnja

izobrazbe

zaposleni v šoli 6 z srednjo, 22 z višjo,

19 z visoko in 3 z

akademsko izobrazbo

leta prakse ravnatelji osnovnih šol v nekem

mestu

10, 15, 16, 19, 22, 24,

25, 28, 30, 32

telesna višina otroci v vzgojni skupini 133, 133, 135, 136, 138,

138, 139, 141, 142, 142,

142, 144, 145, 146, 147,

147

Vidimo, da se v vseh navedenih primerih pojavlja razpršenost. Razpršenosti ne

bi bilo, če bi, npr. bili vsi udeleţenci tečaja istega spola, če bi imeli vsi zaposleni

na neki šoli enako izobrazbo, če bi imeli vsi ravnatelji enako število let prakse

ali, če bi bili vsi otroci v vzgojni skupini enako visoki. Razpršenost je pojem, ki

se vedno nanaša na neko mnoţico vrednosti, nikdar pa ne na eno samo vrednost.

Enota je sicer lahko ena, vendar moramo imeti zanjo več vrednosti. Npr. lahko

imamo enega dijaka (torej je numerus „skupine” 1), a bi zanj imeli ocene iz

Page 36: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

angleščine v štirih letih srednje šole. Če bi ta dijak imel v vseh letih enako

oceno, potem je v mnoţici njegovih ocen razpršenost enaka nič (razpršenosti ni);

če ocene ne bi bile enake, potem je razpršenost večja od nič (razpršenost je). Da

bi lahko govorili o razpršenosti, moramo imeti vsaj dve vrednosti.

Iz tabele vidimo, da se pri spremenljivki spol vse enote ne razlikujejo med seboj

(saj je več udeleţencev enakega spola - sedem moških in tudi pet ţensk). Kljub

temu v celi mnoţici razpršenost obstaja; zadostovalo bi, da se le ena enota

razlikuje od ostalih. Podobno je z drugo in četrto spremenljivko. Pri tretji

spremenljivki so celo vse enote med seboj različne.

II. Viri razpršenosti

Zakaj so enote med seboj različne? Zakaj vse vrednosti niso enake? Zakaj

obstaja razpršenost? Če sta lahko dve enoti v neki spremenljivki enaki, zakaj ne

bi mogle biti vse?

Začnimo z zadnjim vprašanjem. Odgovor je preprost: v neki mnoţici so lahko

vse enote enake (natančneje povedano: vrednost spremenljivke je pri vseh

enotah enaka). Razpršenost v takšni skupini bi bila enaka nič; ne bi je bilo.

Zakaj pa niso vsi primeri takšni? Razmislek o katerikoli konkretni spremenljivki

nam hitro da odgovor. Vsi novorojenčki bi bili istega spola, če na njihov spol ne

bi nič vplivalo. Vsi učenci bi imeli enako oceno iz nekega predmeta, če na to

oceno ne bi nič vplivalo. Vzrok razpršenosti so torej vplivi. Tako, npr. na ocene

vpliva motivacija učencev (bolj motivirani imajo v splošnem boljše ocene),

pogoji za domače učenje (čim boljši pogoji, tem boljše ocene), čas učenja in še

nešteto drugih dejavnikov. Razpršenost neke spremenljivke je torej vedno

posledica vplivov drugih spremenljivk, kar odpira vrsto novih vprašanj.

Prvo vprašanje je: koliko je sploh vplivov? Nasplošno jih je nešteto; pedagogika

jih ne bo nikoli prav vseh odkrila, kaj šele natančno proučila. Tudi če izberemo

kakšen prav preprost pedagoški pojav, nam bo, navkljub dolgotrajnemu

proučevanju, del vplivov vedno ostal skrit. Največkrat uspemo pojasniti le

Page 37: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

najpomembnejše (pa tudi te samo deloma!). To hkrati ne pomeni, da

raziskovanje in proučevanje vplivov pravzaprav nima smisla; da nikamor ne

vodi. Po tem, ko vsaj deloma opišemo in pojasnimo en vpliv, vemo več kot pred

tem.

Če v neki mnoţici ni razpršenosti, ali to pomeni, da nič ni vplivalo na

spremenljivko? Odgovor je: ne, ne pomeni! Vplivi so lahko tako delovali, da so

se njihovi učinki med seboj uravnovesili (skupen učinek v eni smeri se je ujel s

skupnim učinkom v drugi smeri). To se bo v praksi zgodilo le redkokdaj; zato

bodo redki primeri, da za neko spremenljivko ni prav nobene razpršenosti. Za

primer vzemimo razpršenost po spolu: kljub temu, da je učiteljski poklic izrazito

feminiziran, bomo le izjemoma našli šolo, na kateri ne bo zaposlen niti en

učitelj. V manjših mnoţicah se to pogosteje zgodi (čim manjše so, tem

pogosteje). Med učitelji prvega razreda na neki šoli so pogosto same ţenske,

med učitelji prvega razreda v celi regiji pa se ţe pogosteje najde kak moški.

Iz dosedaj povedanega jasno izhaja, zakaj sploh proučujemo razpršenost:

predvsem zato, da bi s pomočjo razpršenosti proučili vplive. Pravzaprav je

razpršenost eden najpomembnejših pojavov v statistiki. Na razpršenosti temelji

večina statističnih metod.

III. Merjenje razpršenosti

Razpršenost pomeni razlike med enotami; zato bodo vsi postopki merjenja

razpršenosti temeljili na teh razlikah. Ker pa razpršenosti ne merimo zaradi nje

same (le redkokdaj primerjamo mnoţice po razpršenosti), bo merjenje

razpršenosti najpogosteje del nekega drugega statističnega postopka. V takem

primeru ne bomo neposredno izračunali stopnje razpršenosti: zanimal nas bo

predvsem rezultat tega drugega postopka.

Page 38: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

1. RAZPRŠENOST PODATKOV ZA NOMINALNE SPREMENLJIVKE

Pri nominalnih spremenljivkah, kjer se vrednosti (kategorije) nič ne stopnjujejo,

lahko le ugotavljamo, ali so enote enake ali različne. Tukaj ne moremo govoriti

o velikosti razlik – govorimo lahko le o njihovem obstoju. Za merjenje

razpršenosti bomo ugotavljali, koliko je v mnoţici različnih posameznikov.

Torej bomo preštevali različne posameznike. To bomo ilustrirali s primerom

mnoţice študentov v predavalnici. Za začetek bomo obravnavali razpršenost po

spremenljivki spol.

Primer 1.

V predavalnici je 34 študentk in noben študent. Po spolu ni nikakršnih

razlik in torej nikakršne razpršenosti (razpršenost je enaka nič).

Primer 2.

V predavalnici je 33 študentk in eden študent. Ta eden se razlikuje od

ostalih 33 (po spolu) in to pomeni, da v skupini ţe obstaja nekakšna

razpršenost. Enaka razpršenost bi seveda bila tudi v primeru, če bi v

skupini bilo 33 moških in ena ţenska.

V drugem primeru se le ena enota razlikuje od ostalih 33; to je najmanjša moţna

razpršenost v tej skupini. Manjša ne more biti (lahko je le ničelna in je torej ni).

Čim več bo različnih posameznikov, tem večja bo razpršenost. Pri spolu bo

največja moţna razpršenost, ko bo v skupini polovica enot enega spola, polovica

enot pa drugega spola. Takrat bo v skupini največje moţno število različnih

enot.

Pri spremenljivkah, ki imajo več kot dve vrednosti bo situacija malo drugačna, a

v bistvu še vedno zelo podobna: čim več bo različnih enot, tem večja bo

razpršenost. Lahko si zamislimo, kako bi bilo pri spremenljivkah s tremi

kategorijami, s štirimi itd. Paradoksalno – najpreprostejša bo situacija takrat, ko

bo moţnih kategorij spremenljivke več, kot je enot v mnoţici. Največja

razpršenost bo, ko bodo vse enote različne. Ilustrirajmo to s primerom:

Page 39: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Primer 3.

V predavalnici je 34 študentov in vsak je drugačne narodnosti. Po tej

spremenljivki je v skupini največja moţna razpršenost.

Pri nominalnih spremenljivkah gre le za preštevanje števila različnih enot v

mnoţici. Če ţe hočemo primerjati mnoţice po razpršenosti, bi to najpreprosteje

naredili tako, da bi uporabili strukturne odstotke za posamezne kategorijo (in te

potem primerjali). Vendar to le poredko potrebujemo. Zato ne obstaja posebna

mera razpršenosti za nominalne spremenljivke. V nadaljnjih statističnih

metodah, ki temeljijo na razpršenosti, neposredno uporabimo število različnih

enot.

2. RAZPRŠENOST PODATKOV ZA ORDINALNE SPREMENLJIVKE

Pri teh spremenljivkah se vrednosti ţe stopnjujejo. Ker stopnje teh spremenljivk

ne naraščajo enakomerno (med sosednjimi stopnjami niso enaki intervali),

razlike pravzaprav niso merljive. Lahko, npr. rečemo, da je med srednjo in

visoko izobrazbo večja razlika kot med srednjo in višjo izobrazbo, ne moremo

pa natančno reči, kolikšna je ta razlika. Na koncu nam ostane enaka rešitev kot

pri nominalnih spremenljivkah: preštevanje števila različnih posameznikov (ali

nasplošno – enot).

Ker pa vendarle ordinalne spremenljivke imajo numerično (kvantitativno)

osnovo in med njihovimi stopnjami gre za večje in manjše razlike, je škoda le

preštevati razlike in sploh ne upoštevati, ali so te večje ali manjše. Ideja, da bi

upoštevali tudi velikost teh razlik, je dobra, a teţko uresničljiva; končno bi

vodila do zelo zapletenih kazalcev razpršenosti, ki bi jih bilo zelo teţko

interpretirati. Zato se v praksi uporabljata dve različni rešitvi:

1. večinoma obravnavamo ordinalne spremenljivke enako kot nominalne –

razpršenost merimo s preštevanjem različnih enot v skupini,

Page 40: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

2. včasih obravnavamo ordinalne spremenljivke kot intervalne – razpršenost

merimo kot pri intervalnih spremenljivkah.

Enako obravnavanje ordinalnih in intervalnih spremenljivk se nanaša samo na

postopek izračunavanja mere razpršenosti, nikakor pa ne na interpretacijo

dobljenih rezultatov. Pri interpretaciji rezultatov moramo upoštevati naravo

ordinalnih spremenljivk. Najmanj kar o tem lahko rečemo je: pri interpretaciji

rezultatov moramo biti veliko bolj previdni.

3. RAZPRŠENOST PODATKOV ZA INTERVALNE SPREMENLJIVKE

Čeprav v tem poglavju izrecno obravnavamo intervalne spremenljivke, bo vse

povedano veljalo tudi za razmernostne. Razmernostne spremenljivke namreč pri

merjenju razpršenosti ne omogočajo skoraj nič več kot intervalne. Bistvena

lastnost za merjenje razpršenosti je intervalnost in to imata obe vrsti

spremenljivk.

Pri intervalnih spremenljivkah lahko merimo razlike med vrednostmi. Zato

merjenje razpršenosti za intervalne spremenljivke temelji na velikosti razlik in

ne zgolj na njihovem številu. Preštevanje različnih enot pri zveznih intervalnih

spremenljivkah ne vodi do cilja, saj so na splošno vse enote različne. Tako, npr.

pri starosti ne moremo najti niti dveh enakih učencev (saj bi se morala roditi v

istem trenutku); tudi dveh enako visokih učencev ni in podobno. Res je, da v

praksi največkrat višino merimo kot nezvezno spremenljivko (v celih

centimetrih) in lahko ima več učencev enako višino. Tudi starost običajno

izraţamo v celih letih (ali pri dojenčkih v celih mesecih) in tudi tukaj lahko ima

več enot enako vrednost. Pri nezveznih intervalnih spremenljivkah pa so enake

vrednosti pri različnih enotah običajen pojav in bi preštevanje razlik bilo moţno.

Toda merjenje razpršenosti za intervalne spremenljivke zgolj na podlagi

preštevanja razlik bi bilo nenatančno in zato tudi premalo zanesljivo. Ker bi tako

Page 41: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

izkoristili le majhen del informacije, ki jo vsebujejo podatki, bi bila tudi korist

od takšnega postopka majhna.

IV. Mere razpršenosti

Za intervalne spremenljivke obstaja več različnih mer razpršenosti. Našteli

bomo nekaj bolj znanih:

1. variacijski razmik,

2. kvartilni razmik,

3. decilni razmik,

4. kvartilni odklon,

5. povprečni absolutni odklon,

6. varianca,

7. standardni odklon.

1.VARIACIJSKI RAZMIK

To je najpreprostejša mera razpršenosti. Zanjo potrebujemo le najniţjo in

najvišjo vrednost spremenljivke v skupini. Sklepamo takole: če sta najvišji in

najniţji rezultat daleč vsaksebi, potem so rezultati zelo razpršeni.

formula

VR= xmax-xmin

Za nezvezne podatke je treba dodati 1 in je potemtakem obrazec takšen:

formula VR= xmax-xmin+1

Page 42: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Slabosti takšnega merjenja razpršenosti so očitne:

razpršenost merimo le na podlagi dveh enot,

razpršenost merimo na podlagi najbolj ekstremnih rezultatov.

Prva slabost pomeni, da ne upoštevamo, kako so porazdeljeni ostali rezultati

med tema dvema. Ilustrirajmo posledice tega s preprostim izmišljenim primerom

(zaradi nazornosti je nekoliko pretiran).

Tabela 24. Računanje variacijskega razmika

doseţki na testu znanja v točkah variacijski razmik

prva skupina 2, 4, 5, 7, 9, 13, 17, 23, 24, 25, 27, 29 VR = 29-2+1 = 28

druga skupina 2, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 29 VR = 29-2+1 = 28

Po variacijskem razmiku bi sodili, da je razpršenost v obeh skupinah enaka,

vidimo pa, da je v prvi skupini veliko večja.

Druga slabost pomeni pravzaprav naslednje: razpršenost v skupini merimo po

rezultatih, ki nekako “najmanj sodijo” v skupino (so izstopajoči, netipični).

To slabost je moţno zmanjšati ali celo odpraviti. Zmanjšamo jo tako, da ne

upoštevamo najbolj ekstremnih rezultatov. Na ta način dobimo naslednja

razmika.

2. DECILNI RAZMIK

Da bi odpravili vpliv ekstremnih rezultatov, izločimo deset odstotkov

najniţjih rezultatov in deset odstotkov najvišjih rezultatov.

Decilni razmik je ţe nekoliko bolj zanesljiva mera razpršenosti. Sicer še

vedno temelji le na dveh vrednostih, a ne več na ekstremnih. Kljub temu se

še lahko zgodi, da ostanejo še kakšni izstopajoči rezultati. Da bi še bolj

zanesljivo izločili ekstremne rezultate, lahko naredimo še korak naprej.

Page 43: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

3. KVARTILNI RAZMIK

Pri tem razmiku izločimo kar 25 % najniţjih in 25 % najvišjih rezultatov.

Kvartilni razmik je le malenkost boljši od decilnega. Ta prednost pride v

poštev zlasti takrat, kadar je ekstremnih rezultatov veliko (čeprav se ob

velikem številu ekstremnih rezultatov lahko ţe vprašamo: kateri rezultati so

potem sploh tipični za to skupino?).

4. KVARTILNI ODKLON

Dosedanje mere izraţajo razpršenost kot razdaljo med dvema točkama, ki sta

simetrično postavljeni vsaka na svoji polovici porazdelitve vseh vrednosti.

Ker je običajno porazdelitev vrednosti numeričnih spremenljivk vsaj

pribliţno simetrična, lahko mero razpršenosti poenostavimo in vzamemo le

polovico dosedanjih razmikov. Vzeli bi le razmik med sredino porazdelitve

in izbrano točko. Če bi bila porazdelitev vrednosti idealno simetrična, bi bilo

vseeno, katero smer bi izbrali – navzgor ali navzdol. Kot sredino porazdelitve

izberemo aritmetično sredino (zaradi prednosti, ki jih ima glede na ostale

srednje vrednosti). Takšen razmik imenujemo odklon, ker meri, koliko se

neka vrednost odklanja od aritmetične sredine. Tako lahko nastane variacijski

odklon, decilni odklon in kvartilni odklon. V praksi se je uveljavil le slednji.

Izračunamo ga preprosto tako, da delimo kvartilni razmik na polovico:

Pravzaprav je pomen kvartilnega odklona bolj simbolen kot praktičen. Nima,

namreč, nikakršnih prednosti pred kvartilnim razmikom. Pomaga nam le, da

z njim uvedemo pojem odklona.

S temi tremi razmiki in kvartilnim odklonom nismo odpravili slabosti, ki

izhajajo iz tega, da merimo razpršenost v skupini le na podlagi dveh

vrednosti. Tudi to se da odpraviti.

Page 44: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

5. POVPREČNI ABSOLUTNI ODKLON

Če ţelimo dobiti bolj zanesljivo in natančno mero razpršenosti, moramo

upoštevati vse vrednosti v mnoţici. Treba je izmeriti vse razlike. Ni pa

potrebno iskati razlik med vsemi rezultati (odklonov vsakega od vseh

ostalih). Izberemo si neko izhodiščno točko (običajno je to aritmetična

sredina) in izmerimo odklone vsake vrednosti od te točke. To so individualni

odkloni. Iz teh izračunamo povprečni absolutni odklon. Izračunan je kot

aritmetična sredina, zato se imenuje povprečni absolutni odklon. Pri

izračunu vzamemo absolutne vrednosti vseh odklonov (brez predznaka).

Vsota negativnih odklonov je namreč enaka vsoti pozitivnih; upoštevanje

relativnih vrednosti bi pomenilo, da je skupna vsota enaka nič; to bi vodilo

do napačnega sklepa, da je tudi razpršenost enaka nič.

Interpretiramo ga izhajajoč iz naslednjega: vse vrednosti se odklanjajo od

aritmetične sredine, ene bolj, druge manj; povprečje vseh teh odklonov je

povprečni absolutni odklon.

Izračunamo ga po naslednjem obrazcu:

Formula PO = Σ|x−M| /N

Ilustrirajmo to z enostavnim primerom. Imamo podatke o starosti učencev:

x 8 12 12 13 15

Numerus skupine je 5, aritmetična sredina pa 12,00. Kakšen je povprečni

absolutni odklon?

Page 45: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Tabela 25. Računanje povprečnega absolutnega odklona

x |x−M|

8 4

12 0

12 0

13 1

15 3

Σ|x−M| = 8

POM = 8/5 =1,60

Povprečni absolutni odklon je daljica - to je enorazseţnostna mera

razpršenosti.

Kljub temu, da je ta odklon zanesljiva in natančna mera razpršenosti, se v

praksi redko uporablja. Če bi nas zanimala zgolj razpršenost posameznih

spremenljivk, bi pravzaprav takšna mera zadostovala. Ker pa razpršenost

merimo predvsem zaradi povezanosti med dvema spremenljivkama, bomo

poiskali dvorazseţnostno mero razpršenosti.

6. VARIANCA IN STANDARDNI ODKLON

Dvorazseţnostno mero razpršenosti dobimo najpreprosteje tako, da

individualne odklone kvadriramo (daljice pretvorimo v kvadrate!) in iz teh

poiščemo povprečen kvadrat. Takšen kvadrat je varianca. Zanjo uporabljamo

oznako σ2. Po svoji naravi se le v eni lastnosti razlikuje od povprečnega

absolutnega odklona - namesto ene razseţnosti ima dve! Povprečni absolutni

odklon je daljica, varianca pa je lik. To omogoča analizo povezanosti med

dvema spremenljivkama. Ko ţe imamo varianco, lahko za preprostejše

Page 46: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

analize uporabimo enorazseţnostno mero razpršenosti - stranico tega

kvadrata (kvadratni koren iz variance). To je preprosteje, kot če bi poleg

variance, izračunali še povprečni absolutni odklon. Takšna mera se imenuje

standardni odklon. Oznaka zanj je σ. Čeprav ni enak povprečnemu

absolutnemu odklonu, ga interpretiramo podobno (ali celo enako). To ni

povsem pravilno, vsekakor pa je enostavno (napaka pri tem pa je neznatna).

Interpretacijo standardnega odklona (in variance) bomo prikazali na primeru

osebnih dohodkov skupine učiteljev. V skupini 206 učiteljev smo dobili M =

128500 in σ = 15800. Aritmetična sredina nam pove, da je povprečna plača

slabih stotrideset tisoč. Standardni odklon nam pove, da učiteljske plače

odstopajo od sredine navzgor in navzdol v povprečju za skoraj šestnajst tisoč

tolarjev (seveda pri enih več in pri drugih manj). Varianca je v tem primeru

σ2 = 249640000 (skoraj 250 milijonov!) in se je ne da smiselno interpretirati.

Seveda lahko rečemo, da je povprečni kvadrat odstopanj podatkov od

aritmetične sredine slabih 250 milijonov, vendar nam to nič ne pomeni.

Ţe standardni odklon redko uporabimo za interpretacijo; variance pa

pravzaprav nikdar. Varianca je namenjena za nekaj povsem drugega - za

analizo povezanosti.

V. Izračunavanje variance

1. RAČUNANJE IZ INDIVIDUALNIH PODATKOV

Varianco lahko izračunamo neposredno z dopolnitvijo postopka računanja

povprečnega absolutnega odklona ob uporabi istega obrazca. Vse posamične

odklone bomo kvadrirali, kvadrate sešteli in delili z numerusom. Kvadratni

koren iz variance je standardni odklon. Osnovni obrazec za varianco je:

Page 47: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Formula σ2 = (x-M)

2 / N

Ilustrirajmo ta postopek z istim primerom:

Tabela 26. Računanje variance

x x-M (x-M)2

8 -4 16

12 0 0

12 0 0

13 1 1

15 3 9

x = 60 (x-M)2= 26

M=60/5 = 12,00

σ2 = 26/5 = 5,20 σ = 2,28

VIII. Analiza razpršenosti

Z merjenjem razpršenosti smo naredili le prvi korak. Izračunana varianca

nam ne pove veliko; podobno tudi relativna mera razpršenosti ne. Povedali

smo ţe, da je proučevanje odvisnosti med spremenljivkami eden glavnih

namenov merjenja razpršenosti. To nam omogoča šele analiza razpršenosti.

Zamislimo si neko mnoţico zaposlenih, za katere imamo podatke o osebnem

dohodku. Za to mnoţico lahko izračunamo varianco osebnih dohodkov.

Varianca je izračunana iz razlik med osebnimi dohodki enot v mnoţici.

Zanima nas, zakaj se pojavlja razpršenost osebnih dohodkov. Postavimo si

konkretno vprašanje: ali mogoče spol vpliva na osebne dohodke? Ali so torej

osebni dohodki ţensk različni od osebnih dohodkov moških?

Page 48: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Vse zaposlene v mnoţici bomo razdelili v dve skupini: skupino ţensk in

skupino moških. Običajno bo po tej delitvi situacija naslednja: imeli bomo

razlike med posamezniki v skupini moških, razlike med posameznicami v

skupini ţensk, pa tudi skupina moških kot celota se bo razlikovala od skupine

ţensk. Prve in druge bomo imenovali razlike znotraj skupin, slednje pa

razlike med skupinama. Sedaj razmislimo, od kod izvirajo prve razlike in od

kod druge. Na razlike znotraj skupin nikakor ne vpliva spol, saj so vse enote

v svoji skupini enakega spola (z malo humorja lahko rečemo takole: na

razlike med moškimi ne vpliva spol, saj so vsi moški moški; podobno velja

tudi za ţenske). Torej je vir teh razlik lahko vse ostalo, le spol ne. Po drugi

strani pa, če med skupinama so razlike, je njihov vir zagotovo spol. Razlike

med skupinami so povezane s spolom, razlike znotraj skupin pa so povezane

z ostalimi dejavniki.

Sedaj se bomo lotili izračunavanja varianc. Najprej bomo izračunali po

običajnih postopkih variance, kot jih poznamo iz začetka tega poglavja.

1. Iz razlik med vsemi posamezniki v celi mnoţici bomo izračunali

varianco; imenujemo jo skupna varianca ali celotna varianca.

2. Iz razlik znotraj skupine moških bomo izračunali varianco za to

skupino. Ne bo je treba posebej imenovati, če pa ţe, ji recimo kar

običajno: varianca v skupini moških.

3. Iz razlik znotraj skupine ţensk bomo tudi izračunali varianco. Lahko jo

imenujemo varianca v skupini ţensk.

Poleg teh treh varianc bomo izračunali še dve novi. Zanju bodo potrebni novi

postopki računanja. Po svoji statistični naravi sta to navadni varianci, čeprav

neizkušeno oko zaradi drugačnega postopka računanja tega takoj ne opazi.

Bistvo je še vedno enako: vzamemo odklone od aritmetične sredine, jih

kvadriramo in seštejemo ter na koncu delimo z numerusom.

1. Iz razlik med skupino ţensk in skupino moških bomo izračunali

posebno varianco; imenovali jo bomo varianca med skupinami.

Page 49: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

2. Iz variance v skupini moških in variance v skupini ţensk (iz obeh

torej!) bomo izračunali posebno varianco; imenovali jo bomo varianca

znotraj skupin.

Pozor! Podobnost imen nas lahko zmede. V imenu zadnje variance je

uporabljena mnoţinska oblika: varianca znotraj skupin. Ne smemo je zamenjati

z varianco znotraj skupine moških ali z varianco znotraj skupine ţensk. Sicer

smo namenoma ti dve varianci imenovali malo drugače: varianca v skupini

moških in varianca v skupini ţensk. Prvo bi bilo moţno imenovati tudi varianca

znotraj skupine moških; podobno pa tudi drugo: varianca znotraj skupine ţensk.

Takšni imeni bi bili pravilni in vsebinsko smiselni (saj bi izraţali tisto, kar ti

varianci merita); lahko bi pa to vodilo k zamenjevanju z varianco znotraj skupin.

Varianca med skupinami je izračunana iz razlik med moškimi in ţenskami

(osebni dohodki v skupini moških se razlikujejo od osebnih dohodkov v skupini

ţensk). Vir teh razlik je torej spol. Ker smo s takšno delitvijo cele skupine

zaposlenih (in izračunavanjem varianc) uspeli določiti, kolikšen del razlik je

povezan s spolom, bomo to varianco imenovali pojasnjena varianca.

Ostale so še razlike znotraj obeh skupin. Zakaj se moški med seboj razlikujejo

po osebnih dohodkih? Zakaj se ţenske med seboj razlikujejo po osebnih

dohodkih? Hipotetično lahko začnemo naštevati vire teh razlik: zaradi razlik v

stopnji izobrazbe, zaradi razlik v delovni dobi, zaradi različnih dodatnih funkcij

itd. Takšnih virov je lahko zelo veliko. V najpreprostejših primerih jih poznamo

vse, večinoma pa le nekaj najpomembnejših. Ker nasplošno vseh ne poznamo,

imenujemo varianco izračunano iz teh razlik nepojasnjena varianca. Vpeljimo

še oznake za vse te variance:

Tabela 32. Označevanje varianc

varianca vir razlik oznaka

skupna varianca med vsemi enotami

mnoţice

2CELOTNA ali

2SK

varianca v skupini

moških

med vsemi moškimi 21 ali

2m

varianca v skupini

ţensk

med vsemi ţenskami 22 ali

pojasnjena varianca med moškimi in

ţenskami

2POJASNJENA ali

2M

nepojasnjena varianca razlike znotraj obeh

skupin

2NEPOJASNJENA ali M

2

Razmislek o razlikah med vsemi enotami, o razlikah v skupini moških in v

skupini ţensk ter razlikah med skupinami, nam hitro pokaţe, da je vsota

Page 50: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

nepojasnjene variance in pojasnjene variance enaka skupni varianci v celi

mnoţici:

2

CELOTNA = 2POJASNJENA +

2NEPOJASNJENA

ali

2

SK = 2

M + M2

Če pojasnjeno in nepojasnjeno varianco izrazimo v odstotkih od celotne

variance, bomo vedeli, kolikšen deleţ v celotni varianci predstavlja povezanost

osebnih dohodkov s spolom, in koliko povezanost z vsemi ostalimi dejavniki.

Pojasnili smo delovanje spremenljivke spol. Na ta način lahko z delitvijo celotne

mnoţice po katerikoli spremenljivki pojasnimo njen vpliv. Vsakokrat nam bo

razmerje med pojasnjeno in nepojasnjeno varianco pokazalo, kolikšen je vpliv

izbrane spremenljivke. To je najpreprostejši način analiziranja razpršenosti, ki

pa odgovori le na del vprašanj o povezanosti med pojavi.

Če bi nas v opisanem primeru zanimalo, kolikšen deleţ v skupni varianci izvira

iz neke naslednje spremenljivke, npr. stopnje izobrazbe, bi razdelili celotno

mnoţico na skupine izenačene po izobrazbi (recimo na tiste s srednjo izobrazbo,

z višjo izobrazbo in z visoko izobrazbo). Po povsem enakem postopku bi

izračunali pojasnjeno in nepojasnjeno varianco. Toda sedaj bi bil spol v skupini

„vseh ostalih vplivov”. Na ta način vsakokrat pojasnimo le povezanost z eno

samo neodvisno spremenljivko. To ne bo vedno dovolj in bomo morali poseči

tudi po bolj zapletenih statističnih metodah.

ŠESTO POGLAVJE NORMALNA PORAZDELITEV

I. Pojem in značilnosti

Normalna porazdelitev je najpomembnejša porazdelitev, ki jo srečujemo v

teoriji in praksi statističnih postopkov. To je teoretična porazdelitev. Mnoge

empirične porazdelitve, ki jih dobimo z merjenjem pedagoških pojavov,

primerjamo z njo. Značilen primer so testni rezultati. Rezultati merjenja znanja s

pomočjo testov se porazdeljujejo pribliţno normalno (čim večje je število enot,

tem bolj se porazdelitev pribliţuje normalni). Pri proučevanju spremenljivk,

katerih porazdelitev je podobna normalni, se bomo lahko opirali na njene

zakonitosti. Še večji pomen ima normalna porazdelitev pri vzorčenju.

Grafični prikaz normalne porazdelitve:

Page 51: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

grafični prikaz

Vidimo, da je krivulja normalne porazdelitve zvonasta, simetrična in se

asimptotično pribliţuje osi x. Znana je tudi kot Gaussova krivulja. Iz enačbe se

vidi, da je oblika normalne porazdelitve odvisna od aritmetične sredine in od

standardnega odklona (variance). Sprememba aritmetične sredine prestavlja

krivuljo levo-desno po osi x; standardni odklon pa spreminja njen razpon

(raztegnjenost). Pri manjši razpršenosti je bolj koničasta, pri večji razpršenosti

pa bolj sploščena. Nestalnost njene lege in oblike je nepraktična lastnost.

Da bi zakonitosti normalne porazdelitve lahko preprosto uporabljali, jo bomo

standardizirali. Enostavno povedano: na os x ne bomo nanašali surovih

vrednosti spremenljivke x, temveč izpeljane vrednosti »z« (standardizirane

odklone). Dobili bomo le eno samo krivuljo; s standardiziranjem smo odpravili

vpliv aritmetične sredine in standardnega odklona (razpršenosti). Imenovali jo

bomo standardizirana normalna porazdelitev.

Kakšne lastnosti ima ta porazdelitev? Nekatere so ostale nespremenjene

(simetričnost, en vrh, zvonasta oblika, asimptotičnost itd.). Aritmetična sredina

te porazdelitve je 0. Namreč, rezultati, ki se od povprečja nič ne odklanjajo,

imajo z-vrednost 0 (to je na sredini). To je hkrati aritmetična sredina

standardizirane normalne porazdelitve. Vrednosti, ki so manjše od povprečja,

imajo negativne z-vrednosti in leţijo na levi strani krivulje. Vrednosti, ki so

večje od povprečja, imajo pozitivne z-vrednosti in leţijo na desni strani krivulje.

Standardni odklon te porazdelitve je enak 1.

Dobili smo eno samo porazdelitev, ki bo uporabna za vse primere. Hkrati pa

smo sprejeli tudi ceno za to poenostavitev: vsakokrat bomo morali preračunavati

surove rezultate v z-vrednosti in obratno.

Za vrednosti te porazdelitve lahko sestavimo tabelo, ki bo olajšala uporabo. V

tabeli je za vsako vrednost »z« ploščina pod krivuljo »P« (%) in vrednost

ordinate »y«. Ker je krivulja simetrična, je v tabeli samo desna polovica. Leva

polovica se od desne razlikuje le v tem, da so vrednosti »z« negativne. Vse

ostalo je enako.

Grafični prikaz krivulje

Page 52: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

SEDMO POGLAVJE KORELACIJE

I. Pojem in vrste korelacije

O povezanosti med pojavi smo ţe govorili, največ pri razpršenosti. Nasploh so

vprašanja povezanosti pojavov med najpomembnejšimi vprašanji vsake

znanosti. Zato je proučevanje povezanosti med vzgojnimi pojavi ena

najpomembnejših nalog in ciljev pedagogike.

Na kakšne povezanosti sploh mislimo? Opišimo jih s primeri. Ti primeri

temeljijo predvsem na izkušnjah:

1. Vemo, da na ocene v šoli vpliva, koliko se učenec uči. Nasplošno lahko

rečemo, da kdor se več uči, dobi boljše ocene. Hkrati vemo, da ocene niso

odvisne samo od učenja, še manj pa samo od tega, koliko se kdo uči. Na ocene

vpliva še marsikaj drugega, npr. kako se uči, koliko ima predznanja, kako je

motiviran, kakšne so njegove siceršnje intelektualne sposobnosti itd. Vendarle

pa se ne da zanikati povezanosti med časom učenja in ocenami.

2. Vemo, da je uspešnost učencev v šoli povezana z izobrazbo njihovih staršev:

otroci bolj izobraţenih staršev so nasploh bolj uspešni. Res je, da obstajajo

številne izjeme, nekatere celo ekstremne (zelo izobraţeni starši - izredno

neuspešni otroci in obratno), pa vendar zveza je takšna, kot smo povedali na

začetku.

3. Spol in stališča so nasplošno povezani: po nekaterih stališčih se ţenske

nasploh razlikujejo od moških. Seveda ne gre prezreti, da se tudi ţenske med

seboj razlikujejo po stališčih in podobno tudi moški. Verjetno se stališča moških

in ţensk o koristnosti računalniškega programa Word ne razlikujejo; zagotovo

pa se razlikujejo njihova stališča, npr. o splavu, o socialni zaščiti mater itd.

Da so našteti pojavi res povezani, ne moremo prezreti; hkrati pa »čutimo«, da te

zveze niso »čiste«. Ob vrsti primerov, ki te zveze potrjujejo, obstajajo tudi

primeri, ki so povsem drugačni – kakor da ni omenjene povezanosti. Občutek

nam pravi, da zveze so, hkrati pa, kakor da jih ni. Da bi takšne povezanosti bolje

razumeli, bomo na kratko opisali neko drugo vrsto povezanosti – funkcijsko

povezanost.

Funkcijska povezanost je povezanost dveh spremenljivk. Na odvisno

spremenljivko vpliva samo neodvisna spremenljivka in nič drugega. Razmerje

med njima lahko izrazimo s pomočjo tabele, grafičnega prikaza in enačbe.

Vsaki vrednosti neodvisne spremenljivke ustreza ena ali več točno določenih

vrednosti odvisne spremenljivke

Vzemimo za primer zvezo med številom kupljenih jajc in zneskom, ki ga je za

jajca treba plačati. To funkcijo lahko izrazimo z enačbo:

formula y = 25x

Page 53: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Cena enega jajca je 25 SIT; za dve jajci plačamo 50 SIT, za tri 75 SIT itd. Za

kakršnokoli število jajc se da natančno izračunati skupni znesek plačila. Zveza je

funkcijska. Ker je cena enega jajca določena, je znesek odvisen samo od števila

jajc.

Pri korelaciji pa ni tako kot pri funkciji. Čeprav iz izkušenj vemo, da čas učenja

vpliva na doseţeno oceno, pa hkrati vemo, da samo iz časa učenja ne moremo

določiti ocene. Zakaj ne? Ker na doseţeno oceno vpliva še marsikaj drugega in

ne le čas učenja. Zveza med tema spremenljivkama ni funkcijska. Takšne zveze

imenujemo korelacijske. Nasplošno lahko rečemo, da več učenja pomeni večjo

oceno. Vendar ni nujno, da je pri vseh učencih tako. Delujejo še drugi vplivi.

Mnogi vplivi so slučajnostni in jih ni mogoče povsem izločiti. Zato pravimo, da

med tema spremenljivkama obstaja le neka splošna tendenca povezanosti. Torej,

nasploh povezanost obstaja; posamični primeri pa lahko odstopajo od te

zakonitosti (nekateri tudi znatno). Čim več je takih odstopanj (ali čim večja so ta

odstopanja) tem rahlejša je zveza med pojavoma. In seveda obratno – čim manj

jih je, tem tesnejša je zveza. Zato pri korelacijah lahko govorimo o jakosti

(tesnosti) zveze. Kot prispodobo lahko vzamemo kozarec z vodo. Funkcijo si

lahko predstavimo kot poln kozarec vode, korelacijo pa kot deloma poln

kozarec. Čim bolj je poln, tem močnejša je korelacija; čim manj je vode v

kozarcu, tem šibkejša je korelacija. Pri polnem kozarcu je korelacija

najmočnejša (najtesnejša) in je ţe funkcijska. Pri napol polnem kozarcu je vpliv

neodvisne spremenljivke pribliţno polovičen, pri praznem kozarcu pa vpliva

sploh ni več in korelacije ni (korelacija je enaka nič). Takšna ponazoritev nam

bo pomagala pri razumevanju najsplošnejše mere za jakost korelacije.

Z dosedanjim razmišljanjem smo mimogrede vpeljali pojem korelacije kot zveze

med dvema spremenljivkama; druge vplive pa smo obravnavali kot ostale, kot

nekaj postranskega ali celo motečega. Za začetek je to nujno. Svet je seveda

nedeljiva celota, kjer je pravzaprav vse povezano z vsem. Povsem izoliranega

pojava ni. Tudi pri vzgojnih pojavih je tako. Pri proučevanju tistih pedagoških

zakonitosti, ki se kaţejo kot zveze med pojavi, je praktično nemogoče zajeti vse

moţne zveze. Pomislimo, koliko različnih pojavov vpliva na ocene, ki jih učenci

dobijo. Mnogo jih pedagogika ţe pozna in smo nekatere ţe zgoraj našteli.

Vendar pomislimo na učenca, ki ima doma bolnega brata. Skrb in misel nanj

bosta zanesljivo vplivala na oceno, če bo tisti dan vprašan. Ali sosednji učenec,

ki se je med odmorom spotaknil in ga boli koleno. Nešteto je različnih vplivov.

Zato nekateri delijo vse vplive na bistvene in slučajne. Mi se bomo ukvarjali z

bistvenimi; za slučajne bo zadosti, da se zavedamo, da sploh delujejo. Vendar je

tudi bistvenih vplivov lahko veliko.

Zato bomo pri obravnavanju povezanosti med pojavi za začetek vzeli

najpreprostejšo moţno situacijo: korelacijo med dvema spremenljivkama.

Preučevali bomo, kako neodvisna spremenljivka x vpliva na odvisno

spremenljivko y. Pri tem bomo potisnili v ozadje vse ostale vplive – bistvene in

Page 54: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

tudi slučajne. Obravnavali jih bomo kot skupno kategorijo – ostali vplivi.

Njihovega vpliva ne bomo posebej obravnavali in preučevali. Ko bomo

obvladali takšne preproste situacije, se bomo lahko usmerili še na delovanje

ostalih bistvenih vplivov. Takrat bomo proučevali povezanost več spremenljivk

hkrati.

Page 55: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

1. RAZMERJE MED KORELACIJO IN VZROČNO-POSLEDIČNIMI ZVEZAMI

Za popolnejše razumevanje korelacijske odvisnosti moramo pojasniti še njeno

razmerje z vzročno-posledičnimi zvezami. Ali gre za različni zvezi ali je njuno

bistvo zelo podobno? Ali močna korelacija pomeni hkrati tudi vzročno

povezanost med dvema pojavoma?

Da bi še bolje nakazali, kaj nas zanima, se bomo spomnili, kako so nekoč

objavljali rezultate raziskav. Nekoč smo lahko prebrali, da kajenje povzroča

pljučnega raka. Morda ga res povzroča, a šlo je v resnici za ugotovljeno precej

opazno korelacijo med tema pojavoma. Podobno so pisali, da margarina

povzroča raka, nato da paradiţnik povzroča raka in podobno. V vseh primerih so

se avtorji takšnih člankov (morda tudi ustrezni strokovnjaki) opirali na

ugotovljeno korelacijo. Če je torej korelacija pozitivna in ni zanemarljivo nizka,

pomeni, da res tisti, ki npr. več kadijo, tudi pogosteje zbolevajo za rakom.

Vendar korelacija ne dokazuje in ne potrjuje vzročne zveze. Spremenljivki, ki

sta korelacijsko povezani, sta lahko v vzročni zvezi ali pa tudi ne. Sam izračun

korelacijskega koeficienta ničesar ne dokazuje. Takšne moči nima noben

korelacijski koeficient. Vzročne zveze so najpomembnejše zveze med pojavi;

korelacija teh zvez ne more dokazati.

Da je res tako, bomo pojasnili z znanim primerom dveh spremenljivk, ki sta v

močni pozitivni korelacijski zvezi. Imamo podatke za vse učence neke osnovne

šole o dveh spremenljivkah: dolţina palca na levi roki (cm) in doseţek na testu

bralnih spretnosti v točkah. Izračunani Pearsonov korelacijski koeficient ima

visoko pozitivno vrednost. To pomeni, da v splošnem učenci z daljšim palcem

bolje berejo in učenci s krajšim palcem slabše. Bralec nam tukaj mora verjeti na

besedo, da je korelacija res visoka in pozitivna. Malce pozneje bo tudi brez

praktičnega dokazovanja vidno, da je res tako. Kako pojasniti korelacijo med

tema spremenljivkama? Celo brez globljega poznavanja pojavov lahko

presodimo, da med dolţino palca in bralnimi spretnostmi ni vzročne zveze.

Dolţina palca ni vzrok za boljše bralne spretnosti. Še manj pa je obratno – da bi

dobre bralne spretnosti bile vzrok za hitrejšo rast palca!?

Imamo torej primer, kjer korelacija je, vzročne zveze pa ni. Lahko bi sicer

ugovarjali, češ da so vsi pojavi na svetu na nek način med seboj (vzročno)

povezani. Vendar bi bilo to pretirano. Neposredne vzročne zveze v našem

primeru ni. In če imamo ta en primer, je to ţe dokaz: korelacija ne pomeni

tudi vzročne zveze. Zakaj je potem korelacija pozitivna in močna? Zakaj učenci z daljšim palcem

bolje berejo? Odgovor je na dlani. Učenci, npr. prvega razreda so majhni in

imajo majhne prste. Hkrati tudi slabše berejo, saj hodijo v šolo šele manj kot

leto. Učenci drugega razreda so ţe malo večji (njihovi prsti tudi) in bolje berejo,

učenci tretjega razreda so še večji in še bolje berejo itd. do osmega razreda.

Učenci višjih razredov ne berejo bolje, ker so večji, ampak ker hodijo v šolo

dlje časa. V ozadju zveze med dolţino palca in bralnimi spretnostmi je starost.

Page 56: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Če bi vzeli samo učence, npr. šestega razreda, bi bil korelacijski koeficient med

tema spremenljivkama zelo nizek (okoli ničle). Pogosto je tako, da neka tretja

spremenljivka povzroča visoko korelacijo med določenima pojavoma.

Ali to pomeni, da korelacijska zveza nič ne pomeni, da kaţe le neko posredno ali

celo navidezno povezanost? Čeprav korelacija ne more dokazovati vzročne

zveze, je vendarle zelo koristna. Korelacija nam nakaţe povezane pojave. Šele

poglabljanje v bistvo preučevanih pojavov (povezano tudi z morebitnimi

eksperimenti) nam lahko potrdi vzročno zvezo. V našem primeru nas je

poznavanje bistva pojavov obvarovalo pred prenagljenim sklepom, češ:

»korelacija med dolţino palca in bralnimi spretnostmi potrjuje, da je med njima

tudi vzročna zveza«.

2. KORELACIJSKI GRAFIKON

Podobno kot pri funkciji, lahko tudi pri korelaciji vse vrednosti obeh

spremenljivk prikaţemo v grafikonu (korelacijski grafikon). Ta je drugačen od

grafičnega prikaza funkcije.

Za primer bomo vzeli vrednosti naslednjih dveh spremenljivk: uspeh v osmem

razredu osnovne šole in uspeh v prvem razredu srednje šole.

grafični prikaz

V grafikonu smo potegnili sredinsko črto med označenimi točkami. To je

regresijska črta. Točke v grafikonu se zgoščajo okoli te črte. Črta je le

zamišljena – pribliţno takšna bi bila, če ostalih vplivov ne bi bilo. Vpliv x na y

»vleče« točke k regresijski črti; ostali vplivi »vlečejo« točke od regresijske črte.

Če je oblak točk zgoščen blizu regresijske črte, je korelacija med x in y močna.

Če so točke daleč od regresijske črte, je korelacija šibka (saj so ostali vplivi

močni). Torej lahko ţe iz oblike oblaka točk v grafikonu sodimo, kako močno x

vpliva na y. Če se točke ne bi zgoščale v oblak in bi bile enakomerno razpršene

po vsem grafikonu, potem korelacije med x in y ne bi bilo. Ker si idealno

enakomerno porazdeljenost lahko le zamislimo, bomo za katerekoli

spremenljivke vedno ugotovili vsaj zelo rahlo korelacijo. Tudi zato moramo biti

pri interpretaciji korelacije previdni.

Poglejmo nekaj značilnih grafikonov. V primeru A je korelacija močna (zgoščen

oblak), v primeru B je šibka (majhna zgoščenost - komaj zaznaven oblak) in v

priemru C ni korelacije (oblaka ni).

grafični prikazi (oblaki točk)

Page 57: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

3. POZITIVNA IN NEGATIVNA KORELACIJA

Poleg jakosti, ki smo jo šele omenili (in jo bomo natančneje obdelali pozneje),

ima korelacija tudi smer. Če vrednosti neodvisne spremenljivke naraščajo, lahko

naraščajo tudi vrednosti odvisne spremenljivke. To je pozitivna korelacija. V

korelacijskem grafikonu je regresijska črta usmerjena iz levega spodnjega kota v

desni zgornji kot.

grafični prikaz

Če ob naraščanju vrednosti »x«, vrednosti »y« padajo, gre za negativno

korelacijo. V korelacijskem grafikonu leţi regresijska črta drugače:

grafični prikaz

Preprost primer pozitivne korelacije je: »čim več učenja, tem večja ocena«.

Primer negativne korelacije je korelacija med tremo in oceno (»ob večji tremi je

ocena niţja« in obratno). Oba primera sta poenostavljena in sluţita le za laţje

razumevanje smeri korelacije in ne za njeno dokazovanje.

Nekateri kazalci korelacije imajo predznak, ki nam pove, ali je korelacija

pozitivna ali negativna. Drugi kazalci nimajo predznaka in moramo za

interpretacijo smeri pazljivo pregledati vse rezultate.

4. LINEARNA IN NELINEARNA KORELACIJA

Regresijska črta je lahko premica, ali pa ne (seveda: le del premice). Kadar ni

premica, je korelacija nelinearna, kadar pa je premica, je korelacija linearna. V

realnih primerih regresijska črta nikdar ne bo idealna premica. Zato bomo kot

linearno korelacijo šteli tiste primere, ko je regresijska črta vsaj pribliţno ravna

(kadar ni izrazito zakrivljena). Šele pri izraziti ukrivljenosti bomo korelacijo

obravnavali kot nelinearno.

Linearna korelacija je preprostejša za interpretacijo. Kako se sploh izraţa

linearnost in nelinearnost korelacije (razen na grafičnem prikazu)? Pri linearni

korelaciji se spreminjajo vrednosti odvisne spremenljivke linearno s

spreminjanjem vrednosti neodvisne spremenljivke. Preprosteje lahko rečemo, da

naraščajo ali padajo vrednosti »y« sorazmerno z naraščanjem ali padanjem

vrednosti »x« (enakomerno). Smer je vedno enaka: če je, npr. korelacija

pozitivna, je »povsod« pozitivna (pri naraščanju »x« vedno naraste tudi »y«).

Pri nelinearni korelaciji sta vsaj dve teţavi pri interpretaciji. Prva je v

neenakomernem spreminjanju »y«, kadar se »x« sicer enakomerno spreminja.

Zato je bistveno teţje pojasniti spreminjanje »y« ob spreminjanju vrednosti »x«.

Druga teţava je v tem, da je nelinearna korelacija lahko v nekem delu pozitivna,

v drugem pa negativna. Preprosto se sliši, npr. da čim več se nekdo uči, tem

Page 58: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

višjo oceno bo dosegel. Vsakdo razume tudi naslednjo zakonitost: čim več

športnik trenira, tem boljši bo njegov doseţek. Pa vendar vse ni tako preprosto:

prav zadnji primer nam lahko nazorno pokaţe teţave pri interpretaciji nelinearne

korelacije. Doseţki športnika naraščajo do neke meje. Za to mejo bi

povečevanje časa treninga prineslo zmanjšanje doseţkov. To je pojav

pretreniranosti (športnik je treniral preveč!). Grafični prikaz takšne korelacije je

prikazan spodaj. Do točke A je korelacija pozitivna, od te točke naprej pa

negativna (več treninga prinaša niţje doseţke). Primer je poenostavljen, saj smo

morali zanemariti še nekaj: naraščanje rezultatov ima svoje meje ne glede na

trening (preprosto povedano: tudi če bi korelacija bila ves čas pozitivna, doseţki

ne bi naraščali v nedogled). Vendar ta poenostavitev v ničemer bistvenem ne

spremeni spoznanja, da je nelinearno korelacijo veliko teţje interpretirati kot

linearno.

grafični prikaz

II. Indeks korelacije

Kako bi nasploh lahko merili korelacijo, smo deloma videli v poglavju o

pojasnjeni in nepojasnjeni varianci. To bomo tukaj razširili. Poglejmo na skici,

kako se izraţa korelacija med neodvisno spremenljivko »x« in odvisno

spremenljivko »y«.

grafični prikaz

Pojasnjena varianca je posledica delovanja neodvisne spremenljivke »x«,

nepojasnjena varianca pa posledica delovanja vseh ostalih vplivov skupaj. To je

nekoliko poenostavljena razlaga. Tako bi namreč bilo, če bi bil »x« popolnoma

neodvisen od ostalih vplivov. V praktičnih primerih je le izjemoma tako. Vendar

je tudi tako poenostavljena situacija zadosti dobra za razlago postopka

ugotavljanja jakosti korelacije. Ne smemo pa pozabiti, da je tak postopek vedno

le pribliţen. Odstopanja stvarnih primerov od idealizirane slike zgoraj bomo

lahko vedno upoštevali v interpretaciji. Razmerje med pojasnjeno varianco in

celotno varianco nam bo kazalo, kako močno »x« vpliva na »y« (seveda

pomnimo: vsakokrat gre za varianco odvisne spremenljivke »y«). To razmerje

imenujemo indeks korelacije:

I =

Vrednosti indeksa korelacije so med 0 in 1. Vrednost nič pomeni, da ni

nikakršne korelacije med x in y (pojasnjene variance sploh ni in torej x ne vpliva

Page 59: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

na y). Vrednost 1 pomeni, da je korelacija najmočnejša (nepojasnjene variance

sploh ni, kar pomeni, da samo x vpliva na y). Takšna korelacija je pravzaprav

funkcija. Stvarni primeri so med tema skrajnostima.

Poglejmo grafični prikaz za nekaj moţnih primerov med tema skrajnostima (ob

teh se lahko znova spomnimo prispodobe s kozarcem vode):

grafični prikaz

III. Korelacijski koeficienti

Indeks korelacije nam sluţi le kot osnova za razumevanje merjenja jakosti

korelacije. V praksi ga uporabljamo le izjemoma. Za praktično rabo

uporabljamo korelacijske koeficiente. Teh je več, glede na naravo spremenljivk

in korelacije med njimi.

1. PEARSONOV KORELACIJSKI KOEFICIENT

Kadar imamo dve povezani spremenljivki, ki sta obe intervalni in je zveza med

njima linearna, lahko uporabimo Pearsonov korelacijski koeficient (rxy). Ta med

vsemi korelacijskimi koeficienti najbolje odraţa povezanost med

spremenljivkama. Če le moremo, ga uporabimo. Pri interpretaciji ostalih

koeficientov se pogosto opiramo na njega. V pomoč nam je, če je nek drug

koeficient primerljiv s Pearsonovim. Takšne koeficiente interpretiramo podobno

kot Pearsonovega. Ostale koeficiente pa interpretiramo samostojno in brez

primerjave s Pearsonovim.

Osnovni obrazec za Pearsonov korelacijski koeficient je:

formula

Cxy je kovarianca, σx in σy sta običajna standardna odklona za spremenljivki x

in y. Nobene od teh treh količin nam ni treba izračunati do konca; za vse tri

zadostuje le števec iz obrazcev za računanje.

Pokazali bomo samo postopek za računanje Pearsonovega korelacijskega

koeficienta iz individualnih podatkov. Postopek za računanje iz frekvenčne

porazdelitve je precej zapleten; ima pa samo še simboličen pomen. Ţe pri

manjših numerusih bomo za izračunavanje uporabili računalnik, pri večjem

numerusu pa zagotovo.

Page 60: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

V tabeli imamo vse potrebne obrazce. Seveda bi lahko uporabili daljši postopek

(s celimi obrazci in ne samo s števci), vendar nam ne bi prinesel nič več kot

krajši.

Tabela 34. Obrazci za kovarianco in varianci

osnovni obrazec števec

kovarianca

varianca za x

varianca za y

Kadar računamo samo s števci, je obrazec za Pearsonov korelacijski koeficient

podoben prejšnjemu:

Kx in Ky sta vsoti kvadratov za x in y; Kxy pa je vsota pravokotnikov za

odklone obeh spremenljivk hkrati.

Pokaţimo potek vsega postopka s primerom. Imamo podatke iz neke šole. Pri

delu maketarskega kroţka smo merili čas, ki so ga učenci potrebovali za

sestavljenje dveh maket. Spremenljivka x je čas potreben za sestavo prve makete

in y za sestavo druge makete (v minutah).

Tabela 35. Računanje Pearsonovega korelacijskega koeficienta

učenec x y x2 y

2 xy

1 10 6 100 36 60

2 19 10 361 100 190

3 18 7 324 49 126

4 29 12 841 144 348

5 18 8 324 64 144

6 14 6 196 36 84

7 22 12 484 144 264

8 17 6 289 36 102

9 16 9 256 81 144

10 15 10 225 100 150

11 20 10 400 100 200

12 16 8 256 64 128

Σ 214 104 4056 954 1940

Kx

Ky

Kxy

Page 61: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

rxy = 0,76

Interpretacija Pearsonovega korelacijskega koeficienta

Vrednosti Pearsonovega koeficienta so med –1 in +1. O interpretaciji smeri

povezanosti (glede na predznak) smo nekaj ţe povedali. Pri pozitivnem

predznaku je povezanost med spremenljivkama takšna, da čim večjo vrednost x

ima enota, tem večjo ima tudi vrednost y. Seveda velja hkrati, da čim manjšo

vrednost x ima enota, tem manjšo ima tudi vrednost y. Preprosteje povedano:

nadpovprečnim vrednostim x ustrezajo nadpovprečne vrednosti y;

podpovprečnim vrednostim x ustrezajo podpovprečne vrednosti y. Pri

negativnem predznaku koeficienta je korelacija seveda negativna, kar pomeni:

nadpovprečnim vrednostim x ustrezajo podpovprečne vrednosti y;

podpovprečnim vrednostim x ustrezajo nadpovprečne vrednosti y.

Jakost korelacije interpretiramo glede na številčno vrednost koeficienta (pozor:

pri interpretaciji jakosti predznak sploh ni pomemben!). Vrednosti

korelacijskega koeficienta do 0,20 interpretiramo kot neznatno korelacijo, raje

kot zanemarljivo. Sodimo, da pravzaprav povezave ni in da je dobljeni

koeficient prej posledica slučajnega ujemanja podatkov, kot pa stvarne

povezanosti med njimi. Vrednosti koeficienta med 0,20 in 0,40 interpretiramo

kot rahlo ali šibko korelacijo (zveza je komaj opazna, a vendarle je!).

Korelacijske koeficiente med 0,40 in 0,70 interpretiramo kot srednje močno

korelacijo, med 0,70 in 0,85 kot močno korelacijo (x zelo vpliva na y) in

koeficiente nad 0,85 kot zelo močno korelacijo (skoraj ţe popolno povezanost).

Vendar se pri interpretaciji ne moremo ravnati le po tej lestvici. Vsekakor

moramo dobro poznati opazovane pojave. V interpretacijo moramo vključiti

dosedanje rezultate, pričakovanja, izkušnje itd. Ilustrirajmo s primeroma

konkretnost interpretacije.

Primer 1.

Dva učitelja sta vsak zase ocenjevala proste spise istih učencev. Za vsakega učenca

imamo dve oceni: eno mu je prisodil prvi učitelj, drugo pa je za isti spis dobil od

drugega učitelja. Naj bo korelacija med temi ocenami rxy = + 0,65. Interpretirali

bomo, da je korelacija pravzaprav visoka in rekli, da se učitelja zelo ujemata pri

ocenah prostih spisov.

Primer 2.

Če bi ista učitelja popravljala teste znanja (v katerih so naloge objektivnega tipa) za

iste učence in bi dobili rxy = + 0,75, bi takšno korelacijo ocenili kot nepričakovanao

nizko. Rekli bi, da se učitelja slabo ujemata in bi iskali razloge, zakaj se točkovanje

Page 62: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

teh dveh učiteljev tako razlikuje. Skratka, niţji korelacijski koeficient bi interpretirali

kot precejšnjo povezanost, višjega pa kot šibko povezanost. Pri ocenah za proste

spise smo namreč pričakovali nizko ujemanje in nas je višina koeficienta (0,65)

presenetila. Pri vrednotenju testov znanja smo pričakovali popolno ujemanje (ali pa

vsaj skoraj popolno) in nas je presenetil nepričakovano nizek koeficient (0,75).

Še enkrat pa moramo opozoriti na nevarnosti vzročne interpretacije korelacije.

Nek pozitivni in visok koeficient lahko intepretiramo takole: učenci, ki so bolje

pisali test iz slovenščine, so hkrati bolje pisali tudi test iz matematike. Bolj

poljudno bi to lahko tudi takole rekli: čim boljši je učenec pri slovenščini tem

boljši je pri matematiki.

Ne bi pa bilo prav, če bi rekli pribliţno takole: učenci, ki so bolje pisali test iz

slovenščine, so zato bolje pisali tudi test iz matematike. Ena sama beseda

(...zato...)

popolnoma spremeni pomen interpretacije. Visoko ujemanje testnih rezultatov

nikakor še ne pomeni, da so drugi rezultati takšni zaradi prvih. Testni doseţki

učencev za različne predmete se navadno vedno visoko ujemajo in je

korelacijski koeficient pozitiven in visok. To velja za praktično vse predmete v

šoli. Če računamo korelacijo med testnimi rezultati za katerakoli dva predmeta,

bomo skoraj zanesljivo dobili visoko pozitivno korelacijo. Toda to še ne

pomeni, da imajo učenci dobre rezultate pri enem testu zaradi dobrih pri

drugem. Po drugi strani ne smemo takoj trditi, da vzročne zveze ni. Korelacijski

koeficient ne dokazuje niti prisotnosti niti odsotnosti vzročne zveze. Če se sedaj

vprašamo, zakaj je potem korelacija za različne šolske predmete pozitivna in

visoka, pomislimo na to, da bolj motivirani učenci dosegajo boljše rezultate pri

slovenščini in pri matematiki (ali kakšnem drugem predmetu). Podoben vpliv

imajo sposobnosti, prizadevnost, pogoji za učenje itd. Tudi negativni vplivi

delujejo podobno. Učenec, ki je veliko manjkal od pouka (npr. zaradi bolezni),

bo imel teţave pri večini predmetov itd. Teh ugotovitev bistveno ne spremeni

dejstvo, da se pri nekaterih učencih rezultati izrazito ne ujemajo (ob sijajnih

ocenah pri enih predmetih imajo slabe ocene pri drugih predmetih). Zaradi

takšnih primerov korelacija med doseţki iz različnih predmetov ne bo 1, temveč

»le« 0,70 ali kaj podobnega.

2. KORELACIJA RANGA

Vzgojni pojavi so takšne narave, da imamo zanje le redko na voljo intervalne

spremenljivke. Zato je raba Pearsonovega koeficienta redkost. To se zlasti

nanaša na značilnosti učencev, kot so: motivacija, marljivost, priljubljenost,

uspešnost, prilagodljivost itd. Učitelj (vzgojitelj, itd.) nam lahko učence

sorazmerno zanesljivo razvrsti v ranţirno vrsto. Iz takšnih rangov ţelimo

Page 63: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

izračunati jakost in smer korelacije. Rangi niso intervalna spremenljivka, zato

Pearsonov korelacijski koeficient ne ustreza. V sili ga sicer lahko uporabimo

(zanemarimo pač ordinalno naravo rangov in jih obravnavamo kot intervalno

spremenljivko), vendar to ni najbolje. Lahko je le izhod v sili.

Korelacija med rangi je pozitivna, kadar velja: čim višje so rangirane enote po

eni spremenljivki (npr. prizadevnosti), tem višje so tudi pri drugi spremenljivki

(npr. uspešnosti). Če pa imajo pri prvi spremenljivki višje range tisti, ki imajo

pri drugi niţje range, je korelacija negativna. O jakosti korelacije pa odloča,

kako pogosto se rangi za enote ujemajo (bodisi v pozitivni ali v negativni smeri).

V tabeli sta pokazana primera popolne pozitivne in popolne negativne korelacije

med rangi; dodana sta še primera visoke korelacije obeh smeri. Primer je zaradi

enostavnosti kratek (majhen numerus). V resnici za tako majhne skupine ne bi

računali korelacije.

Tabela 36. Korelacije ranga popolna

pozitivna korelacija

visoka

pozitivna korelacija

popolna

negativna korelacija

visoka

negativna korelacija

R1 R2 R1 R2 R1 R2 R1 R2

1 1 1 2 1 7 1 7

2 2 2 1 2 6 2 5

3 3 3 3 3 5 3 6

4 4 4 5 4 4 4 4

5 5 5 4 5 3 5 3

6 6 6 6 6 2 6 1

7 7 7 7 7 1 7 2

Za nevezane range po dveh spremenljivkah določimo korelacijo tako, da

uporabimo Spearmanov korelacijski keficient. Nevezane range dobimo v večini

praktičnih primerov, ko nam, npr. učitelj razvrsti učence. Kadar se pa učitelj ne

more odločiti med dvema ali več učenci in jim prisodi enak rang, dobimo vezane

range.

Računanje tega koeficienta je zelo preprosto. Če je skupina zadosti velika, je

Spearmanov korelacijski koeficient primerljiv s Pearsonovim; to pomeni da ga

podobno interpretiramo.

Kadar imamo vezane range, uporabimo zanje Pearsonov korelacijski koeficient.

Postopek je popolnoma enak, kot smo ga ţe videli v poglavju o računanju

običajnega Pearsonovega korelacijskega koeficienta. Ker pa rangi niso ustrezna

spremenljivka za uporabo Pearsonovega korelacijskega koeficienta, bomo tega

sedaj imenovali Pearsonov korelacijski koeficient za range. Tudi simbol zanj je

malo drugačen. Ker smo postopek tam podrobno prikazali, bomo tukaj navedli

samo kratek primer. Pri obeh spremenljivkah imamo vezane range: v prvem

Page 64: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

primeru sta dva najniţja ranga vezana na dva učenca, v drugem primeru so trije

najvišji rangi (7, 8 in 9) vezani na tri učence.

Tabela 38. Računanje Pearsonovega korelacijskega koeficienta za range

R1 R2

1,5 2

1,5 1

3 4

4 6

5 5

6 3

7 8

8 8

9 8

Zaradi interpretacije moramo vedeti, da Pearsonov korelacijski koeficient za

range ne odraţa povezanosti med spremenljivkama tako natančno, kot bi jo

odraţal, če bi imeli intervalne spremenljivke. Rangi namreč ne izraţajo natančno

razlike med posameznimi vrednostmi (v našem primeru med učenci). Najbolje

se to vidi pri ekstremnih vrednostih: še tako ekstremna vrednost bo imela rang le

za ena večji ali manjši od sosednje neekstremne vrednosti. Tudi pri vseh ostalih

vrednostih je tako.

IV. Regresija

Korelacija nam omogoča napovedovanje vrednosti ene spremenljivke, če nam je

znana vrednost druge spremenljivke. Če, npr. na doseţke učencev pri nekem

testu vpliva določeno predznanje, lahko iz predznanja napovedujemo doseţke na

testu znanja. To napovedovanje temelji na predpostavki, da je med

spremenljivkama funkcijska povezava.

Če nam je znana vrednost spremenljivke x, lahko po tej formuli napovemo

vrednost spremenljivke y. Takšen postopek je popolnoma pravilen, če je med

spremenljivkama res funkcijska zveza. Vse točke so na regresijski premici; ni

nikakršnih odstopanj. Napovedana vrednost res drţi. Napovedujemo lahko tudi

kar z grafikona.

Pri korelacijski zvezi točke niso na regresijski premici (saj ne gre za funkcijo) in

bodo napovedi vedno napačne. Pri močni korelaciji so točke zgoščene okoli

regresijske premice in bodo napake napovedovanja majhne. Pri šibki korelaciji

so točke daleč od regresijske premice in bodo napake pri napovedovanju velike.

Page 65: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Pri točkah, ki so nad regresijsko premico, so napovedi prenizke (učenec je

dosegel več kot smo napovedali); pri točkah pod njo pa so napovedi previsoke

(učenec je dosegel manj kot smo napovedali). Torej je jasno, da bo postopek

napovedovanja uspešen le pri močni korelaciji; le takrat ga bomo sploh

uporabili.

Nekoliko drugače pa je kadar napovedujemo rezultat za neko skupino: če iz

povprečnega x za neko skupino napovedujemo povprečni y za to skupino. V

takšnih primerih so napovedi sorazmerno zanesljive tudi pri šibkejši korelaciji.

Kako to razloţiti? Zamislimo si, da delamo posamične napovedi v tej skupini. V

splošnem bomo za neke učence pogrešili navzgor, za druge pa navzdol. V dovolj

veliki skupini se te napake pribliţno izenačijo in je skupinska napoved veliko

bolj zanesljiva kot posamične napovedi. Toda skupinske napovedi le redko

potrebujemo – od njih ni velike koristi. Zato se nasploh postopek napovedovanja

na podlagi korelacije bolj poredko uporablja.

Page 66: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

V. Parcialna korelacija

Za razumevanje pojma parcialne korelacije se moramo vrniti k razlagi merjenja

jakosti korelacije na podlagi pojasnjene variance. Ponovno bomo pogledali

grafični prikaz razdelitve celotne variance odvisne spremenljivke (y):

grafični prikaz

Slika, v kateri je pojasnjena varianca posledica delovanja spremenljivke x,

nepojasnjena pa posledica delovanja vseh ostalih spremenljivk, je pravilna le

pod pogojem, da je x neodvisen od teh ostalih spremenljivk. Takrat je

pojasnjena varianca res posledica delovanja samo spremenljivke x. Če se za

ilustracijo izrazimo po ekološko bi rekli: »Pojasnjena varianca je čista, ni

onesnaţena z nobenimi primesmi«.

Če pa katera od spremenljivk iz skupine »ostale spremenljivke« vpliva na x, se

bo ta vpliv prenesel preko x na y. Pojasnjena varianca ne bo več posledica

delovanja samo spremenljivke x. V pojasnjeni varianci bo neposreden vpliv

spremenljivke x in posreden vpliv vseh spremenljivk, ki vplivajo na x. Znova

ilustrirajmo z ekološko prispodobo: pojasnjena varianca ne bo »čista«, temveč

bo »onesnaţena« še z drugimi vplivi. Podobno je seveda tudi z nepojasnjeno

varianco.

Tako na koncu ne moremo reči, da indeks korelacije izraţa res samo vpliv x na

y. Podobno velja tudi za korelacijske koeficiente. To dejstvo je neprijetno, saj

nam kvari enostavnost interpretacije korelacijskih koeficientov.

To slabost koeficientov lahko poskušamo odpraviti (ali bolje: omiliti!).

Načeloma si lahko zamislimo dva postopka: empiričnega in statističnega.

Pri empiričnem postopku moramo »preprečiti« vpliv takšne spremenljivke na x.

S tem bomo preprečili tudi njen posredni vpliv na y. Kako to doseči? Iz celotne

mnoţice bomo izbrali le tiste enote, za katere vemo, da so enake po tej

spremenljivki. Če so enake, ta spremenljivka ne bo povezana z x in potemtakem

tudi z y ne. V pojasnjeni varianci ne bo njenega deleţa. Če sedaj izračunamo

indeks korelacije (ali koeficient korelacije) bo ta, v večji meri kot prej, izraţal

vpliv x na y. Tako bi lahko izločali drugo za drugo vse neţelene spremenljivke.

Dobljeni kazalec korelacije bi vse bolje kazal korelacijo med x in y. Pojasnjena

varianca bi bila vse »čistejša«. Vendar ima na ţalost ta postopek veliko

pomanjkljivost: iskanje enakih enot po neki spremenljivki pomeni bistveno

zmanjševanje velikosti skupine (za katero računamo korelacijo med x in y).

Zaradi manjšega numerusa bo nasploh korelacijski koeficient manj zanesljiv.

Običajno je tako, da za eno ali dve »moteči« spremenljivki takšen postopek še

lahko uporabimo, za več pa teţko. Ţe po nekaj izločenih spremenljivkah se

namreč numerus tako zelo zmanjša, da nadaljnji postopek ne prinaša koristi.

Lahko zaključimo, da nam takšen postopek sicer lepo ilustrira smisel in način

izločanja vplivov; za praktične namene pa je skoraj neuporaben.

Page 67: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Veliko bolj je uporaben statistični postopek. V tem postopku izmerimo vrednosti

dodatne spremenljivke in matematično izločimo njen vpliv. Za ponazoritev bi

lahko preprosto rekli: izmerimo korelacijo med omenjeno spremenljivko in x ter

jo »odštejemo« iz korelacije med x in y. Dobljeni korelacijski koeficient

imenujemo parcialni korelacijski koeficient. Ta ne izraţa več neţelenih

posrednih vplivov omenjene spremenljivke na y. Po enakem postopku lahko

izločimo vse izbrane spremenljivke. Dobljeni parcialni korelacijski koeficient bo

vse bolje odraţal »pravo« povezanost med x in y. Vendar ima tudi ta postopek

pomanjkljivosti. Uporaben je le za izločanje spremenljivk, ki jih lahko izmerimo

na zadostni merski ravni.

OSMO POGLAVJE VZORČENJE

Čeprav je to poglavje najobseţnejše v celi knjigi, ne prinaša pravzaprav nobenih

vsebinsko novih statističnih metod. Tukaj bomo na nov način uporabili

dosedanje metode. Kot do sedaj, nas bodo predvsem zanimale srednje vrednosti,

strukturni odstotki, varianca in korelacije.

I. Osnovne mnoţice in vzorci

Mnoţice, ki jih raziskujemo, imenujemo statistične mnoţice, raziskovalne

mnoţice ali včasih kar kratko mnoţice. Za takšne mnoţice imamo podatke o

vseh enotah. Imeti podatke pomeni poznati za vse enote vrednosti vsaj ene

spremenljivke. Vendar nas le izjemoma zanima samo ena spremenljivka; zato

imamo običajno podatke za več spremenljivk. Nobena redkost niso empirične

raziskave, v katerih je spremenljivk nekaj deset; redkeje jih je nekaj sto ali še

več. Če, na primer sprašujemo učitelje (ali učence, dijake, starše itd.) o stališčih,

tega običajno ne počnemo le z enim vprašanjem. Podobno velja za večino

postopkov zbiranja podatkov.

Pogosto iz različnih razlogov ne moremo zbrati podatkov o vseh enotah

mnoţice. V takšnih primerih izberemo iz mnoţice le manjši del. V resnici nas

še vedno zanima cela mnoţica. Vsa raziskovalna vprašanja se nanašajo nanjo!

Tedaj bomo celo statistično mnoţico imenovali osnovna množica. S tem bomo

poudarili, da nas zanima ta mnoţica in da pravzaprav raziskujemo to mnoţico.

Manjši del mnoţice, ki smo ga izbrali in zanj zbrali podatke, bomo imenovali

vzorčna mnoţica ali pogosteje kar kratko vzorec. Na podlagi vzorca bomo

poskušali ugotoviti, kakšna je osnovna mnoţica. Naš cilj bo raziskati osnovno

mnoţico; vzorec bo le sredstvo za dosego tega cilja. Če bi imeli podatke za celo

mnoţico, ne bi bilo potrebno izbrati vzorca; tedaj te mnoţice ne bi imenovali

osnovna mnoţica.

Page 68: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Raziskave, kjer bo uporabljen takšen postopek, bomo imenovali vzorčne

raziskave, sam postopek pa vzorčenje. Postopek vzorčenja torej vsebuje

naslednje:

opredelitev osnovne mnoţice,

izbiro enega ali več vzorcev iz te osnovne mnoţice in

uporabo statističnih metod, ki omogočajo posploševanje z vzorca na

osnovno mnoţico.

1. ZAKAJ SPLOH VZORČIMO

Mnoţice, ki jih raziskujemo na pedagoškem področju, niso vedno lahko

dostopne. Trije razlogi so glavni, zakaj pedagoške raziskave opravljamo

pogosteje na vzorcih kot na celih mnoţicah.

1. Osnovne mnoţice so lahko zelo velike. Učencev osnovne šole v Sloveniji je

okoli dvesto tisoč (študent pedagogike na Kitajskem bere o desetih milijonih

učencev!). Redkokdaj je sicer raziskovalni problem takšen, da ţelimo v

raziskavo vključiti učence vseh razredov osnovne šole, stare od šest let do

petnajst let. Vendar je ţe mnoţica učencev osmega razreda v nekem šolskem

letu zelo velika za empirično raziskovanje, saj jih je več kot dvajset tisoč.

Mirno lahko rečemo, da so prevelike tudi mnoţice, kot npr.: bralci

mladinskega lista PIL, udeleţenci tekmovanja za bralno značko, maturanti v

nekem šolskem letu in podobno. Kadar je osnovna mnoţica prevelika,

izberemo za raziskovanje samo manjši del – vzorec.

2. Osnovne mnoţice so lahko geografsko zelo raztresene. Ravnateljev osnovne

šole v Sloveniji ni veliko več kot petsto, vendar so raztreseni po vsek krajih

in vaseh po Sloveniji. Velikost te mnoţice ni prevelika ovira za empirično

raziskavo, geografska raztresenost pa je. Če bi šlo le za anketiranje po pošti,

potem bi ne bilo pretirano teţko v raziskavo vključiti prav vseh ravnateljev.

Če pa bi ţeleli anketirati ravnatelje neposredno, bi morali potovati v več kot

petsto krajev (v mnoge zaradi enega samega anketiranca). Kadar je osnovna

mnoţica geografsko preveč raztresena, izberemo za raziskovanje samo

manjše geografsko področje (npr. ravnatelji v ljubljanski regiji, ali na

Koroškem itd.).

3. Osnovne mnoţice na pedagoškem področju se pogosto pojavljajo v več

zaporednih generacijah. Mnoţico vseh učencev, ki so se učili po nekem

učnem načrtu, sestavljajo vse generacije v času veljavnosti tega učnega

načrta. Če bi ţeleli v raziskavo zajeti celo mnoţico, bi morali ponavljati velik

del raziskovalnega postopka vsako leto, dokler bi veljal ta učni načrt. Po

nastopu zadnje generacije bi imeli podatke za celo osnovno mnoţico; šele

tedaj bi lahko obdelali zbrane podatke in zaključili raziskavo. Kadar je

osnovna mnoţica sestavljena iz več generacij, običajno izberemo za

raziskovanje samo eno generacijo (ali pa celo le del generacije).

Page 69: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

2. POSPLOŠEVANJE Z VZORCA NA OSNOVNO MNOŢICO

Povedali smo ţe, da nas v resnici zanima osnovna mnoţica in ne vzorec. Vsa

raziskovalna vprašanja se nanašajo nanjo. Splošnejša vprašanja pogosto

razčlenimo na več podrobnejših (bolj statističnih) vprašanj.

Tabela 45. Razčlenitev raziskovalnih vprašanj

splošnejša raziskovalna vprašanja podrobna raziskovalna vprašanja

kakšna je osnovna mnoţica? kakšna je aritmetična sredina

osnovne mnoţice?

kakšen je odstotek nekega pojava v

osnovni mnoţici?

kakšna je varianca v osnovni

mnoţici (ali standardni odklon)?

kakšen je korelacijski koeficient v

osnovni mnoţici?

ali se osnovne mnoţice razlikujejo? ali se aritmetične sredine osnovnih

mnoţic razlikujejo?

ali se strukturni odstotki osnovnih

mnoţic razlikujejo?

ali se variance osnovnih mnoţic

razlikujejo?

ali se korelacijski koeficienti

osnovnih mnoţic razlikujejo?

Najpogosteje torej ţelimo ugotoviti, kakšna je vrednost nekega parametra v

osnovni mnoţici. Če bi podatke za osnovno mnoţico imeli, bi parameter

kratkomalo izračunali. Ker pa teh podatkov nimamo, moramo na podlagi

parametra v vzorcu oceniti, kakšen je parameter osnovne mnoţice. Zato ta

postopek posploševanja imenujemo ocenjevanje parametrov.

Morda so še pogostejša vprašanja, ali se osnovne mnoţice razlikujejo.

Najpogosteje si jih zastavljamo o dveh mnoţicah (npr. ali se razlikuje povprečna

štipendija študentov filozofske fakultete in ekonomske fakultete?). Kot

izhodišče tega postopka postavimo hipotezo, da se osnovni mnoţici ne

razlikujeta. V takšnem primeru bomo imeli dva vzorca in iz njune razlike bomo

poskusili ugotoviti ali se razlikujeta tudi osnovni mnoţici. Takšen postopek

posploševanja imenujemo preizkušanje hipotez.

Page 70: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

3. REPREZENTATIVNOST VZORCA

Najpomembneje pri izbiri vzorca je, da si zagotovimo dobro reprezentativnost.

Reprezentativnost vzorca je lastnost, da je vzorec podoben osnovni mnoţici, iz

katere je izbran. Glede na to, da so v vzorcu samo enote iz osnovne mnoţice (in

nobene druge), je vzorec vedno podoben osnovni mnoţici. Čim bolj ji je

podoben, tem bolj je reprezentativen - ima večjo reprezentativnost. Seveda

ţelimo, da bodo ugotovitve o osnovni mnoţici, dobljene na podlagi vzorca, čim

bolj trdne (resnične, veljavne). Zato je dobro, da je vzorec kar najbolj podoben

osnovni mnoţici; da je kar najbolj reprezentativen. Običajno ne bo zadosti, da je

vzorec podoben osnovni mnoţici le po eni spremenljivki. Ţelimo, da ji je

podoben po vseh tistih spremenljivkah, ki jih proučujemo; še najbolje bi bilo kar

po vseh – tudi tistih, ki jih ne proučujemo! Za laţje razumevanje nadaljnje

razprave, bomo situacijo poenostavili in začasno obravnavali podobnost po eni

sami lastnosti.

Na reprezentativnost vzorca vplivajo v splošnem trije dejavniki:

razpršenost spremenljivke v osnovni mnoţici,

velikost vzorca,

način, kako je vzorec izbran.

O razpršenosti spremenljivke v osnovni mnoţici

Če se bodo enote v osnovni mnoţici razlikovale med seboj, se bodo razlikovale

tudi enote izbrane v vzorec. Zaradi tega se bo vzorec v splošnem razlikoval od

osnovne mnoţice. Čim bolj se bo razlikoval, tem manjša bo reprezentativnost.

Če bodo enote v osnovni mnoţici bolj različne, se bo nasploh tudi vzorec bolj

razlikoval od osnovne mnoţice. Če bodo razlike med enotami majhne, se tudi

vzorec ne bo mogel zelo razlikovati od osnovne mnoţice. Zamislimo si skrajni

primer, da bi bile vse enote v osnovni mnoţici enake. Tedaj bi bile tudi vse

enote v vzorcu enake in bi bil vzorec enak kot osnovna mnoţica (seveda le glede

te spremenljivke). Reprezentativnost tega vzorca bi bila popolna. Tedaj bi bilo

vseeno, katere enote bi izbrali v vzorec, saj bi bili vsi vzorci enaki. Tudi to,

kako velik vzorec bi izbrali, ne bi vplivalo na reprezentativnost.

O velikosti vzorca

Čim večji del osnovne mnoţice je izbran v vzorec, tem bolj bo vzorec podoben

osnovni mnoţici. Najmanj reprezentativen bo vzorec, v katerem bo le ena enota

(numerus vzorca je ena); najbolj reprezentativen pa vzorec, v katerem so vse

enote iz osnovne mnoţice (numerus vzorca je enak numerusu osnovne

mnoţice). V tem drugem primeru bi bila reprezentativnost vzorca popolna –

vzorec bi bil enak osnovni mnoţici. Z vidika reprezentativnosti bi bila to

najboljša rešitev; vendar v tem primeru ne bi od vzorčenja imeli nikakršne

koristi. Z vidika reprezentativnosti bi bilo dobro imeti kar največje vzorce, z

Page 71: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

vidika ekonomičnosti pa kar najmanjše. Pri določanju velikosti vzorca bo

potemtakem vedno treba upoštevati oboje – reprezentativnost in ekonomičnost.

Večinoma v pedagoških raziskavah predstavljajo vzorci komaj nekaj odstotkov

osnovne mnoţice.

O načinu izbora enot v vzorec

Problem reprezentativnosti je na prvi pogled zelo preprosto rešljiv: v vzorec je

treba izbrati tiste enote, ki bodo kar najbolje predstavljale osnovno mnoţico.

Toda, katere so te enote? O osnovni mnoţici, namreč, ne vemo ničesar

natančnega. Če bi osnovno mnoţico dobro poznali, ne bi potrebovali vzorca.

Kakšna je osnovna mnoţica, bomo izvedeli šele na podlagi vzorca (pa še takrat

ne popolnoma natančno). Zatorej nekakšno “tehtanje” in presojanje, katere enote

osnovne mnoţice bi izbrali v vzorec, sploh ne pride v poštev. Kako lahko

izberemo enote v vzorec? V praksi se uporablja več načinov izbora enot.

4. IZBIRANJE VZORCEV

Osnovni način izbora vzorcev je slučajnostni izbor (podrobno bo opisan

pozneje). Ta je tako pomemben, da pogosto delimo vse načine izbora na:

1. slučajnostni izbor in

2. neslučajnostni izbor.

V literaturi srečamo tudi mnoţinsko obliko: slučajnostni izbori in neslučajnostni

izbori, ali pogosteje slučajnostni izbor in neslučajnostni izbori. Tukaj bomo

uporabili malo podrobnejšo delitev, ki nam bo nazorno izrazila načelne razlike

med izbori:

1. slučajnostni izbor,

2. sistematični izbor,

3. namenski izbor,

4. priloţnostni izbor.

Načinov izbora je še več, našteti so le najbolj značilni.

Slučajnostni izbor

Slučajnosten je tisti izbor, pri katerem imajo vse enote osnovne mnoţice enako

moţnost, da so izbrane v vzorec (enako verjetnost izbora). To lahko enotam

osnovne mnoţice zagotovimo z ţrebanjem. Moţni sta vsaj dve tehniki izvedbe

tega izbora.

Pri neposrednem loterijskem načinu (neposrednem ţrebanju) imamo v bobnu

lističe z imeni ali zaporednimi številkami vseh enot osnovne mnoţice. Iz dobro

premešanega bobna izvlečemo toliko lističev, kolikor naj bo numerus vzorca.

Page 72: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Izbrane enote sestavljajo vzorec. Ta postopek je zamuden in tehnično zahteven.

Zato se v praksi uporablja preprostejši način s posrednim ţrebanjem, kjer je

ţrebanje opravljeno vnaprej. V bobnu so lističi s števkami od nič do devet (0, 1,

2, 3, 4, 5, 6, 7, 8 in 9). Iz dobro premešanega bobna izvlečemo listek, zapišemo

izvlečeno števko v tabelo, listek pa damo nazaj v boben. Postopek ponavljamo

tako dolgo, da dobimo zadosti obseţno tabelo. To je tabela slučajnostnih številk,

ki jo pozneje uporabljamo za vse slučajnostne izbore. Ker je nastala z

ţrebanjem, izpolnjuje zahtevo slučajnostnega izbora (da morajo imeti vse enote

enako moţnost izbora v vzorec). Majhen izsek takšne tabele je prikazan spodaj

(večja tabela, za praktično rabo, je v prilogah).

Tabela 46. Slučajnostne številke

20273 66112 42160 71570 40689 41855

93257 62870 24815 03249 34851 75166

40673 53621 82990 72743 68947 38251

52077 48621 08041 53720 37108 85326

61262 42705 49049 72566 63821 09564

34760 41953 72195 38520 65530 85195

Iz tabele jemljemo zaporedne številke; enote s temi številkami so izbrane v

vzorec. Prikazali bomo uporabo tabele s primerom.

Iz osnovne mnoţice z numerusom 50 000 bomo izbirali vzorec (to je lahko, npr.

mnoţica vseh študentov ljubljanske univerze). Ker je numerus petmestno

število, bomo iz tablice jemali petmestna števila. To lahko delamo po vrsti z

leve proti desni, ali z desne proti levi, ali od spodaj navzgor itd. Če začnemo z

leve, bomo kot prvo izbrali enoto št. 20273, nato 66112, 42160 itd. Ker imajo

enote osnovne mnoţice na seznamu le številke od 1 do 50 000, bomo morali

preskočiti številko 66112 in vse ostale večje od 50 000 (takšnih enot v osnovni

mnoţici ni). Da ne bi prehitro izčrpali tabele, se lahko premikamo vsakokrat le

za eno mesto: tako bi izbrali 20273, nato 02736, nato 27366, 73661, 36611,

66112 itd. Poglejmo na še manjšem izseku tabele:

Tabela 47. Izbiranje enot

prva izbrana enota 20273 66112 42160 71570 40689 41855

druga izbrana enota 20273 66112 42160 71570 40689 41855

tretja izbrana enota 20273 66112 42160 71570 40689 41855

četrta izbrana enota 20273 66112 42160 71570 40689 41855

peta izbrana enota 20273 66112 42160 71570 40689 41855

šesta izbrana enota 20273 66112 42160 71570 40689 41855

itd 20273 66112 42160 71570 40689 41855

Spet bi izpustili vse prevelike številke in uporabili samo manjše od 50 000.

Tako bi izbirali, dokler ne bi dobili vzorca z ţeljenim numerusom. Najmanj, kar

Page 73: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

torej za slučajnostni izbor potrebujemo, je tabela slučajnostnih številk in

oštevilčeni seznam enot osnovne mnoţice. Tabele slučajnostnih številk nam ni

treba narediti, saj takšne tabele vsebuje vsak dober priročnik iz statistike.

Za nas sta največjega pomena dve lastnosti slučajnostnih vzorcev.

1. Le za slučajnostni vzorec je moţno matematično izraziti razmerje med

osnovno mnoţico in vzorcem. To so statistične metode vzorčenja, s

pomočjo katerih na podlagi vzorca ugotovimo, kakšna je osnovna

mnoţica. O tem pozneje več.

2. Reprezentativnost slučajnostnega vzorca je boljša kot pri drugih načinih

izbire vzorcev.

Za ilustracijo povejmo, da vsakdanji “slučajnostni” načini večinoma ne ustrezajo

merilom slučajnostnega izbora; npr. da vzamemo seznam enot osnovne

mnoţice, zapremo oči in s svinčnikom izbiramo enote – tiste, ki jih zadene

konica svinčnika so v vzorcu, ostale pa ne.

Sistematični izbor

Ker izvedba slučajnostnega izbora vendarle ni povsem preprosta, se v praksi

pogosto kot nadomestilo zanj uporabljajo različne vrste sistematičnega izbora:

intervalni izbor, izbor s pomočjo datuma rojstva itd. Pri takšnem izboru iz

osnovne mnoţice izberemo vse enote po nekem, vnaprej opredeljenem sistemu.

Podrobno bomo obravnavali le dva omenjena načina (povejmo še, da nekateri

avtorji izbor s pomočjo datuma rojstva štejejo kot poseben način izbora).

Pri intervalnem izboru potrebujemo oštevilčen seznam enot osnovne mnoţice.

Iz tega seznama izberemo enote po nekem intervalu, npr. vsako petnajsto enoto

ali vsako štirideseto enoto in podobno. Interval izbiranja dobimo tako, da

numerus osnovne mnoţice delimo z ţeljenim numerusom vzorca in zaokroţimo

na prvo manjše celo število. To število je interval izbiranja. Vedno zaokroţimo

navzdol, kajti če bi zaokroţili navzgor, bi dobili malo manjši vzorec od

ţeljenega.

Prikaţimo izvedbo sistematičnega izbora s primeroma.

Page 74: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Tabela 48. Izbira sistematičnih vzorcev

prvi primer

numerus osnovne mnoţice

N

numerus vzorca n interval izbiranja

50 000 200 50 000 : 200 = 250

v vzorec izberemo vsako dvestopetdeseto enoto iz osnovne mnoţice

drugi primer

numerus osnovne mnoţice

N

numerus vzorca n interval izbiranja

6580 100 6580:100=65,8

ali 65

v vzorec izberemo vsako petinšestdeseto enoto iz osnovne mnoţice

Ko smo tako določili interval, začnemo z izbiranjem enot iz seznama osnovne

mnoţice. Vendar ne začnemo kar s prvo enoto na seznamu. Začetek določimo

običajno z ţrebanjem: izţrebamo eno število izmed vseh števil prvega intervala

(v prvem primeru izmed vseh števil od 1 do 250, v drugem primeru izmed vseh

števil od 1 do 65). Kot prvo izberemo izţrebano enoto in potem po seznamu do

konca vsako, npr. petinšestdeseto. Izţrebamo lahko tudi katerokoli številko s

seznama, začnemo s to enoto, gremo z intervalom do konca seznama in nato od

začetka seznama do izhodiščne točke. V vsakem primeru moramo iti enkrat

skozi ves seznam.

Če se enote na seznamu ne nizajo po kakšnem sistemu, je sistematični izbor

dober nadomestek za slučajnostni izbor. Primer moţnosti kakšnega posebnega

nizanja enot na seznamu osnovne mnoţice bomo podrobneje ilustrirali. Povejmo

le, da se pri empiričnem raziskovanju vzgojnih pojavov le izjemoma srečamo s

takšnim pojavom.

Page 75: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Vojaške enote so navadno sestavljene po desetinah. Ko stojijo vojaki v vrsti, so

vedno postavljeni v desetini po velikosti od največjega do najmanjšega; enako v

naslednji desetini in tako do konca. Če bi bil seznam sestavljen po istem vrstnem

redu, bi lahko pri sistematičnem izboru dobili vzorec vojakov s slabo

reprezentativnostjo (vsaj kar zadeva telesno teţo, višino in podobne spremenljivke).

Pojasnimo zakaj. Recimo, da je bil interval izbiranja 40. Če smo začeli z vojakom, ki

je na seznamu z zaporedno številko 29, bomo naprej izbrali štev. 69, 109, 149 itd. Na

devetem mestu je vedno vojak z majhno telesno višino (v desetini je le eden še

manjši). Tako bi dobili same nizke vojake v vzorcu. Če raziskujemo pojave

neodvisne od telesne višine (npr. znanje tujih jezikov, poznavanje radiotelegrafije in

podobno) takšen dogodek verjetno ne bo pomenil neke posebne teţave za raziskavo.

Če pa raziskavo dela proizvajalec obutve, oblačil in podobne opreme za vojake, bo

dobil rezultate, ki bodo slabo odraţali stvarno stanje v osnovni mnoţici; posledično

bo narejena oprema v povprečju premajhna.

Izbor po datumu rojstva lahko tudi dobro nadomesti slučajnostnega. Sicer ne

zahteva seznama enot cele osnovne mnoţice, a vendarle - enote morajo poznati

svoj datum rojstva (ali pa npr. v vrtcu moramo imeti podatke o datumu rojstva

za vse otroke v osnovni mnoţici). V nekaterih primerih je to laţje dobiti kot pa

seznam vseh enot. Moţnih izvedb tega izbora je več, opisali bomo le

najpreprostejšo.

Kot datum rojstva jemljemo le dan v mesecu (zanemarimo leto in mesec). V

boben damo listke s številkami od 1 do 31 in izţrebamo potrebno število listkov.

Vsi z izţrebanim rojstnim datumom so v vzorcu, ostali pa ne. Lahko štejemo, da

je v povprečju na vsak datum rojenih pribliţno 3,2 % ljudi (31 datumov po 3,2

% je pribliţno 100 %). Nenatančnosti povezane z datumi v februarju in z 31. v

mesecu bomo zanemarili. Če ţelimo, da bo v vzorcu 10 % enot iz osnovne

mnoţice, bomo izbrali tri ali štiri datume (z malo sreče bi lahko ţe s tremi

datumi dobili pribliţno 10% enot; za vsak primer bi raje vzeli en datum več).

Reprezentativnost tako izbranega vzorca bo v splošnem zelo dobra (skoraj tako

dobra kot pri slučajnostnem vzorcu), saj večinoma vzgojni pojavi niso povezani

z datumom rojstva. Pa vendarle moramo biti tudi tukaj pazljivi. V sicer zelo

redkih primerih se nam znova lahko zgodi, da bo reprezentativnost slaba. Tudi

to bomo ilustrirali s primerom.

Ţeleli smo izbrati zelo majhen vzorec in nam je bil tudi en sam datum preveč. Npr.

izţrebali smo 16. dan v mesecu (seveda kateregakoli meseca in kateregakoli leta). Da

bi dobili ţeleni mali vzorec, smo se odločili, da bomo vzeli vse rojene 16. v mesecu

toda le na soda leta. Če gre za osnovno mnoţico učiteljev, je pravzaprav vseeno, ali

je nekdo rojen na sodo ali na liho leto: v čem bistvenem se razlikujejo učitelji rojeni,

npr. 1957. ali 1958. leta? Pri učiteljih bi bila takšna rešitev v splošnem ustrezna.

Page 76: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Kadar pa gre za učence, denimo prvega razreda osnovne šole, je lahko ta razlika

usodna za reprezentativnost vzorca. Letos (jesen 2002) so v prvem razredu učenci

rojeni leta 1995 in 1996. Če izberemo učence, rojene na sodo leto, bodo to tisti rojeni

1996, če izberemo rojene na liho leto, bodo to učenci rojeni 1995. V prvem primeru

dobimo v povprečju mlajše učence, v drugem pa starejše. Eno leto več ali manj se pri

tej starosti zelo pozna.

Ker je za naš vzorec vseh rojenih 16. v mesecu preveč, bomo morali odvečne enote

izločiti na kak drug način (npr. tako, da izberemo tiste, ki imajo sodo hišno številko).

Seveda moramo pri vsakem dodatnem pogoju znova paziti.

Namenski izbor

Pri tem izboru strokovnjak, ki pozna raziskovane pojave in raziskovano osnovno

mnoţico, izbere tiste enote v vzorec, za katere sodi, da bodo omogočili kar

najboljše posplošitve na osnovno mnoţico. Merilo, “da bodo omogočili kar

najboljše posplošitve”, ni enoznačno, tudi če ga razumemo kot “tipične enote”,

“povprečne enote” ali kaj podobnega. Običajno to izvajamo tako, da izbiramo

enote po neki, za našo raziskavo pomembni, lastnosti enot (npr. po predznanju,

ali po neki sposobnosti itd.). Seveda moramo v tej lastnosti poznati celo osnovno

mnoţico, da bomo lahko izbrali enote, ki bodo zanjo reprezentativne. Toda

dobra reprezentativnost v eni lastnosti ne pomeni samodejno tudi dobre

reprezentativnosti po ostalih lastnostih. Moţno je sicer doseči zelo visoko

reprezentativnost v izbrani lastnosti (celo višjo kot pri slučajnostnem izboru),

toda to nam ne zagotavlja hkrati dobre reprezentativnosti v ostalih. Zato so

takšni vzorci lahko zelo nevarni. Vsak tak izbor je v veliki meri subjektiven, to

pa je dejavnik, ki se zelo izmika kontroli, koliko dobljeni podatki v vzorcu

odraţajo stanje v osnovni mnoţici.. Takšni vzorci so uporabni le v zelo

omejenih primerih.

Priloţnostni izbor

Velikokrat imamo na pedagoškem področju vzorce, ki niso dobljeni z nobenim

od opisanih načinov izbora. Opišimo nekaj takšnih pogostejših primerov.

Tabela 49. Priloţnostni vzorci

učitelj dela akcijsko

raziskavo o obremenjenosti

učencev z učenjem doma

raziskavo opravi na učencih svojega

oddelka, to pojmuje kot populacijsko

raziskavo in ne posplošuje rezultatov na

neko širšo mnoţico (osnovno mnoţico)

učence svojega oddelka pojmuje kot

vzorec iz neke osnovne mnoţice; to je

seveda priloţnostno izbran vzorec

Page 77: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

študentka pedagogike

raziskuje stališča učencev

osmega razreda OŠ

za vzorec vzame učence osmega razreda

ene same osnovne šole (običajno tiste, kjer

je sama bila nekaj let prej učenka – saj jo

osebje šole pozna in veliko laţje dobi

dovoljenje za zbiranje podatkov);

takšen vzorec je priloţnostni

šolski pedagog raziskuje

delovne navade učencev

za vzorec vzame učence, npr. enega

oddelka na svoji osnovni šoli; takšen

vzorec je priloţnostni

raziskovalec na

andragoškem inštitutu

raziskuje neke probleme

nezaposlenih

za vzorec vzame vse nezaposlene,

prijavljene na zavodu za zaposlovanje v

enem kraju; takšen vzorec je priloţnostni

Vprašajmo se, ali ima vzorec, v katerem so učenci enega (konkretnega) oddelka

osmega razreda, kakšno reprezentativnost za osnovno mnoţico vseh učencev

osmega razreda v Sloveniji. Odgovor je nedvoumen: ima! Ţe to, da so učenci v

vzorcu hkrati enote cele osnovne mnoţice, zagotavlja vzorcu neko

reprezentativnost (v takšnem priloţnostnem vzorcu ni nikogar, ki sicer ni ţe v

tej osnovni mnoţici!). Zato bi bilo bolje vprašati: kakšna je reprezentativnost

tega vzorca? Običajno reprezentativnost priloţnostnih vzorcev niti zdaleč ne

dosega reprezentativnosti slučajnostnih vzorcev. V splošnem so glede

reprezentativnosti priloţnostni vzorci veliko slabši kot slučajnostni ali

sistematični vzorci; slabši so tudi od namenskih. Za resnejše raziskave (npr. za

znanstvene namene) takšni vzorci ne ustrezajo.

Največji problem priloţnostnih vzorcev je v tem, da se ne da matematično

opisati razmerja med priloţnostnim vzorcem in osnovno mnoţico. Zato ni

mogoče uporabiti statističnih metod za posploševanje s takšnega vzorca na

osnovno mnoţico. Pa vendar – tudi tukaj nekakšne moţnosti obstajajo (o tem

več v poglavju o hipotetičnih osnovnih mnoţicah).

Enostopenjsko in večstopenjsko vzorčenje

Pri enostopenjskem vzorčenju ţe takoj na prvi stopnji dobimo enote in s tem cel

vzorec. Tako so, npr. pri enostopenjskem slučajnostnem vzorčenju v bobnu za

ţrebanje vse enote osnovne mnoţice in izbiramo neposredno te enote. Vzorec pa

lahko izberemo tudi po več stopnjah: na prvi stopnji izbiramo večje celote

(podmnoţice) in šele iz teh posamezne enote. Opisali bomo nekaj primerov

večstopenjskega izbiranja vzorcev iz prakse.

Tabela 50. Večstopenjsko izbiranje vzorcev

Page 78: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

osnovna mnoţica prva stopnja druga stopnja tretja stopnja

dijaki, ki se vpisali na

srednješolske

programe z omejenim

vpisom (na podlagi

izbirnega postopka) v

šolskem letu 1993/94

iz seznama

srednjih šol z

omejenim vpisom

je bilo izţrebano

16 šol

na izbranih šolah

je bil izbran s

sistematičnim

izborom vsak

četrti dijak

ni je bilo

učitelji razrednega

pouka na OŠ v

šolskem letu

1991/1992

iz seznama vseh

občin v Sloveniji

je bilo izţrebano

10 občin

v teh občinah sta

bili od vseh šol

izţrebani po dve

šoli

na izţrebanih

šolah je bil izbran

vsaki tretji učitelj

učenci osmega razreda

OŠ v šolskem letu

1996/97

iz seznama vseh

OŠ je bila izbrana

vsaka

petindvajseta šola

na izbranih šolah

je bilo izţrebano

po deset učencev

ni je bilo

Kakšen smisel ima večstopenjsko vzorčenje, bomo prikazali na prvem primeru

iz tabele. Če bi vzorčili slučajnostno in enostopenjsko, bi morali imeti seznam

vseh dijakov (okoli 10 000 dijakov). Ko bi izţrebali pribliţno 500 dijakov v

vzorec, bi dobili dijake raztresene praktično po vsej Sloveniji. Na nekatere

srednje šole bi bilo treba iti, npr. le zaradi enega ali dveh izbranih dijakov.

Običajno je takšen okvir vzorčenja za praktično izvedbo prezahteven in zaradi

velikih stroškov teţko uresničljiv. Pri opisanem dvostopenjskem postopku je

bilo treba obiskati samo šestnajst šol. V primeru z učitelji razrednega pouka je

bilo treba obiskati le dvajset šol (v Sloveniji je vseh osnovnih šol več kot

petsto).

Večstopenjsko vzorčenje pomeni velik prihranek časa za zbiranje podatkov v

vzorcu. Na prvi pogled je pri večstopenjskem vzorčenju več dela. Pri

enostopenjskem dobimo enote takoj pri prvem izbiranju, pri večstopenjskem pa

moramo izbirati večkrat zapored. Ne smemo pa pozabiti, da je določanje enot za

vzorec le majhen delček vsega, kar moramo narediti. Glavno delo pride na vrsto,

ko je treba izbrane enote zares poiskati in preučiti: anketirati, testirati, izmeriti

telesno višino, teţo in podobno.

Seveda bomo večjo ekonomičnost plačali z zmanjšano reprezentativnostjo

dobljenega vzorca. Večstopenjski vzorci imajo v splošnem slabšo

reprezentativnost. Čim več je stopenj, tem slabša je reprezentativnost. V

raziskovalni praksi je treba vsakokrat čim bolj natančno presoditi, kakšna je

reprezentativnost večstopenjskega vzorca v primerjavi z enostopenjskim. Od

tega je odvisna veljavnost pridobljenih podatkov in s tem cele raziskave.

Kadar bo osnovna mnoţica geografsko obsegala vso Slovenijo, ali pa večjo

regijo, bo pogosto treba večstopenjsko vzorčiti, sicer pa običajno ne. In raziskav,

kjer bi bile osnovne mnoţice tako obseţne, ni prav veliko.

Page 79: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Izbiranje s ponavljanjem

Pri slučajnostnem izboru s pomočjo tabele slučajnostnih številk se lahko zgodi,

da dobimo dvakrat isto številko in s tem isto enoto (ali celo še več kot dvakrat).

Verjetnost, da se to zgodi, je zelo majhna; zgodi se pa vendarle lahko. Tudi pri

neposrednem ţrebanju enot iz osnovne mnoţice se to lahko zgodi, če po vsakem

vlečenju listek s številko enote vrnemo v boben in naslednji listek izvlečemo

spet iz polnega bobna. Kaj narediti v takšnem primeru? Ponovno izbrano enoto

lahko vključimo v vzorec ali pa tudi ne. Če enoto vključimo v vzorec dvakrat

(ali celo večkrat), govorimo o vzorcih s ponavljanjem, če je vsaka enota lahko v

vzorcu samo enkrat, pa o vzorcih brez ponavljanja.

Matematika (statistika) bo ta pojav neznansko zanimal in ga bo vsekakor

poskušal preučiti na ravni prakse in teorije. Še zlasti, npr. moţnost, da se to

zgodi še tretjič, četrtič ali celo vsakokrat! Seveda so ti pojavi v matematiki

zdavnaj opisani in dobro preučeni.

Kaj pa takšen pojav pomeni za nas pedagoge, ki statistične metode uporabljamo

za preučevanje vzgojnih pojavov? Pomislimo na stvarni pomen ponovno

izvlečene enote. To je v konkretnem primeru nek učenec, učitelj, šola, učbenik

ali kaj podobnega. Kaj nam lahko, pri raziskovanju vzgojnih pojavov, “novega

pove” ponovno izvlečeni učenec? Saj bo ţe tako v vzorcu, z vsemi svojimi

podatki vred! In kaj pridobimo s tem, da iste podatke dvakrat upoštevamo?

Vsekakor bi bilo bolje, če bi namesto ponovno izbranega učenca izbrali nekega

drugega. Zato na pedagoškem področju uporabljamo praktično samo vzorce brez

ponavljanja.

Veliki in mali vzorci

Običajno imajo vzorci v pedagoških raziskavah od nekaj deset enot pa do nekaj

sto enot; vzorci z več kot tisoč enotami so zares redki. Če bi nas v neki raziskavi

zanimale, npr. le ocene učencev na prehodu iz razredne stopnje na predmetno

stopnjo osnovne šole, ne bi bilo pretirano teţko obdelati vzorca, ki bi imel celo

nekaj tisoč enot. Podatke bi izpisovali iz šolske dokumentacije in bi bilo skoraj

vseeno, ali na šoli vzamemo nekaj deset učencev ali pa vse učence. Dela bi bilo

le malo več – podobno tudi pozneje pri vnašanju teh podatkov v računalnik. V

takšnih primerih bi se lahko odločili za zelo velike vzorce. Ker pa pogosto

raziskave ne zajemajo tako preprostih empiričnih podatkov, zares veliki vzorci

ne bodo pogost pojav. Največkrat velikosti vzorcev ne presegajo nekaj sto enot.

Tudi laiku je jasno, da je kakršnokoli posploševanje na osnovno mnoţico tem

bolj zanesljivo, čim večji so vzorci (s tega vidika bi bilo najbolje vzeti kar celo

osnovno mnoţico!). Ekonomičnost dela je z druge strani v prid manjšim

vzorcem. Končna odločitev je vedno odvisna od konkretnih okoliščin vsake

raziskave.

Page 80: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Pri manjših vzorcih nasplošno moramo biti bolj previdni in zato bolj dosledni pri

upoštevanju vseh okoliščin vzorčenja. Načeloma veljajo za manjše in večje

vzorce enake statistične metode. Vendar je praksa pokazala, da pri večjih

vzorcih lahko brez večje škode postopke poenostavimo. Kadar je to opravičeno

in moţno, to tudi zares storimo. Zato v praksi razlikujemo velike in male vzorce.

Ostre meje med njimi ni. Za nekatere postopke velja meja trideset: vzorce z

manj kot tridesetimi enotami štejemo kot male, z več kot tridesetimi enotami pa

kot velike; za nekatere postopke je ta meja sto enot (ali pa celo še več).

Za male in velike vzorce lahko uporabimo rigorozne metode: za male je to

obvezno, za velike pa stvar odločitve (običajno se odločimo za poenostavljene

metode).

Povejmo to enostavno: če je neka metoda uporabna za male vzorce, je tudi za

velike – saj so veliki vsaj takšni kot mali (vsaj tako “dobri”). Obratno pa ne

velja, saj, kar je dopustno za velike vzorce, ni vedno dopustno tudi za male.

Odvisni in neodvisni vzorci

Pri postopkih primerjave dveh osnovnih mnoţic se srečamo s pojavom odvisnih

in neodvisnih vzorcev. Če se pri izbiri vzorca iz druge mnoţice ne oziramo na

to, kako smo izbrali vzorec iz prve mnoţice, dobimo neodvisna vzorca. Takšna

vzorca imata običajno različen numerus, lahko pa imata tudi enakega (to tukaj ni

bistveno).

Odvisne vzorce dobimo, kadar se pri izbiri drugega vzorca ravnamo po tem,

kako je bil izbran prvi vzorec. Najpogosteje dobimo odvisne vzorce na dva

načina:

1. Iz prve osnovne mnoţice izberemo neko enoto za prvi

vzorec. Nato v drugi osnovni mnoţici poiščemo

čimbolj podobno enoto. Ti enoti tvorita par dveh kar

najbolj izenačenih enot. Drugo enoto uvrstimo v drugi

vzorec. Tako nadaljujemo, dokler ne dobimo vzorcev z

ţeljenim numerusom. Takšna vzorca sta odvisna.

Rezultati enega vzorca so odvisni od rezultatov

drugega. Vzorca imata tudi enak numerus (saj sta

sestavljena iz parov). Takšen postopek imenujemo

postopek izbiranja po parih (ali še pogosteje:

izenačevanje po parih). Tudi, če bi enote za prvi

vzorec izbirali slučajnostno, za drugega ne bi mogli.

Zato to niso običajni slučajnostni vzorci. Uporabljamo

jih za posebne namene; običajno takrat, ko bi radi

dobili dve zelo izenačeni skupini (kot vzorca).

Izenačene skupine na začetku neke vzgojne akcije

omogočajo boljšo primerjavo na koncu. Zato odvisne

vzorce le redko izbiramo na prej opisani način.

Page 81: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Običajno to naredimo tako, da izbiramo pare iz neke

mnoţice in jih nato razdelimo na dve skupini. Ti

skupini pozneje pojmujemo kot vzorca iz dveh

hipotetičnih mnoţic. Zato so odvisni vzorci poseben

primer namenskega vzorčenja. Ker gre v resnici za

teţnjo izenačiti vzorca, se ta postopek imenuje tudi

izenačevanje po parih.

2. Pri istih učencih dvakrat ponovimo neko merjenje

(npr. testiranje znanja, anketiranje itd); recimo pred

neko vzgojno akcijo in po njej. Tako predstavlja vsak

učenec par sam s seboj. Iste učence na začetku

pojmujemo kot en vzorec, pri drugem merjenju pa kot

drugi vzorec. To sta odvisna vzorca; ta sta še bolj

podobna in odvisna kot pri izenačevanju po parih.

Odvisni vzorci se drugače obnašajo kot neodvisni. Glavna razlika je v tem, da so

standardne napake za odvisne vzorce manjše kot za neodvisne. Ta korist je tem

večja, čim bolje nam uspe izenačevanje parov. To lahko presodimo po višini

korelacije med rezultati obeh vzorcev (čim bolje je uspelo izenačevanje, tem

močnejša je korelacija). Redki so primeri odvisnih vzorcev, kadar gre za večje

vzorce. Skoraj brez izjem gre pri odvisnih vzorcih za male vzorce.

5. ENOSTAVNI SLUČAJNOSTNI VZOREC

To je vzorec, na katerem temeljijo vse statistične metode. Le za ta vzorec veljajo

vse statistične metode, ki jih bomo spoznali v nadaljevanju. Enostavni

slučajnostni vzorec je izbran slučajnostno in sicer enostopenjsko (za nas tudi:

brez ponavljanja). Seveda ne bomo vedno imeli takšnih vzorcev. Statistične

metode, ki so razvite za enostavne slučajnostne vzorce, bomo uporabili tudi za

vzorce, ki tega dobro nadomeščajo – torej predvsem za sistematične.

Reprezentativnost sistematičnih vzorcev je praktično enaka reprezentativnosi

slučajnostnih vzorcev. Razlike so zanemarljive, zato bodo napake pri uporabi

istih statističnih postopkov tudi za sistematične vzorce neznatne in zanemarljive!

To pa ne velja za priloţnostne vzorce.

6. POSPLOŠEVANJE NA HIPOTETIČNO OSNOVNO MNOŢICO

Kadar imamo priloţnostne vzorce, smo glede posploševanja na osnovno

mnoţico v slabem poloţaju; na prvi pogled v popolnoma brezizhodnem. Ni

statističnih metod, ki bi omogočale posplošitve s takšnih vzorcev. Pa vendar,

rešitev obstaja.

Za takšne primere si zamislimo neko povsem hipotetično osnovno mnoţico, iz

katere je ta (sicer priloţnostni) vzorec izbran slučajnostno. Ker zares ni bil

Page 82: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

izbran slučajnostno, je ta situacija samo hipotetična (in mnoţica tudi). Sedaj

lahko posplošujemo s tega vzorca na hipotetično mnoţico; enako kot s

slučajnostnega vzorca na neko stvarno osnovno mnoţico.

Kakšna je korist od posploševanja na neko hipotetično mnoţico? Za odgovor na

to vprašanje moramo razmisliti, kakšna je ta mnoţica. Ker je hipotetična, in ker

smo zamislili, da je bil vzorec iz nje slučajnostno izbran, je naš vzorec podoben

hipotetični osnovni mnoţici. Ali še bolje: hipotetična osnovna množica je

podobna našemu vzorcu. Vse ugotovitve, ki jih pridobimo na takšnih vzorcih, so

uporabne za vsako podobno mnoţico. Zato lahko vsak uporabnik takšnih

rezultatov raziskovanja presodi, koliko so mnoţice, s katerimi ima sam opravka,

podobne priloţnostnemu vzorcu iz takšnega raziskovanja. Če so, lahko

omenjena spoznanja s pridom uporabi; če niso, pa ne.

Priloţnostni vzorci in posploševanje na hipotetično osnovno mnoţico se

uporabljajo v manj pomembnih raziskavah, v pilotskih raziskavah (uvod v

kakšno zahtevnejšo raziskavo) itd. Najpogosteje jih uporabljajo študentje pri

svojih prvih raziskavah: pri seminarskih in diplomskih nalogah. Nesmiselno je

od študenta zahtevati prave slučajnostne vzorce; saj največkrat ne gre za

raziskave, ki naj bi pomembneje vplivale na vzgojno prakso.

Še eno razliko med priloţnostnimi in slučajnostnimi vzorci moramo opisati.

Kadar imamo slučajnostni vzorec in posplošujemo na stvarno osnovno mnoţico,

moramo čimbolj podrobno opisati osnovno mnoţico. Napisati je treba vse, kar o

njej vemo (ţe od prej) in je pomembno za razumevanje končnih rezultatov.

Vzorec tedaj lahko opišemo le s stavkom ali dvema. Pravzaprav je nujno

potrebno le navesti, da je bil iz opisane osnovne mnoţice slučajnostno izbran

vzorec z določenim numerusom. Kadar gre za priloţnostni vzorec in hipotetično

mnoţico, pa je situacija obratna. Natančno je treba opisati izbrani vzorec in le z

enim stavkom omeniti hipotetično osnovno mnoţico. Ilustrirajmo samo ta zadnji

stavek: "Rezultate posplošujemo na hipotetično osnovno mnoţico učiteljev,

podobnih učiteljem iz našega vzorca".

Zaključimo torej: vsak priloţnostni vzorec lahko obravnavamo kot slučajnostni,

če posplošujemo na hipotetično osnovno mnoţico.

7. OZNAKE ZA PARAMETRE

Na področju vzorčenja velja pravilo, da označujemo parametre osnovne mnoţice

z velikimi črkami, parametre vzorca pa z malimi črkami. Naţalost je to pravilo

teţko dosledno upoštevati, ker so bile nekatere oznake ţe od prej uveljavljene za

kaj drugega. Pravilo upoštevamo tam, kjer se le da. Poglejmo oznake za

najpogostejše parametre:

Page 83: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Tabela 51. Označevanje parametrov

parameter osnovna mnoţica vzorec

numerus N n

strukturni odstotek P % p %

aritmetična sredina

M

x

standardni odklon σ s

Pearsonov korelacijski

koeficient

r r

Spearmanov korelacijski

koeficient

ρ ρ

Torej bo treba ob oznaki korelacijskega koeficienta vedno na nek način

povedati, ali gre za podatek o osnovni mnoţici ali o vzorcu. Običajno se to vidi

iz besedila; če ne, je treba izrecno poudariti, za kateri parameter gre.

II. Ocenjevanje parametrov

Zanima nas, kakšna je vrednost nekega parametra v osnovni mnoţici. Gre v

glavnem za štiri parametre: strukturni odstotek, aritmetično sredino, varianco in

korelacijski koeficient. Seveda nas včasih zanimajo vrednosti tudi nekaterih

ostalih parametrov, a najpogosteje nam zadostujejo omenjeni štirje.

Če bi imeli podatke za vse enote osnovne mnoţice, bi vrednost parametra

preprosto izračunali; postopke računanja parametrov ţe dobro poznamo.

Vrednost parametra v osnovni mnoţici, ki bi jo dobili z izračunavanjem iz

podatkov vseh enot, imenujemo tudi prava vrednost parametra (parameter

osnovne mnoţice, populacijski parameter itd.). Ker podatkov za vse enote

osnovne mnoţice nimamo, ne moremo izračunati prave vrednosti parametra.

Imamo samo podatke za enote v vzorcu. Na podlagi teh podatkov lahko le

ocenimo, kakšna je vrednost parametra v osnovni mnoţici. Moţni sta dve

različni oceni parametra osnovne mnoţice: točkovna ocena in intervalna ocena.

Točkovno oceno dobimo tako, da izračunamo vrednost parametra v vzorcu in

trdimo, da je vrednost parametra osnovne mnoţice enaka tej. Prikaţimo nekaj

primerov točkovnega ocenjevanja.

Tabela 52. Točkovne ocene parametrov

podatki za vzorec vzorčni parameter parameter osnovne

mnoţice

v vzorcu n=130 je 36

učencev z odlično oceno

odstotek odličnjakov

p = 27,69%

P = 27,69%

testni rezultati aritmetična sredina

x = 36,75

M = 36,75

Page 84: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

podatki o telesni višini

dijakov

varianca

s2 = 125,45

σ2 = 125,45

testni rezultati za dva

predmeta

korelacijski koeficient

r = 0,66

r = 0,66

Če bi bila v vzorcu celotna osnovna mnoţica (kar je seveda nesmiselno), bi

točkovna ocena drţala. Ker pa je v vzorcu le del osnovne mnoţice, točkovna

ocena nasplošno ne drţi. Verjetnost, da je pravilna, je neznansko majhna

(praktično ničelna). Sicer je res, da točkovno oceno zelo preprosto pridobimo, a

je zaradi nezanesljivosti praktično neuporabna. Uporabimo jo lahko kvečjemu

kot sredstvo, da pridemo do bolj zanesljive ocene.

Ob točkovni oceni lahko spoznamo pojem tveganja v vzorčenju. Ta je namreč

stalni spremljevalec postopkov posploševanja z vzorca na osnovno mnoţico. Če

bi parameter osnovne mnoţice ocenili točkovno, bi tvegali praktično 100% - ţe

vnaprej bi namreč vedeli, da ocena ne bo pravilna. Moţnost, da imata vzorec in

osnovna mnoţica enak parameter, je zgolj teoretična. Vzorčni parameter pa ni

kakršenkoli. Če imamo vzorec z dobro reprezentativnostjo, bo vzorčni

parameter blizu parametru osnovne mnoţice. Kolikor bolj je vzorec podoben

osnovni mnoţici, toliko bolj je tudi njegov parameter “podoben” parametru

osnovne mnoţice (natančneje povedano: tem manjša je razlika med obema

parametroma). Pa vendar – enaka nista praktično nikdar!

Pojem intervalne ocene bomo predstavili s skrajnimi mejami iz prejšnjih

primerov.

Tabela 53. Intervalne ocene parametrov

podatki za vzorec vzorčni parameter parameter osnovne

mnoţice

v vzorcu n=130 je 36

učencev z odlično oceno

odstotek odličnjakov

p = 27,69%

od 0% do 100%

testni rezultati aritmetična sredina

x = 36,75

od 0 do neskončno

podatki o telesni višini

dijakov

varianca

s2 = 125,45

od 0 do neskončno

testni rezultati za dva

predmeta

korelacijski koeficient

r = 0,66

od –1 do +1

Poglejmo podrobneje prvo oceno. Ker odstotek odličnjakov v osnovni mnoţici

ne more biti manjši od 0% in ne večji od 100%, je takšen način ocenjevanja

popolnoma zanesljiv. Ocena odstotka v osnovni mnoţici je pravilna. Tveganja

pri takšnem ocenjevanju ni. Podobno velja za ostale tri parametre. Intervalna

ocena ima spodnjo in zgornjo mejo; trdimo, da je parameter osnovne mnoţice

med tema mejama.

Page 85: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Takoj je tudi vidno, da so ocene iz tabele nesmiselne in zato neuporabne. Vse

štiri ocene bi lahko postavili, ne da bi sploh imeli vzorec. V praksi ne bomo

uporabljali tako preprostega načina intervalnega ocenjevanja. Interval bo seveda

oţji, s tem bo pa gotovost, da je ocena pravilna, manjša. Pojavilo se bo tveganje,

da parameter osnovne mnoţice ni v tem intervalu. Čim širši bo interval, tem

manjše bo tveganje; čim oţji bo interval, tem večje bo tveganje. Oţji interval

pomeni bolj natančno oceno (skrajni primer je točkovna ocena), širši interval pa

manjše tveganje (skrajni primer je neskončno širok interval). Kompromis med

natančnostjo in zanesljivostjo ocene je pravilo, da tveganje ne sme biti večje od

5%. Tega pravila se v praksi drţimo brez izjem.

Da bi določili takšen interval, moramo poznati zakonitosti, ki veljajo za

razmerje med parametri osnovnih mnoţic in vzorcev.

III. Preizkušanje hipotez

Tako pogosto kot vrednost parametrov osnovne mnoţice nas zanima vprašanje,

ali se osnovne mnoţice razlikujejo. Ko govorimo o razlikah med mnoţicami,

mislimo na njihove parametre. Ali se aritmetične sredine osnovnih mnoţic

razlikujejo? Ali se strukturni odstotki razlikujejo? Ali se korelacijski koeficienti

razlikujejo itd.

Največkrat se omejimo na razliko dveh osnovnih mnoţic. To je namreč bolj

preprosto, kot če bi hoteli odgovoriti na vprašanje o več mnoţicah hkrati. Tudi

če imamo več mnoţic, si lahko primerjavo med parametri vedno razdelimo na

po dve in dve mnoţici in te dvojice primerjamo.

Če bi imeli podatke za cele osnovne mnoţice, bi, npr. izračunali njihove

aritmetične sredine in jih primerjali »na pogled«. Ţe najmanjša razlika med

sredinama pomeni, da se mnoţici razlikujeta. Te razlike ne bi bilo treba na

nikakršen dodatni način dokazovati. Dokazuje se sama!

Kadar pa imamo podatke le za dva vzorca iz teh osnovnih mnoţic, postopek ni

več tako preprost. Izračunane vzorčne aritmetične sredine same še ne povedo

dovolj o aritmetičnih sredinah osnovnih mnoţic. Tudi če sta vzorčni aritmetični

sredini različni, še ne moremo vedeti, ali se razlikujeta tudi aritmetični sredini

osnovnih mnoţic. Da res ne, si lahko razloţimo s preprostim premislekom: ţe,

če bi oba vzorca izbrali iz iste osnovne mnoţice, bi se njuni sredini razlikovali,

kaj šele, če ju izberemo iz različnih mnoţic. Zato bo potreben preizkus v tem

smislu: »Ali sta vzorčni sredini zadosti različni, da to potrjuje različnost

osnovnih mnoţic, ali ne?«.

Takšne statistične preizkuse imenujemo preizkusi ničelnih hipotez.

Za razvoj potrebnih statističnih postopkov si bomo zamislili mnoţico vseh parov

vzorcev iz obeh mnoţic. Večina ugotovitev, ki velja za parametre posameznih

Page 86: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

vzorcev, smiselno velja tudi za pare vzorcev in razlike njihovih parametrov.

Zato splošnega dela razlage ne bomo ponavljali. Preizkušanje hipotez bomo

spoznali ob konkretnih parametrih.

1. PREIZKUŠANJE HIPOTEZ O RAZLIKI MED ARITMETIČNIMI SREDINAMI Z

VELIKIMI ENOSTAVNIMI SLUČAJNOSTNIMI VZORCI

Sprašujemo se, ali sta aritmetični sredini osnovnih mnoţic različni. Vzorčni

sredini se prektično vedno razlikujeta; o sredinah osnovnih mnoţic pa tega še ne

vemo. Glede tega postavimo prvo hipotezo:

Aritmetični sredini osnovnih množic se ne razlikujeta.

To je ničelna hipoteza. Zapišemo jo lahko matematično na dva načina:

M1 – M2 = 0

ali tudi

M1 = M2

Zaenkrat še ne vemo, ali je pravilna. Šele preizkus bo pokazal, kolikšna je

verjetnost, da je pravilna in kolikšna je verjetnost, da ni pravilna. Nasproti tej

hipotezi postavimo še nasprotno hipotezo:

Aritmetični sredini osnovnih množic se razlikujeta.

Tabela 63. Primeri sklepov

primer napačen sklep pravilen sklep

Mitjo smo videli v kinu. To je dokaz, da je bil v kinu.

Mitje nismo videli v kinu. To je dokaz, da Mitja ni

bil v kinu.

Ne vemo, ali je bil v kinu ali

ni bil (mi ga pač nismo

videli).

Videli smo učiteljevo

pisno pripravo na pouk.

To je dokaz, da je učitelj

imel pisno pripravo.

Nismo videli učiteljeve

pisne priprave na pouk.

To je dokaz, da učitelj ni

imel pisne priprave.

Ne vemo, ali je učitelj imel

pisno pripravo ali ne.

Osumljenca so zalotili pri

dejanju.

To je dokaz, da je dejanje

storil.

Osumljenca niso zalotili

pri dejanju.

To pomeni, da je

nedolţen.

Ne vemo, ali je nedolţen ali

ne.

Page 87: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Zaradi navedenega se, kadar obdrţimo ničelno hipotezo, skrbno izogibajmo

kakršnikoli interpretaciji o osnovnih mnoţicah. Če ţe na vsak način hočemo kaj

povedati o razlikah, interpretirajmo vzorčne razlike (seveda s posebnim

poudarkom, da se to nanaša na vzorce in ne na osnovne mnoţice).

Takšen preizkus imenujemo kratko z-preizkus. V statistiki uporabljamo še več

podobnih preizkusov: t-preizkus, F-preizkus, χ2-preizkus itd. Z-preizkus je

orodje, s katerim preizkušamo ničelne hipoteze za aritmetične sredine velikih

vzorcev, pa tudi hipoteze o večini ostalih parametrov velikih vzorcev. Omenjene

tri kritične vrednosti iz tabele normalne porazdelitve ponekod označujejo takole:

Page 88: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

IV. χ2-preizkus

Le redko so vzgojni pojavi opisani s številskimi spremenljivkami; veliko

pogosteje z opisnimi (atributivnimi). Zato nam z-preizkus ne zadostuje.

Preizkušanje hipotez o aritmetičnih sredinah, o standardnih odklonih in

Pearsonovih korelacijskih koeficientih se nanaša le na številske spremenljivke.

Le preizkus hipotez o strukturnih odstotkih je uporaben tudi za opisne

spremenljivke. Vendar tudi s tem na mnoga vprašanja ne moremo odgovoriti.

Velikokrat nas zanima povezanost spremenljivk. Za številske spremenljivke

imamo na voljo več korelacijskih koeficientov, indeks korelacije in vzorčne

postopke, vezane na Pearsonov korelacijski koeficient (ti se lahko uporabijo tudi

za nekatere ostale korelacijske koeficiente, če so izpolnjeni določeni pogoji). Za

ugotavljanje povezanosti med samimi opisnimi spremenljivkami statistične

metode, ki smo jih doslej spoznali, niso ustrezne.

Preizkus, ki ga bomo spoznali v nadaljevanju, je zelo vsestranski in rešuje

mnoga vprašanja pri raziskovanju vzgojnih pojavov. Predvsem ga bomo

uporabili za preizkušanje dveh hipotez. To sta hipoteza neodvisnosti in hipoteza

enake verjetnosti.

1. PREIZKUŠANJE HIPOTEZE NEODVISNOSTI

Raziskujemo povezanost med dvema opisnima spremenljivkama. Sprašujemo

se, ali sta neki dve spremenljivki v osnovni mnoţici povezani. Seveda nimamo

podatkov za enote osnovne mnoţice, imamo pa vzorčne podatke za obe

spremenljivki. Vemo ţe, da nam podatki, urejeni v ustrezno strukturno tabelo,

veliko povedo o povezanosti med spremenljivkama. Če bi nas zanimal sam

vzorec, bi deloma lahko shajali s samimi strukturnimi odstotki. Vendar je v

središču našega raziskovanja cela osnovna mnoţica, o tej pa iz vzorčnih

podatkov ne moremo ničesar natančnega in zanesljivega povedati.

O stanju v osnovni mnoţici bomo postavili hipotezo neodvisnosti:

Spremenljivki sta v osnovni množici neodvisni.

To je posebna oblika ničelne hipoteze, saj pravi, da ni povezanosti med

spremenljivkama. Nasprotna tej hipotezi bi bila hipoteza, da sta spremenljivki v

osnovni mnoţici odvisni. Te nam izrecno ni treba postaviti, saj je skoraj vedno

enaka raziskovalni hipotezi. Vemo ţe, da z ničelno hipotezo ne mislimo povsem

resno; potrebujemo jo predvsem zaradi izvedbe statističnega postopka.

Page 89: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Hipotezo neodvisnosti bomo preizkusili s χ2-preizkusom. V preizkusu jo bomo,

ali zavrnili ali pa obdrţali (le prvi izid je ugoden). Poglejmo, kako poteka

preizkus.

Imamo podatke o dveh spremenljivkah za vzorec. Podatki so urejeni v

frekvenčni tabeli. Izbrali smo sorazmerno preprost in pogost primer s

pedagoškega področja: povezanost med spolom in stališčem. Njegova prepostost

je v tem, da ima neodvisna spremenljivka le dve kategoriji (moški-ţenske). Tudi

pri spremenljivki stališče

smo izbrali le tri kategorije (preprostejša je le še tabela 2x2).

Tabela 71. Frekvenčna tabela po spolu in stališču

sem za vseeno sem proti skupaj

moški 11 5 25 41

ţenske 43 16 20 79

skupaj 54 21 45 120

Ţe na pogled vidimo, da ţenske bolj soglašajo s tistim, kar je bilo v vprašanju.

Vendar so to podatki za vzorec. Kako je v osnovni mnoţici?

Frekvence, ki jih imamo v tabeli, so empirične ali stvarne frekvence (označimo

jih z fE). To pomeni, da odraţajo stvarno stanje med vprašanimi. Zaradi laţjega

razumevanja razlage bomo te frekvence preračunali v strukturne odstotke. Za

samo izvedbo preizkusa to ni potrebno, še več - gre za povsem nepotrebno delo!

Tabela 72. Odstotne frekvence

sem za vseeno sem proti skupaj

moški 26,8 12,2 61,0 100,0

ţenske 54,4 20,3 25,3 100,0

skupaj 45,0 17,5 37,5 100,0

Zamislili si bomo frekvence, ki bi jih pričakovali v tabeli, če bi veljala hipoteza

neodvisnosti. Če sta spol in stališče neodvisna, potem se odgovori ţensk in

moških v splošnem ne razlikujejo. Te frekvence bomo imenovali pričakovane ali

teoretične (fT). Kakšne frekvence pričakujemo? Poglejmo v prejšnji tabeli, npr.

frekvenco v levem spodnjem vogalu. To je odstotek tistih, ki so odgovorili »sem

za« v celi skupini (45,0%). Če se odgovori moških in ţensk ne razlikujejo,

potem mora biti odstotek tistih, ki sogašajo pri ţenskah in pri moških enak (in

sicer 45,0%). Tistih, ki jim je vseeno, mora biti pri obojih 17,5% in tistih, ki so

proti pri obojih 37,5%.

Pričakovane frekvence bodo torej takšne:

Tabela 73. Pričakovane frekvence

sem za vseeno sem proti skupaj

moški 45,0 17,5 37,5 100,0

Page 90: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

ţenske 45,0 17,5 37,5 100,0

skupaj 45,0 17,5 37,5 100,0

Stvarne in pričakovane frekvence se ne ujemajo. To pomeni, da je stvarnost

drugačna kot trdi hipoteza. Zakaj se stvarno in zamišljeno stanje razlikujeta?

Prvič je to lahko zaradi slučajnega izbora enot v vzorec. Zaradi slučajnih

vplivov bo stanje v vzorcu vedno nekoliko drugačno kot v osnovni mnoţici. Te

razlike so predvidljive. Drugi vir razlik je lahko v tem, da stanje v osnovni

mnoţici ni takšno, kot trdi hipoteza neodvisnosti. Enostavno rečeno: moški in

ţenske se lahko v vzorcu razlikujejo zaradi slučajnih vplivov in zaradi tega, ker

se razlikujejo ţe v osnovni mnoţici. Na takšnem premisleku temelji naš

preizkus. Preprosto povedano: če bodo razlike med stvarnimi in pričakovanimi

frekvencami majhne, bomo sklepali: verjetno temeljijo na slučaju. Če bodo

razlike med temi frekvencami velike, bomo sklepali, da verjetno temeljijo na

razliki v osnovni mnoţici. Pri zadosti velikem razhajanju med frekvencami

bomo zavrnili hipotezo neodvisnosti in trdili, da je tudi v osnovni mnoţici

stališče odvisno od spola.

Izmeriti moramo razhajanje med stvarnimi in pričakovanimi frekvencami.

2. PREIZKUŠANJE HIPOTEZE ENAKE VERJETNOSTI

Anketiranci so, npr. odgovarjali na neko anketno vprašanje. Zanima nas, ali v

osnovni mnoţici kateri od odgovorov prevladuje. Imamo podatke za vzorec in

vidimo, da so frekvence odgovorov različne. Za neke odgovore se je odločilo

več anketirancev kot za druge. Običajno je tako; le izjemoma bi vsi odgovori

imeli enako frekvenco. Če bi nas zanimal vzorec, bi ţe na pogled iz frekvenc

lahko odgovorili na naše vprašanje. Če so frekvence enake, pomen, da noben

odgovor ne prevladuje in da so torej vsi enako pogosti. Če so frekvence

odgovorov različne, pomeni, da se več ljudi strinja z enimi odgovori kot pa z

drugimi. Teh sklepov ne bi bilo treba kako drugače dokazovati; oprli bi jih

neposredno na frekvence. Ilustrirajmo to s primeroma.

Študente četrtega letnika smo vprašali, kam bi šli na absolventski izlet.

Moţni odgovori so bili trije. Imamo frekvence za ta letnik:

A. Egipt 12

B. Sicilija 21

C. Španija 6

Page 91: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Nedvomno je, da največ študentov iz tega vzorca ţeli na Sicilijo, najmanj

pa v Španijo. To dejstvo je neizpodbitno. Ni ga potrebno dokazovati še na

kakšen način.

Če bi dobili odgovore:

D. Egipt 12

E. Sicilija 12

F. Španija 12

bi to spet neizpodbitno pomenilo, da so odgovori v vzorcu enakomerno

porazdeljeni. Tudi tega ne bi dodatno dokazovali.

Ne zanima nas vzorec, temveč osnovna mnoţica, iz katere je izbran. Zato zgolj

na pogled iz vzorčnih frekvenc ne moremo dovolj zanesljivo vedeti, kakšno je

stanje v osnovni mnoţici. Za to bo spet potreben χ2-preizkus.

Postavimo hipotezo enake verjetnosti:

Vsi odgovori v osnovni množici so enako verjetni.

Če bi hipoteza enake verjetnosti drţala, bi pričakovali v tabeli enake frekvence

vseh odgovorov. Spet bo preizkus hipoteze temeljil na razhajanju med stvarnimi

in pričakovanimi frekvencami.

V. Koeficienti kontingence

S χ2 -preizkusom hipoteze neodvisnosti smo samo ugotovili, da sta spremenljivki

v osnovni mnoţici odvisni. Ne vemo pa, kako močna je njuna odvisnost.

Potrebujemo mero, podobno korelacijskim koeficientom. Takšno mero lahko

dobimo iz vrednosti χ2 . Ta je temeljila na stopnji razhajanja med stvarnimi in

pričakovanimi frekvencami. Čim bolj se te razhajajo, tem večja je povezanost

med spremenljivkama v vzorcu. Na posreden način je ţe χ2 meril stopnjo

povezanosti. Koeficiente povezanosti med opisnimi spremenljivkami bomo

imenovali kontingenčni koeficienti.

Vendar je med kontingenčnimi koeficienti in χ2 – preizkusom neka še bolj

bistvena razlika. Preizkus χ2 se nanaša na povezanost spremenljivk v osnovni

množici. Čeprav je izračunan iz podatkov vzorca, odgovarja samo na vprašanje

o osnovni mnoţici (kot sicer vsi preizkusi in tudi ocenjevanje parametrov). V

Page 92: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

raziskavi, ki ni vzorčna, uporaba χ2 – preizkusa nima smisla. Toda tudi v takšni

raziskavi izračunamo vrednost χ2 , iz nje pa koeficient kontingence.

Kontingenčni koeficienti se, preprosto povedano, nanašajo na skupino, ki je v

tabeli. Če imamo v tabeli raziskovalno mnoţico (ki ni osnovna mnoţica in iz nje

ni bil izbran vzorec), bo kontingenčni koeficient veljal zanjo. Če bomo imeli v

tabeli vzorec, se bo kontingenčni koeficient nanašal nanj! Če bi hoteli dobiti

kontingenčni koeficient za osnovno mnoţico, bi ga morali oceniti na podlagi

dobljenega (vzorčnega) iz tabele. Izračunati bi morali interval zaupanja in šele ta

bi se nanašal na osnovno mnoţico.

To pomeni, da kontingenčne koeficiente lahko uporabimo vedno, χ2 – preizkus

pa le v vzorčnih raziskavah. Pozor: razlikujmo χ2 – preizkus od računanja

vrednosti χ2 . Vrednost χ

2 lahko izračunamo kadarkoli, celoten χ

2 – preizkus pa

je smiseln le, kadar posplošujemo na osnovno mnoţico. Ponovimo: v raziskavi,

ki ni vzorčna, uporaba χ2 – preizkusa nima nikakršnega smisla.

1. PEARSONOV KONTINGENČNI KOEFICIENT

Vrednosti χ2

bomo preračunali v kontingenčni koeficient; ta bo kazal povezanost

podobno kot korelacijski keficienti. Koeficientov kontingence je več,

najpomembnejši je nedvomno Pearsonov kontingenčni koeficient.

Vrednosti tega koeficienta so med 0 in 1 in jih interpretiramo podobno kot sicer

korelacijske koeficiente. Nasplošno pri opisnih spremenljivkah dobimo niţje

stopnje povezanosti kot pri številskih. Zato običajno ţe niţje vrednosti

kontingenčnih koeficientov interpretiramo kot opazno stopnjo povezanosti. Še

zlasti to velja prav za Pearsonov kontingenčni koeficient (o tem malo pozneje

več).

Druga razlika interpretacije je v tem, da kontingenčni koeficienti nimajo

predznaka. Pri nominalnih spremenljivkah to ni teţava, saj pri teh ni negativne

ali pozitivne smeri. Pri ordinalnih spremenljivkah pozitivna in negativna smer

obstajata, vendar nam ju koeficient ne nakaţe. Zato je treba vsakokrat pazljivo

preučiti frekvence v tabeli in iz njih presoditi o smeri povezanosti. V primeru,

kjer smo preizkušali hipotezo o neodvisnosti med spolom in stališčem, je

vrednost Pearsonovega koeficienta C = 0,33. To je ţe skoraj srednje močna

povezanost, daleč od tega, da bi jo interpretirali kot komaj opazno. Za

interpretacijo smeri potrebujemo tabelo s strukturnimi odstotki.

Tabela 79. Strukturni odstotki po stališču (posebej za vsak spol)

sem za vseeno sem proti skupaj

moški 26,8 12,2 61,0 100,0

ţenske 54,4 20,3 25,3 100,0

skupaj 45,0 17,5 37,5 100,0

Page 93: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Pri manjših tabelah ţe pogled na tabelo zadosti dobro kaţe smer. Ţenske veliko

bolj soglašajo kot moški; hkrati je tudi pri ţenskah več takšnih, ki niso izrazito

ne za ne proti. Seveda potem zadnji stolpec kaţe, da so moški veliko bolj proti

kot ţenske.

Pri večjih tabelah moramo pogosto primerjati cele stolpce (drugega za drugim).

Tako bi najprej primerjali odstotke v prvem stolpcu: 26,8% in 54,4%. Več kot

polovica ţensk je izbrala odgovor »sem za«, pri moških pa komaj malo več kot

četrtina. Tako nadaljujemo še za ostale stolpce; iz vseh skupaj na koncu

ustvarimo celovito sliko smeri povezanosti. Pozor: tabele absolutnih frekvenc ne

omogočajo dobre interpretacije. Na koncu poglavja bomo podrobneje prikazali

nekatere teţave pri interpretaciji smeri povezanosti.

Pravo teţavo pri interpretaciji Pearsonovega kontingenčnega koeficienta pa

predstavlja njegova odvisnost od velikosti tabele. Tudi pri popolni povezanosti

med spremenljivkama koeficient ne doseţe vrednosti 1. To vrednost doseţe šele,

če je število kategorij obeh spremenljivk neskončno (neskončno velika tabela).

Poglejmo primer. V naši tabeli s spremenljivkama spol in stališče si zamislimo,

da so vse ţenske izbrale odgovor A, vsi moški pa odgovor C. Povezanost med

spremenljivkama je popolna (samo od spola je odvisno, kakšni so odgovori!). V

tem primeru bi bila tabela stvarnih frekvec takšna:

Tabela 80. Frekvence po spolu in stališču

sem za vseeno sem proti skupaj

moški 0 0 41 41

ţenske 79 0 0 79

skupaj 79 0 41 120

Pa vendar bi bil kontingenčni koeficient v takšnem primeru »zgolj« C = 0,71. Če

tega ne bi vedeli, bi ga napačno interpretirali, češ: »povezanost je precej

visoka«. V resnici je povezanost najmočnejša moţna –popolna.

2. CRAMÉRJEV KOEFICIENT

Kadar so nam pomembne primerjave med različnimi tabelami, lahko izberemo

Cramérjev koeficient. Postopek izračunavanja zagotavlja neodvisnost od

velikosti tabele in s tem primerljivost koeficientov iz različnih tabel. Kljub temu,

da Cramérjevi koeficienti lahko doseţejo vrednost 1, so nasplošno njihove

vrednosti manjše od vrednosti C. Zato koeficienta nista primerljiva in ju ne

moremo hkrati uporabljati in interpretirati. Če se odločimo za uporabo

Cramérjevih koeficientov, potem uporabljamo samo te.

Page 94: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Če izračunamo Cramérjev koeficient za naš primer, dobimo vrednost CCR =

0,27. Vidimo, da je manjša od navadnega in od korigiranega Pearsonovega

koeficienta.

VI. Napake pri ocenjevanju parametrov in preizkušanju

hipotez

Vsi statistični postopki posploševanja z vzorcev na osnovne mnoţice so

povezani s tveganjem. Brez tveganja ne gre. Zaradi tega lahko pride do napačnih

sklepov. Vir teh napak je tveganje. Čeprav so viri enaki, so napake in njihove

posledice pri ocenjevanju parametrov drugačne kot pri preizkušanju hipotez.

Pri ocenjevanju parametrov postavimo trditev, da je parameter osnovne mnoţice

v intervalu zaupanja. Pri tem tvegamo, da to morda ne drţi. Napaka, ki se nam

lahko zgodi je, da parameter osnovne mnoţice res ni v intervalu zaupanja. Torej,

naša ocena ne drţi. Zakaj se to lahko zgodi? Interval zaupanja smo oprli na

verjetnost, da je izbrani vzorec eden od tistih (npr. 95%), katerih parameter

odstopa od populacijskega za največ 1,96SE. Vendar vemo, da je med vsemi

vzorci tudi 5% takšnih, za katere to ne velja. Če smo naleteli pri izbiri vzorca na

enega takšnih, bo naša ocena nepravilna: parameter osnovne mnoţice ne bo v

intervalu zaupanja. Verjetnost takšnega dogodka je torej majhna, toda zgodi se

lahko! In če stalno ocenjujemo s petimi odstotki tveganja, se nam bo to zares

dogajalo v pribliţno petih odstotkih primerov. Če nismo pripravljeni sprejeti

tega tveganja, se moramo odpovedati vzorcem in pojave raziskovati na celih

mnoţicah.

Pri preizkušanju hipotez se lahko zgodita dve napaki. Imenujemo jih napake I.

vrste in napake II. vrste (tudi alfa napake in beta napake).

Napaka prve vrste se lahko zgodi pri zavrnitvi ničelne hipoteze. Če ničelno

hipotezo zavrnemo, v resnici pa je pravilna, je to napaka I. vrste ali alfa napaka.

Pravilnost ničelne hipoteze pomeni, da se osnovni mnoţici ne razlikujeta. Toda,

tudi iz takšnih mnoţic lahko dobimo vzorca, pri katerih z-vrednost presega 1,96.

Takšnih parov je največ 5%, zato se napaka prve vrste ne zgodi pogosto;

občasno se pa vendarle zgodi. Te napake imenujemo alfa napake, ker je njihova

verjetnost enaka vrednosti α. Napake I. vrste imajo lahko zelo hude posledice,

saj je v primeru, ko se nam to zgodi, naša trditev popolnoma napačna. Zato je

največje dopustno tveganje pri zavrnitvi ničelne hipoteze 5% (to je tudi največja

verjetnost, da pride do napake I. vrste).

Napaka druge vrste se lahko zgodi, ko ničelno hipotezo obdrţimo. Če ničelno

hipotezo obdrţimo, a je v resnici nepravilna, je to napaka II. vrste ali beta

napaka. Torej se osnovni mnoţici razlikujeta, mi smo pa obdrţali ničelno

Page 95: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

hipotezo. Verjetnost te napake je največ 95%. Tako velika verjetnost za napake

II. vrste je moţna, ker te napake nimajo skoraj nobenih praktičnih posledic. Ko

ničelno hipotezo obdrţimo, ne trdimo o osnovni mnoţici nič. In če nič ne

trdimo, tudi kakšne vsebinske napake ne moremo zagrešiti. Če se ţe zgodi

napaka II. vrste, nam je lahko ţal, da smo obdrţali ničelno hipotezo (saj bi jo

lahko v resnici zavrnili) in da o osnovni mnoţici nismo ničesar ugotovili (čeprav

bi lahko). To je škoda, ni pa stvarne napake.

Zmanjševanje verjetnosti za napake I. vrste povečuje verjetnost nastopa napak

II. vrste in obratno. Če bi se torej odločili, da bomo zavračali ničelne hipoteze

šele ko z-vrednost preseţe 2,58, bi zmanjšali moţnost napak I. vrste na 1%, a

hkrati povečali moţnost napak II. vrste na 99%. Zato večinoma ostajamo pri

kritični vrednosti α=0,05. To je kompromis med verjetnostjo nastopanja obojih

napak.

LITERATURA

Blejec, M., Statistične metode za ekonomiste, Ljubljana 1973.

Blejec, M., Statistične metode za psihologe, Ljubljana 1959.

Cohen J., Statistical power analysis for the behavioral sciences, Hillsdale 1988.

Garrett, H. E., Statistika v psihologiji in pedagogiki, I. in II. del, Ljubljana 1957.

Guilford, J. P., Osnovi psihološke i pedagoške statistike, Beograd 1968.

Jamnik, R., Verjetnostni račun, Ljubljana 1971.

Koţuh, B., Statistične metode v pedagoškem raziskovanju, Ljubljana 2003.

Muţić, V., Metodologija pedagoškog istraţivanja, Sarajevo 1986.

Pavlić, I., Statistička teorija i primjena, Zagreb 1970.

Petz, B., Osnovne statističke metode, Zagreb 1970.

Sagadin, J., Osnovne statistične metode za pedagoge, Ljubljana 1992.

Serdar, V., Udţbenik statistike, Zagreb 1970.

Snidikor, Dţ. V. in Kohren V. G., Statistički metodi, Beograd 1971.

Yule, G. U. in Kendall, M. G., Uvod v teorijo statistike, I. zvezek, Ljubljana

1955.

Yule, G. U. in Kendall, M. G., Uvod v teorijo statistike, II. zvezek, Ljubljana

1956.

Yule, G. U. in Kendall, M. G., Uvod v teorijo statistike, III. zvezek, Ljubljana

1958.

Yule, G. U. in Kendall, M. G., Uvod v teorijo statistike, IV. zvezek, Ljubljana

1958.

Page 96: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Yule, G. U. in Kendall, M. G., Uvod v teorijo statistike, V. zvezek, Ljubljana

1959.

Page 97: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

Tabela E. Slučajnostne številke

09115 18695 12253 75913 67202 11333 61626 00621 37625 64337 86327 06961 84709

61581 64804 57864 47755 24026 16438 26401 35439 92229 69041 29796 74669 22110

82265 92986 47294 07436 70569 67195 42685 03429 11519 32369 89112 48575 91865

34256 77326 78084 78753 05788 24065 04188 30612 76293 95733 99613 13203 16829

67189 64179 78866 37795 34842 27495 27242 35594 65661 75837 08558 86626 33524

47791 13774 77562 50234 11097 62857 62664 91994 65452 35723 06314 96087 41009

03535 34593 45170 48858 49835 55466 80349 67391 20558 62668 97689 44203 06830

59868 36326 45375 29487 98595 52964 11993 38422 72534 60334 07950 39835 61064

44547 76729 33277 49579 29284 53561 58779 41268 45552 10725 25918 39936 61593

78051 84673 74682 35567 67760 00549 07026 49173 18205 52686 35724 50609 54710

38438 76621 17204 90719 19482 67176 46776 84718 87547 78500 14619 55543 59702

62032 88185 09183 27701 46738 16351 89102 16574 10712 28924 99170 65299 00202

26803 60920 34401 44303 71954 78004 19142 47975 60783 15000 95742 62251 77829

93702 37650 41673 72974 12741 26236 95906 31041 31453 81651 29587 19778 02609

09317 83032 74027 31564 92495 21745 94856 57020 31208 63774 97504 84370 52333

73659 03468 64631 56056 32923 34076 66267 45647 88971 07562 51230 12803 73790

24740 13139 09160 86039 73805 01937 59160 17839 37149 92416 33680 47633 14413

94315 99167 63519 78736 62038 74044 25123 70949 68500 71145 22350 87582 24888

47099 64090 42111 86586 75225 32150 82119 02385 17015 01903 67140 72534 51431

37376 71250 60204 70422 43604 06600 62990 96423 20511 37855 71924 73478 65442

47905 88357 55910 27528 56612 64822 63325 38655 70212 38348 61578 13314 23708

04633 26080 52668 76562 45944 83250 72753 31915 57198 63909 86168 22475 44590

75741 24024 52554 15366 99327 81609 74249 04633 73783 73806 24870 08510 84423

49532 50420 63601 85080 71559 31508 75298 86220 34301 05286 68747 62450 40330

40866 25927 71812 47512 26914 60123 00985 80732 41331 87516 84383 21207 55683

52336 22846 21665 82576 01955 79239 50856 24453 87437 49217 55873 11502 32469

09262 00660 40634 22407 40206 05217 67373 13405 43527 04176 31902 51070 58328

91128 06127 52257 68568 11124 09046 99074 88842 28578 05322 54117 00586 64207

32152 44047 83026 63767 91256 67199 51349 31441 33674 08363 61429 94173 93871

06195 75910 58037 60368 06190 93131 04742 09177 30821 03215 26570 17988 74651

96423 43604 06600 79239 69587 21452 60178 27207 62217 58467 42564 89064 07145

Page 98: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

55207 81968 83451 14733 78095 33828 98117 03938 68478 11624 45901 53945 75115

12133 57298 12989 80068 94545 03855 54389 61175 72022 28338 53618 95180 31199

60119 39101 14402 84960 76482 81823 53960 07910 29182 57082 71799 27315 44978

81352 00603 33510 69660 67934 95639 46584 99173 57310 83794 54539 12829 85685

65426 32932 94233 09095 65842 26698 60650 88432 81143 42614 15288 38265 26527

48012 69822 53297 72662 49868 37082 48406 73752 49837 28024 73615 90345 77330

22715 11271 06142 70895 25432 75749 80478 25432 56312 04613 77899 25490 36384

02008 85850 24390 35211 26350 23826 65203 21088 42892 07157 37162 92753 07764

15298 03542 96805 39225 12721 68701 41524 10395 25796 83156 69645 69582 43703

54801 28437 89036 38289 17425 63620 03845 62521 21007 26749 83962 89037 21569

10308 61823 50943 19261 91088 16723 51106 42309 54961 06087 23158 11218 09196

23256 88923 28386 61660 85345 25145 07142 39101 24032 95180 26426 88432 40815

73758 69835 25024 39854 38407 53245 48790 42564 32692 68206 87868 76125 40658

13250 25001 25470 91168 53451 00368 58809 27204 28338 76527 23598 00651 23857

75749 32974 65945 35841 76963 26001 24589 79450 18079 62324 08068 40656 92063

39962 89600 13871 79251 67518 49691 71990 12986 85068 94542 38405 65984 25467

Page 99: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

09115 18695 12253 75913 67202 11333 61626 00621 37625 64337 86327

06961 84709

61581 64804 57864 47755 24026 16438 26401 35439 92229 69041 29796

74669 22110

82265 92986 47294 07436 70569 67195 42685 03429 11519 32369 89112

48575 91865

34256 77326 78084 78753 05788 24065 04188 30612 76293 95733 99613

13203 16829

67189 64179 78866 37795 34842 27495 27242 35594 65661 75837 08558

86626 33524

47791 13774 77562 50234 11097 62857 62664 91994 65452 35723 06314

96087 41009

03535 34593 45170 48858 49835 55466 80349 67391 20558 62668 97689

44203 06830

59868 36326 45375 29487 98595 52964 11993 38422 72534 60334 07950

39835 61064

44547 76729 33277 49579 29284 53561 58779 41268 45552 10725 25918

39936 61593

78051 84673 74682 35567 67760 00549 07026 49173 18205 52686 35724

50609 54710

38438 76621 17204 90719 19482 67176 46776 84718 87547 78500 14619

55543 59702

62032 88185 09183 27701 46738 16351 89102 16574 10712 28924 99170

65299 00202

26803 60920 34401 44303 71954 78004 19142 47975 60783 15000 95742

62251 77829

Page 100: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

93702 37650 41673 72974 12741 26236 95906 31041 31453 81651 29587

19778 02609

09317 83032 74027 31564 92495 21745 94856 57020 31208 63774 97504

84370 52333

73659 03468 64631 56056 32923 34076 66267 45647 88971 07562 51230

12803 73790

24740 13139 09160 86039 73805 01937 59160 17839 37149 92416 33680

47633 14413

94315 99167 63519 78736 62038 74044 25123 70949 68500 71145 22350

87582 24888

47099 64090 42111 86586 75225 32150 82119 02385 17015 01903 67140

72534 51431

37376 71250 60204 70422 43604 06600 62990 96423 20511 37855 71924

73478 65442

47905 88357 55910 27528 56612 64822 63325 38655 70212 38348 61578

13314 23708

04633 26080 52668 76562 45944 83250 72753 31915 57198 63909 86168

22475 44590

75741 24024 52554 15366 99327 81609 74249 04633 73783 73806 24870

08510 84423

49532 50420 63601 85080 71559 31508 75298 86220 34301 05286 68747

62450 40330

40866 25927 71812 47512 26914 60123 00985 80732 41331 87516 84383

21207 55683

52336 22846 21665 82576 01955 79239 50856 24453 87437 49217 55873

11502 32469

09262 00660 40634 22407 40206 05217 67373 13405 43527 04176 31902

51070 58328

Page 101: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

91128 06127 52257 68568 11124 09046 99074 88842 28578 05322 54117

00586 64207

32152 44047 83026 63767 91256 67199 51349 31441 33674 08363 61429

94173 93871

06195 75910 58037 60368 06190 93131 04742 09177 30821 03215 26570

17988 74651

96423 43604 06600 79239 69587 21452 60178 27207 62217 58467 42564

89064 07145

55207 81968 83451 14733 78095 33828 98117 03938 68478 11624 45901

53945 75115

12133 57298 12989 80068 94545 03855 54389 61175 72022 28338 53618

95180 31199

60119 39101 14402 84960 76482 81823 53960 07910 29182 57082 71799

27315 44978

81352 00603 33510 69660 67934 95639 46584 99173 57310 83794 54539

12829 85685

65426 32932 94233 09095 65842 26698 60650 88432 81143 42614 15288

38265 26527

48012 69822 53297 72662 49868 37082 48406 73752 49837 28024 73615

90345 77330

22715 11271 06142 70895 25432 75749 80478 25432 56312 04613 77899

25490 36384 02008 85850 24390 35211 26350 23826 65203 21088 42892

07157 37162 92753 07764

15298 03542 96805 39225 12721 68701 41524 10395 25796 83156 69645

69582 43703

54801 28437 89036 38289 17425 63620 03845 62521 21007 26749 83962

89037 21569

10308 61823 50943 19261 91088 16723 51106 42309 54961 06087 23158

Page 102: UNIVERZA NA PRIMORSKEM - boris.kozuh.netboris.kozuh.net/uploads/1/0/0/6/10069617/statistika.pdf · ii. urejevanje podatkov za Številske spremenljivke ... vii. relativni odklon

11218 09196

23256 88923 28386 61660 85345 25145 07142 39101 24032 95180 26426

88432 40815

73758 69835 25024 39854 38407 53245 48790 42564 32692 68206 87868

76125 40658

13250 25001 25470 91168 53451 00368 58809 27204 28338 76527 23598

00651 23857

75749 32974 65945 35841 76963 26001 24589 79450 18079 62324 08068

40656 92063

39962 89600 13871 79251 67518 49691 71990 12986 85068 94542 38405

65984 25467