Upload
khatuska
View
53
Download
1
Tags:
Embed Size (px)
DESCRIPTION
strucny navod statistickych metod v psychologii
Citation preview
�tatistika � 1. časť spracovala: Eva Nábělková
(pou�itá literatúra je na po�iadanie k dispozícii u autorky týchto učebných textov)
Základné pojmy Pojem �tatistika (od lat. status → �tát, resp. aj stav) nadobúda dva základné významy:
1. �tatistika ako vedná disciplína zaoberajúca sa číselným zobrazovaním reálnych hromadných javov s
cieľom ich presnej�ieho popisu a analýzy
2. �tatistika ako jednotlivé �tatisticky vyjadrené zistenie (priemer, modus, odchýlka...); potom:
výberová �tatistika → �tatisticky vyjadrené zistenie urobené na výberovom súbore (výberový priemer,
výberová odchýlka...)
V rámci �tatistiky sa zaoberáme �uchopovaním� hromadných javov (t. j. sledujeme javy s opakovaným
výskytom u veľkého počtu jednotlivcov); jedinečné, neopakovateľné javy nie sú z hľadiska �tatistiky
zaujímavé. V rámci �tatistického narábania s odsledovanými, zistenými javmi sa teda od jednotlivostí,
zvlá�tností, náhodilostí abstrahuje a význam �tatistiky pre spoločenské vedy, resp. vedy o človeku spočíva
v tom, �e pomocou jej procedúr mo�no objaviť isté pravidelnosti, zákonitosti vo výskyte javov (v�dy sú
v�ak len pravdepodobnostného charakteru) a dospieť k určitým zov�eobecneniam (nikdy nie v�ak
absolútne a bezvýhradne platným).
Javmi sa vo vedách o človeku väč�inou myslí nejaká vlastnosť vyskytujúca sa u objektov ná�ho
skúmania v rôznej intenzite (kvantitatívny � merateľný jav) alebo v rôznych prejavoch, formách (kvalitatívny
jav).
Medzi základné �tatistické pojmy pou�ívané v empirických vedách o človeku (ako napr. v psychológii,
ale i pedagogike) patrí pojem premenná. Premennú mo�no chápať ako nejakým spôsobom numerizovanú
(�sčíselnenú�) empirickú vlastnosť. Premenné sú teda tým, čo �tatisticky spracúvame a o čom na základe
výsledkov tohto �tatistického spracovania usudzujeme.
(pozn.: premenné sa v �tatistickej literatúre s matematickým alebo aj sociologickým či ekonomickým
zameraním zvyknú označovať aj ako �tatistické znaky)
K ďal�ím základným �tatistickým pojmom nevyhnutne patrí pojem �tatistického súboru. �tatistický
súbor je súhrnom �tatistických jednotiek (jednotlivcov, rodín, �kolských tried...), na ktorých sledujeme určité
vlastnosti � premenné (pohlavie, osobnostné vlastnosti, schopnosti, prospech; výchovný �týl; súdr�nosť,
sociálnu klímu...). Rozli�ujeme nasledujúce dva typy �tatistických súborov:
• základný súbor → celá populácia, pre ktorú o danej premennej (daných premenných) uva�ujeme;
• výberový súbor → podmno�ina základného súboru, na ktorom danú premennú (dané premenné)
zisťujeme, sledujeme, �meriame� (ide o ná� výber zo základného súboru); na základe poznania
premenných v rámci výberového súboru mo�no usudzovať o týchto premenných v celej populácii
(samozrejme, výberový súbor vypovedá o vlastnostiach len toho základného súboru, z ktorého bol
odvodený, �vybraný�).
Premenná, ktorú pre účely �tatistického spracovania sledujeme, je v konkrétnych súboroch (či u�
základných alebo výberových) istým spôsobom rozdelená, tzn. �e určité � rôzne � hodnoty či formy danej
premennej sa v tomto súbore vyskytujú s určitou frekvenciou (�častosťou�), ktorá je pre rôzne hodnoty, resp.
formy premennej rôzna (t. j. niektoré hodnoty/formy sú častej�ie, iné sú menej časté).
Aby mohli byť premenné �tatisticky spracované, musia byť ich hodnotám, resp. formám priradené čísla
(preto hovoríme v �tatistike o premenných ako o numerizovaných vlastnostiach). Av�ak úroveň numerizácie
premennej nie je pre rôzne typy premenných rovnaká. Podľa úrovne numerizácie rozli�ujeme tri základné
typy premenných vstupujúcich do �tatistického spracovania:
• nominálne (kvalitatívne) premenné: tieto premenné mo�no numerizovať len na veľmi nízkej úrovni,
tzn. čísla priradené premenným sú pou�ité len na označenie, �kódovanie�, pomenovanie (nominálny →
�menovitý�, od nomen = meno, z lat.) rôznych foriem, či kategórií premennej (čísla priradené rôznym
formám premennej sú voľne zameniteľné a kľudne by mohli byť nahradené inými znakmi � napr.
písmenami); preto je aj pou�itie �tatistických postupov pri tomto type premenných značne obmedzené �
prípustné sú zväč�a len postupy vychádzajúce z častosti (frekvencie) výskytu foriem daných
premenných; príkladom nominálnej premennej mô�e byť pohlavie (s dvoma formami: �ena /1/, mu�
/2/) alebo stav z hľadiska man�elstva (so �tyrmi formami: slobodný stav /1/, man�elstvo /2/, rozvedený
stav /3/, vdovstvo /4/);
• ordinálne (poradové) premenné: pri tomto type premennej u� ide o numerizáciu na vy��ej úrovni
(oproti predchádzajúcemu typu) → čísla u� nielen označujú formy premennej, ale navy�e ich aj
zoraďujú do poradia podľa intenzity, miery skúmanej vlastnosti (vo vzniknutom poradí má ka�dá ďal�ia
forma premennej väč�iu /resp. men�iu/ mieru skúmanej vlastnosti ako predchádzajúca; pozície
zoradených foriem premenných nám dávajú mo�nosť tieto formy porovnávať v zmysle �men�í/väč�í
ne��, prípadne �rovnaký ako� � t. j. čísla priradené ako poradia formám premennej nie sú u� voľne
zameniteľné); �súlad� medzi číslom a formou premennej v�ak e�te aj tak nie je dokonalý, preto�e
vzdialenosť � rozdiel medzi poradovými číslami priradenými formám premennej nemusí zodpovedať
skutočnému rozdielu medzi formami tejto premennej, t. j. neexistuje tu pevná jednotka,
prostredníctvom ktorej mo�no formy premennej presne �merať�, a teda aj rozdiel medzi nimi presne
vyjadriť); typickým príkladom ordinálnej premennej sú �kolské známky: ich číselná hodnota nám udáva
len poradie �iakov v rámci triedy, resp. �iakov hodnotených jedným učiteľom; rôzni učitelia mô�u tej
istej miere nejakej schopnosti priradiť rôzne poradia (známky), rozdiel napr. medzi 1. a 2. �iakom
v poradí (jednotkárom a dvojkárom) nemusí byť rovnako veľký ako rozdiel napr. medzi 2. a 3. �iakom
(dvojkárom a trojkárom); celkovo má v psychologickom aj pedagogickom výskume, či diagnostike
veľa premenných práve ordinálny charakter;
• kardinálne (intervalové, metrické) premenné: kardinálne premenné zodpovedajú najvy��ej úrovni
numerizácie, t. j. čísla sú tu pou�ité celkom primerane, preto�e rozdiely medzi jednotlivými formami
premennej presne zodpovedajú rozdielom v číslach, ktoré sú k týmto formám priradené (pri
kardinálnych premenných u� teda mo�no hovoriť o hodnotách premennej → formy premennej sú
vyjadrené ako jej hodnoty), existuje tu pevná �merná� jednotka, prostredníctvom ktorej sa hodnota
premennej (intenzita nejakej vlastnosti) �meria� a vyjadruje; príkladom takej premennej mô�e byť napr.
inteligencia zisťovaná �tandardizovaným inteligenčným testom (s mernou jednotkou IQ), ale aj iné
schopnosti �merané� �tandardizovanými výkonovými testami (úlohu mernej jednotky zohráva skóre
v tom-ktorom teste); v psychologickom výskume sa ako s kardinálnymi premennými nezriedka
�narába� aj s rôznymi osobnostnými vlastnosťami zisťovanými �tandardizovanými psychometrickými
nástrojmi.
�tatistické postupy sa obvykle � podľa ich funkcie (cieľa, ktorému slú�ia) � rozdeľujú na: deskriptívne
postupy a postupy �tatistickej inferencie. Podľa toho teda rozoznávame v rámci �tatistiky dve základné
podoblasti: deskriptívnu (opisnú) �tatistiku a inferenčnú/induktívnu(usudzovaciu) �tatistiku.
V rámci deskriptívnej �tatistiky sa získané údaje o premených usporadúvajú a triedia, zisťuje sa
frekvencia (častosť) výskytu rôznych hodnôt, resp. foriem premenných a taktie� sa počítajú rôzne �tatistiky
(priemer, odchýlka apod.). Jej cieľom je teda sprehľadnenie súboru (získaných údajov) a úsporná (číselná)
charakteristika premenných prostredníctvom spomínaných �tatistík.
Cieľom inferenčnej �tatistiky je poznanie základného súboru (zo zvoleného aspektu) bez toho, aby sme
museli skúmať ka�dú jednu jeho jednotku, tzn. o základnom súbore sa usudzuje len na základe poznania
výberového súboru → robí sa �tatistická indukcia: poznanie časti sa zov�eobecňuje pre celok; úsudky
a zov�eobecnenia sa robia s určitou pravdepodobnosťou (s regulovaným rizikom chyby). Do tejto oblasti
spadajú odhady vlastností základného súboru, analytické postupy smerujúce k nachádzaniu určitých
pravidelností, súvislostí, vzťahov, ako aj overovanie rôznych predpokladov.
Deskriptívna �tatistika teda zahŕňa zisťovanie:
• početností rôznych hodnôt, resp. foriem premennej (frekvencie výskytu)
• mier centrálnej tendencie premennej (�charakteristík polohy� → kde, okolo akých hodnôt sa
pohybujú hodnoty na�ej konkrétnej premenná)
• mier variability (rozptýlenosti) premennej
Inferenčná �tatistika zahŕňa:
• odhady parametrov základného súboru
• testovacie postupy → overovanie predpokladov/hypotéz
• analytické postupy /ako napr. analýza závislostí, ale aj faktorová analýza a pod./ → overovanie
predpokladov + explorácia (otvorené skúmanie, hľadanie vzťahov�)
Deskriptívna �tatistika
Početnosti (frekvencie) premennej
⇒ vyjadrujú koľko, resp. aká časť z celku údajov nadobúda určitú hodnotu/formu.
Ide teda vlastne o zisťovanie toho (ako u� bolo naznačené), aká je frekvencia výskytu rôznych hodnôt,
resp. foriem premennej.
Triedenie súboru
Pri veľkom počte rôznych hodnôt premennej je často účelné súbor e�te pred zisťovaním početností
jednotlivých hodnôt premennej roztriediť. Triedením súboru rozumieme zoskupenie údajov s podobnými
hodnotami do skupín � tried. Triedenie sa väč�inou prevádza na údajoch u� usporiadaných � t. j. hodnoty
premennej sú najprv zoradené podľa veľkosti, a potom zdru�ené do tried (hodnoty premennej v ka�dej ďal�ej
triede sú teda väč�ie ako hodnoty v triede predchádzajúcej). Jednotlivé triedy by mali byť rovnako
�veľké�/�iroké (mať rovnaké rozpätie) vzhľadom na hodnoty premennej, tzn. mali by zahŕňať rovnaký
�úsek�, interval hodnôt. Na druhej strane počet údajov v jednotlivých triedach zväč�a rovnaký nebýva a v
rámci deskriptívneho skúmania súboru ide práve o to, zistiť, koľkopočetné sú tieto triedy. Z uvedeného
vyplýva, �e početnosti sa nemusia týkať len jednotlivých hodnôt, ale aj celých tried zdru�ujúcich blízke
hodnoty premennej → hovoríme o tzv. triednych početnostiach (ktoré vyjadrujú koľko, resp. aká časť z
celku údajov nadobúda nejakú hodnotu z istého intervalu hodnôt). To, do koľkých tried bude súbor
roztriedený, je vecou spracovateľa údajov a cieľa, ktorý chce triedeným dosiahnuť (napr. ak chce
podrobnej�ie informácie o hodnotách premennej, uprednostní väč�í počet tried, ak mu v�ak ide skôr o stručný
a prehľadný popis súboru, postačí mu tried menej). Odporúča sa (ide naozaj len o odporučenie) voliť počet
tried (k) podľa vzťahu: k ≈ n , kde n je rozsah (početnosť) celého ná�ho súboru (samozrejme, ak n nie
je celé číslo, zaokrúhlime ho). �írku � rozpätie tried (h) potom určíme ako h ≈ k
xx minmax− , kde x max je
najvy��ia hodnota a xmin najni��ia hodnota premennej v rámci celého súboru.
Prehľadne sa početnosti zachytávajú prostredníctvom tzv. frekvenčných tabuliek, v rámci ktorých sú
najprv v�etky získané hodnoty premennej zoradené od najmen�ej po najväč�iu, prípadne aj zoskupené do
tried, a potom je ka�dej hodnote premennej, resp. ka�dej triede priradená početnosť (frekvencia výskytu)
v na�om súbore.
Rozli�ujeme tzv. absolútne početnosti, ktoré udávajú absolútny počet určitých hodnôt premennej (resp.
absolútny počet hodnôt v určitej triede) a tzv. relatívne početnosti, ktoré udávajú podiel určitých hodnôt
premennej na celom súbore (resp. podiel hodnôt určitej triedy na celku), t. j. ich početnosť vo vzťahu
k početnosti celého súboru (relatívne početnosti mô�u byť udané vo forme tzv. pravdepodobnostných čísel
nadobúdajúcich hodnotu od 0 do 1, alebo vyjadrené percentuálne). Ďalej existujú aj tzv. kumulované
početnosti (či u� kumulované absolútne alebo kumulované relatívne početnosti). Kumulovaná (teda
súčtová) početnosť vyjadruje súčet početnosti určitej hodnoty premennej s početnosťami v�etkých hodnôt
men�ích ako ona (resp. súčet početnosti určitej triedy s početnosťami v�etkých tried, ktoré sú �pod ňou�).
Veľmi názorné je znázornenie početností prostredníctvom grafov. Histogram a frekvenčný polygón
(spojnicový graf) sa hodia pre zobrazenie početností (absolútnych, relatívnych, kumulovaných) kardinálnych
premenných (na os x sa naná�ajú hodnoty/triedy hodnôt premennej, na os y sa naná�ajú početnosti).
Histogram nám umo�ňuje zachytiť početnosti hodnôt len jednej premennej v jednom obrázku, frekvenčných
polygónov mo�no do jedného obrázku naniesť aj viac (t. j. zachytiť naraz početnosti aj viacerých
premenných). Príklad histogramu a frekvenčného polygónu je na nasledujúcich obrázkoch (zachytávajú
nekumulované početnosti).
Pre zobrazenie absolútnych i relatívnych početností ordinálnych a nominálnych premenných sa hodí
jednak stĺpcový diagram (na os x sa naná�ajú poradové hodnoty/formy premennej, na os y sa naná�ajú
početnosti) a jednak kruhový diagram (len pre relatívne nekumulované početnosti). Ich príklady sú na
nasledujúcich obrázkoch.
histogram polygón početnosti
stĺpcový diagram kruhový diagram
Empirické kvantily
Početnosti/frekvencie (či u� jednotlivých hodnôt alebo triedne početnosti) teda vypovedajú
o tzv. empirickom rozdelení početností premennej (pozri ďalej). Vo vedách o človeku sa stretávame
s istými charakteristikami rozdelenia početností premennej, ktoré sú zároveň (hoci nie sú strednými
hodnotami, t. j. nepatria k mieram centrálnej tendencie) aj charakteristikami polohy premennej. Tieto
charakteristiky sa vo v�eobecnosti označujú ako empirické kvantily. Pou�ívajú sa konkrétne tri druhy týchto
kvantilov: tzv. kvartily /Q1,Q2,Q3/, tzv. decily /D1,D2, ..., D9/ a tzv. percentily /C1, ..., C99/. Pri jednotlivých
kvantiloch ide o takú hodnotu na�ej premennej, pod ktorou le�í (od ktorej je men�ia) určitá, stanovená časť
v�etkých na�ich údajov. Napr. tri kvartily rozdeľujú ná� súbor na �tyri rovnakopočetné časti, a teda pod
prvým/dolným kvartilom (Q1) le�í 25% v�etkých na�ich údajov, pod druhým kvartilom (Q2), ktorý je zároveň
aj mediánom � prostrednou hodnotou, le�í 50% v�etkých na�ich údajov a pod tretím/horným kvartilom (Q3)
le�í 75% v�etkých na�ich údajov. Analogicky deväť decilov rozdeľuje ná� súbor na desať rovnakopočetných
častí a 99 percentilov na sto rovnakopočetných častí (pod D1 le�í 10% údajov atď.; pod C1 le�í 1% a pod C99
le�í 99% na�ich údajov a podobne). Empirické kvantily majú vo vedách o človeku svoj význam pre tvorbu
noriem v rámci �tandardizácie rôznych výskumných či diagnostických nástrojov.
Miery centrálnej tendencie premennej (tzv. charakteristiky polohy)
PRIEMERY (pou�ívame ich na opis kardinálnych / metrických premenných; �s pri�múrením oka�
prípadne aj na opis ordinálnych premenných)
Aritmetický priemer: suma jednotlivých hodnôt premennej delená počtom meraní/pozorovaní, teda:
AP =∑=
n
1i
i
nx
Geometrický priemer: n-tá odmocnina zo súčinu v�etkých hodnôt premennej (�iadna hodnota nesmie byť
nulová), teda: G = n n 2 1 xxx . ... . . ; pou�íva sa pre určenie priemernej veľkosti zmeny (prírastku, úbytku) �
napr. priemerný ročný prírastok obyvateľstva za dobu 5 rokov
Harmonický priemer: počet meraní/pozorovaní delený sumou jednotlivých prevrátených hodnôt
premennej (v�etky hodnoty musia byť kladné); H = ∑
=
n
1i ix
n1
; po�íva sa, ak premenná predstavuje otvorenú
spotrebu času pre daný výkonový limit, t. j. keď chcem zistiť priemerný čas na daný výkon: napr. priemerný
čas naučenia sa niečomu bezchybne (! pozor, nie naopak: keď chcem zistiť priemerný výkon za daný čas →
tam sa pou�íva aritmetický priemer)
MEDIÁN (pou�ívame ho pre ordinálne premenné, prípadne aj pre kardinálne, ak sa chceme vyhnúť
�úskaliam� aritmetického priemeru � napr. jeho skresleniu extrémnymi hodnotami premennej): je to
prostredná hodnota (príp. priemer dvoch prostredných hodnôt) v usporiadanom rade hodnôt premennej (teda
ak by sme v�etky hodnoty zoradili od najmen�ej po najväč�iu); je to hodnota, ktorá rozdeľuje usporiadaný
súbor na dve polovice; pre medián platí:
ak n je nepárne: Me = x(m+1) , kde: m = 2
1n −
ak n je párne: Me =2xx )1m(m ++
, kde: m = 2n
MODUS (pou�ívame ho pre nominálne premenné, prípadne aj pre ordinálne či kardinálne): je to
najčastej�ie sa vyskytujúca hodnota premennej (ak ich nie je viac → vtedy by modus v pravom zmysle slova
neexistoval), t. j. hodnota s najväč�ou početnosťou (najfrekventovanej�ia hodnota)
Najčastej�ie pou�ívané miery variability premennej
Variabilita (premenlivosť) premennej vypovedá o kolísaní hodnôt premennej, o rôznorodosti a
vzájomnej odli�nosti hodnôt, ktoré premenná v na�om súbore nadobúda. Vysoká miera variability premennej
problematizuje pou�itie aritmetického priemeru ako miery centrálnej tendencie, nakoľko poukazuje buď na
existenciu viacerých hodnôt premennej v dosť veľkej miere sa lí�iacich od aritmetického priemeru, alebo na
existenciu niekoľkých vyslovene odľahlých (extrémne vzdialených od AP) hodnôt premennej.
Najjednoduch�ou mierou variability je tzv. variačné rozpätie (R), ktoré je dané rozdielom dvoch
extrémnych hodnôt: najvy��ej a najni��ej hodnoty premennej v na�om súbore, t. j.: R = xmax � xmin.
Veľmi dôle�itými ako aj najpou�ívanej�ími mierami variability sú rozptyl (s²) a smerodajná odchýlka
(s), ktoré spolu úzko súvisia, nakoľko druhá z nich je odmocninou z prvej z nich. Východiskom pre ich
výpočet sú rozdiely jednotlivých hodnôt premennej od aritmetického priemeru tejto premennej (umocnené na
druhú, čím sa �zdôraznia� prípadné extrémne hodnoty, ktoré premenná nadobúda). Obe sú teda ukazovateľmi
rozptýlenosti premennej okolo priemeru, t. j. vzdialenosti, odli�nosti jej jednotlivých hodnôt od strednej
hodnoty. Rozptyl počítame podľa vzorca: s² = n
)- (xn
1ii ²AP∑
= , kde za xi sa dosadzujú jednotlivé hodnoty
premennej, AP je aritmetický priemer premennej a n je rozsah súboru /pri malých výberových súboroch sa
pre účely výpočtu rozptylu odporúča dosadiť do menovateľa zlomku namiesto čísla n číslo (n � 1)/.
Smerodajná odchýlka je, ako u� bolo naznačené, druhou odmocninou z rozptylu, t. j. s = s² .
V prípade, �e chceme porovnať variabilitu viacerých súborov (najmä ak sú premenné v týchto súboroch
�merané� v odli�ných jednotkách, alebo sú stredné hodnoty v týchto súboroch od seba veľmi vzdialené, resp.
rozsahy súborov sú veľmi rozdielne), je vhodné vyjadriť variabilitu nie v absolútnej hodnote, ale vo vzťahu
k priemeru daného súboru. Takúto mieru variability nazývame relatívnou mierou variability a jej
ukazovateľom je tzv. variačný koeficient (VK). Dostaneme ho, ak smerodajnú odchýlku vydelíme
aritmetickým priemerom a prevedieme na percentá, t. j.: VK = APs
. 100 [v %]. Uvádza sa, �e ak je
variačný koeficient väč�í ako 50%, poukazuje to na silnú nesúrodosť súboru, a teda sa neodporúča pou�ívať
AP.
Rozdelenie premennej
Ako u� bolo vy��ie naznačené, ka�dá premenná, ktorú pre účely �tatistického spracovania sledujeme, je
v konkrétnom súbore istým spôsobom rozdelená, tzn. �e jednotlivé hodnoty danej premennej sa v tomto
súbore vyskytujú s určitou početnosťou, hovoríme teda o rozdelení početností premennej. Ak vyjadríme
početnosti hodnôt premennej vo forme relatívnych početností (relatívnu početnosť mo�no chápať ako
pravdepodobnosť výskytu tej-ktorej hodnoty premennej), mô�eme o rozdelení premennej hovoriť ako
o pravdepodobnostnom rozdelení. Rozli�ujeme dva v�eobecné typy rozdelení premennej: empirické
a teoretické rozdelenia.
Empirické rozdelenie → to, čo skutočne odsledujeme (absolútne početnosti alebo pravdepodobnosť
výskytu hodnôt premennej, resp. tried hodnôt premennej v podobe relatívnej početnosti); početnosti, ktoré
hodnoty/triedy premennej v na�om súbore skutočne nadobúdajú.
Teoretické rozdelenie → matematický model rozdelenia premennej; namiesto skutočných
(odsledovaných) početností priraďujeme rôznym hodnotám premennej teoretickú, očakávanú
pravdepodobnosť výskytu (ako by to malo vyzerať za idealizovaného predpokladu nekonečne veľkého
výskumného súboru, resp. nekonečne veľkého počtu pokusov/testovaní/pozorovaní); teoretické rozdelenie
premennej je (v matematickom zmysle) funkcia, ktorá priradzuje ka�dej jednotlivej hodnote premennej (resp.
nejakému intervalu hodnôt) určitú pravdepodobnosť výskytu v podobe pravdepodobnostného čísla (t. j.
pravdepodobnosť je priradená za pomoci funkcie, nie na základe empirického zisťovania)
Teoretické rozdelenia (ako v�etky zov�eobecňujúce modely vo vede) majú, samozrejme, východisko
v empirických rozdeleniach; dajú sa chápať ako empirické rozdelenia �dotiahnuté� k teoretickej, abstraktnej
dokonalosti. Prechod od empirického rozdelenia početností k teoretickému modelu pravdepodobnostného
rozdelenia premennej si mo�no názorne predstaviť s pomocou nasledujúceho obrázku.
Obrázok: Prechod od empirického rozdelenia početností k teoretickému modelu pravdepodobnostného
rozdelenia (zdroj: Swodoba, 1977, s.60)
Normálne rozdelenie Normálne rozdelenie premennej je predov�etkým (ako ostatne aj ka�dé iné teoretické �tatistické
rozdelenie) teoretickým modelom, nie bezvýhradne presným zachytením skutočných relatívnych početností
(resp. pravdepodobností) výskytu rôznych hodnôt premennej. Je to �zideálnená� skutočnosť: zachytáva
rozdelenie premennej za ideálneho (v skutočnosti nedosiahnuteľného) predpokladu, �e máme nekonečne
veľký výskumný súbor a premennú, ktorá mô�e nadobudnúť nekonečne veľa hodnôt, ako aj nekonečne
presné �meradlo�, s pomocou ktorého sme schopní nepatrné rozdiely v hodnotách premennej zachytiť.
Normálne rozdelenie je teda modelom, ktorý zodpovedá skutočnosti v tom zmysle, �e je to jej abstraktný
ideálny obraz. Je to modelom, ktorý slú�i v �tatistike ako veľmi u�itočná pomôcka pre rôzne (ale v�dy len
pravdepodobnostné) výpočty, nakoľko je východiskom pre odvodenie mnohých procedúr, postupov,
resp. vzorcov pou�ívaných v rámci �tatistickej analýzy, a teda je aj jednou z podmienok ich pou�itia (napr.
v�etky tzv. parametrické postupy /či u� koeficienty alebo testy hypotéz/ mo�no pou�iť len pre normálne
rozdelenú premennú).
U�itočnosť normálneho rozdelenia spočíva aj v tom, �e takmer v�etky skutočné premenné, ktoré mô�u
byť sledované vo vedách o človeku, majú rozdelenie, ktoré sa blí�i normálnemu (tzn. drvivú väč�inu
premenných ním mô�eme aproximovať/priblí�iť/modelovať), tzn. je najfrekventovanej�ím teoretickým
modelom pre skutočné premenné.
Ďal�ou veľmi výhodnou vlastnosťou tohto rozdelenia je to, �e normálne rozdelená premenná je
jednoznačne určená (daná) strednou hodnotou∗ (priemerom) a rozptylom. Teda aj normálne rozdelenie ako
teoretický model je dané parametrami priemer a rozptyl, čo sa symbolicky zachytáva nasledovne: N (µ, σ²), kde µ /�mý�/ je symbol pre strednú hodnotu, teda ekvivalent AP a σ² /�sigma na druhú�/ je symbolom pre
rozptyl, teda ekvivalent s² (v �tatistike je zvykom označovať výberové charakteristiky /ako napr. priemer,
rozptyl,... zistené v rámci výberového súboru/ latinkou a parametre základného súboru /celej populácie/
písmenami gréckej abecedy).
∗ ne�pecifické pomenovanie �stredná hodnota� (namiesto �pecifického �aritmetický priemer�) mô�eme
pri normálnom rozdelení kľudne pou�ívať, lebo tu platí, �e: AP = Me = Mo (t. j. v�etky pou�iteľné stredné
hodnoty sa rovnajú)
Normálne rozdelenie sa znázorňuje krivkou zakreslenou v �tandardnom dvoj-osovom systéme pričom
hodnoty, ktoré mô�e premenná nadobudnúť, sú predstavované x-ovou osou a rôzne miery pravdepodobnosti
/resp. relatívne početnosti/, s ktorou sa dané hodnoty vyskytujú, sú predstavované y-ovou osou. Táto
�normálna� krivka má tvar zvonu (v strede je �najvy��ia�, smerom k okrajom �klesá�), preto sa o nej niekedy
hovorí ako o zvonovitej krivke, oveľa častej�ie sa v�ak pre ňu pou�íva označenie Gaussova krivka (podľa
Gaussa � jedného z jej �praotcov�). Stredné hodnoty normálne rozdelených premenných sú toti�
najčastej�ie (majú najväč�ie relatívne početnosti, resp. najväč�iu pravdepodobnosť výskytu → preto je
Gaussova krivka v strede �najvy��ia�); hodnoty premennej sa vyskytujú tým zriedkavej�ie (tým majú
men�ie relatívne početnosti, men�iu pravdepodobnosť výskytu), čím je ich rozdiel od strednej hodnoty
(priemeru) väč�í (t. j. s rastúcou �vzdialenosťou na obe strany� od strednej hodnoty krivka
�klesá�); extrémne hodnoty premennej (veľmi �vzdialené� od strednej hodnoty) sú ojedinelé (majú veľmi
malé relatívne početnosti, mizivú pravdepodobnosť výskytu).
Dôle�itou vlastnosťou Gaussovej krivky (ale aj normálneho rozdelenia ako takého) je tie� symetrickosť,
čo znamená, �e pravdepodobnosť výskytu hodnôt premennej s rastúcim rozdielom týchto hodnôt od priemeru
klesá rovnomerne � bez ohľadu na to, či sú dané hodnoty od priemeru ni��ie alebo vy��ie (teda či sa od neho
vzďaľujú na jednu alebo na druhú stranu; ak sú od priemeru vzdialené rovnako /t. j. absolútna hodnota ich
rozdielov od priemeru je rovnaká/, aj pravdepodobnosť ich výskytu je rovnaká).
Priebeh Gaussovej krivky zachytávajúcej normálne rozdelenie konkrétnej premennej závisí, samozrejme,
od parametrov, ktorými je dané toto normálne rozdelenie � t. j. od strednej hodnoty a od rozptylu. Poznanie
týchto parametrov (ako aj to, �e vieme, �e ka�dá Gaussova krivka je symetrická) nám umo�ňuje priebeh tejto
konkrétnej krivky � jej polohu aj tvar � dostatočne presne zachytiť. Stredná hodnota toti� vypovedá o polohe
krivky (kde presne � vzhľadom na os x � bude zakreslená) a rozptyl vypovedá o jej tvare (či bude �vysoká
a �tíhla� � tzv. strmá, alebo bude �nízka a �iroká� � tzv. plochá). Je zrejmé, �e čím men�í rozptyl premenná
má, tým menej budú vzdialené jej hodnoty od priemeru, a teda krivka bude strm�ia; naopak, čím je rozptyl
väč�í, tým viac hodnôt je od priemeru vzdialenej�ích � t. j. krivka bude ploch�ia. Príklady kriviek
normálnych rozdelení rovnakými strednými hodnotami, ale rôznymi rozptylmi sú na nasledujúcom obrázku
(ak by mali rozdielne aj stredné hodnoty, lí�ili by sa aj vo svojej polohe vzhľadom na os x, t. j. boli by voči
sebe navzájom �poposúvané� v pravo-ľavom smere).
Obrázok: Príklady kriviek normálnych rozdelení s rovnakými strednými hodnotami, ale rôznymi rozptylmi (zdroj: Swodoba, 1977, s. 77)
Predpoklad, �e premenná je normálne rozdelená, sa overuje tzv. testami normality (pozri v časti
o testovaní hypotéz), ale �napovedať� nám mô�e aj histogram, resp. frekvenčný polygón (mô�eme aspoň tak
�od oka� vidieť, či sa ich tvar podobá, �blí�i� tvaru Gaussovej krivky).
Vlastnosti smerodajnej odchýlky u normálneho rozdelenia
Smerodajná odchýlka (druhá odmocnina rozptylu) v rámci ka�dého normálneho rozdelenia premennej má
zaujímavé a pre rôzne �tatistické výpočty veľmi dôle�ité vlastnosti. Pre normálne rozdelenú premennú toti�
platí, �e 68% údajov nadobúda hodnoty pohybujúce sa v rozmedzí jednej smerodajnej odchýlky
�nadol� (po osi x) a jednej smerodajnej odchýlky �nahor� od strednej hodnoty danej premennej (tzn.
�e v oblasti/v intervale od µ - σ do µ + σ sa nachádza 68% celého súboru); 95,5% údajov nadobúda
hodnoty pohybujúce sa v rozmedzí dvoch smerodajných odchýlok �nadol� a dvoch smerodajných
odchýlok �nahor� od strednej hodnoty (tzn. �e v oblasti/v intervale od µ - 2σ do µ + 2σ sa nachádza
95,5% celého súboru); 99,7% údajov (či�e skoro v�etky údaje) nadobúda hodnoty pohybujúce sa v
rozmedzí troch smerodajných odchýlok∗ �nadol� a troch smerodajných odchýlok∗ �nahor� od strednej
hodnoty danej premennej (tzn. �e v oblasti/v intervale od µ - 3σ do µ + 3σ sa nachádza 99,7% celého
súboru).
∗ spomínané je v �tatistike označované ako �pravidlo 3 σ� (tri sigma), ktoré teda hovorí o tom, �e pre
takmer v�etky hodnoty (99,7%), ktoré mô�e premenná nadobudnúť, platí, �e nie sú men�ie ne� µ - 3σ ani
väč�ie ne� µ + 3σ (u normálne rozdelenej premennej); to, �e budú men�ie, resp. väč�ie ne� uvedené
�hranice� mô�e nastať len s mizivou pravdepodobnosťou: 0,3% (100-99,7)
Normované (�tandardizované) normálne rozdelenie
Pre posudzovanie a porovnávanie rôznych normálne rozdelených premenných (premenných nameraných
v rôznych jednotkách či nadobúdajúcich rôzne merné hodnoty, resp. aj premenných zisťovaných na rôzne
veľkých súboroch) má význam �tandardizácia (normalizácia, normovanie) normálnych rozdelení daných
konkrétnych premenných. Ide vlastne o akési �prevedenie� rôznych normálnych rozdelení na jednotnú
schému, v rámci ktorej sa �mernou� jednotkou stáva smerodajná odchýlka (bez ohľadu na to, aké sú
konkrétne vypočítané hodnoty týchto smerodajných odchýlok, mo�no ich pou�iť ako �tandardizované
ukazovatele, pričom mo�no veľmi dobre vyu�iť práve vy��ie spomínané vlastnosti smerodajných odchýlok
normálnych rozdelení).
Teoreticky spočíva �prevedenie� normálneho rozdelenia do normovaného normálneho rozdelenia v tom,
�e vytvoríme nové normálne rozdelenie (nový model), v ktorom akoby sme od ka�dej jednej hodnoty
premennej (xi) odpočítali strednú hodnotu (priemer) a tento rozdiel e�te vydelili smerodajnou odchýlkou
danej pôvodnej premennej. Pre výpočet normovaných hodnôt premennej, ktoré sa zvyknú označovať ako tzv.
z-hodnoty (normované normálne rozdelenie býva taktie� niekedy nazývané z-rozdelením), platí teda
nasledujúci vzťah: : zi = σ
µ−ix , resp. zi = s
x APi − . Tým pádom bude stredná hodnota v tomto novom
modeli v bode 0 a smerodajná odchýlka bude (keď�e nám má teraz �zohrávať rolu� �tandardnej �mernej�
jednotky) jednotková (t. j. σ = 1); rovnako aj rozptyl /σ2/ bude 1, nakoľko 12 je zase len 1. Symbolicky
vyjadrujeme normované normálne rozdelenie takto: N (0,1).
V normovanom normálnom rozdelení je teda priemer 0 a odchýlky od neho sa u� neudávajú
v konkrétnych �merných� jednotkách (kg, IQ-skóre, body v teste, absolútne početnosti a pod.), ale
jednoducho len v bli��ie ne�pecifikovaných �tandardných/smerodajných odchýlkach (aj názov ��tandardná
odchýlka� súvisí práve s tým).
Krivka normovaného normálneho rozdelenia má u� konkrétny �pecifický tvar; nie je ani príli� strmá, ani
príli� plochá, ale niečo �medzi� (na vy��ie uvedenom obrázku rôznych kriviek normálnych rozdelení je práve
tá �stredná� krivka krivkou normovaného normálneho rozdelenia).
Ka�dé normálne rozdelenie premennej sa dá �tandardizovať (�previesť� na normalizované normálne
rozdelenie). Pravdepodobnosti výskytu hodnôt �tandardizovanej premennej rozlične vzdialených od priemeru
(tieto vzdialenosti sú dané v smerodajných odchýlkach) sú zachytené v �tatistických tabuľkách a na ich
základe mo�no vypočítať pravdepodobnosti výskytu rôznych hodnôt akejkoľvek normálne rozdelenej
premennej.
Inferenčná �tatistika
Ako u� bolo spomínané, v rámci inferenčnej �tatistiky sa usudzuje o vlastnostiach, charakteristikách
základného súboru (populácie) na základe poznania vlastností, charakteristík výberových súborov z danej
populácie.
Odhad parametrov základného súboru
Prvým zo �tatistických problémov, ktorými sa tu budeme v rámci inferenčnej �tatistiky zaoberať je odhad
parametrov (µ, σ², σ) nejakej premennej charakterizujúcej základný súbor. Pre tento odhad je východiskom
sledovanie, �meranie� danej premennej v rámci výberu z tohto základného súboru a výpočet jej charakteristík
(tzv. �tatistík), ako sú výberový priemer (AP) a výberový rozptyl (s²), resp. výberová smerodajná odchýlka
(s). Aby sme v�ak mohli robiť nejaké (aj tak v�dy len pravdepodobnostné) závery o parametroch základného
súboru, musí ná� výber � výberový súbor spĺňať po�iadavku náhodnosti (teda �e pôjde o náhodný výber), ako
aj po�iadavku dostatočného rozsahu (napr. pre odhad strednej hodnoty sa odporúča rozsah výberu minimálne
n = 30; pre odhad rozptylu sa odporúča rozsah výberu minimálne n = 100).
Odhadnúť parametre základného súboru (populačné parametre) mo�no dvoma spôsobmi:
1. formou tzv. bodového odhadu (ako odhad parametra sa udá len jedna jediná hodnota vyčíslená
z hodnôt premennej rámci výberového súboru)
2. formou tzv. intervalového odhadu (určuje sa tzv. interval spoľahlivosti / konfidenčný interval, t. j.
určitá oblasť hodnôt pre odhadovaný parameter)
Ad 1. Hoci nám výpočet tzv. výberovej �tatistiky (priemeru, rozptylu...) mô�e dať len pribli�nú
informáciu o príslu�nom parametri základného súboru, predsa len je to najlep�í (najpresnej�í) bodový odhad,
aký mô�eme na základe poznania výberového súboru urobiť. Preto teda napr. bodovým odhadom
populačnej strednej hodnoty (populačného priemeru) premennej je výberová stredná hodnota (výberový
priemer), či�e priemer vypočítaný z hodnôt, ktoré premenná nadobudla v na�om výberovom súbore.
Analogicky → bodovým odhadom populačného rozptylu je ná� výberový rozptyl atď.
Ad 2. Oveľa adekvátnej�ím ako bodový odhad parametrov (vzhľadom na rôzne potenciálne �pecifiká
a �odchýlky� ná�ho výberového súboru) je intervalový odhad parametrov základného súboru. V rámci neho
u� neudávame ako odhad populačného parametru len jednu jedinú hodnotu (ktorá by aj tak mohla byť viac či
menej skreslená), ale vymedzíme určitý rozsah hodnôt, v rámci ktorých by sa mal nami odhadovaný
populačný parameter s istou pravdepodobnosťou/spoľahlivosťou �pohybovať� (o intervalovom odhade
priemeru základného súboru � pozri ďalej).
Rozdelenia výberových �tatistík
V rámci tejto časti sa �iada ako prvé vysvetliť, čo sa v �tatistike myslí tzv. rozdeleniami výberových
�tatistík (priemerov, rozptylov...), preto�e to vedie k pochopeniu jednej z dôle�itých charakteristík
výberových súborov � smerodajnej/�tandardnej chyby (v texte sa ďalej budeme zaoberať konkrétne
�tandardnou chybou priemeru). Práve určenie smerodajnej chyby nám toti� umo�ní určiť hranice intervalu,
ktorým sa v rámci intervalového odhadovania vymedzuje oblasť hodnôt, do ktorej �padne� odhadovaný
parameter základného súboru.
Zo základného súboru (celej populácie) nemusíme �vybrať� len jeden jediný výberový súbor, ale
mô�eme mať k dispozícii na skúmanie viacero rovnako početných výberov � výberových súborov (VS).
A pre ka�dý jeden z týchto výberov mo�no vypočítať obvyklé �tatistiky (v danom kontexte sa označujú ako
výberové �tatistiky), ako sú napr. priemer a rozptyl (schematicky je to zachytené na nasledujúcom obrázku).
Základný súbor
VS1 VS2 VS3 VS4 VS5 VS6 ........ VSn
AP1, s1² AP2, s2² AP3, s3² AP4, s4² AP5, s5² AP6, s6² APn, sn²
Obrázok: Schéma n výberových súborov (s príslu�nými výberovými �tatistikami) jedného základného súboru
Ak by sme teoreticky mali výberových súborov zo základného súboru dostatočne veľa, a teda aj
dostatočne veľa výberových �tatistík, mohli by sme tieto výberové �tatistiky pova�ovať za hodnoty
premennej, ktorá má vlastné zákonitosti a � najmä � vlastné rozdelenie početností (tzn. niektoré hodnoty
výberových �tatistík by boli frekventovanej�ie, pravdepodobnej�ie; iné by boli, naopak, zriedkavej�ie �
menej pravdepodobné). Ne�lo by teda u� o rozdelenie nejakej konkrétnej premennej (jej hodnôt → napr.
rôzne hodnoty skóre neurotizmu v jednom výberovom súbore), ale o rozdelenie výberových �tatistík,
v ktorom by namiesto v�etkých nameraných hodnôt premennej figurovali hodnoty vypočítaných �tatistík zo
v�etkých na�ich rovnako veľkých výberových súborov (t. j. napr. priemerné skóre neurotizmu pre ka�dý
z jednotlivých výberových súborov). Takéto rozdelenie označujeme ako rozdelenie výberových �tatistík (či
u� priemerov, rozptylov, alebo iných). Rozdelenie výberových �tatistík je v�ak opäť len abstraktným
teoretickým modelom, ktorý nám umo�ňuje ďal�ie úvahy (v skutočne prevádzanom výskume nerobíme
viacero výberov zo základného súboru, ale máme k dispozícii len jeden výberový súbor).
Dôle�itou vlastnosťou ka�dého rozdelenia výberových �tatistík je to, �e s rastúcim počtom rôznych
hodnôt výberových �tatistík, teda s rastúcim n (t. j. s rastúcim počtom výberových súborov, v rámci ktorých
boli výberové �tatistiky vypočítané) by sa toto rozdelenie malo blí�iť normálnemu rozdeleniu, a to aj
v prípade, ak by samotná pôvodná sledovaná premenná (napr. ná� neurotizmus) nebola normálne rozdelená.
Rozdelenie výberových �tatistík ako teoretický model mô�eme teda pova�ovať za normálne rozdelenie a ako
také má v�etky vlastnosti normálneho rozdelenia vrátane vlastností smerodajných odchýlok u normálneho
rozdelenia. Strednou hodnotou tohto rozdelenia je priemer výberových �tatistík (priemerov,
rozptylov...), rozptylom tohto rozdelenia je rozptyl výberových �tatistík (priemerov, rozptylov...)
a smerodajnou odchýlkou je druhá odmocnina z daného rozptylu, ktorá v�ak v rámci rozdelenia výberových
�tatistík �vystupuje� pod názvom �tandardná /smerodajná, stredná/ chyba.
Z hľadiska odhadu strednej hodnoty základného súboru (lebo to je hlavná téma tejto podkapitoly) nás
zaujíma, ako u� bolo vy��ie naznačené, práve �tandardná /smerodajná, stredná/ chyba priemeru, ktorá je
vlastne smerodajnou odchýlkou v rámci rozdelenia výberových priemerov. Označujeme ju písmenom sAP (alebo aj ako e) a vieme ju vypočítať (pribli�ne, samozrejme) aj na základe poznania hodnôt sledovanej
premennej v rámci jedného výberového súboru (t. j. nemusíme mať viacero výberových súborov), a to podľa
vzorca: sAP =ns
, kde s je smerodajná odchýlka premennej vypočítaná v rámci ná�ho výberového súboru
a n je rozsah ná�ho výberového súboru. Z uvedeného vzorca je zrejmé, �e �tandardná chyba priemeru je tým
väč�ia, čím väč�í je rozptyl (a teda aj smerodajná odchýlka) sledovanej premennej v rámci ná�ho výberového
súboru /lebo s je v čitateli zlomku/ a tým men�ia, čím väč�í je rozsah ná�ho výberového súboru /lebo
odmocnina z n je v menovateli zlomku/.
�tandardná chyba priemeru teda u� (na rozdiel od smerodajnej odchýlky) nepoukazuje na variabilitu,
rozptýlenosť hodnôt sledovanej premennej, ale na variabilitu, rozptýlenosť priemerov (priemerných hodnôt
sledovanej premennej) vypočítateľných pre v�etky mo�né výbery zo základného súboru.
Treba e�te pripomenúť, �e práve �tandardné chyby priemeru premenných je vhodné uviesť v �správe�
o výskumných zisteniach (či u� je to odborná �túdia alebo záverečná �tudentská práca) pri �prvom priblí�ení�
(e�te pred vlastným uvedením výsledkov �tatistického spracovania) premenných, ktoré boli v rámci výskumu
sledované (spolu s priemermi a smerodajnými odchýlkami).
Intervalový odhad strednej hodnoty (priemeru) základného súboru
Nakoľko mo�no rozdelenie výberových priemerov teoreticky pokladať za normálne rozdelenie
(s rastúcim n sa k nemu blí�i), má jeho smerodajná odchýlka (v tomto rozdelení → �tandardná chyba
priemeru) tie� vy��ie spomínané vlastnosti smerodajnej odchýlky normálne rozdelenej premennej:
� oblasti µ ± 2σ je 95,5% súboru (t. j. v�etkých hodnôt premennej)
� v oblasti µ ± 3σ je 99,7% súboru (t. j. v�etkých hodnôt premennej)
Aby sme dostali percentuálne vyjadrenie časti súboru v celých percentách, musíme vy��ie uvedené pravidlo
trochu upraviť na nasledujúce:
� 95% súboru je v oblasti µ ± 1,96σ
� 99% súboru je v oblasti µ ± 2,58σ
Z toho nám teda vyplýva, �e pre ka�dé rozdelenie výberových priemerov (v ktorom u� namiesto smerodajnej
odchýlky �narábame� so �tandardnou chybou priemeru; av�ak namiesto σAP, teda �tandardnej chyby ako
teoretického parametra tu u� pí�eme sAP, teda �tandardná chyba ako konkrétna charakteristika vypočítateľná
pre ná� konkrétny výberový súbor) s 95% pravdepodobnosťou/spoľahlivosťou platí:
µ � 1,96.sAP ≤APi ≤ µ + 1,96.sAP; po matematickej úprave tejto nerovnosti dostaneme nerovnosť:
APi + 1,96.sAP ≥ µ ≥ APi � 1,96.sAP
A podobne, pre ka�dý výberový priemer (s 99% pravdepodobnosťou/spoľahlivosťou) platí:
µ � 2,58.sAP ≤APi ≤ µ + 2,58.sAP; po matematickej úprave tejto nerovnosti dostaneme nerovnosť:
APi + 2,58.sAP ≥ µ ≥ APi � 2,58. sAP
Teda ak poznáme akýkoľvek výberový priemer (stačí priemer jedného výberového súboru) a máme
vypočítanú �tandardnú chybu priemeru, mô�eme odhadnúť strednú hodnotu (priemer) základného súboru
(celej populácie) prostredníctvom udania tzv. konfidenčného intervalu (intervalu spoľahlivosti) pre
priemer:
Is: (AP � 1,96.sAP ; AP + 1,96.sAP) s 95% spoľahlivosťou a
Is: (AP � 2,58.sAP ; AP + 2,58.sAP) s 99% spoľahlivosťou.
Hodnoty AP ± 1,96.sAP (resp. AP ± 2,58.sAP) udávajú dolné a horné intervalu, do ktorého by mala
s uvedenou pravdepodobnosťou/spoľahlivosťou �padnúť� stredná hodnota základného súboru.