Statistika 1.Cast

�tatistika � 1. časť spracovala: Eva Nábělková

(pou�itá literatúra je na po�iadanie k dispozícii u autorky týchto učebných textov)

Základné pojmy Pojem �tatistika (od lat. status → �tát, resp. aj stav) nadobúda dva základné významy:

1. �tatistika ako vedná disciplína zaoberajúca sa číselným zobrazovaním reálnych hromadných javov s

cieľom ich presnej�ieho popisu a analýzy

2. �tatistika ako jednotlivé �tatisticky vyjadrené zistenie (priemer, modus, odchýlka...); potom:

výberová �tatistika → �tatisticky vyjadrené zistenie urobené na výberovom súbore (výberový priemer,

výberová odchýlka...)

V rámci �tatistiky sa zaoberáme �uchopovaním� hromadných javov (t. j. sledujeme javy s opakovaným

výskytom u veľkého počtu jednotlivcov); jedinečné, neopakovateľné javy nie sú z hľadiska �tatistiky

zaujímavé. V rámci �tatistického narábania s odsledovanými, zistenými javmi sa teda od jednotlivostí,

zvlá�tností, náhodilostí abstrahuje a význam �tatistiky pre spoločenské vedy, resp. vedy o človeku spočíva

v tom, �e pomocou jej procedúr mo�no objaviť isté pravidelnosti, zákonitosti vo výskyte javov (v�dy sú

v�ak len pravdepodobnostného charakteru) a dospieť k určitým zov�eobecneniam (nikdy nie v�ak

absolútne a bezvýhradne platným).

Javmi sa vo vedách o človeku väč�inou myslí nejaká vlastnosť vyskytujúca sa u objektov ná�ho

skúmania v rôznej intenzite (kvantitatívny � merateľný jav) alebo v rôznych prejavoch, formách (kvalitatívny

jav).

Medzi základné �tatistické pojmy pou�ívané v empirických vedách o človeku (ako napr. v psychológii,

ale i pedagogike) patrí pojem premenná. Premennú mo�no chápať ako nejakým spôsobom numerizovanú

(�sčíselnenú�) empirickú vlastnosť. Premenné sú teda tým, čo �tatisticky spracúvame a o čom na základe

výsledkov tohto �tatistického spracovania usudzujeme.

(pozn.: premenné sa v �tatistickej literatúre s matematickým alebo aj sociologickým či ekonomickým

zameraním zvyknú označovať aj ako �tatistické znaky)

K ďal�ím základným �tatistickým pojmom nevyhnutne patrí pojem �tatistického súboru. �tatistický

súbor je súhrnom �tatistických jednotiek (jednotlivcov, rodín, �kolských tried...), na ktorých sledujeme určité

vlastnosti � premenné (pohlavie, osobnostné vlastnosti, schopnosti, prospech; výchovný �týl; súdr�nosť,

sociálnu klímu...). Rozli�ujeme nasledujúce dva typy �tatistických súborov:

• základný súbor → celá populácia, pre ktorú o danej premennej (daných premenných) uva�ujeme;

• výberový súbor → podmno�ina základného súboru, na ktorom danú premennú (dané premenné)

zisťujeme, sledujeme, �meriame� (ide o ná� výber zo základného súboru); na základe poznania

premenných v rámci výberového súboru mo�no usudzovať o týchto premenných v celej populácii

(samozrejme, výberový súbor vypovedá o vlastnostiach len toho základného súboru, z ktorého bol

odvodený, �vybraný�).

Premenná, ktorú pre účely �tatistického spracovania sledujeme, je v konkrétnych súboroch (či u�

základných alebo výberových) istým spôsobom rozdelená, tzn. �e určité � rôzne � hodnoty či formy danej

premennej sa v tomto súbore vyskytujú s určitou frekvenciou (�častosťou�), ktorá je pre rôzne hodnoty, resp.

formy premennej rôzna (t. j. niektoré hodnoty/formy sú častej�ie, iné sú menej časté).

Aby mohli byť premenné �tatisticky spracované, musia byť ich hodnotám, resp. formám priradené čísla

(preto hovoríme v �tatistike o premenných ako o numerizovaných vlastnostiach). Av�ak úroveň numerizácie

premennej nie je pre rôzne typy premenných rovnaká. Podľa úrovne numerizácie rozli�ujeme tri základné

typy premenných vstupujúcich do �tatistického spracovania:

• nominálne (kvalitatívne) premenné: tieto premenné mo�no numerizovať len na veľmi nízkej úrovni,

tzn. čísla priradené premenným sú pou�ité len na označenie, �kódovanie�, pomenovanie (nominálny →

�menovitý�, od nomen = meno, z lat.) rôznych foriem, či kategórií premennej (čísla priradené rôznym

formám premennej sú voľne zameniteľné a kľudne by mohli byť nahradené inými znakmi � napr.

písmenami); preto je aj pou�itie �tatistických postupov pri tomto type premenných značne obmedzené �

prípustné sú zväč�a len postupy vychádzajúce z častosti (frekvencie) výskytu foriem daných

premenných; príkladom nominálnej premennej mô�e byť pohlavie (s dvoma formami: �ena /1/, mu�

/2/) alebo stav z hľadiska man�elstva (so �tyrmi formami: slobodný stav /1/, man�elstvo /2/, rozvedený

stav /3/, vdovstvo /4/);

• ordinálne (poradové) premenné: pri tomto type premennej u� ide o numerizáciu na vy��ej úrovni

(oproti predchádzajúcemu typu) → čísla u� nielen označujú formy premennej, ale navy�e ich aj

zoraďujú do poradia podľa intenzity, miery skúmanej vlastnosti (vo vzniknutom poradí má ka�dá ďal�ia

forma premennej väč�iu /resp. men�iu/ mieru skúmanej vlastnosti ako predchádzajúca; pozície

zoradených foriem premenných nám dávajú mo�nosť tieto formy porovnávať v zmysle �men�í/väč�í

ne��, prípadne �rovnaký ako� � t. j. čísla priradené ako poradia formám premennej nie sú u� voľne

zameniteľné); �súlad� medzi číslom a formou premennej v�ak e�te aj tak nie je dokonalý, preto�e

vzdialenosť � rozdiel medzi poradovými číslami priradenými formám premennej nemusí zodpovedať

skutočnému rozdielu medzi formami tejto premennej, t. j. neexistuje tu pevná jednotka,

prostredníctvom ktorej mo�no formy premennej presne �merať�, a teda aj rozdiel medzi nimi presne

vyjadriť); typickým príkladom ordinálnej premennej sú �kolské známky: ich číselná hodnota nám udáva

len poradie �iakov v rámci triedy, resp. �iakov hodnotených jedným učiteľom; rôzni učitelia mô�u tej

istej miere nejakej schopnosti priradiť rôzne poradia (známky), rozdiel napr. medzi 1. a 2. �iakom

v poradí (jednotkárom a dvojkárom) nemusí byť rovnako veľký ako rozdiel napr. medzi 2. a 3. �iakom

(dvojkárom a trojkárom); celkovo má v psychologickom aj pedagogickom výskume, či diagnostike

veľa premenných práve ordinálny charakter;

• kardinálne (intervalové, metrické) premenné: kardinálne premenné zodpovedajú najvy��ej úrovni

numerizácie, t. j. čísla sú tu pou�ité celkom primerane, preto�e rozdiely medzi jednotlivými formami

premennej presne zodpovedajú rozdielom v číslach, ktoré sú k týmto formám priradené (pri

kardinálnych premenných u� teda mo�no hovoriť o hodnotách premennej → formy premennej sú

vyjadrené ako jej hodnoty), existuje tu pevná �merná� jednotka, prostredníctvom ktorej sa hodnota

premennej (intenzita nejakej vlastnosti) �meria� a vyjadruje; príkladom takej premennej mô�e byť napr.

inteligencia zisťovaná �tandardizovaným inteligenčným testom (s mernou jednotkou IQ), ale aj iné

schopnosti �merané� �tandardizovanými výkonovými testami (úlohu mernej jednotky zohráva skóre

v tom-ktorom teste); v psychologickom výskume sa ako s kardinálnymi premennými nezriedka

�narába� aj s rôznymi osobnostnými vlastnosťami zisťovanými �tandardizovanými psychometrickými

nástrojmi.

�tatistické postupy sa obvykle � podľa ich funkcie (cieľa, ktorému slú�ia) � rozdeľujú na: deskriptívne

postupy a postupy �tatistickej inferencie. Podľa toho teda rozoznávame v rámci �tatistiky dve základné

podoblasti: deskriptívnu (opisnú) �tatistiku a inferenčnú/induktívnu(usudzovaciu) �tatistiku.

V rámci deskriptívnej �tatistiky sa získané údaje o premených usporadúvajú a triedia, zisťuje sa

frekvencia (častosť) výskytu rôznych hodnôt, resp. foriem premenných a taktie� sa počítajú rôzne �tatistiky

(priemer, odchýlka apod.). Jej cieľom je teda sprehľadnenie súboru (získaných údajov) a úsporná (číselná)

charakteristika premenných prostredníctvom spomínaných �tatistík.

Cieľom inferenčnej �tatistiky je poznanie základného súboru (zo zvoleného aspektu) bez toho, aby sme

museli skúmať ka�dú jednu jeho jednotku, tzn. o základnom súbore sa usudzuje len na základe poznania

výberového súboru → robí sa �tatistická indukcia: poznanie časti sa zov�eobecňuje pre celok; úsudky

a zov�eobecnenia sa robia s určitou pravdepodobnosťou (s regulovaným rizikom chyby). Do tejto oblasti

spadajú odhady vlastností základného súboru, analytické postupy smerujúce k nachádzaniu určitých

pravidelností, súvislostí, vzťahov, ako aj overovanie rôznych predpokladov.

Deskriptívna �tatistika teda zahŕňa zisťovanie:

• početností rôznych hodnôt, resp. foriem premennej (frekvencie výskytu)

• mier centrálnej tendencie premennej (�charakteristík polohy� → kde, okolo akých hodnôt sa

pohybujú hodnoty na�ej konkrétnej premenná)

• mier variability (rozptýlenosti) premennej

Inferenčná �tatistika zahŕňa:

• odhady parametrov základného súboru

• testovacie postupy → overovanie predpokladov/hypotéz

• analytické postupy /ako napr. analýza závislostí, ale aj faktorová analýza a pod./ → overovanie

predpokladov + explorácia (otvorené skúmanie, hľadanie vzťahov�)

Deskriptívna �tatistika

Početnosti (frekvencie) premennej

⇒ vyjadrujú koľko, resp. aká časť z celku údajov nadobúda určitú hodnotu/formu.

Ide teda vlastne o zisťovanie toho (ako u� bolo naznačené), aká je frekvencia výskytu rôznych hodnôt,

resp. foriem premennej.

Triedenie súboru

Pri veľkom počte rôznych hodnôt premennej je často účelné súbor e�te pred zisťovaním početností

jednotlivých hodnôt premennej roztriediť. Triedením súboru rozumieme zoskupenie údajov s podobnými

hodnotami do skupín � tried. Triedenie sa väč�inou prevádza na údajoch u� usporiadaných � t. j. hodnoty

premennej sú najprv zoradené podľa veľkosti, a potom zdru�ené do tried (hodnoty premennej v ka�dej ďal�ej

triede sú teda väč�ie ako hodnoty v triede predchádzajúcej). Jednotlivé triedy by mali byť rovnako

�veľké�/�iroké (mať rovnaké rozpätie) vzhľadom na hodnoty premennej, tzn. mali by zahŕňať rovnaký

�úsek�, interval hodnôt. Na druhej strane počet údajov v jednotlivých triedach zväč�a rovnaký nebýva a v

rámci deskriptívneho skúmania súboru ide práve o to, zistiť, koľkopočetné sú tieto triedy. Z uvedeného

vyplýva, �e početnosti sa nemusia týkať len jednotlivých hodnôt, ale aj celých tried zdru�ujúcich blízke

hodnoty premennej → hovoríme o tzv. triednych početnostiach (ktoré vyjadrujú koľko, resp. aká časť z

celku údajov nadobúda nejakú hodnotu z istého intervalu hodnôt). To, do koľkých tried bude súbor

roztriedený, je vecou spracovateľa údajov a cieľa, ktorý chce triedeným dosiahnuť (napr. ak chce

podrobnej�ie informácie o hodnotách premennej, uprednostní väč�í počet tried, ak mu v�ak ide skôr o stručný

a prehľadný popis súboru, postačí mu tried menej). Odporúča sa (ide naozaj len o odporučenie) voliť počet

tried (k) podľa vzťahu: k ≈ n , kde n je rozsah (početnosť) celého ná�ho súboru (samozrejme, ak n nie

je celé číslo, zaokrúhlime ho). �írku � rozpätie tried (h) potom určíme ako h ≈ k

xx minmax− , kde x max je

najvy��ia hodnota a xmin najni��ia hodnota premennej v rámci celého súboru.

Prehľadne sa početnosti zachytávajú prostredníctvom tzv. frekvenčných tabuliek, v rámci ktorých sú

najprv v�etky získané hodnoty premennej zoradené od najmen�ej po najväč�iu, prípadne aj zoskupené do

tried, a potom je ka�dej hodnote premennej, resp. ka�dej triede priradená početnosť (frekvencia výskytu)

v na�om súbore.

Rozli�ujeme tzv. absolútne početnosti, ktoré udávajú absolútny počet určitých hodnôt premennej (resp.

absolútny počet hodnôt v určitej triede) a tzv. relatívne početnosti, ktoré udávajú podiel určitých hodnôt

premennej na celom súbore (resp. podiel hodnôt určitej triedy na celku), t. j. ich početnosť vo vzťahu

k početnosti celého súboru (relatívne početnosti mô�u byť udané vo forme tzv. pravdepodobnostných čísel

nadobúdajúcich hodnotu od 0 do 1, alebo vyjadrené percentuálne). Ďalej existujú aj tzv. kumulované

početnosti (či u� kumulované absolútne alebo kumulované relatívne početnosti). Kumulovaná (teda

súčtová) početnosť vyjadruje súčet početnosti určitej hodnoty premennej s početnosťami v�etkých hodnôt

men�ích ako ona (resp. súčet početnosti určitej triedy s početnosťami v�etkých tried, ktoré sú �pod ňou�).

Veľmi názorné je znázornenie početností prostredníctvom grafov. Histogram a frekvenčný polygón

(spojnicový graf) sa hodia pre zobrazenie početností (absolútnych, relatívnych, kumulovaných) kardinálnych

premenných (na os x sa naná�ajú hodnoty/triedy hodnôt premennej, na os y sa naná�ajú početnosti).

Histogram nám umo�ňuje zachytiť početnosti hodnôt len jednej premennej v jednom obrázku, frekvenčných

polygónov mo�no do jedného obrázku naniesť aj viac (t. j. zachytiť naraz početnosti aj viacerých

premenných). Príklad histogramu a frekvenčného polygónu je na nasledujúcich obrázkoch (zachytávajú

nekumulované početnosti).

Pre zobrazenie absolútnych i relatívnych početností ordinálnych a nominálnych premenných sa hodí

jednak stĺpcový diagram (na os x sa naná�ajú poradové hodnoty/formy premennej, na os y sa naná�ajú

početnosti) a jednak kruhový diagram (len pre relatívne nekumulované početnosti). Ich príklady sú na

nasledujúcich obrázkoch.

histogram polygón početnosti

stĺpcový diagram kruhový diagram

Empirické kvantily

Početnosti/frekvencie (či u� jednotlivých hodnôt alebo triedne početnosti) teda vypovedajú

o tzv. empirickom rozdelení početností premennej (pozri ďalej). Vo vedách o človeku sa stretávame

s istými charakteristikami rozdelenia početností premennej, ktoré sú zároveň (hoci nie sú strednými

hodnotami, t. j. nepatria k mieram centrálnej tendencie) aj charakteristikami polohy premennej. Tieto

charakteristiky sa vo v�eobecnosti označujú ako empirické kvantily. Pou�ívajú sa konkrétne tri druhy týchto

kvantilov: tzv. kvartily /Q1,Q2,Q3/, tzv. decily /D1,D2, ..., D9/ a tzv. percentily /C1, ..., C99/. Pri jednotlivých

kvantiloch ide o takú hodnotu na�ej premennej, pod ktorou le�í (od ktorej je men�ia) určitá, stanovená časť

v�etkých na�ich údajov. Napr. tri kvartily rozdeľujú ná� súbor na �tyri rovnakopočetné časti, a teda pod

prvým/dolným kvartilom (Q1) le�í 25% v�etkých na�ich údajov, pod druhým kvartilom (Q2), ktorý je zároveň

aj mediánom � prostrednou hodnotou, le�í 50% v�etkých na�ich údajov a pod tretím/horným kvartilom (Q3)

le�í 75% v�etkých na�ich údajov. Analogicky deväť decilov rozdeľuje ná� súbor na desať rovnakopočetných

častí a 99 percentilov na sto rovnakopočetných častí (pod D1 le�í 10% údajov atď.; pod C1 le�í 1% a pod C99

le�í 99% na�ich údajov a podobne). Empirické kvantily majú vo vedách o človeku svoj význam pre tvorbu

noriem v rámci �tandardizácie rôznych výskumných či diagnostických nástrojov.

Miery centrálnej tendencie premennej (tzv. charakteristiky polohy)

PRIEMERY (pou�ívame ich na opis kardinálnych / metrických premenných; �s pri�múrením oka�

prípadne aj na opis ordinálnych premenných)

Aritmetický priemer: suma jednotlivých hodnôt premennej delená počtom meraní/pozorovaní, teda:

AP =∑=

n

1i

i

nx

Geometrický priemer: n-tá odmocnina zo súčinu v�etkých hodnôt premennej (�iadna hodnota nesmie byť

nulová), teda: G = n n 2 1 xxx . ... . . ; pou�íva sa pre určenie priemernej veľkosti zmeny (prírastku, úbytku) �

napr. priemerný ročný prírastok obyvateľstva za dobu 5 rokov

Harmonický priemer: počet meraní/pozorovaní delený sumou jednotlivých prevrátených hodnôt

premennej (v�etky hodnoty musia byť kladné); H = ∑

=

n

1i ix

n1

; po�íva sa, ak premenná predstavuje otvorenú

spotrebu času pre daný výkonový limit, t. j. keď chcem zistiť priemerný čas na daný výkon: napr. priemerný

čas naučenia sa niečomu bezchybne (! pozor, nie naopak: keď chcem zistiť priemerný výkon za daný čas →

tam sa pou�íva aritmetický priemer)

MEDIÁN (pou�ívame ho pre ordinálne premenné, prípadne aj pre kardinálne, ak sa chceme vyhnúť

�úskaliam� aritmetického priemeru � napr. jeho skresleniu extrémnymi hodnotami premennej): je to

prostredná hodnota (príp. priemer dvoch prostredných hodnôt) v usporiadanom rade hodnôt premennej (teda

ak by sme v�etky hodnoty zoradili od najmen�ej po najväč�iu); je to hodnota, ktorá rozdeľuje usporiadaný

súbor na dve polovice; pre medián platí:

ak n je nepárne: Me = x(m+1) , kde: m = 2

1n −

ak n je párne: Me =2xx )1m(m ++

, kde: m = 2n

MODUS (pou�ívame ho pre nominálne premenné, prípadne aj pre ordinálne či kardinálne): je to

najčastej�ie sa vyskytujúca hodnota premennej (ak ich nie je viac → vtedy by modus v pravom zmysle slova

neexistoval), t. j. hodnota s najväč�ou početnosťou (najfrekventovanej�ia hodnota)

Najčastej�ie pou�ívané miery variability premennej

Variabilita (premenlivosť) premennej vypovedá o kolísaní hodnôt premennej, o rôznorodosti a

vzájomnej odli�nosti hodnôt, ktoré premenná v na�om súbore nadobúda. Vysoká miera variability premennej

problematizuje pou�itie aritmetického priemeru ako miery centrálnej tendencie, nakoľko poukazuje buď na

existenciu viacerých hodnôt premennej v dosť veľkej miere sa lí�iacich od aritmetického priemeru, alebo na

existenciu niekoľkých vyslovene odľahlých (extrémne vzdialených od AP) hodnôt premennej.

Najjednoduch�ou mierou variability je tzv. variačné rozpätie (R), ktoré je dané rozdielom dvoch

extrémnych hodnôt: najvy��ej a najni��ej hodnoty premennej v na�om súbore, t. j.: R = xmax � xmin.

Veľmi dôle�itými ako aj najpou�ívanej�ími mierami variability sú rozptyl (s²) a smerodajná odchýlka

(s), ktoré spolu úzko súvisia, nakoľko druhá z nich je odmocninou z prvej z nich. Východiskom pre ich

výpočet sú rozdiely jednotlivých hodnôt premennej od aritmetického priemeru tejto premennej (umocnené na

druhú, čím sa �zdôraznia� prípadné extrémne hodnoty, ktoré premenná nadobúda). Obe sú teda ukazovateľmi

rozptýlenosti premennej okolo priemeru, t. j. vzdialenosti, odli�nosti jej jednotlivých hodnôt od strednej

hodnoty. Rozptyl počítame podľa vzorca: s² = n

)- (xn

1ii ²AP∑

= , kde za xi sa dosadzujú jednotlivé hodnoty

premennej, AP je aritmetický priemer premennej a n je rozsah súboru /pri malých výberových súboroch sa

pre účely výpočtu rozptylu odporúča dosadiť do menovateľa zlomku namiesto čísla n číslo (n � 1)/.

Smerodajná odchýlka je, ako u� bolo naznačené, druhou odmocninou z rozptylu, t. j. s = s² .

V prípade, �e chceme porovnať variabilitu viacerých súborov (najmä ak sú premenné v týchto súboroch

�merané� v odli�ných jednotkách, alebo sú stredné hodnoty v týchto súboroch od seba veľmi vzdialené, resp.

rozsahy súborov sú veľmi rozdielne), je vhodné vyjadriť variabilitu nie v absolútnej hodnote, ale vo vzťahu

k priemeru daného súboru. Takúto mieru variability nazývame relatívnou mierou variability a jej

ukazovateľom je tzv. variačný koeficient (VK). Dostaneme ho, ak smerodajnú odchýlku vydelíme

aritmetickým priemerom a prevedieme na percentá, t. j.: VK = APs

. 100 [v %]. Uvádza sa, �e ak je

variačný koeficient väč�í ako 50%, poukazuje to na silnú nesúrodosť súboru, a teda sa neodporúča pou�ívať

AP.

Rozdelenie premennej

Ako u� bolo vy��ie naznačené, ka�dá premenná, ktorú pre účely �tatistického spracovania sledujeme, je

v konkrétnom súbore istým spôsobom rozdelená, tzn. �e jednotlivé hodnoty danej premennej sa v tomto

súbore vyskytujú s určitou početnosťou, hovoríme teda o rozdelení početností premennej. Ak vyjadríme

početnosti hodnôt premennej vo forme relatívnych početností (relatívnu početnosť mo�no chápať ako

pravdepodobnosť výskytu tej-ktorej hodnoty premennej), mô�eme o rozdelení premennej hovoriť ako

o pravdepodobnostnom rozdelení. Rozli�ujeme dva v�eobecné typy rozdelení premennej: empirické

a teoretické rozdelenia.

Empirické rozdelenie → to, čo skutočne odsledujeme (absolútne početnosti alebo pravdepodobnosť

výskytu hodnôt premennej, resp. tried hodnôt premennej v podobe relatívnej početnosti); početnosti, ktoré

hodnoty/triedy premennej v na�om súbore skutočne nadobúdajú.

Teoretické rozdelenie → matematický model rozdelenia premennej; namiesto skutočných

(odsledovaných) početností priraďujeme rôznym hodnotám premennej teoretickú, očakávanú

pravdepodobnosť výskytu (ako by to malo vyzerať za idealizovaného predpokladu nekonečne veľkého

výskumného súboru, resp. nekonečne veľkého počtu pokusov/testovaní/pozorovaní); teoretické rozdelenie

premennej je (v matematickom zmysle) funkcia, ktorá priradzuje ka�dej jednotlivej hodnote premennej (resp.

nejakému intervalu hodnôt) určitú pravdepodobnosť výskytu v podobe pravdepodobnostného čísla (t. j.

pravdepodobnosť je priradená za pomoci funkcie, nie na základe empirického zisťovania)

Teoretické rozdelenia (ako v�etky zov�eobecňujúce modely vo vede) majú, samozrejme, východisko

v empirických rozdeleniach; dajú sa chápať ako empirické rozdelenia �dotiahnuté� k teoretickej, abstraktnej

dokonalosti. Prechod od empirického rozdelenia početností k teoretickému modelu pravdepodobnostného

rozdelenia premennej si mo�no názorne predstaviť s pomocou nasledujúceho obrázku.

Obrázok: Prechod od empirického rozdelenia početností k teoretickému modelu pravdepodobnostného

rozdelenia (zdroj: Swodoba, 1977, s.60)

Normálne rozdelenie Normálne rozdelenie premennej je predov�etkým (ako ostatne aj ka�dé iné teoretické �tatistické

rozdelenie) teoretickým modelom, nie bezvýhradne presným zachytením skutočných relatívnych početností

(resp. pravdepodobností) výskytu rôznych hodnôt premennej. Je to �zideálnená� skutočnosť: zachytáva

rozdelenie premennej za ideálneho (v skutočnosti nedosiahnuteľného) predpokladu, �e máme nekonečne

veľký výskumný súbor a premennú, ktorá mô�e nadobudnúť nekonečne veľa hodnôt, ako aj nekonečne

presné �meradlo�, s pomocou ktorého sme schopní nepatrné rozdiely v hodnotách premennej zachytiť.

Normálne rozdelenie je teda modelom, ktorý zodpovedá skutočnosti v tom zmysle, �e je to jej abstraktný

ideálny obraz. Je to modelom, ktorý slú�i v �tatistike ako veľmi u�itočná pomôcka pre rôzne (ale v�dy len

pravdepodobnostné) výpočty, nakoľko je východiskom pre odvodenie mnohých procedúr, postupov,

resp. vzorcov pou�ívaných v rámci �tatistickej analýzy, a teda je aj jednou z podmienok ich pou�itia (napr.

v�etky tzv. parametrické postupy /či u� koeficienty alebo testy hypotéz/ mo�no pou�iť len pre normálne

rozdelenú premennú).

U�itočnosť normálneho rozdelenia spočíva aj v tom, �e takmer v�etky skutočné premenné, ktoré mô�u

byť sledované vo vedách o človeku, majú rozdelenie, ktoré sa blí�i normálnemu (tzn. drvivú väč�inu

premenných ním mô�eme aproximovať/priblí�iť/modelovať), tzn. je najfrekventovanej�ím teoretickým

modelom pre skutočné premenné.

Ďal�ou veľmi výhodnou vlastnosťou tohto rozdelenia je to, �e normálne rozdelená premenná je

jednoznačne určená (daná) strednou hodnotou∗ (priemerom) a rozptylom. Teda aj normálne rozdelenie ako

teoretický model je dané parametrami priemer a rozptyl, čo sa symbolicky zachytáva nasledovne: N (µ, σ²), kde µ /�mý�/ je symbol pre strednú hodnotu, teda ekvivalent AP a σ² /�sigma na druhú�/ je symbolom pre

rozptyl, teda ekvivalent s² (v �tatistike je zvykom označovať výberové charakteristiky /ako napr. priemer,

rozptyl,... zistené v rámci výberového súboru/ latinkou a parametre základného súboru /celej populácie/

písmenami gréckej abecedy).

∗ ne�pecifické pomenovanie �stredná hodnota� (namiesto �pecifického �aritmetický priemer�) mô�eme

pri normálnom rozdelení kľudne pou�ívať, lebo tu platí, �e: AP = Me = Mo (t. j. v�etky pou�iteľné stredné

hodnoty sa rovnajú)

Normálne rozdelenie sa znázorňuje krivkou zakreslenou v �tandardnom dvoj-osovom systéme pričom

hodnoty, ktoré mô�e premenná nadobudnúť, sú predstavované x-ovou osou a rôzne miery pravdepodobnosti

/resp. relatívne početnosti/, s ktorou sa dané hodnoty vyskytujú, sú predstavované y-ovou osou. Táto

�normálna� krivka má tvar zvonu (v strede je �najvy��ia�, smerom k okrajom �klesá�), preto sa o nej niekedy

hovorí ako o zvonovitej krivke, oveľa častej�ie sa v�ak pre ňu pou�íva označenie Gaussova krivka (podľa

Gaussa � jedného z jej �praotcov�). Stredné hodnoty normálne rozdelených premenných sú toti�

najčastej�ie (majú najväč�ie relatívne početnosti, resp. najväč�iu pravdepodobnosť výskytu → preto je

Gaussova krivka v strede �najvy��ia�); hodnoty premennej sa vyskytujú tým zriedkavej�ie (tým majú

men�ie relatívne početnosti, men�iu pravdepodobnosť výskytu), čím je ich rozdiel od strednej hodnoty

(priemeru) väč�í (t. j. s rastúcou �vzdialenosťou na obe strany� od strednej hodnoty krivka

�klesá�); extrémne hodnoty premennej (veľmi �vzdialené� od strednej hodnoty) sú ojedinelé (majú veľmi

malé relatívne početnosti, mizivú pravdepodobnosť výskytu).

Dôle�itou vlastnosťou Gaussovej krivky (ale aj normálneho rozdelenia ako takého) je tie� symetrickosť,

čo znamená, �e pravdepodobnosť výskytu hodnôt premennej s rastúcim rozdielom týchto hodnôt od priemeru

klesá rovnomerne � bez ohľadu na to, či sú dané hodnoty od priemeru ni��ie alebo vy��ie (teda či sa od neho

vzďaľujú na jednu alebo na druhú stranu; ak sú od priemeru vzdialené rovnako /t. j. absolútna hodnota ich

rozdielov od priemeru je rovnaká/, aj pravdepodobnosť ich výskytu je rovnaká).

Priebeh Gaussovej krivky zachytávajúcej normálne rozdelenie konkrétnej premennej závisí, samozrejme,

od parametrov, ktorými je dané toto normálne rozdelenie � t. j. od strednej hodnoty a od rozptylu. Poznanie

týchto parametrov (ako aj to, �e vieme, �e ka�dá Gaussova krivka je symetrická) nám umo�ňuje priebeh tejto

konkrétnej krivky � jej polohu aj tvar � dostatočne presne zachytiť. Stredná hodnota toti� vypovedá o polohe

krivky (kde presne � vzhľadom na os x � bude zakreslená) a rozptyl vypovedá o jej tvare (či bude �vysoká

a �tíhla� � tzv. strmá, alebo bude �nízka a �iroká� � tzv. plochá). Je zrejmé, �e čím men�í rozptyl premenná

má, tým menej budú vzdialené jej hodnoty od priemeru, a teda krivka bude strm�ia; naopak, čím je rozptyl

väč�í, tým viac hodnôt je od priemeru vzdialenej�ích � t. j. krivka bude ploch�ia. Príklady kriviek

normálnych rozdelení rovnakými strednými hodnotami, ale rôznymi rozptylmi sú na nasledujúcom obrázku

(ak by mali rozdielne aj stredné hodnoty, lí�ili by sa aj vo svojej polohe vzhľadom na os x, t. j. boli by voči

sebe navzájom �poposúvané� v pravo-ľavom smere).

Obrázok: Príklady kriviek normálnych rozdelení s rovnakými strednými hodnotami, ale rôznymi rozptylmi (zdroj: Swodoba, 1977, s. 77)

Predpoklad, �e premenná je normálne rozdelená, sa overuje tzv. testami normality (pozri v časti

o testovaní hypotéz), ale �napovedať� nám mô�e aj histogram, resp. frekvenčný polygón (mô�eme aspoň tak

�od oka� vidieť, či sa ich tvar podobá, �blí�i� tvaru Gaussovej krivky).

Vlastnosti smerodajnej odchýlky u normálneho rozdelenia

Smerodajná odchýlka (druhá odmocnina rozptylu) v rámci ka�dého normálneho rozdelenia premennej má

zaujímavé a pre rôzne �tatistické výpočty veľmi dôle�ité vlastnosti. Pre normálne rozdelenú premennú toti�

platí, �e 68% údajov nadobúda hodnoty pohybujúce sa v rozmedzí jednej smerodajnej odchýlky

�nadol� (po osi x) a jednej smerodajnej odchýlky �nahor� od strednej hodnoty danej premennej (tzn.

�e v oblasti/v intervale od µ - σ do µ + σ sa nachádza 68% celého súboru); 95,5% údajov nadobúda

hodnoty pohybujúce sa v rozmedzí dvoch smerodajných odchýlok �nadol� a dvoch smerodajných

odchýlok �nahor� od strednej hodnoty (tzn. �e v oblasti/v intervale od µ - 2σ do µ + 2σ sa nachádza

95,5% celého súboru); 99,7% údajov (či�e skoro v�etky údaje) nadobúda hodnoty pohybujúce sa v

rozmedzí troch smerodajných odchýlok∗ �nadol� a troch smerodajných odchýlok∗ �nahor� od strednej

hodnoty danej premennej (tzn. �e v oblasti/v intervale od µ - 3σ do µ + 3σ sa nachádza 99,7% celého

súboru).

∗ spomínané je v �tatistike označované ako �pravidlo 3 σ� (tri sigma), ktoré teda hovorí o tom, �e pre

takmer v�etky hodnoty (99,7%), ktoré mô�e premenná nadobudnúť, platí, �e nie sú men�ie ne� µ - 3σ ani

väč�ie ne� µ + 3σ (u normálne rozdelenej premennej); to, �e budú men�ie, resp. väč�ie ne� uvedené

�hranice� mô�e nastať len s mizivou pravdepodobnosťou: 0,3% (100-99,7)

Normované (�tandardizované) normálne rozdelenie

Pre posudzovanie a porovnávanie rôznych normálne rozdelených premenných (premenných nameraných

v rôznych jednotkách či nadobúdajúcich rôzne merné hodnoty, resp. aj premenných zisťovaných na rôzne

veľkých súboroch) má význam �tandardizácia (normalizácia, normovanie) normálnych rozdelení daných

konkrétnych premenných. Ide vlastne o akési �prevedenie� rôznych normálnych rozdelení na jednotnú

schému, v rámci ktorej sa �mernou� jednotkou stáva smerodajná odchýlka (bez ohľadu na to, aké sú

konkrétne vypočítané hodnoty týchto smerodajných odchýlok, mo�no ich pou�iť ako �tandardizované

ukazovatele, pričom mo�no veľmi dobre vyu�iť práve vy��ie spomínané vlastnosti smerodajných odchýlok

normálnych rozdelení).

Teoreticky spočíva �prevedenie� normálneho rozdelenia do normovaného normálneho rozdelenia v tom,

�e vytvoríme nové normálne rozdelenie (nový model), v ktorom akoby sme od ka�dej jednej hodnoty

premennej (xi) odpočítali strednú hodnotu (priemer) a tento rozdiel e�te vydelili smerodajnou odchýlkou

danej pôvodnej premennej. Pre výpočet normovaných hodnôt premennej, ktoré sa zvyknú označovať ako tzv.

z-hodnoty (normované normálne rozdelenie býva taktie� niekedy nazývané z-rozdelením), platí teda

nasledujúci vzťah: : zi = σ

µ−ix , resp. zi = s

x APi − . Tým pádom bude stredná hodnota v tomto novom

modeli v bode 0 a smerodajná odchýlka bude (keď�e nám má teraz �zohrávať rolu� �tandardnej �mernej�

jednotky) jednotková (t. j. σ = 1); rovnako aj rozptyl /σ2/ bude 1, nakoľko 12 je zase len 1. Symbolicky

vyjadrujeme normované normálne rozdelenie takto: N (0,1).

V normovanom normálnom rozdelení je teda priemer 0 a odchýlky od neho sa u� neudávajú

v konkrétnych �merných� jednotkách (kg, IQ-skóre, body v teste, absolútne početnosti a pod.), ale

jednoducho len v bli��ie ne�pecifikovaných �tandardných/smerodajných odchýlkach (aj názov ��tandardná

odchýlka� súvisí práve s tým).

Krivka normovaného normálneho rozdelenia má u� konkrétny �pecifický tvar; nie je ani príli� strmá, ani

príli� plochá, ale niečo �medzi� (na vy��ie uvedenom obrázku rôznych kriviek normálnych rozdelení je práve

tá �stredná� krivka krivkou normovaného normálneho rozdelenia).

Ka�dé normálne rozdelenie premennej sa dá �tandardizovať (�previesť� na normalizované normálne

rozdelenie). Pravdepodobnosti výskytu hodnôt �tandardizovanej premennej rozlične vzdialených od priemeru

(tieto vzdialenosti sú dané v smerodajných odchýlkach) sú zachytené v �tatistických tabuľkách a na ich

základe mo�no vypočítať pravdepodobnosti výskytu rôznych hodnôt akejkoľvek normálne rozdelenej

premennej.

Inferenčná �tatistika

Ako u� bolo spomínané, v rámci inferenčnej �tatistiky sa usudzuje o vlastnostiach, charakteristikách

základného súboru (populácie) na základe poznania vlastností, charakteristík výberových súborov z danej

populácie.

Odhad parametrov základného súboru

Prvým zo �tatistických problémov, ktorými sa tu budeme v rámci inferenčnej �tatistiky zaoberať je odhad

parametrov (µ, σ², σ) nejakej premennej charakterizujúcej základný súbor. Pre tento odhad je východiskom

sledovanie, �meranie� danej premennej v rámci výberu z tohto základného súboru a výpočet jej charakteristík

(tzv. �tatistík), ako sú výberový priemer (AP) a výberový rozptyl (s²), resp. výberová smerodajná odchýlka

(s). Aby sme v�ak mohli robiť nejaké (aj tak v�dy len pravdepodobnostné) závery o parametroch základného

súboru, musí ná� výber � výberový súbor spĺňať po�iadavku náhodnosti (teda �e pôjde o náhodný výber), ako

aj po�iadavku dostatočného rozsahu (napr. pre odhad strednej hodnoty sa odporúča rozsah výberu minimálne

n = 30; pre odhad rozptylu sa odporúča rozsah výberu minimálne n = 100).

Odhadnúť parametre základného súboru (populačné parametre) mo�no dvoma spôsobmi:

1. formou tzv. bodového odhadu (ako odhad parametra sa udá len jedna jediná hodnota vyčíslená

z hodnôt premennej rámci výberového súboru)

2. formou tzv. intervalového odhadu (určuje sa tzv. interval spoľahlivosti / konfidenčný interval, t. j.

určitá oblasť hodnôt pre odhadovaný parameter)

Ad 1. Hoci nám výpočet tzv. výberovej �tatistiky (priemeru, rozptylu...) mô�e dať len pribli�nú

informáciu o príslu�nom parametri základného súboru, predsa len je to najlep�í (najpresnej�í) bodový odhad,

aký mô�eme na základe poznania výberového súboru urobiť. Preto teda napr. bodovým odhadom

populačnej strednej hodnoty (populačného priemeru) premennej je výberová stredná hodnota (výberový

priemer), či�e priemer vypočítaný z hodnôt, ktoré premenná nadobudla v na�om výberovom súbore.

Analogicky → bodovým odhadom populačného rozptylu je ná� výberový rozptyl atď.

Ad 2. Oveľa adekvátnej�ím ako bodový odhad parametrov (vzhľadom na rôzne potenciálne �pecifiká

a �odchýlky� ná�ho výberového súboru) je intervalový odhad parametrov základného súboru. V rámci neho

u� neudávame ako odhad populačného parametru len jednu jedinú hodnotu (ktorá by aj tak mohla byť viac či

menej skreslená), ale vymedzíme určitý rozsah hodnôt, v rámci ktorých by sa mal nami odhadovaný

populačný parameter s istou pravdepodobnosťou/spoľahlivosťou �pohybovať� (o intervalovom odhade

priemeru základného súboru � pozri ďalej).

Rozdelenia výberových �tatistík

V rámci tejto časti sa �iada ako prvé vysvetliť, čo sa v �tatistike myslí tzv. rozdeleniami výberových

�tatistík (priemerov, rozptylov...), preto�e to vedie k pochopeniu jednej z dôle�itých charakteristík

výberových súborov � smerodajnej/�tandardnej chyby (v texte sa ďalej budeme zaoberať konkrétne

�tandardnou chybou priemeru). Práve určenie smerodajnej chyby nám toti� umo�ní určiť hranice intervalu,

ktorým sa v rámci intervalového odhadovania vymedzuje oblasť hodnôt, do ktorej �padne� odhadovaný

parameter základného súboru.

Zo základného súboru (celej populácie) nemusíme �vybrať� len jeden jediný výberový súbor, ale

mô�eme mať k dispozícii na skúmanie viacero rovnako početných výberov � výberových súborov (VS).

A pre ka�dý jeden z týchto výberov mo�no vypočítať obvyklé �tatistiky (v danom kontexte sa označujú ako

výberové �tatistiky), ako sú napr. priemer a rozptyl (schematicky je to zachytené na nasledujúcom obrázku).

Základný súbor

VS1 VS2 VS3 VS4 VS5 VS6 ........ VSn

AP1, s1² AP2, s2² AP3, s3² AP4, s4² AP5, s5² AP6, s6² APn, sn²

Obrázok: Schéma n výberových súborov (s príslu�nými výberovými �tatistikami) jedného základného súboru

Ak by sme teoreticky mali výberových súborov zo základného súboru dostatočne veľa, a teda aj

dostatočne veľa výberových �tatistík, mohli by sme tieto výberové �tatistiky pova�ovať za hodnoty

premennej, ktorá má vlastné zákonitosti a � najmä � vlastné rozdelenie početností (tzn. niektoré hodnoty

výberových �tatistík by boli frekventovanej�ie, pravdepodobnej�ie; iné by boli, naopak, zriedkavej�ie �

menej pravdepodobné). Ne�lo by teda u� o rozdelenie nejakej konkrétnej premennej (jej hodnôt → napr.

rôzne hodnoty skóre neurotizmu v jednom výberovom súbore), ale o rozdelenie výberových �tatistík,

v ktorom by namiesto v�etkých nameraných hodnôt premennej figurovali hodnoty vypočítaných �tatistík zo

v�etkých na�ich rovnako veľkých výberových súborov (t. j. napr. priemerné skóre neurotizmu pre ka�dý

z jednotlivých výberových súborov). Takéto rozdelenie označujeme ako rozdelenie výberových �tatistík (či

u� priemerov, rozptylov, alebo iných). Rozdelenie výberových �tatistík je v�ak opäť len abstraktným

teoretickým modelom, ktorý nám umo�ňuje ďal�ie úvahy (v skutočne prevádzanom výskume nerobíme

viacero výberov zo základného súboru, ale máme k dispozícii len jeden výberový súbor).

Dôle�itou vlastnosťou ka�dého rozdelenia výberových �tatistík je to, �e s rastúcim počtom rôznych

hodnôt výberových �tatistík, teda s rastúcim n (t. j. s rastúcim počtom výberových súborov, v rámci ktorých

boli výberové �tatistiky vypočítané) by sa toto rozdelenie malo blí�iť normálnemu rozdeleniu, a to aj

v prípade, ak by samotná pôvodná sledovaná premenná (napr. ná� neurotizmus) nebola normálne rozdelená.

Rozdelenie výberových �tatistík ako teoretický model mô�eme teda pova�ovať za normálne rozdelenie a ako

také má v�etky vlastnosti normálneho rozdelenia vrátane vlastností smerodajných odchýlok u normálneho

rozdelenia. Strednou hodnotou tohto rozdelenia je priemer výberových �tatistík (priemerov,

rozptylov...), rozptylom tohto rozdelenia je rozptyl výberových �tatistík (priemerov, rozptylov...)

a smerodajnou odchýlkou je druhá odmocnina z daného rozptylu, ktorá v�ak v rámci rozdelenia výberových

�tatistík �vystupuje� pod názvom �tandardná /smerodajná, stredná/ chyba.

Z hľadiska odhadu strednej hodnoty základného súboru (lebo to je hlavná téma tejto podkapitoly) nás

zaujíma, ako u� bolo vy��ie naznačené, práve �tandardná /smerodajná, stredná/ chyba priemeru, ktorá je

vlastne smerodajnou odchýlkou v rámci rozdelenia výberových priemerov. Označujeme ju písmenom sAP (alebo aj ako e) a vieme ju vypočítať (pribli�ne, samozrejme) aj na základe poznania hodnôt sledovanej

premennej v rámci jedného výberového súboru (t. j. nemusíme mať viacero výberových súborov), a to podľa

vzorca: sAP =ns

, kde s je smerodajná odchýlka premennej vypočítaná v rámci ná�ho výberového súboru

a n je rozsah ná�ho výberového súboru. Z uvedeného vzorca je zrejmé, �e �tandardná chyba priemeru je tým

väč�ia, čím väč�í je rozptyl (a teda aj smerodajná odchýlka) sledovanej premennej v rámci ná�ho výberového

súboru /lebo s je v čitateli zlomku/ a tým men�ia, čím väč�í je rozsah ná�ho výberového súboru /lebo

odmocnina z n je v menovateli zlomku/.

�tandardná chyba priemeru teda u� (na rozdiel od smerodajnej odchýlky) nepoukazuje na variabilitu,

rozptýlenosť hodnôt sledovanej premennej, ale na variabilitu, rozptýlenosť priemerov (priemerných hodnôt

sledovanej premennej) vypočítateľných pre v�etky mo�né výbery zo základného súboru.

Treba e�te pripomenúť, �e práve �tandardné chyby priemeru premenných je vhodné uviesť v �správe�

o výskumných zisteniach (či u� je to odborná �túdia alebo záverečná �tudentská práca) pri �prvom priblí�ení�

(e�te pred vlastným uvedením výsledkov �tatistického spracovania) premenných, ktoré boli v rámci výskumu

sledované (spolu s priemermi a smerodajnými odchýlkami).

Intervalový odhad strednej hodnoty (priemeru) základného súboru

Nakoľko mo�no rozdelenie výberových priemerov teoreticky pokladať za normálne rozdelenie

(s rastúcim n sa k nemu blí�i), má jeho smerodajná odchýlka (v tomto rozdelení → �tandardná chyba

priemeru) tie� vy��ie spomínané vlastnosti smerodajnej odchýlky normálne rozdelenej premennej:

� oblasti µ ± 2σ je 95,5% súboru (t. j. v�etkých hodnôt premennej)

� v oblasti µ ± 3σ je 99,7% súboru (t. j. v�etkých hodnôt premennej)

Aby sme dostali percentuálne vyjadrenie časti súboru v celých percentách, musíme vy��ie uvedené pravidlo

trochu upraviť na nasledujúce:

� 95% súboru je v oblasti µ ± 1,96σ

� 99% súboru je v oblasti µ ± 2,58σ

Z toho nám teda vyplýva, �e pre ka�dé rozdelenie výberových priemerov (v ktorom u� namiesto smerodajnej

odchýlky �narábame� so �tandardnou chybou priemeru; av�ak namiesto σAP, teda �tandardnej chyby ako

teoretického parametra tu u� pí�eme sAP, teda �tandardná chyba ako konkrétna charakteristika vypočítateľná

pre ná� konkrétny výberový súbor) s 95% pravdepodobnosťou/spoľahlivosťou platí:

µ � 1,96.sAP ≤APi ≤ µ + 1,96.sAP; po matematickej úprave tejto nerovnosti dostaneme nerovnosť:

APi + 1,96.sAP ≥ µ ≥ APi � 1,96.sAP

A podobne, pre ka�dý výberový priemer (s 99% pravdepodobnosťou/spoľahlivosťou) platí:

µ � 2,58.sAP ≤APi ≤ µ + 2,58.sAP; po matematickej úprave tejto nerovnosti dostaneme nerovnosť:

APi + 2,58.sAP ≥ µ ≥ APi � 2,58. sAP

Teda ak poznáme akýkoľvek výberový priemer (stačí priemer jedného výberového súboru) a máme

vypočítanú �tandardnú chybu priemeru, mô�eme odhadnúť strednú hodnotu (priemer) základného súboru

(celej populácie) prostredníctvom udania tzv. konfidenčného intervalu (intervalu spoľahlivosti) pre

priemer:

Is: (AP � 1,96.sAP ; AP + 1,96.sAP) s 95% spoľahlivosťou a

Is: (AP � 2,58.sAP ; AP + 2,58.sAP) s 99% spoľahlivosťou.

Hodnoty AP ± 1,96.sAP (resp. AP ± 2,58.sAP) udávajú dolné a horné intervalu, do ktorého by mala

s uvedenou pravdepodobnosťou/spoľahlivosťou �padnúť� stredná hodnota základného súboru.

Documents

Statistika 1.Cast