146
TECHNICKÁ UNIVERZITA V KOŠICIACH FAKULTA BANÍCTVA, EKOLÓGIE, RIADENIA A GEOTECHNOLÓGIÍ KATEDRA INFORMATIZÁCIE A RIADENIA PROCESOV ŠTATISTICKÉ METÓDY Ľubica Floreková Marta Benková

Štatistické metódy

Embed Size (px)

DESCRIPTION

skripta

Citation preview

Page 1: Štatistické metódy

TECHNICKÁ UNIVERZITA V KOŠICIACH

FAKULTA BANÍCTVA, EKOLÓGIE, RIADENIA A GEOTECHNOLÓGIÍ

KATEDRA INFORMATIZÁCIE A RIADENIA PROCESOV

ŠTATISTICKÉ METÓDY

Ľubica FlorekováMarta Benková

2006 – II.vydanie

1999 - I.vydanie

Page 2: Štatistické metódy
Page 3: Štatistické metódy

Recenzenti: Doc. RNDr. Anton Lavrin, CSc., Ing. Dagmar Bednárová

Copyright Doc. Ing. Ľubica Floreková, CSc., Ing. Marta Benková, CSc.

ISBN 80-8073-527-1

Page 4: Štatistické metódy

OBSAH

ÚVOD............................................................................................................................................................5

1. ZÁKLADNÉ POJMY PRE ŠTATISTICKÚ PRÁCU S ÚDAJMI.................................................7

2. ZÁKLADNÉ POJMY TEÓRIE PRAVDEPODOBNOSTI...........................................................13

3. ROZDELENIA NÁHODNÝCH VELIČÍN.....................................................................................17

4. DESKRIPTÍVNA – POPISNÁ ŠTATISTIKA PRE VÝBER HODNÔT JEDNEJ NÁHODNEJ PREMENNEJ.............................................................................................25

4.1 SPRACOVANIE MALÉHO VÝBERU..................................................................................................254.2 SPRACOVANIE VEĽKÉHO VÝBERU.................................................................................................27

5. TEÓRIA ODHADU...........................................................................................................................31

5.1 BODOVÝ ODHAD PARAMETROV....................................................................................................315.2 INTERVALOVÝ ODHAD PARAMETROV...........................................................................................31

6. TESTOVANIE ŠTATISTICKÝCH HYPOTÉZ............................................................................33

6.1 TESTY EXTRÉMNYCH HODNÔT.....................................................................................................346.1.1 Dixonov neparametrický test...............................................................................................346.1.2 Grubbsov parametrický test.................................................................................................34

6.2 TESTY ZHODY EMPIRICKÉHO A TEORETICKÉHO ROZDELENIA......................................................356.2.1 Pearsonov 2 test dobrej zhody............................................................................................356.2.2 Kolmogorov-Smirnovov test zhody D1................................................................................366.2.3 Test normality pomocou asymetrie......................................................................................376.2.4 Test normality pomocou excesu...........................................................................................37

6.3 TESTY NA POROVNANIE DVOCH VÝBEROV...................................................................................386.3.1 Test rozdielu disperzií - Fisherov test zhody disperzií.........................................................386.3.2 Studentov t-test pri homoskedasticite...................................................................................396.3.3 Studentov t-test pri heteroskedasticite.................................................................................396.3.4 Studentov t-test párovaných hodnôt.....................................................................................40

6.4 TESTY NA POROVNANIE TROCH A VIACERÝCH VÝBEROV............................................................406.4.1 Bartlettov test.......................................................................................................................416.4.2 Jednofaktorová analýza rozptylu.........................................................................................426.4.3 Dvojfaktorová analýza rozptylu...........................................................................................436.4.4 Latinský štvorec pre tri faktory na troch úrovnich..............................................................446.4.5 Kruskal – Wallisov test........................................................................................................45

6.5 2 TEST NEZÁVISLOSTI V KONTINGENČNEJ TABUĽKE...................................................................45

7. ROBUSTNÁ A NEPARAMETRICKÁ ŠTATISTIKA..................................................................47

Page 5: Štatistické metódy

8. ANALÝZA ZÁVISLOSTÍ................................................................................................................51

8.1 METÓDY ODHADU PARAMETROV REGRESNÉHO MODELU............................................................518.2 METÓDA NAJMENŠÍCH ŠTVORCOV................................................................................................518.3 REGRESNÉ MODELY PRE DVE PREMENNÉ.....................................................................................53

8.3.1 Lineárný regresný model – LRM.........................................................................................548.3.2 Nelineárne regresné modely – NLRM..................................................................................58

8.4 REGRESNÉ MODELY PRE VIAC PREMENNÝCH...............................................................................638.5 KVALITA REGRESNÝCH MODELOV...............................................................................................66

9. ČASOVÉ RADY................................................................................................................................67

9.1 MODELOVANIE ČASOVÝCH RADOV..............................................................................................689.2 ANALÝZA TRENDOVEJ ZLOŽKY....................................................................................................70

9.2.1 Grafické metódy odhadu trendu ČR.....................................................................................709.2.2 Analytické vyjadrenie trendu pomocou trendových funkcií.................................................719.2.3 Adaptívne prístupy k vyjadreniu trendovej zložky ČR.........................................................74

9.3 ANALÝZA SEZÓNNEJ ZLOŽKY.......................................................................................................779.3.1 Identifikácia sezónnej zložky................................................................................................779.3.2 Kvantifikácia sezónnej zložky...............................................................................................799.3.3 Očistenie časového radu od sezónnej zložky........................................................................80

9.4 ANALÝZA CYKLICKEJ ZLOŽKY.....................................................................................................819.5 ANALÝZA NÁHODNEJ ZLOŽKY......................................................................................................829.6 KORELÁCIA ČASOVÝCH RADOV....................................................................................................84

10. PÔSOBENIE CHÝB NA VÝSLEDKY MERANÍ A NA MODELY............................................87

ŠTATISTICKÉ TABUĽKY......................................................................................................................95

Literatúra....................................................................................................................................................105

Page 6: Štatistické metódy

Motto:Ak Vám to dobre myslí,venujte sa štatistike.Ak nie, venujte sapolitike alebo divadlu.

G. B. Shaw

Úvod

Oblasť používania štatistických metód je veľmi rozsiahla. Týka sa sociálnych, technických, environmentálnych, ekonomických, problémov. Základný pracovný aparát je spravidla istý, oblasť interpretácie, vysvetľovania, záverov je rôzna, pretože súvisí s konkrétnou príčinou, objektom, systémom.

Štatistické metódy umožňujú hľadať a vysvetľovať rôzne vzťahy medzi merateľnými, pozorovateľnými, kvantifikovateľnými premennými, čím dávajú k dispozícii rozsiahle možnosti na zovšeobecňovanie konkrétnych záverov.

Pre aktívne uplatnenie týchto metód nestačí iba zvládnutie teórie, ktorá je náplňou týchto učebných textov. Je potrebné overiť si teóriu v praxi, na riešení viacerých typových úloh, resp. príkladov.

Veríme, že teoretické pozadie, uvedené v týchto učebných textoch, umožní aktívne využívanie štatistických záverov v praxi.

autorkyKošice, máj 2006

Page 7: Štatistické metódy
Page 8: Štatistické metódy

1. Základné pojmy pre štatistickú prácu s údajmi

1. Základné pojmy pre štatistickú prácu s údajmi

Pri spracovaní číselných údajov pre oblasť štatistiky vychádza sa spravidla z diskrétnych – nespojitých hodnôt, ktoré reprezentujú určitý konečný počet hodnôt xi o rozsahu n, teda výber, z teoreticky nekonečného počtu N→ ∞ realizácií príslušnej náhodnej premennej X, teda základného súboru (populácie).

Pri spracovávaní máme za sebou už dva kroky, teda bola určená VELIČINA a bol realizovaný konkrétny SPÔSOB MERANIA, jej získania (schéma č.1).

Schéma č.1 Postupnosť získavania, spracovania a analýzy dát

8

KVALITATÍVNEINTUÍCIA

KVALITATÍVNE

SPÔSOBMERANIA

priamenepriame

monitoring

presnosť/obmedzeniaprístroj/snímaččasový interval

SPRACOVANIEVÝPOČET

metódaprostriedok

presnosť

rýchlosťobmedzenia

SPRACOVANIEVÝPOČET

metódaprostriedok

presnosť

rýchlosťobmedzenia

VELIČINAmožnosti získaniaprostredieobmedzenia

DÁTA

OBJEKT

VÝSLEDOK

INTERPRE-TÁCIA

vypovedaciahodnota

informačnáobsažnosť

VÝSLEDOK

grafická

numerická

logická

verbálna

výrobnétechnologické

technické

výskumnéprojekčné

OBJEKT

SPÄTNÁ VÄZBA

Page 9: Štatistické metódy

ŠTATISTICKÉ METÓDY

Úloha analyzovať, zhodnotiť a vytvoriť vhodnú reprezentáciu údajov (dát), patrí do oblasti štatistického modelovania, ako súčasti širšieho matematického modelovania (schéma č. 2)

Schéma č. 2 Schéma vzťahu medzi matematickou teóriou a reálnym svetom

Práca s konkrétnymi dátami má svoju logickú nadväznosť, v etapách:- formulácia problému, stanovenie cieľa,- realizácia – získanie konkrétnych údajov,- výpočty – získanie reprezentatívneho modelu – zástupcu reálnych dát,- analýza výsledkov,- interpretácia výsledkov,- implementácia výsledkov, a prípadne formulácia nového problému, atď.

Vzájomnú nadväznosť a spätnoväzobné ovplyvňovanie etáp znázorňuje schéma č.3.

Výsledkom práce s dátami by malo byť priradenie modelu k skúmanému objektu (schéma č.4), pričom vyžadujeme, aby tento model bol

- jednoduchý – simplicity,- platný – validity,- robustný – robustness,- jednoznačný – prescriptiveness,- analyzovateľný – analyzability.

FLOREKOVÁ, BENKOVÁ 9

MATEMATICKÁTEÓRIA

(konzistentný systém logického myslenia)

REÁLNY SVET(veľmi zložitý

a neurčitý systém)

MODELOVANIE(zjednodušeniaa abstrakcia)

INTERPRETÁCIA(konfrontácia

s realitou)

dáta sy

stém

axi

óm

účel modelu

modely odpovede

Page 10: Štatistické metódy

1. Základné pojmy pre štatistickú prácu s údajmi

Schéma č.3 Tvorba experimentálnych modelov

Schéma č.4 Priradenie modelu skúmanému objektu

Ahituv a Neumann (1980) stanovili, že model musí byť:- efektívny, účinný – effectivity: Doing the ring thing;- eficientný, výkonný – efficiency: Doing the thing ring;

Boehm (1984) pridal k týmto požiadavkám vlastnosti:- verifikovateľnosť, overiteľnosť – verification: Am I building the product right?- validitu, platnosť – validation: Am I building the right product?

10

RIEŠENÝ PROBLÉM

(zadanie, cieľ)OBJEKT

FORMULÁCIA PROBLÉMU

(príprava)ÚLOHA

EXPERIMENT(vykonávanie)

DÁTA

VÝPOČTOVÁANALÝZA

(vyhodnocovanie)RIEŠENIE

INTERPRETÁCIAVÝSLEDKOV

MODELIMPLEMENTÁCIA

MODELU DOREÁLNEHO

PROSTREDIA

SKÚMANÝOBJEKT

(black box)

MODELYi=F(Xi)

Xi

Yi

Page 11: Štatistické metódy

ŠTATISTICKÉ METÓDY

Mohli by sme uzavrieť, v zmysle De Marcovho (1982) citátu: You can´t control, what you can´t measure, že vzťah medzi objektom (resp. na ňom získaných dátach) a jeho modelom (z dát vytvorenej reprezentácie), musí byť taký, aby bolo možné objekt, systém, proces, pomocou vhodného modelu riadiť, na základe reálne overiteľných údajov.

Štatistické metódy pracujú s dátami v postupnosti:- od konkrétneho k všeobecnému,- od jednotlivého k teoretickému,- teda v cykle:

a používajú pre riešenie problémov- indukciu – vyvodzovanie záverov na základe spracovania a

vyhodnotenia reálnych dát – fenomenologické modely, zovšeobecňovanie špeciálnych prípadov,

- dedukciu – odvodzovanie, usudzovanie na základe známych všeobecných vzťahov o jednotlivých , čiastkových situáciách, asymptotické modely,

- rozhodovanie – decíziu – pre riešenie konkrétnych situácií, pre riadenie skúmaného objektu pomocou informácií, získaných z modelu.

Základom aplikácie kvantitatívnych štatistických postupov je matematická štatistika a teória pravdepodobnosti, ktorých väzba je veľmi silná.

Matematická štatistika - MŠ je veda o získavaní, spracovaní a vyhodnocovaní hromadných (náhodných) dát, získaných na primeranom počte pozorovaní, ktorej závery sú podkladom pre teóriu pravdepodobnosti.

Teória pravdepodobnosti – TP je veda, ktorá skúma objektívne pravdepodobnostné zákonitosti hromadných náhodných premenných /javov, na základe zovšeobecnenie výsledkov, ktoré získava z matematickej štatistiky.

Aplikovaná štatistika – AŠ štatistické metódy ŠM pre ekonomiku, obchod, bankovníctvo, poisťovníctvo, priemyselné, výrobné a technologické procesy, sociálne a spoločenské oblasti, demografiu, atď. využívajú prostriedky MŠ a TP. Jej základom je výber údajov, ktorého spracovaním sa získavajú závery aplikovateľné v praxi, potvrdené teóriou (schéma č.5).

Schéma č.5 Vzťah štatistických disciplín

FLOREKOVÁ, BENKOVÁ 11

- dôsledky- údaje

usudzuje z dôsledku na príčinyTP MŠ

usudzuje z príčiny na dôsledok

- príčiny- modely - zákonitosti

reálne dáta teória prax

Page 12: Štatistické metódy

1. Základné pojmy pre štatistickú prácu s údajmi

Údaje, s ktorými pracujú štatistické metódy majú tzv. apriórne – prvotné vlastnosti A, známe „pred“ ich získaním a aposteriórne – druhotné vlastnosti AO, známe zo spracovania, „po“ ich získaní. Tzv. úplná informácia je zložená z oboch skupín týchto vlastností.

Apriórne vlastnosti popisujú kvalitatívne charakteristiky objektu:- α: 1-dynamičnosť, 0-statičnosť,- β: 1-stochastičnosť, 0-determinovanosť, - γ: 1-nelinearita, 0-linearita,- δ: 1-diskrétnosť, 0-kontinuálnosť.

Poznanie apriórnych vlastností umožňuje výber podmienok, oblastí, spôsobu získavania údajov. Čím vyššia je úroveň poznania A, tým ľahšie sa získavajú reprezentatívne AO. A môžu byť primárne/sekundárne, typu numerického, verbálneho, grafického. Vždy so sebou nesú určitý informačný obsah, majú určitú informačnú vypovedaciu hodnotu, mali by vždy znižovať mieru neurčitosti našich poznatkov (entrópiu) o skúmanom probléme.

Aposteriórne vlastnosti majú kvantitatívny charakter. Sú výsledkom merania, experimentu, ankety, prieskumu, vstupov, výstupov z objektu, pričom ich môžeme získavať pasívne, aktívne, heuristicky (Heuros - vynaliezať, objavovať, vlastné ľudskému úsudku), priamymi, resp. nepriamymi metódami. Sú základom exaktných vied, takže ich musíme vedieť nielen získavať, ale aj triediť, dávať do vzájomnej súvislosti, sledovať príčiny ich vzniku a následky, ktoré tieto príčiny spôsobujú. AO sa týkajú veličín:

- extenzívnych (závislé na rozmere) – množstvo, kvantita, keď veľkosť premennej je daná bezprostredne jej rozmerom (dĺžka, hmotnosť),

- intenzívne – stavové, kvalitatívne (účinkové, výkonnostné), ak kvantifikovateľný vzťah nie je daný priamo povahou dát, teplota, tlak, napätie, sila, produktivita,

- protetívne – časovo závislé (bez možnosti návratu v čase) (Proteus – boh mora, schopný stále meniť svoju polohu).

Experiment je cieľavedomá praktická činnosť, smerujúca k rozvoju poznania (fyzický – myšlienkový, vedecký – výrobný – výučbový,...), vyznačujúca sa rôznou mierou abstrakcie.

Z hľadiska inžinierskej praxe má najväčší význam experiment, založený na meraní – snímaní, monitorovaní (prevode a prenose) dát/informácií na objekte.

Experimentálne dáta/údaje sú symbolicky vyjadrené výsledky experimentu.Plán experimentu zahrňuje postup realizácie pokusov, charakter premenných, ich

rozmery, oblasť platnosti.Experimentálna technika je súbor meracej, výpočtovej a riadiacej techniky, potrebnej

na získanie a spracovanie experimentálnych dát.

12

Page 13: Štatistické metódy

ŠTATISTICKÉ METÓDY

2. Základné pojmy teórie pravdepodobnosti

Všetky úvahy, týkajúce sa aplikácie štatistických postupov pre spracovanie reálnych dát, týkajú sa niekoľkých základných pojmov, s ktorými potom pracuje tzv. deskriptívna, t.j. popisná štatistika. Výber – V je súbor nameraných hodnôt, ktorý sa týka tej istej skupiny „vecí“, toho istého druhu vlastností, štatistického znaku, toho istého rozmeru, tej istej štatistickej jednotky, za predpokladu, že všetky dáta boli získané za porovnateľných podmienok. Výber je teda postupnosť nezávislých hodnôt rovnakého rozdelenia pravdepodobnosti výskytu, je podmnožinou základného súboru – ZS, t.j. všetkých možných N realizácií tejto náhodnej premennej, toho istého štatistického znaku (populácie).

Cieľom výberového štatistického zisťovania je štatistická inferencia o danom základnom súbore, o jeho spoľahlivosti, reprezentatívnosti.

Každé jednotlivé pozorovanie z V má určité rozdelenie pravdepodobností p(x). Podľa účelu, pre ktorý majú závery z hodnotenia výberov slúžiť, hovoríme o tzv. malom výbere, spravidla o rozsahu do 30 hodnôt a o tzv. veľkom výbere, ktorého rozsah je značne vyšší ako 30 hodnôt. Vo všeobecnosti platí: Kvalita je dôležitejšia ako kvantita. Presnosť výsledkov neovplyvní počet hodnôt, ale presnosť ich získavania, stabilita prostredia, z ktorého sa údaje získavajú.

Každý výsledok, realizácia experimentu, každý fakt, ktorý môže alebo nemusí nastať, nazývame jav. Veličina, ktorá je plne určená náhodným pokusom sa nazýva náhodná premenná NP. Náhodný pokus je plne určený podmienkami, ktoré je potrebné počas všetkých realizácií dodržať a podrobnosťou, s ktorou rozlišujeme jednotlivé možné výsledky. Pravdepodobnosť javu je kvantitatívny ukazovateľ očakávaného výsledku realizácie náhodného pokusu. Pravdepodobnosť javu je číselná miera stupňa objektívnej možnosti jeho vzniku, realizácie, výskyt. Pravdepodobnosť javu (random - náhodného), P(R) je číslo, Ω je konečná neprázdna množina rovnako možných výsledkov, r je náhodný jav, udalosť, podmnožina Ω. Jav istý je taký, ktorý nastane pri každej realizácii pri dodržaní príslušných podmienok, P(I)=1. Jav nemožný je taký, kde P(N)=0. Jav náhodný je taký, ktorý môže ale nemusí nastať pri dodržaní príslušných podmienok, P(R)0,1. Náhodný jav teda nesmie mať charakter jedinečnosti, ale musí mať charakter hromadnosti. Ak z n realizácií/údajov, sledovaný jav R nastal m krát, potom tzv. štatistická pravdepodobnosť výskytu tohto javu

p(R)=m/n, čo vyplýva aj z tzv. Bernoulliho schémy .Štatistická

pravdepodobnosť limitne konverguje k teoretickej pravdepodobnosti . (Štatistická

pravdepodobnosť javu je teda relatívna početnosť jeho výskytu, pretože m je počet prvkov množiny R, n je počet prvkov množiny Ω.) Vo všeobecnosti platí, že pravdepodobnejšie javy sa vyskytujú častejšie ako menej pravdepodobné. Zároveň platí,že súčet pravdepodobností výskytu nejakého javu sa vždy rovná 1.

Štatistické spracovanie sa týka javov R:- zlučiteľných, (vzájomne sa nevylučujúcich), ... (aj),- nezlučiteľných, (vzájomne sa vylučujúcich), ... (buď/alebo),- rovnako možných, v prípade existencie iba dvoch výsledkov

(áno/nie; funguje/nefunguje; zapnutý/vypnutý),- opačných, prípad nezlučiteľných dvoch javov R1 a R2 P(R1)=1- P(R2)

a naopak,

FLOREKOVÁ, BENKOVÁ 13

Page 14: Štatistické metódy

2. Základné pojmy teórie pravdepodobnosti

- nezávislých, P(R1|R2) =P(R1), P(R2) = 0 jav R1 je nezávislý na jave R2, alebo P(R2|R1) =P(R2), P(R1) = 0 jav R2 je nezávislý na jave R1,

- závislých, P(R1|R2) P(R1), P(R2) jav R1 je závislý na jave R2,ak P(R1|R2) vyjadruje podmienenú pravdepodobnosť, t.j. pravdepodobnosť výskytu javu R1, ak jav R2 už nastal.

Jednotlivé realizácie náhodných premenných sa týkajú dvoch typov:- diskrétna, nespojitá, definovaná oborom všetkých hodnôt, ktoré môžu

nadobúdať a pravdepodobnosťou výskytu každej hodnoty, „skokom“,- kontinuálna, spojitá, definovaná hustotou rozdelenia pravdepodobností

v určitom intervale hodnôt, „plynulo“.Zobrazenie NP pre oba typy napomáha jej lepšiemu chápaniu a spoznaniu. Využívajú

sa:- pravdepodobnostná tabuľka hodnôt pre diskrétnu NP

x x1 x2 . . . xn

p p1 p2 . . . pn

- polygón rozdelenia pravdepodobností

- histogram rozdelenia pravdepodobností

- polygón alebo histogram kumulovaných pravdepodobností,- koláčové diagramy,- bodové diagramy,- piktogramy, ap.

- frekvenčná funkcia pre kontinuálnu NP

14

pnp3

p2

p

x

p1

x2 x3 xn

x1 x2 x3 xn3

p

x

p1

p2 pnp3

Page 15: Štatistické metódy

ŠTATISTICKÉ METÓDY

- distribučná funkcia

Základným číselným ukazovateľom NP sú štatistiky: pre výber sú to charakteristiky, pre základný súbor sú to parametre. Ich vzájomný vzťah je nasledovný:

ŠTATISTICKÝ SÚBORZS NV

ŠTATISTIKAPARAMETER CHARAKTERISTIK

AN rozsah n

M(X), E(X), μ matematická nádejaritmetický

priemer, AP

D(X), V(X), 2 disperzia(variancia) rozptyl s2

, štandardná (smerodajná) odchýlka sV(X) variačný koeficient Vx

A(X) asymetria (nesúmernosť, šikmosť) Ax

E(X) excess (špicatosť, ostrosť) Ex

Mo(X) (modus)Me(X) (medián)

Poznámka: Všeobecnejšie sú parametre a charakteristiky, určujúce podstatné vlastnosti NP, definované aj pomocou tzv. momentov. Stredné hodnoty (aritmetický a iné priemery), modus a medián a ich rôzne typy, budú popísané pri štatistickom spracovaní výberov.

FLOREKOVÁ, BENKOVÁ 15

F(x)

x

F(x)

dx

1

dx

f(x)

x

f(x)

Page 16: Štatistické metódy

2. Základné pojmy teórie pravdepodobnosti

Počiatočné momenty mK: , , vyjadrujú všeobecné vlastnosti

NP, stredové (centrálne) momenty MK: , ,

vyjadrujú vlastnosti NP vo vzťahu k ťažisku ZS/V, teda vo vzťahu k M(X) alebo (K je rád príslušného momentu).

Potom napr. prvý počiatočný moment je vlastne M(X) alebo , druhý centrálny moment je D(X) alebo s2, pomocou tretieho centrálneho momentu sa určuje asymetria A(X)/Ax a pomocou štvrtého centrálneho momentu sa vypočítava exces E(X)/Ex.

16

Page 17: Štatistické metódy

ŠTATISTICKÉ METÓDY

3. Rozdelenia náhodných veličín

Vzťah: všeobecného a zvláštneho,hromadného a jednotlivého,globálneho a lokálneho,

je vzťahom empirickej a teoretickej syntézy o najrôznejších druhoch náhodných premenných diskrétneho a kontinuálneho typu.

Ak napr. vynesieme do histogramu všetky realizácie diskrétnej náhodnej premennej s príslušnými hodnotami ich pravdepodobností, môžeme úvahy o všeobecne platnom priebehu hustoty pravdepodobností diskrétnej NP rozšíriť o možnosť, vytvárať z diskrétnej – kontinuálnu NP. Kontinualizácia znamená teda zhusťovanie, zužovanie delenia na číselnej osi x.

Naopak, z frekvencie výskytu hodnôt, z hustoty rozdelenia pravdepodobnosti kontinuálnej NP, môžeme vykonávať jej diskretizáciu, teda vytvárať rozširovaním delenia na číselnej osi skupiny, triedy, intervaly a určovať, aká je pravdepodobnosť výskytu NP v určitom intervale hodnôt (obr.3.1), P(xx0, x0+dx) f(x0) dx.

Obr.3.1 Histogram a funkcia rozdelenia NP – vzájomný vzťah

Pojem teoretické rozdelenie (ZS NP(X)) sa chápe ako matematický model empirického rozdelenia (Vxj, n hodnôt), pomocou ktorého môžeme analyzovať, vysvetľovať, implementovať výsledky získané z rôznych výberov tej istej NP, za porovnateľných podmienok, pri ktorých odchýlky od skutočnej hodnoty sú ovplyvnené iba náhodou.

Najtypickejším teoretickým rozdelením NP(X) je Gaussovo (Gaussovo-Laplaceovo) normálne rozdelenie spojitej NP, jednoznačne definované frekvenčnou funkciou (hustotou

rozdelenia pravdepodobností) , resp. distribučnou funkciou

. Jej grafickým zobrazením je typická zvonovitá Gaussovská krivka, obr. 3.2,

resp. rastúca krivka (neklesajúca), obr.3.3. Normálne rozdelenie dostalo tento názov preto, že až 70% merateľných premenných

v prírode (aj v spoločnosti) sa riadi touto frekvenčnou funkciou.

FLOREKOVÁ, BENKOVÁ 17

xK

3

px

(f(x))

p1 pK

x1 xx0 x0+dx

f(x0)

Page 18: Štatistické metódy

3. Typické rozdelenia náhodných veličín

Obr.3.2 Frekvenčné krivky normálneho rozdelenia s rovnakým a rôznym 2. (Malý rozptyl – strmá a vysoká krivka veľký rozptyl – plochá a široko rozložená krivka.)

Obr.3.3 Distribučná krivka normálneho rozdelenia

Dokonca Youden napísal “ódu na normálne rozdelenie”, ktorú by sme mohli približne preložiť nasledovne:

NOR

MÁLNY ZÁKON

CHYBY ZAUJÍMA

V SKÚSENOSTI ĽUD

STVA POSTAVENIE JED

NÉHO Z NAJŠIRŠÍCH ZO

VŠEOBECNENÍ PRIRODZENEJ

FILOZOFIE. SLÚŽI AKO RIADIACI

NÁSTROJ PRI VÝSKUMOCH V OBLASTI

PRÍRODNÝCH A SPOLOČENSKÝCH VIED,

V MEDICÍNE, POĽNOHOSPODÁRSTVE A STAVEB-

NÍCTVE JE NEPOSTRÁDATEĽNÝM NÁSTROJOM AJ PRE

ANALÝZU A INTERPRETÁCIU ZÁKLADNÝCH INFORMÁCÍÍ

18

8 9 10 11 12 131

140

15 16

0,5 1 2

x

f(x)

84

-3 -2 -1

100

+3+2+1

50

0 0,1 216

50

98 99,9

F(x)

x

Page 19: Štatistické metódy

ŠTATISTICKÉ METÓDY

ZÍSKANÝCH PRI POZOROVANIACH A RÔZNYCH EXPERIMENTOCH.

Základné vlastnosti frekvenčnej funkcie (krivky) sú:- definičný obor x(,- hodnota vždy kladná, f (x) 0,- párnosť f (x) f (-x)- symetričnosť voči x M(x),

- dve asymptoty pre x lim f() 0, pretože ,

krivka nepretína os x,- dva inflexné body, f (x) 0 pre x ,

- maximálna „výška” pre x , ,

- veľkosť plochy, ohraničená f(x) a x je jednotková pravdepodobnosť výskytu všetkých možných hodnôt x, teda P 1 100.

Normálne rozdelenie N teda jednoznačne charakterizujú parametre M(X) – polohy a D(X) 2 – tvaru, pri A(X) 0, E(X) 0, teda je dvojparametrické, čo zapisujeme N(, 2), resp. N(M(X), D(X)).

Základné vlastnosti distribučnej funkcie sú:- definičný obor x(,- neklesajúca pre všetky x,- kladná F(x) 0,- dve asymptoty pre x lim f (-) 0, lim f (+) 1- inflexný bod, F(x) 0 pre x , F() 0,5, (P 1 50).

Pretože parametre a 2 môžu byť pre výbery rôznych NP rôzne, zavádza sa normo-vanie normálneho rozdelenia na bezrozmernosť tak, že hodnota zlomku v exponente

frekvenčnej funkcie sa zvolí za normu . Touto úpravou sa nič nemení na typických

vlastnostiach frekvenčnej a distribučnej krivky N(, 2), ale umožní sa tým štandardizácia rôznorozmerných premenných.

Frekvenčná funkcia normovaného normálneho rozdelenia NN zostáva závislá na dvoch parametroch, stred sa posunie do hodnoty u 0 (teda 0) a maximálna výška f(x) je určená pre jednotkový rozptyl/štandardnú odchýlku (teda 1), takže potom NN(0,1) a platí

, . Všetky vzťahy medzi N a NN sú ilustratívne zná-

zornené na obr.3.4 a 3.5.

Normálna krivka

FLOREKOVÁ, BENKOVÁ 19

y

x

x

f(x) y

2

2

μxexp

2πσ

1yxf

Page 20: Štatistické metódy

3. Typické rozdelenia náhodných veličín

Normovaná normálna krivka

Vzťah krivky normálnej a normovanej normálnej

Plošné (pravdepodobnostné) delenie normálneho rozdelenia

20

-4 -3 -2

-

y

+x-2-3-4

-x+ +2 +3 +4

+u-1 0 +1 +2 +3 +4

-u

Inflexný bodInflexný bod

-u-4 -3 -2

+u-1 0 +1 +2 +3 +4

0,4

0,2

y

0

68,29%95,45%99,73%99,9936%

normálneľavostranné, kladná šikmosťostrovrcholové, kladná špicatosťplochovrcholová, záporná špicatosť

y

u

u

f(u) y

0

Page 21: Štatistické metódy

ŠTATISTICKÉ METÓDY

Odchýlky krivky normálneho rozdelenia od symetrie

Obr. 3.4 Normálne a normované normálne rozdelenie a vlastnosti frekvenčnej krivky

Na obr. 3.5. je zakreslený aj spôsob delenia jednotkovej pravdepodobnostnej plochy medzi f(x) a x, resp. f(u) a u, pomocou celistvých násobkov štandardnej odchýlky , resp. normy u.

Obr. 3.5 Frekvenčná a distribučná krivka normovaného normálneho rozdelenia a ich vzájomný vzťah

V praxi sa obyčajne volí opačný postup. Stanoví sa celistvá časť plochy (pravde-podobnosti) a pre ňu sa prepočítajú zodpovedajúce násobky štandardnej odchýlky, resp. normy, takže pri voľbe požadovanej pravdepodobnosti platí:

úvodná p 0,90 90, 1,64, u 1,64,

inžinierska (technická) p 0,95 95, 1,96, u 1,96,

vedecká (výskumná) p0,99 99, 2,58, u 2,58,

bezpečnostná (kvantitatívna) p0,999 99,9, 3,29, u 3,29,

superbezpečnostná („bezchybná“) p 0,9999 99,99, 3,89, u 3,89.

FLOREKOVÁ, BENKOVÁ 21

u

0,40

0,32

0,24

0,16

0,08-3 -2 -1 0 +1 +2 +3

100

80

60

40

20

0

%

Page 22: Štatistické metódy

3. Typické rozdelenia náhodných veličín

Z ďalších teoretických rozdelení je vhodné spomenúť tzv. logaritmické normálne, resp. lognormálne rozdelenie spojitej NP, ktoré je špecifické tým, že rozdelenie príslušnej NP v pôvodnom rozmere má frekvenčnú funkciu asymetrickú vľavo, ale logaritmus NP je rozdelený „normálne“ (obr.3.6). Teda, normálne rozdelenie nemá samostatná NP, ale jej logaritmus.

Obr.3.6 Frekvenčné funkcie normálneho a lognormálneho rozdelenia

Potom , . Ak označíme

M(ln x) η, D(ln x) 2, potom , ,

, , , resp. pre

dekadický logaritmus bude M(log X) = ζ , D(log X) = σ2, potom ,

, 4102101A(X)222 σ2σ3σ , ,,

, .

Jedným z najtypickejších teoretických rozdelení sú rozdelenia tzv. alternatívnych NP, teda diskrétnych NP, pri ktorých pravdepodobnosť napr. javu „áno” P(A) p a javu „nie” P(A) q 1 – p, pri požiadavke vzájomnej nezávislosti výsledkov realizácie NP.

Binomické (binom-dvojčlen), Bernoulliho rozdelenie má potom

, , M(X) = n.p, D(X) = n.p.q,

A(X) = O , pre p = q, . Pre malé p (veľké q) je rozdelenie asymet-

rické vľavo, pre veľké p (malé q) je rozdelenie asymetrické vpravo, pre rovnaké p = q = 0,5 sa stáva rozdelenie symetrickým.

Limitným prípadom binomického rozdelenia je tzv. zákon malých čísiel, zákon rozdelenia pravdepodobností málo pravdepodobných javov, Poissonovo rozdelenie (pre

stavy funguje/ nefunguje), pričom , , = n.p = M(X) = D(X), >

0, A(X) = ()-1/2,E(X) = ()-1. Toto rozdelenie sa s výhodou uplatňuje ako tzv. spoľahlivostné rozdelenie porúch, chybných výstupov, P(A) > 0,9, P(N) < 0,1.Poznámka:

22

f(x)

x

f(log x)(f(ln x))

log x(ln x)

Page 23: Štatistické metódy

ŠTATISTICKÉ METÓDY

Rôzne iné typy rozdelení uvádza rozsiahla odborná literatúra. Uvedieme aspoň názvy najpoužívanejších rozdelení pre spojité NP:

rovnomerné, uniformné, trojuholníkové, triangulárne, Simpsonovo, Cauchyho, exponenciálne (jednostranné, obojstranné, silné), beta, Erlangovo, gama, Weibullovo, Rayeleighovo

a pre nespojité NP:1) rovnomerné, uniformné,2) geometrické,3) hypergeometrické.

Ďalšie rozdelenia, ktoré je potrebné uviesť, sú tzv. umelé, resp. testovacie, skúšobné rozdelenia. Z nich sú najdôležitejšie tri:

4) Studentovo t-rozdelenie (podľa Gosseta) pre umelú NP , resp.

, ktoré sa používa pre hodnotenie aritmetických priemerov a matematických

nádejí. Frekvenčná krivka f(t) je závislá na stupňoch voľnosti a vyjadruje sa pomo-cou funkcie. S rastúcim n sa krivka približuje k N(0,1), pri n30 aproximatívne, pri n120 sa s ním stotožňuje (obr.3.7).

Obr.3.7 Frekvenčné krivky Studentovho t-rozdelenia

5) Pearsonovo 2 rozdelenie (tiež Helmertovo) pre umelú NP má

asymetrickú frekvenčnú funkciu f (2), silne závislú na stupňoch voľnosti (obr.3.8), ktorá je tiež vyjadrená zložitou funkciou.

FLOREKOVÁ, BENKOVÁ 23

1

2

f (2) 15

301

n120f (t)

t

n30

n«30

Page 24: Štatistické metódy

3. Typické rozdelenia náhodných veličín

Obr.3.8 Frekvenčné krivky Pearsonovho rozdelenia

6) Fisherovo F-rozdelenie pre NP , F 1, s frekvenčnou funkciou F1,2(F) asy-

metrického tvaru, podobného ako u 2 krivky, závislou na dvojici stupňov voľnosti, ktorá je tiež vyjadrená zloženou funkciou. 2 a F rozdelenie používa sa na hodnotenie rozptylov a disperzií.

24

Page 25: Štatistické metódy

ŠTATISTICKÉ METÓDY

4. Deskriptívna – popisná štatistika pre výber hodnôt jednej náhodnej premennej

Výber hodnôt V pre jednu náhodnú premennú X má konečný rozsah n a značíme ho Vxin, (treba spracovať n hodnôt xi, i = 1,2,,n výber hodnôt xi o rozsahu n).

Spracovávané hodnoty môžu byť z rôznych oblastí, kvalitatívne v nominálnom vyjadrení, kvantitatívne v metrickom, množstvovom vyjadrení. Hodnoty môžu byť usporiadané (poradové, klasifikované, kategorizované, triedené), ale aj neusporiadané, t.j. zapísané tak, ako boli získané. Hodnoty môžu byť vyjadrené v svojom rozmere, ale môžu to byť aj pomerné, bezrozmerné dáta (percentá, a pod.)

Základným cieľom spracovania výberov hodnôt je výpočet ich základných charakteristík, ktoré môžeme rozdeliť na:

charakteristiky polohy – priemery (aritmetický, geometrický, harmonický, ...)módus a medián,

charakteristiky rozptýlenia (variability) absolútnej – variačné rozpätie, rozptyl, štandardná odchýlka, relatívnej – variačný koeficient,

charakteristiky tvaru - asymetria, exces.Postup spracovania, ako aj konkrétne použité vzorce pre výpočet charakteristík sa líšia

ak spracovávame tzv. úvodné výbery, s malým počtom hodnôt pod 30, tzv. malý výber, alebo výbery s veľkým počtom hodnôt, vysoko nad 30, tzv. veľký výber.

4.1 Spracovanie malého výberu

zhŕňa: - výpočet charakteristík,- grafické zobrazenie výberu.

Základnou charakteristikou polohy Vxi, n<30 je aritmetický priemer (average-ang., awar-arabsky, rovnomerné rozdelenie „škody”, „pokazeného produktu“), ako tzv.

jednoduchá, prostá stredná hodnota, vypočítaná zo všetkých dát, , ktorá určuje

ťažisko V. Táto stredná hodnota, ako typický predstaviteľ V má vlastnosti:

nestrannosť, nevychýlenosť, unbiased: ,

asymptotická nestrannosť: po opakovanom meraní sa blíži X,

jednoduchá súdržnosť, consistency: , s rastúcim n sa chyba

odhadu skutočnej hodnoty blíži k nule,

účinnosť, efektívnosť, efficiency: ,

minimálny súčet štvorcov odchýliek od priemeru, pre axi:

, asymptonická výdatnosť, dostatočnosť, pri n = N, = X,

FLOREKOVÁ, BENKOVÁ 25

Page 26: Štatistické metódy

4. Deskriptívna štatistika pre výber hodnôt jednej náhodnej premennej

bodový odhad, určuje polohu ťažiska výberu na osi NP.

Okrem základnej strednej hodnoty, aritmetického priemeru, odporúča sa určiť aj ďalšie stredné hodnoty, a to modus - - najčastejšie sa vyskytujúca hodnota v spracovávanom V a medián - - prostredný člen vzostupne usporiadaných hodnôt vo V (v prípade nepárneho) n; priemer dvoch prostredných členov (v prípade párneho n). Ak - záporná šikmosť, ak - kladná šikmosť, ak - nulová šikmosť.

Najjednoduchšou charakteristikou tzv. absolútnej variability je variačné rozpätie R, t.j. rozdiel maximálneho a minumálneho prvku súboru R = xmax – xmin.

Základnou charakteristikou rozptýlenia hodnôt výberu okolo jeho aritmetického priemeru je rozptyl s2, ktorý vyplýva z vlastnosti účinnosti aritmetického priemeru,

, kde n – 1 je tzv. počet stupňov voľnosti, resp. nadbytočný počet

údajov príslušného V. Pretože rozptyl z hľadiska rozmeru NP je „na druhú“, zvyšuje teda pojem variability NP vo V, zavádza sa odvodená charakteristika, štandardná (smerodajná) odchýlka s, ako odmocnina z rozptylu, teda v rozmere príslušnej NP, , príp.

priemerná absolútna odchýlka .

Pre možnosť presnostného porovnávania rôznorozmerných NP vypočíta sa variačný

koeficient (koeficient variácie) , vyjadrujúci percentuálne kolísanie spracová-

vaných hodnôt.

Poslednou skupinou sú charakteristiky tvaru, a to asymetria a

exces .

Ilustratívne obr.4.1 a 4.2 ukazujú vzťah základných charakteristík V.

26

7 87

9n = 3 = 8s2 = 1s = 1Vx = 12,5%

x1=7 x2=8 x3=9-1 +1

1 87

n = 3 = 8s2 = 39s = 6,24Vx = 78%

x1=1 x2=10-6,24 +6,24

1310

x3=13

Page 27: Štatistické metódy

ŠTATISTICKÉ METÓDY

Obr.4.1 Vzťah medzi charakteristikami polohy a rozptýlenia. (Na základe rovnakej hodnoty aritmetického priemeru dvoch rôznych výberov nemožno vysloviť žiadny záver rozptyly sú veľmi rôzne.)

Obr. 4.2 Histogram početností a stredné hodnoty výberu s rozsahom n = 15.(Aritmetický priemer = 1,723 modus 1,65, pretože najviac, až 5 hodnôt má túto veľkosť medián 1,70, pretože v usporiadanom rade je pred ním aj za ním po 7 hodnôt, teda je prostredným členom variačného radu.)

4.2 Spracovanie veľkého výberu

zahŕňa: - predspracovanie (triedenie hodnôt), - výpočet charakteristík, - grafické zobrazenie výberu.

Triedenie veľkého výberu obsahuje:

1. Výpočet variačného rozpätia R = xmax – xmin, ako rozdielu medzi najväčšou a najmenšou hodnotou vzostupne preusporiadaných hodnôt V, teda ako rozdiel krajných členov variačného radu.

2. Určenie počtu tried k , ktoré je možné viacerými spôsobmi, napr.: klasicky, ako hodnota k, zaokrúhlená na celé číslo pomocou podielu k = R / h,

(teda na 11-12-13 intervalov/tried), výpočtom založenom na rozsahu výberu n:

- ,

- ,

- , kde symbol [ ] znamená celá časť.(Je možné odporučiť voľbu nepárneho počtu tried, aby aritmetický priemer ležal v prostrednej triede.)

3. Výpočet šírky triedy h, ,zaokrúhlenej na počet platných miest hodnôt výberu.

FLOREKOVÁ, BENKOVÁ 27

3

pK

1,60

aritmetickýpriemer

modus

medián

5

7 7

1,65 1,70 1,75 1,801,723

1,85 1,90

Page 28: Štatistické metódy

4. Deskriptívna štatistika pre výber hodnôt jednej náhodnej premennej

4. Výpočet dolnej a hornej hranice každej triedy, x1,d = xmin , x1,h = x1,d + h,x2,d = x1,d + h, x2,h = x2,d + h, ... xk,h = xmax .

Aby sa zaistilo, že ak sa konkrétna hodnota xi bude rovnať presne hornej hranici jednej triedy a zároveň dolnej hranici nasledujúcej triedy, bude zaradená jednoznačne, je vhodné upraviť hornú hranicu každej triedy odčítaním t.j. hodnoty ktorej veľkosť volíme podľa počtu platných desatinných miest spracovaných hodnôt vždy o jeden rád menšiu, napr. 0,1; 0,01; 0,001, atď.

5. Výpočet triednych znakov xj, j = 1,2,…,k, t.j. zástupcov intervalov, do ktorých sa

spracovávané hodnoty budú zoskupovať, .

6. Výpočet absolútnych početností nj, teda počtu hodnôt, nachádzajúcich sa v príslušnej

triede pre xi xj,d, xj,h , s kontrolou .

7. Výpočet kumulatívnych (priebežne sčítavaných) absolútnych početností Nj, ,

s kontrolou Nk = n.

8. Výpočet relatívnych početností , s kontrolou .

9. Výpočet kumulatívnych relatívnych početností , s kontrolou Fk = 1.

Výpočet charakteristík:

1. aritmetický priemer , ako tzv. všeobecný, vážený priemer, pretože každý

triedny znak má váhu, cenu, dôležitosť, ocenenú absolútnou početnosťou, s vlastnosťami

, , pre a xmin, xmax , platí

, , ,

2. modus a medián ,

3. rozptyl (nezohľadňujú sa stupne voľnosti ),

4. štandardná odchýlka ,

5. variačný koeficient ,

6. asymetria ,

28

Page 29: Štatistické metódy

ŠTATISTICKÉ METÓDY

7. exces .

Určovanie troch stredných hodnôt výberu hodnôt – aritmetický priemer, modus, medián má svoj význam.

Modus je „módna“ hodnota, dá sa najľahšie nájsť, nemá však význam pre určenie polohy rozdelenia (pri zovšeobecňovaní) NP.

Medián znamená, že delí výber na dve rovnako rozsiahle polovice, 50% hodnôt je „pod“ ním a 50% hodnôt je „nad“ ním, teda je najreprezentatívnejší, pretože je necitlivý, rezistentný voči omylom, extrémom vo výbere, je typický pre daný výber.

Aritmetický priemer je najužitočnejší, najpoužívanejší, pretože zohľadňuje rovnocennosť všetkých spracovávaných dát, ale je veľmi citlivý, je nerezistentný, môže prudko reagovať na jediný vychýlený (malý/veľký) údaj vo V, pretože je jeho ťažiskom (obr.4.3).

Obr. 4.3 Vzťah aritmetický priemer – modus - medián

Okrem aritmetického priemeru je pri niektorých NP vhodné používať iné stredné hodnoty – priemery, ako funkcie exponenta K (celé číslo):

Vážený (zovšeobecnený) Jednoduchý (prostý)

K = 1aritmetický priemer (pre jednorozmerné veličiny)

FLOREKOVÁ, BENKOVÁ 29

50%50%

aritmetický priemer (ťažisko)

medián modus

aritmetický priemer modusmedián

symetrické rozdelenie

medián aritmet. priemer modus

negatívne rozdeleniesymetrické rozdelenie

modus aritmet. priemer medián

pozitívne rozdeleniesymetrické rozdelenie

Page 30: Štatistické metódy

4. Deskriptívna štatistika pre výber hodnôt jednej náhodnej premennej

K = 2kvadratický priemer (pre dvojrozmerné veličiny)

K = 3kubický priemer (pre trojrozmerné veličiny)

K = -1harmonický priemer (pre intenzitné veličiny, prácnosť, výťažnosť)

K = 0geometrický priemer

(pre časovo závislé veličiny, priemerný rast produktivity v čase)

Výsledkom spracovania veľkého výberu by mali byť aj jeho grafické prezentácie, napr.1. histogramy početností (bar chart),2. polygóny početností (polygon),3. koláčové diagramy (pie diagram),4. piktogramy (piktogram),5. bodové diagramy (scatter diagram),6. Senkeyho diagram (tokový diagram),

ktoré pomáhajú pri vizuálnom spoznaní výberových hodnôt.Zo súhrnných vyobrazení sa s výhodou využíva tzv. krabicový graf (box and whister

plot – diagram s krabicou a fúzami), obr. 4.4, podľa Tukeyho.

30

Page 31: Štatistické metódy

ŠTATISTICKÉ METÓDY

Obr. 4.4 Krabicový diagram veľkého výberu hodnôt xi.

FLOREKOVÁ, BENKOVÁ 31

25% kvartil 75% kvartil

50% kvartil

xmin xmax

dolný kvartil(25% hodnôt

pod mediánom)

medián(50%

hodnôt)

horný kvartil(25% hodnôtnad mediánom)

aritmet.priemer

Page 32: Štatistické metódy

ŠTATISTICKÉ METÓDY

5. Teória odhadu

Cieľom teórie odhadu je rozšírenie bodových charakteristík (aritmetický priemer, rozptyl), určených z výberov, do oblasti základného súboru, jeho parametrov. Odhad neznámych charakteristík je možný ako tzv. bodový, t.j. odhad, pri ktorom neznámy parameter nahrádzame jedinou hodnotou, alebo tzv. intervalový, kedy počítame pre parameter základného súboru interval spoľahlivosti, t.j. interval v ktorom sa neznámy parameter nachádza so zvolenou pravdepodobnosťou.

5.1 Bodový odhad parametrov

Vo všeobecnosti pre bodový odhady parametrov platí, že má byť: konzistentný – s rastúcim počtom pozorovaní sa odhad blíži k teoretickej

hodnote s pravdepodobnosťou 1, nestranný – pri opakovaných výberoch kolíše odhad okolo teoretickej hodnoty, výdatný – rozptyl odhadov pri opakovaných výberoch je malý, rezistentný – odľahlé hodnoty nemajú vplyv na hodnotu odhadu.

Najlepší nestranný a konzistentný bodový odhad matematickej nádeje sa počíta podľa vzorca:

,resp. , a bodový odhad disperzie je možné vypočítať ako:

, pre , resp. .

5.2 Intervalový odhad parametrov

Interval spoľahlivosti, resp. tiež konfidenčný interval (Neyman, Pearson) je jedno (vľavo/vpravo) alebo obojstranný interval, odhadnutý zo skutočných charakteristík výberu, resp. výberov hodnotených NP, ktorý so zvolenou pravdepodobnosťou p obsahuje skutočnú hodnotu daného parametra ZS. Interval je tým užší, čím:

je väčší rozsah súboru – n, je menší rozptyl – s2, je menšia pravdepodobnosť – p.

V praxi sa volia úrovne pravdepodobnosti p = 0,90 / 0,95 / 0,99 / 0,999 tak, ako to bolo uvedené v kapitole 3 pri normálnom/normovanom normálnom rozdelení.

Interval spoľahlivosti matematickej nádeje:

pre malý výber je závislý na frekvenčnej funkcii Studentovho rozdelenia a určí sa zo vzťahu

, kde t je tabuľková hodnota f(t) pri zvolenom p/,

FLOREKOVÁ, BENKOVÁ 33

Page 33: Štatistické metódy

5. Teória odhadu

pre veľký výber je závislý na frekvenčnej funkcii Gaussovho normálneho rozdelenia

modelu f(x) / f(u) a určí sa zo vzťahu , kde u = 1,64 pre p = 0,90,

u = 1,96 pre p = 0,95, u = 2,58 pre p = 0,99, u = 3,29 pre p = 0,999, u = 3,89 pre p = 0,9999.

Interval spoľahlivosti disperzie (nesymetrický interval) sa vypočíta pomocou

frekvenčnej funkcie f(χ2) pomocou vzťahu ,

kde pre p = 0,95, = 0,05, χ2Ľ je pre p = 0,975, χ2

P je pre p = 0,025 a pre dané určené f(χ2),

p = 0,99, = 0,01 p = 0,995 p = 0,005,p = 0,999, =0,001 p = 0,9995 p = 0,0005,

teda /2+(1-/2)=1.

Spravidla sa kvôli názornosti odporúča aj grafická prezentácia vypočítaných intervalov spoľahlivosti. (Pre začiatočníkov je to dôležité aj kvôli kontrole správnosti svojich výpočtov. Aritmetický priemer vždy musí byť v strede jeho intervalu spoľahlivosti. Rozptyl vždy musí byť v rámci svojho intervalu bližšie k dolnej alebo hornej hranici, nikdy nesmie byť v jeho strede!)

Obr.5.1 Interval spoľahlivosti pre matematickú nádej

Obr.5.2 Interval spoľahlivosti pre disperziu

Poznámka: Pomocou intervalov spoľahlivosti pre veľkého výberu je možné navrhnúť po-trebný rozsah výberu pre požadovanú presnosť. Ak predpokladáme presnosť , bude

platiť , z čoho .

34

2s

2P

2

χ

sn 1

2

χ

sn 1

n

su

n

su

x

Page 34: Štatistické metódy

ŠTATISTICKÉ METÓDY

6. Testovanie štatistických hypotéz

Štatistická hypotéza vyjadruje predpoklad, domnienku o niektorých vlastnostiach výberov, o vzťahu výber – základný súbor, z pravdepodobnostného hľadiska.

Spravidla hovoríme o hypotézach neparametrických, ak sa nepredpokladá poznanie parametrov / charakteristík, alebo parametrických, ak sa vyžaduje ich poznanie.

Hypotézy nazývame nulovými H0, pretože predpokladajú, že medzi sledovanými vlastnosťami bude s vysokou pravdepodobnosťou existovať nulový rozdiel (nepodstatný rozdiel).

Hypotézy môžu byť alternatívne Ha, keď ich testujeme voči H0.

Hypotézy môžu byť jednoduché alebo zložené.Stupeň správnosti H sa hodnotí pomocou vhodnej testovacej štatistiky, testovacieho

kritéria TK. Procedúra overovania H sa nazýva (štatistický) test. Výsledkom je výrok o zamietnutí H, resp. prijatí H. TK môže nadobúdať hodnoty z tzv. výberového priestoru S, ktorý sa delí na (obr.6.1): polpriestor V - hodnoty svedčiace v prospech H0, tzv. obor prijatia

(akceptačná oblasť), polpriestor W - hodnoty svedčiace v prospech Ha, tzv. kritický obor (kritická oblasť). Polpriestory V a W sa neprekrývajú, ich oddeľovacie hranice tvoria kritické hodnoty – KH .

Obr. 6.1 Obojstranný test štatistickej hypotézy

Môže ale vzniknúť situácia, že H je správna, TK je v kritickej oblasti, čiže zamietneme správnu hypotézu, čo je tzv. chyba 1. druhu. Opačná situácia vznikne, ak je H nesprávna, TK je v akceptačnej oblasti, čiže nezamietneme nesprávnu hypotézu, čo je tzv. chyba 2.druhu. Úlohou testovania teda je, nájsť takú kritickú oblasť, aby pravdepodobnosť chyby 1. druhu neprekročila danú hladinu významnosti , a súčasne, aby chyba 2. druhu bola menšia ako .Poznámka: Riziko zamietnutia správnej hypotézy je , teda pravdepodobnosť prijatia správnej hypotézy je p = 1-. Ak zmenšujeme, rastie riziko chyby 2.druhu – . Pravdepodobnosť 1- je potom pravdepodobnosť zamietnutia H v prípade, že je táto naozaj nesprávna (tzv. sila testu). Preto je potrebné starostlivo zvážiť straty, ktoré môžu vzniknúť chybným rozhodnutím o H. Čím sú väčšie náklady na chybu 1.druhu (napr. náklady na modernizáciu výrobného zariadenia pre aplikáciu technológie, ktorá nie je v ničom lepšia ako predchádzajúca), tým menšie musí byť , teda pravdepodobnosť toho, že sa tejto chyby dopustíme. Čím väčšie sú náklady na chybu 2.druhu (napr. zamietnutie novej technológie, ktorá je lepšia ako stará), tým menšie musí byť . Postup testovania štatistických hypotéz má nasledujúce kroky:

Voľba hladiny významnosti .

FLOREKOVÁ, BENKOVÁ 35

p=1-

kritická kritickáakceptačná oblasť

Page 35: Štatistické metódy

6. Testovanie štatistických hypotéz

Formulácia hypotézy – H0 / Ha.

Výpočet testovacieho kritéria – TK.

Nájdenie/vypočítanie kritickej hodnoty – KH.

Porovnanie TK s kritickou hodnotou KH – interpretácia testu na „zvolenej hladine významnosti “:- ak TK <KH, H0 nezamietame (súhlasíme s H0, prijímame H0), (nesúhlasíme s Ha, zamietame Ha), pretože sledovaný rozdiel nie je štatisticky významný.- ak TK >KH, H0 zamietame (nesúhlasíme s H0, neprijímame H0), (súhlasíme s Ha, prijímame Ha), pretože sledovaný rozdiel je štatisticky významný.

6.1 Testy extrémnych hodnôt

slúžia na kontrolu omylov, prítomnosti hrubých chýb vo výbere a odporúča sa ich urobiť na začiatku spracovania.

6.1.1 Dixonov neparametrický test

vyžaduje variačný rad spracovávaných hodnôt. Testujeme minimálny aj maximálny prvok súboru. Určenie .

H0: xmax – xn-1 = 0, x2 – xmin = 0.

TK: , .

KH: Qn, – určíme z tabuliek Dixonovho testu pre spracovávaný rozsah n a zvolené .

Interpretácia testu: ak TK<KH s H0 súhlasíme, príslušný maximálny / minimálny prvok ponecháme vo V, ak TK>KH H0 zamietame, príslušný maximálny / minimálny prvok vylúčime z V a

test opakujeme pre nové dvojice krajných hodnôt variačného radu.

6.1.2 Grubbsov parametrický test

predpokladá, že sú k dispozícii charakteristiky výberu. Testujeme minimálny aj maximálny prvok súboru.

Určenie .

H0: xmax – xn-1 = 0, x2 – xmin = 0.

TK: , .

36

Page 36: Štatistické metódy

ŠTATISTICKÉ METÓDY

KH: Tn, – určíme z tabuliek Grubbsovho testu pre spracovávaný rozsah n a zvolené .

Interpretácia testu: ak TK<KH s H0 súhlasíme, príslušný maximálny / minimálny prvok ponecháme vo V, ak TK>KH H0 zamietame a príslušný maximálny / minimálny prvok vylúčime z V a

test opakujeme pre nové dvojice krajných hodnôt variačného radu.

6.2 Testy zhody empirického a teoretického rozdelenia

Pre posúdenie, či spracovávaný súbor dát je zaťažený iba chybami náhodnými, porovnávajú sa jeho absolútne a kumulatívne absolútne (rovnako je možné aj pre relatívne) početnosti s hodnotami frekvenčnej, resp. distribučnej funkcie príslušného rozdelenia.

Ak sa porovnávanie vykonáva pre kontrolu na rozdelenie normálne, hovoríme o testovaní normality výberu (súboru).

Najviac sa používajú dva základné testy zhody rozdelenia, test 2 a D1.

6.2.1 Pearsonov 2 test dobrej zhody

Určenie .

H0: nj - f(xj) = 0.

TK: Pre každú triedu sa vypočíta ,

a pre celý výber

kde nj – absolútne početnosti tried,f(xj) – hodnoty frekvenčnej funkcie príslušného triedneho znaku, (obr.6.2),

Výpočet hodnôt frekvenčnej funkcie:

- výpočet noriem pre jednotlivé triedy: triedy:

- výpočet frekvenčných funkcií pre normy tried:

- výpočet frekvenčných funkcií pre triedne znaky:

kde .

Pri testovaní krajných tried je potrebné dať pozor na to, aby žiadne f(xj) nebolo menšie ako 3-5, ale súčasne, aby nj zlúčených tried zľava nebolo väčšie ako za ním nasledujúca absolútna početnosť nadväzujúcej triedy. Obdobne to platí naopak pri zlučovaní tried

FLOREKOVÁ, BENKOVÁ 37

Page 37: Štatistické metódy

6. Testovanie štatistických hypotéz

sprava, aby nj zlúčených tried bolo menšie ako absolútna početnosť predchádzajúcej triedy. Preto je treba v prípade potreby zlúčiť niekoľko krajných tried. Túto skutočnosť je však potrebné zohľadniť pre výpočte , lebo z neho vyplýva hľadanie v tabuľkách pre kritické hodnoty.

Obr. 6.2 Pearsonov test dobrej zhody

KH: frekvenčná funkcia 2 rozdelenia pre zvolené a dané ν = k – 1 – m, kde k - počet tried, m – počet parametrov testovaného rozdelenia (pri normálnom rozdelení m = 2.

Interpretácia testu: ak TK< KH normálne rozdelenie (resp. príslušné teoretické rozdelenie) vhodne

popisuje daný súbor, ak TK> KH normálne rozdelenie nie je vhodné pre daný súbor.

(Môžeme hľadať iné vhodné rozdelenie.)

6.2.2 Kolmogorov-Smirnovov test zhody D1

Určenie .

H0: Nj - F(xj) = 0.

TK: , kde

Nj – kumulatívna absolútna početnosť triedy,F(xj) – hodnota distribučnej funkcie triedneho znaku (obr.6.3), vypočíta sa kumulovaním

frekvenčnej funkcie: .

38

xkx2x1

nj-f(xj)nj

f(xj)

xj

xj

Page 38: Štatistické metódy

ŠTATISTICKÉ METÓDY

Obr. 6.3 Kolmogorov-Smirnovov test zhody

KH: Vyhľadáme tabuľkové hodnoty D1,krit, alebo vypočítame kritické hodnoty pre

ako , pre je , pri je .

Interpretácia testu: vyplýva z relačných vzťahov medzi vypočítanými TK a kritickými hodnotami KH: ak D1,vyp< D1,krit súhlasíme s nulovou hypotézou, pretože empirické a teoretické

rozdelenie sa líšia nevýznamne, ak D1,vyp> D1,krit zamietame nulovú hypotézu, pretože empirické a teoretické

rozdelenie sa podstatne líšia.

6.2.3 Test normality pomocou asymetrie

Určenie .

H0: náhodný výber má normálne rozdelenie

TK:

KH: up , u0,95 = 1,96; u0,95 = 2,58

Interpretácia testu: ak TK<KH súhlasíme s H0, súbor má normálne rozdelenie, ak TK>KH zamietame H0, súbor nemá normálne rozdelenie.

6.2.4 Test normality pomocou excesu

Určenie .

H0: náhodný výber má normálne rozdelenie

FLOREKOVÁ, BENKOVÁ 39

xkx2x1

maxNj-F(xj)

Nj

F(xj)

xj

n1

n/20,5

0

xj

Page 39: Štatistické metódy

6. Testovanie štatistických hypotéz

TK:

KH: up , u0,95 = 1,96; u0,95 = 2,58

Interpretácia testu: ak TK<KH súhlasíme s H0, súbor má normálne rozdelenie, ak TK>KH zamietame H0, súbor nemá normálne rozdelenie.

Na overenie normality sa používajú aj Shapiro – Wilkeho test, DAgostiniho test, Jarque-Berrov test .

6.3 Testy na porovnanie dvoch výberov

parametrické (testy rozdielu parametrov) sa používajú ak: dáta sú normálne rozdelené, výbery sú dostatočne veľké, nie sú veľmi veľké rozdiely medzi rozsahmi výberov,

neparametrické sa používajú ak: nie sú splnené podmienky pre parametrické testy, chceme posilniť validitu výsledkov parametrických metód. namiesto parametrov je v testoch používané poradie jednotlivých nameraných hodnôt

(Znamienkový test, Mediánový test, Wilcoxonov test, MannWhitneyov test ).

Testy rozdielu parametrov sa vykonávajú na porovnávanie rovnocennosti dvoch, resp. viacerých rôznych výberov, resp. na zisťovanie príslušnosti k základnému súboru, resp. na overenie novej a starej technológie, metódy, postupu. Najprv sa vždy testuje rozdiel disperzií a podľa jeho výsledku rozdiel matematických nádejí. Používajú sa: Klasický F-test (Fisherov) a klasický t-test , resp. t*-test – pre normálne rozdelené dáta

(veľmi citlivý) a nezávislé výbery, Modifikovaný F-test a modifikovaný t-test, resp. t*-test – pre výbery s inými špicatosťami

ako normálne rozdelenie, Robustný Jackknife test a robustný Jackknife test, , resp. t*-test – pre výbery, ktoré

nemajú normálne rozdelenie a obsahujú odľahlé hodnoty.

6.3.1 Test rozdielu disperzií - Fisherov test zhody disperzií

Postup testovania: Určenie .

H0: , resp. .

TK: (tak, aby F 1).

KH: Fkrit pri zvolenom a daných 1, 2 z tabuliek Fisherovho rozdelenia

40

Page 40: Štatistické metódy

ŠTATISTICKÉ METÓDY

Interpretácia testu: ak TK<KH s H0 súhlasíme, rozdiel medzi rozptylmi je nepodstatný, štatisticky

nevýznamný, výbery sú rovnako presné - homoskedasticita, ak TK>KH H0 zamietneme, rozdiel medzi rozptylmi je nenulový, štatisticky

významný, ich hodnoty sú nerovnako presné - heteroskedasticita

6.3.2 Studentov t-test pri homoskedasticite

Test rozdielu matematických nádejí ak platí . Postup testovania: Určenie .

H0: , resp. .

TK:

KH: z tabuliek Studentovho rozdelenia pre dané = n1 + n2 – 2 a zvolené sa určí tkrit..

Interpretácia testu: Porovnanie t a tkrit.:

ak TK<KH súhlasíme s nulovou hypotézou, rozdiel medzi aritmetickými priemermi je nepodstatný.

ak TK>KH nesúhlasíme s nulovou hypotézou, rozdiel medzi aritmetickými priemermi je podstatný, je potrebné vypočítať interval spoľahlivosti existujúceho

rozdielu , kde s je združená štandardná

odchýlka, .

6.3.3 Studentov t-test pri heteroskedasticite

Test rozdielu matematických nádejí, ak platí . Postup testovania: Určenie . H0: , resp. .

TK: .

KH: z tabuliek Studentovho rozdelenia sa určí t1,krit. pre = n1 – 1 a t2,krit. pre

= n2 – 1 a vypočíta sa

Interpretácia testu: pri porovnaní t a t*krit. .sú závery rovnaké ako u predchádzajúceho

testu.

FLOREKOVÁ, BENKOVÁ 41

Page 41: Štatistické metódy

6. Testovanie štatistických hypotéz

Poznámka: V bode 3 oboch testov, pri výpočte t, sú pod odmocninou buď stupne voľnosti (MV) alebo rozsahy (VV).

6.3.4 Studentov t-test párovaných hodnôt

je test dvojíc, test výberov pre tú istú NP s rovnakým rozsahom, používa sa pre ohodnotenie/porovnanie dvoch metód, prístrojov, kalibráciu. Dôležité pri tomto teste je, že za samozrejmú pokladáme príslušnosť oboch výberov k tomu istému ZS. Obidva výbery tvoria pár a páry tvoria aj ich hodnoty, ktoré nemôžeme preusporiadať.

Ak teda Vxi, i=1,2, ,n; Vyi, i=1,2, ,n chceme porovnať, testujeme, či a sú rovnaké, teda či platí H0: .

Postup testovania: Určenie

Medzivýpočet: rozdielov dvojíc ,

aritmetického priemeru rozdielov dvojíc ,

rozptylu rozdielov dvojíc

.

H0:

TK:

KH: z tabuliek Studentovho rozdelenia sa nájde tkrit pre zvolené a = n – 1. Interpretácia testu: Pri porovnaní t a tkrit sú závery rovnaké ako u t a t* testov. V prípade

zamietnutia H0 vypočíta sa interval spoľahlivosti pre zistené .

6.4 Testy na porovnanie troch a viacerých výberov

parametrické – sa používajú ak porovnávané výbery: sú normálne rozdelené, sú nezávislé, majú štatisticky nevýznamný rozdiel medzi rozptylmi – homoskedasticita

(overuje sa Bartlettovým testom),

neparametrické – sa používajú ak nie sú splnené podmienky pre parametrické testy.

6.4.1 Bartlettov test

42

Page 42: Štatistické metódy

ŠTATISTICKÉ METÓDY

Postup testovania: Určenie

H0:

TK:

kde c je konštanta zlepšujúca aproximáciu,

sú rozsahy jednotlivých výberov, je celkový počet hodnôt výberov,

sú rozptyly jednotlivých výberov.

KH: z tabuliek Pearsonovho rozdelenia, pre a = k – 1.

Rozhodnutie o výsledku testu: ak súhlasíme s nulovou hypotézou, rozdiel medzi disperziami je

na zvolenej hladine významnosti štatisticky nevýznamný a predpoklad homoskedasticity je potvrdený,

ak nulovou hypotézu zamietame, jedná sa o heteroskedasticitu.

Štatistické metódy pre porovnávanie priemerov troch a viacerých výberov patria do tzv. analýzy rozptylu. Pre tento súbor metód sa používa označenie – Anova (Analysis of Variance). Jedná sa o metódy, ktoré môžeme zaradiť medzi tzv. plánované pokusy, teda dopredu je potrebné vybrať z existujúcich možností („plánu pokusov“ viď ďalej) takú, ktorá bude najlepšie vystihovať testovanú situáciu. Inú analýzu, iný plán pokusov použijeme vtedy, ak porovnávané výbery sú vytvárané pôsobením jedného faktora, inú ak sa bude jednať o pô-sobenie dvoch, či viacerých faktorov.

Hlavnou myšlienkou analýzy rozptylu je rozklad celkovej variability nameraných hodnôt na zložky tzv. medziskupinové, ktorých veľkosť je možné prisúdiť vplyvu jednotlivých faktorov, prípadne aj ich vzájomnému pôsobeniu, a zložku vnútroskupinovú, ktorá je daná rozdielnosťou hodnôt v rámci porovnávaných výberov. Zjednodušene povedané, ak je vnútroskupinová variabilita väčšia ako medziskupinová, medzi porovnávanými výbermi nie je štatisticky významný rozdiel, resp. vplyv faktora/faktorov nie je významný, a naopak, ak je vnútroskupinová variabilita menšia ako medziskupinová variabilita, medzi porovnávanými výbermi je významný rozdiel, resp. vplyv faktora/ faktorov je významný.

Analýzu rozptylu rozdeľujeme podľa počtu sledovaných faktorov na jednofaktorovú, dvojfaktorovú, trojfaktorovú, atď. Aj keď je teoreticky možné uvažovať neobmedzený počet faktorov a úrovní, v reálnych úlohách sa zvyčajne pracuje s 1-4 faktormi, ktoré sa uvažujú na 2-6 úrovniach.

6.4.2 Jednofaktorová analýza rozptylu

FLOREKOVÁ, BENKOVÁ 43

Page 43: Štatistické metódy

6. Testovanie štatistických hypotéz

Sledujeme vplyv jedného faktora u na výsledky pokusu pri jeho niekoľkých úrovniach (hodnotách). Namerané hodnoty xih sú zoradené do k skupín/tried (h=1,,k) podľa úrovní uvažovaného faktora, viď tabuľka. V jednotlivých triedach môže byť rovnaký (tzv. vyvážený plán pokusov), alebo rôzny počet hodnôt (nevyvážený plán pokusov).

Namerané hodnoty

Úro

vne

fak

tora

u

1

2

.

.

.

.

.

.

k

Postup testovania:

Určenie

H0: (vplyv faktora u nie je významný)

TK:

kde SS – Sum of Squares (B – Between, E – Error, T – Total) je suma štvorcov,

je suma štvorcov medzi skupinami,

je suma štvorcov vo vnútri skupín,

pričom musí platiť, že SSE + SSB = SST a

je celková suma štvorcov,

, h=1,,k sú skupinové aritmetické priemery,

je celkový priemer.

KH: z tabuliek Fisherovho rozdelenia, pre a = k – 1, = n – k.

Rozhodnutie o výsledku testu: Ak súhlasíme s nulovou hypotézou, rozdiel medzi aritmetickými

priemermi je nepodstatný, vplyv faktora u nie je štatisticky významný. Ak nesúhlasíme s nulovou hypotézou, rozdiel medzi aritmetickými

priemermi k skupín je podstatný, vplyv faktora u je štatisticky významný.

V tomto prípade môžeme v testovaní pokračovať a skúmať, ktorých skupín sa rozdiel

44

Page 44: Štatistické metódy

ŠTATISTICKÉ METÓDY

týka. Pre jednotlivé dvojice aritmetických priemerov , kde h=1,,k, h=1,,k, hh vypočítame testovacie kritériá podľa vzťahu

.

Porovnaním jednotlivých TK a KH (určenej v predchádzajúcom teste) zistíme, rozdiel aritmetických priemerov ktorých skupín spôsobil neprijatie hypotézy o rovnosti aritmetických priemerov všetkých porovnávaných tried (úrovní faktora u).

6.4.3 Dvojfaktorová analýza rozptylu

Uvažujeme vplyv dvoch faktorov u, v. Faktor u je sledovaný na h=1,,k úrovniach, faktor v je sledovaný na g=1,,q úrovniach. Pre ďalší postup je dôležité, či sa: každá úroveň faktora u kombinuje so všetkými úrovňami faktora v, teda jedná sa o tzv.

krížové usporiadanie plánu pokusov, alebo vplyv faktora v sa skúma v rámci faktora u, teda jedná o tzv. hierarchické usporiadanie plánu pokusov (Napr. pri kontrole kvality je možné zisťovať, či sa v niektorom ukazovateli kvality líšia výrobky z niekoľkých podnikov (u), ktoré pochádzajú z jednotlivých dielní (v) vo vnútri týchto podnikov.),

pre jednotlivé úrovne faktorov u a v urobilo len jedno meranie, teda jedná sa o tzv. plán pokusov bez opakovania, alebo je uskutočnených viac meraní (pokusov), teda jedná sa o tzv. plán pokusov s dvojnásobným (trojnásobným, ..) opakovaním,

jedná na jednotlivých úrovniach faktorov u a v o rovnaký počet meraní, teda , teda ide o tzv. vyvážený plán, alebo rôzny počet meraní a jedná sa o tzv. nevyvážený plán pokusov.

Krížové usporiadanie plánu pokusov bez opakovania

Na každej z kq kombinácii úrovní faktorov u a v je k dispozícii jedno meranie. Celkový počet meraní je rovný . Namerané hodnoty sú usporiadané v nasledujúcej tabuľke:

Úrovne faktora v

1 2 3 ... q

Úro

vne

fak

tora

u

1 ...

2 ...

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.k ...

Postup testovania:

Určenie

FLOREKOVÁ, BENKOVÁ 45

Page 45: Štatistické metódy

6. Testovanie štatistických hypotéz

H01: (vplyv faktora u nie je významný)H02: (vplyv faktora v nie je významný)

TK: ,

kde

je suma štvorcov rozdielov spôsobená vplyvom faktora v,

je suma štvorcov rozdielov spôsobená vplyvom faktora u ,

je vnútroskupinová (reziduálna) suma štvorcov

rozdielov,pričom musí platiť

sú aritmetické priemery pre jednotlivé úrovne faktora u,

sú aritmetické priemery pre jednotlivé úrovne faktora v,

je celkový priemer (za všetky skupiny),

KH: z tabuliek Fisherovho rozdelenia určíme dve kritické hodnoty: podľa = (q – 1),= (k – 1)(q – 1),

podľa = (k – 1),= (k – 1)(q – 1).

Interpretácia testov: Ak ,resp. súhlasíme s nulovou hypotézou, rozdiel medzi

aritmetickými priemermi porovnávaných výberov je nepodstatný, vplyv faktora u, resp. vplyv faktora v nie je štatisticky významný.

Ak ,resp. nesúhlasíme s nulovou hypotézou, rozdiel medzi aritmetickými priemermi je podstatný, vplyv faktora u resp. vplyv faktora v je štatisticky významný.

6.4.4 Latinský štvorec pre tri faktory na troch úrovniach

Latinský štvorec je špeciálny typ plánu pokusov, ktorý je možné použiť namiesto krížového usporiadania trojfaktorového plánu pokusov bez opakovania. Výhodou je výrazne menší počet potrebných údajov, nevýhodou je, že všetky tri faktory je nutné uvažovať na rovnakom počte úrovní, napr. na troch ako ukazuje obrázok. Vzhľadom na to, že sa jedná o plán bez opakovania nie je možné skúmať vplyv interakcie jednotlivých faktorov.

Úrovne

46

Page 46: Štatistické metódy

ŠTATISTICKÉ METÓDY

faktora v

1 2 3

Úro

vne

fak

tora

u1 A B C

2 B C A

3 C A B

A,B,C – úrovne faktora w

6.4.5 Kruskal – Wallisov test

je neparametrický variant jednofaktorovej ANOVy, ktorý využíva poradie hodnôt, nie samotné hodnoty. V nulovej hypotéze sa predpokladá rovnosť mediánov.

Postup testovania:

Určenie

H0:

TK:

usporiadame všetky hodnoty zo všetkých porovnávaných výberov do jedného variačného radu vzostupne,

vypočítame sumy poradí jednotlivých výberov R1, ..., Rk.

KH: 2 z tabuliek Pearsonovho rozdelenia pre a = k – 1.

Rozhodnutie o výsledku testu: Ak TK<KH súhlasíme H0, medzi porovnávanými výbermi nie je štatisticky

významný rozdiel. Ak TK>KH zamietame H0, medzi porovnávanými výbermi je štatisticky

významný rozdiel.

6.5 2 test nezávislosti v kontingenčnej tabuľke

sa zaoberá štatistickou analýzou kontingenčných tabuliek, ktoré vznikajú pri popise vzťahu tzv. kategoriálnych premenných. Uvažujme, že každá experimentálna jednotka môže byť klasifikovaná podľa dvoch premenných/kritérií/kvantitatívnych znakov A, B. Premenná A má r kategórií (úrovní) a premenná B má s kategórií (úrovní). Symbolom nij označíme počet prvkov s výberu, ktorý má rozsah n, ktoré podľa premennej A patria do kategórie Ai a podľa premennej B do kategórie Bj. Počet prvkov výberu, ktoré patria do kategórie Ai je označený ni., počet prvkov patriaci do kategórie Bj.

FLOREKOVÁ, BENKOVÁ 47

Page 47: Štatistické metódy

6. Testovanie štatistických hypotéz

Úroveň B1 B2 ... Bs nj

A1 n11 n12 ... n1s n1.

A2 n21 n22 ... n2s n2.

.

...

Ar nr1 nr2 ... nrs nr.

ni n.1 n.2 n.s n

Postup testovania:

Určenie

H0: Medzi kvantitatívnymi znakmi A a B nie je štatisticky významná závislosť.

TK:

nij – empirické početnosti

mij – teoretické početnosti

KH: kvantil 2 rozdelenia pre zvolené a vypočítané = (r-1).(s-1) r – počet variantov znaku A – počet riadkov tabuľky, s – počet variantov znaku B – počet stĺpcov tabuľky.

Rozhodnutie o výsledku testu: ak TK<KH súhlasíme s H0, medzi porovnávanými kvantitatívnymi znakmi

A a B nie je štatisticky významná závislosť, ak TK>KH zamietame H0, medzi porovnávanými kvantitatívnymi znakmi

A a B je štatisticky významná závislosť.

48

Page 48: Štatistické metódy

ŠTATISTICKÉ METÓDY

7. Robustná a neparametrická štatistika

Pri spracovaní malých výberov, často získaných z tzv. úvodných, vstupných experimentov, vznikajú niektoré otázky: Sme oprávnení považovať aritmetický priemer za najreprezentatívnejší a nevychýlený? Má medián väčší význam ako aritmetický priemer? Je výber naozaj náhodný z príslušného základného súboru? Sú odľahlé (krajné, najmenšie-najväččie, extrémne) hodnoty právom vo výbere? Aké bude rozdelenie príslušného základného súboru, na ktoré chceme z výberových

charakteristík usudzovať, normálne, či iné?Na väčšinu týchto otázok môže dať odpoveď niektorý z tzv. kompromisných postupov. Sú to najmä tzv. poradové (rankové, bezhodnotové) a robustné štatistiky.

Aritmetický priemer „využíva“ všetky dáta. Sú situácie, keď zahrnutie extrémnych dát spôsobí zbytočne nepresnosť aritmetického priemeru a vtedy je lepšie použiť medián , ktorý je nezávislý na type rozdelenia NP(X), je teda neparametrickou štatistikou.

Preto sa pri „veľmi“ malých výberoch (cca do 12 hodnôt) odporúča počítať interval spoľahlivosti pre medián, Me(X), ako parameter neznámeho ZS, a to spravidla tak, že sa z variačného radu n hodnôt xi vynechá prvá – minimálna a posledná – maximálna. Potom sa určuje interval spoľahlivosti pomocou binomického rozdelenia ako hodnota percentuálnej pravdepodobnosti, že M(X) „padne“ do tohoto rozmedzia (Meloun, Militký 1994).

Výhodou tzv. robustnej štatistiky je, že získané výsledky sú dostatočne stabilné, nevýhodou, že len veľmi približne sa dosahuje 95% spoľahlivosť, a že výpočty sú pomerne komplikované, preto sa využívajú iba s počítačovou podporou.

Pre výpočet aritmetického priemeru sa používa kompromis, že sa tento počíta iba zo stredu variačného radu. Odporúča sa „useknúť“ zľava aj sprava po 25% hodnôt (50% kvartil), čím vznikne tzv. useknutý priemer (trimmed value). (Percento useknutia môže však byť aj iné.)

Napr. pre n = 12, sú dáta vo variačnom rade:

81, 94, 95, 95, 97, 102, 106, 110, 113, 114, 135, 160

0% 25% IQR 75% 100%

Potom (8% z 12 hodnôt je 1 hodnota, vynechá sa 81 a 160), (25% z 12 hodnôt sú 3 hodnoty, vynechá sa 81, 94, 95 a 114, 135, 160),

(42% z 12 hodnôt je 5 hodnôt, zostáva iba 102 a 106, výsledok je medián). Najlepší výsledok je . (Priemer klesal 108,5; 106,1; 103,8; a zasa narástol 104,0) (IQR – interval quartil range – najlepšie medzi kvartilové rozpätie).

Okrem useknutého, odporúča robustná štatistika výpočet tzv. dvojváženého priemeru. Stredu variačného radu sa prideľujú najvyššie váhy a jeho okrajom čo najmenšie. Ak už máme z výpočtu useknutého priemeru určené najvhodnejšie IQR, tak vypočítame normu

FLOREKOVÁ, BENKOVÁ 49

Page 49: Štatistické metódy

7. Robustná a neparametrická štatistika

. Potom váhy jednotlivých hodnôt budú ,

.

Medián bude mať teda najväčšiu váhu. Potom (dw – double weighted).

(Pre náš príklad , je o niečo lepší ako predchádzajúci.)

Existuje aj ďalší kompromis, výpočet tzv. dvojváženého iterovaného priemeru, t.j.

postupné zlepšovanie odhadu neznámej M(X) . Teraz sa určí norma , wi -

rovnako ako pri dvojváženom priemere. Vždy keď dajú zlepšené váhy lepší odhad ,

vyrátajú sa nové normy , nové váhy a postup sa opakuje dovtedy, dokedy už nedochádza k zlepšeniu. Príslušný odhad je najbližšie k M(X).

Pri hodnotení takýchto výberov sa odporúčajú aj ďalšie testy.Poradový test nezávislosti (náhodnosť výberu je dôležitejšia ako normalita). Testuje sa

H0, že výber je náhodný z príslušného ZS. Dáta sa vykreslia tak, ako boli získané (obr.6.4) ak H0 má platiť, mediánová priamka „často“ pretína polygón dát, ak H0 nie je pravdivá, mediánová priamka „málokedy“ pretína polygón dát,

tzv. sériový test – pozorovania nad mediánovou priamkou H (high) a pozorovania pod mediánovou priamkou L (low), sa usporiadajú do sérií, napr. tu LLL / HHHHH / LLLL / HH (obr.6.4), LL / H / L / HH / LL / HH / LL / HH (obr.6.5), vznikne niekoľko neprerušených postupností hodnôt L alebo H, teda počet sérií R = 4(8).Pri n hodnotách (najradšej nepárny počet, aby sme medián mohli vynechať), ak má H0 byť

pravdivá, má počet sérií R normálne rozdelenie s ,

(tu: ).

Po ich určení sa vypočíta normovaná kritická hodnota ,

(tu pri R = 4 je , pri R = 8 je .)

Z tabuliek normovaného normálneho rozdelenia sa určí hodnota distribučnej funkcie pre Z, teda pravdepodobnostná hodnota Pr, ktorej vyjadrenie v % určí pravdepodobnosť, že výber je/nie je náhodný. (tu teda Pr ( R 4 ) = Pr ( Z -2,22) = 0,013 pr. hodnota 1%, teda výber n = 14 hodnôt nie je náhodný; Pr ( R 8 ) = Pr ( Z 0) = 0,5 pr. hodnota 50%, teda výber n = 14 hodnôt je (môže byť) náhodný.

50

Page 50: Štatistické metódy

ŠTATISTICKÉ METÓDY

Obr.6.4 Sériový test – výber nie je náhodný

Obr.6.5 Sériový test – výber je náhodný

Pri takýchto veľmi malých výberoch sa odporúča tiež vykonať znamienkový test pre párový výber (namiesto párového t-testu).

Mediánovú analýzu možno rozšíriť, ak sú dva výbery nezávislé (Lindgren, 1976). Pre dva a viac výberov existuje tzv. median polish analýza, podobná analýze rozptylu, iba miesto

sa používa .

FLOREKOVÁ, BENKOVÁ 51

HL

HL

HL

HL

HL

HL H

L

LL L L

LL

x

čas

L

LL

HL

HL

HL

L

HL

HLH

L

L L LL

x

čas

L

HL

Page 51: Štatistické metódy

ŠTATISTICKÉ METÓDY

8. Analýza závislostí

Štatistická analýza sa veľmi často zaoberá nielen jednou izolovanou premennou, ale aj vzťahmi medzi premennými. Určovaním typu vzťahu medzi premennými, typu regresného modelu sa zaoberá regresná analýza. Zisťovaním sily vzťahu medzi premennými, ich vzájomnej korelácie sa zaoberá korelačná analýza.

V ďalšom sa budeme zaoberať závislosťou medzi dvoma premennými X, Y, ktorá môže byť vyjadrená pomocou lineárneho regresného modelu, alebo niektorého z mnohých typov nelineárnych regresných modelov a závislosťou medzi premennou Y premennými X1, X2, ..., Xk, ktorá môže byť vyjadrená pomocou viacnásobného lineárneho regresného modelu.

Pri hlbšom skúmaní RM sa zisťujú aj ďalšie vlastnosti RM, a to najmä autokorelácia (usporiadanosť nezávisle a závisle premenných v čase, typická pre časové rady, ktorá však môže viazať na seba aj iné premenné), multikolinearita (existencia vzťahu medzi nezávisle premennými pri viacrozmerných RM), čí autoregresia.

8.1 Metódy odhadu parametrov regresného modelu

V rámci regresnej analýzy je potrebné zvoliť vhodný typ regresného modelu a potom vypočítať najlepší odhad jeho parametrov. Na tento účel sa používajú viaceré metódy (Seger, Hindls 1993): metóda najmenších štvorcov, metóda čiastočných súčtov, metóda vnútornej regresie, metóda postupného zlepšovania riešenia, metóda apriórnej informácie, metóda vybraných bodov.

Najuniverzálnejšia z nich je metóda najmenších štvorcov a preto sa ňou budeme ďalej zaoberať podrobnejšie.

8.2 Metóda najmenších štvorcov

Gaussova (1802) metóda najmenších štvorcov MNŠ je základnou pracovnou metódou pre spracovanie dát. Jej názov vychádza z Gaussovho mnohonásobne overeného princípu: „súčet štvorcov rozdielov medzi skutočnými a teoretickými hodnotami je najmenší možný“. „Hodnotou“ tu môže byť chyba v meraniach (úlohy tzv. vyrovnávacieho počtu, úlohy o zvyškovom – reziduálnom rozptyle), rozdiel medzi závislosťami dvoch premenných zasa z pohľadu reálnych údajov a ich pravdepodobných odhadov (úlohy o rezíduách, úlohy o najvhodnejších vzťahoch medzi premennými).

(Je potrebné priznať, že správnosť MNŠ – Methode der kleinsten Quadraten, Method of least Squares, jej platnosť, bola overená nepriamo pomocou tzv. metódy maximálnej vierohodnosti – Methode der maximal Wahrscheinlichkeit, Method of Maximum Likelyhood, autorov Fishera a Linnika).

Už aj platnosť vzťahu pre aritmetický priemer, rozptyl, Pearsonov test je založená na MNŠ. Avšak pri spracovaní jednorozmerných výberov bola aplikovaná akoby bez vysvetlenia, intuitívne, pri spracovaní dvoj – a viacrozmerných výberov je potrebné jej princíp pred vlastnou aplikáciou vysvetliť.

FLOREKOVÁ, BENKOVÁ 53

Page 52: Štatistické metódy

7. Analýza závislostí

Keďže Gauss vychádzal z požiadavky, že musí existovať nejaká funkcia, ktorá minimalizuje súčet štvorcov rozdielov medzi danými a očakávanými dátami, nazval túto účelovou, kriteriálnou funkciou Z. Potom bolo potrebné nájsť takú Z, pre ktorú bude platiť (v

rámci existujúcich obmedzení) vzťah , kde EHi sú

experimentálne (dané) hodnoty a THi sú teoretické (očakávané) hodnoty, vi je skutočný rozdiel týchto dvojíc hodnôt, chyba merania, rezíduum (zvyšok). Gauss odôvodnil platnosť MNŠ pomocou troch tzv. postulátov: Za predpokladu normálneho rozdelenia náhodných chýb, poskytuje MNŠ

najpravdepodobnejší (najlepší, najspoľahlivejší) odhad stanovovanej hodnoty. Za predpokladu symetrického (párneho) rozdelenia náhodných chýb, má

najpravdepodobnejšia hodnota najmenšiu štandardnú odchýlku a najväčšiu váhu – pravdepodobnosť výskytu.

Za predpokladu splnenia prvých dvoch požiadaviek, dáva MNŠ nestranný (nevychýlený) odhad stanovovanej hodnoty.

Ak napr. za stanovovanú hodnotu budeme považovať aritmetický priemer

jednorozmerného malého výberu Vxin, potom účelová funkcia .

Z rozboru takejto funkcie vyplýva, že prvá derivácia Z podľa sa má rovnať 0 a druhá derivácia Z má byť kladná. Potom

, , , .

Ak napr. za stanovovanú hodnotu budeme považovať aritmetický priemer

jednorozmerného veľkého výberu Vxin, potom účelová funkcia ,

, ,

, .

Ak uvažujeme, že stanovovanou hodnotou bude napr. predpokladaný vzťah medzi dvoma premennými x, y, ktorý je založený na výbere týchto hodnôt Vxi, yi, potom

, ak premenná Y je teoretická závislosť hodnôt závisle

premennej yi na hodnotách nezávisle premennej xi.

Platnosť MNŠ, resp. účelovej funkcie Z vytvorenej na jej základe pre závislosti (tzv. strednokvadratické aproximácie) medzi jednou závisle premennou Y a jednou nezávisle premennou X (dvojrozmerné regresné modely), resp. viacerými nezávisle premennými xj

(viacnásobné/mnohonásobné regresné modely) je obmedzená na také typy týchto závislostí, ktoré sú:

lineárne v určovaných parametroch ,

54

Page 53: Štatistické metódy

ŠTATISTICKÉ METÓDY

linearizovateľné v určovaných parametroch

logaritmovaním ,

substitúciou ,

lineárne / linearizovateľné v parametroch po vykonaní počiatočného odhadu, transformáciou súradnicového systému posunutím odhad a0 na osi y,

posun osi x o odhad . Počiatočný odhad posunu a*0

je možné vykonať rôznymi postupmi, avšak všeobecne sa odporúča urobiť aspoň tri odhady a*

0 (dolný, stredný, horný) a po výpočte vybrať ten variant, pre ktorý je Z minimálna.

8.3 Regresné modely pre dve premenné

Tzv. teoretická regresia, t.j. vzťah jednej veličiny k druhej, resp závislosť jednej veličiny (závislej, vysvetľovanej) na druhej veličine (nezávislej, vysvetľujúcej), sa dá získať zo súčasne meraných, pozorovaných dát, hodnôt dvojíc xi, yi, usporiadaných do výberu Vxi, yin.

Ak odôvodnene predpokladáme, že medzi týmito dvoma premennými existuje pravdepodobnostná väzba, ktorej „silu” vyjadruje kovariancia, spoločný rozptyl týchto premenných, môžeme pomocou tejto informácie aproximovať jednu NP, pomocou druhej a vytvoriť regresný model RM, regresnú závislosť týchto premenných.

Za optimálne vyjadrenie teoretického vzťahu považujeme to, ktoré vyhovuje podmienke minima účelovej funkcie Z, vytvorenej na princípe MNŠ:

Vypovedacia schopnosť RM závisí na spracovávaných experimentálnych dátach a je ju možné spoznať iba na základe komplexnej analýzy, pri plnom rešpektovaní všetkých informácií vecného, logického, ekonomického, technického, technologického, sociálneho charakteru. RM umožňujú lepšie, hlbšie spoznanie skúmaných javov v súvislostiach, pomocou vzťahov medzi premennými.

Často neexistuje iba jedna aproximácia výberu Vxi, yin, regresným modelom. Vhodnosť toho ktorého typu RM, výber typu RM z viacerých alternatív, je možné hodnotiť pomocou teoretickej korelácie, t.j. číselného vyjadrenia tesnosti, pevnosti vzťahu medzi hodnotenými NP. Korelácia sa hodnotí podľa vyjadrených kritérií, z ktorých najúčinnejšie je číselné vyjadrenie pomocou koeficientu, resp. indexu korelácie.

MNŠ napriek svojej univerzálnosti, nedáva možnosť určiť “najlepší” RM medzi premennými, ale pre vopred zvolený tvar RM dáva možnosť vypočítať najvhodnejšie hodnoty jeho parametrov. Voľba tohoto vhodného typu závislosti vychádza vždy z tzv. bodového diagramu, t.j. na začiatku práce s dvojrozmerným výberom hodnôt je potrebné vyniesť do grafu dvojice hodnôt xi, yi a z neho odhadnúť možný priebeh závislosti.

Považujeme za potrebné zdôrazniť, že existuje podstatný rozdiel medzi funkciou dvoch premenných a regresným modelom pre dve premenné, preto pri spracovaní dvojrozmerných (alebo aj viacrozmerných) výberov nepoužívame pojem funkcia, ale závislosť, resp. regresný model, príp. štatistický model (závislosť). Dá sa voľne povedať, že krajným prípadom štatistickej závislosti (ak by neexistovali náhodné vplyvy pri získaní hodnôt NP !!) je funkcia.

FLOREKOVÁ, BENKOVÁ 55

Page 54: Štatistické metódy

7. Analýza závislostí

8.3.1 Lineárny regresný model – LRM

Ak z Vxi, yin, po vynesení hodnôt má bodový diagram tendenciu – trend priamej závislosti (obr.8.1), je možné ju popísať polynómom 1. stupňa, t.j. priamkou. (Je potrebné si uvedomiť, že táto priamka by sa skôr mala nazývať úsečkou, lebo jej platnosť je obmedzená oborom hodnôt x a y, ktoré spracovávame, ktoré sme získali meraním.)

Obr.8.1 Lineárna - priama závislosť medzi premennými x a y

Z obr . 8.1 vyplýva, že vzťah medzi x a y môže byť “obojsmerný”, t.j. Y môže byť závislé na x, resp. X môže byť závislé na y, čo vyplýva z predpokladu tzv. dvojrozmerného normálneho rozdelenia, t.j. že premenné xi ako samostatný výber, tak aj premenné yi ako samostatný výber sú normálne rozdelené. Táto zámena vzťahov závislá / nezávislá premenná a naopak je možná iba pri vyjadrenom trende k lineárnej závislosti.

Výpočet parametrov a1, a0, resp. b0, b1, ako tzv. ich najlepších odhadov pomocou MNŠ, vychádza z príslušného tvaru účelovej funkcie pre rozdiely dy / dx (obr.č.8.1). Potom bude platiť:

LRMtyp „Y na x” typ „X na y”

potom

(XTX).a=(XTy)

potom

(YTY).b=(YTx)

56

xi Xi

)(pozitívnaaa 10 xY y

Yi

dyyi

xi x

)(negatívnabb 10 yX y

dxyi

xi x

Page 55: Štatistické metódy

ŠTATISTICKÉ METÓDY

je sústava normálnych rovníc pre dve neznáme

(XTX) -1.(XTy),

kde X= , y = .

(YTY).b=(YTx)

kde Y = , x = .

Potom závislosti

sú najlepšími odhadmi LRM pre spracovávané hodnoty dvojíc Vxi, yin, .

Pri dôležitých LRM sa odhady , resp. parametrov testujú na významnosť pomocou Studentovho testu, a určuje sa aj interval spoľahlivosti pre LRM, tzv. spoľahlivostný, resp. tolerančný pás. Spracovávané dvojice xi, yi, ktoré sa umiestnia mimo tohoto pásu, sú extrémne, nepatria do spracovania, čo má nepríjemný následok, pretože je potrebné tieto dvojice vylúčiť a určiť nové odhady parametrov – opakovať regresnú úlohu.

Obr.8.2 Spoľahlivostný pás LRM (YU – upper confidence limit, YL- lower confidence limit,Y – regression line)

Vhodnosť náhrady hodnôt Vxi, yin pomocou LRM sa zisťuje na základe korelačných charakteristík, a to menovite:

- celkový rozptyl hodnôt závisle premennej

, ,

- zvyškový (reziduálny) rozptyl hodnôt závisle premennej

, ,

t.j. pre p=2 určované parametre LRM,

- teoretický (vyrovnaný) rozptyl hodnôt závisle premennej

FLOREKOVÁ, BENKOVÁ 57

Xx

YU stYY

xY 10 aa

YstYYL

Page 56: Štatistické metódy

7. Analýza závislostí

,

(V prípade n<30, pri a sa uvažujú stupne voľnosti = n – 1.)Očakáva sa, že ak má byť LRM vhodný pre spracovávané dáta, potom by mala približne

platiť rozptylová rovnica .V anglickej literatúre, ktorej je u nás v súčasnosti dostatok, sa uvádzajú charakteristiky:

– Sum of Squared Error,

– Mean Squared Error,

– Mean Absolute Deviation.

Kvalita regresného modelu môže byť hodnotená podľa toho, ako sa na celkovom rozptyle podieľajú reziduálny rozptyl a rozptyl vyrovnaných hodnôt. Závislosť premennej y na x bude tým silnejšia, čím väčší bude podiel rozptylu vyrovnaných hodnôt na celkovom rozptyle.

Index determinácie v prípade funkčnej závislosti nadobúda hodnotu 1,

v prípade nezávislosti premenných x a y hodnotu 0. Index vynásobený 100 udáva v %, akú časť rozptylu závisle premennej vysvetľuje zvolená regresná funkcia. Nízka hodnota indexu determinácie môže byť spôsobená nielen nezávislosťou premenných, ale aj nesprávne zvoleným regresným modelom!

V praxi sa pre meranie tesnosti závislosti častejšie používa odmocnina indexu

determinácie – index korelácie . Aj jeho hodnoty sa pohybujú v intervale

<0,1>.Zjednodušením indexu korelácie pre LRM je Pearsonov koeficient korelácie

, kde cov yx – kovariancia je tzv. zmiešaný rozptyl oboch premenných

. Koeficient korelácie, ako relatívna miera vzájomného

vzťahu x a y je invariantný voči lineárnej transformácii hodnôt x a y, a preto platí iba pre LRM. Jeho hodnota sa pohybuje v intervale <-1,1>. V prípade, že r = 0, neexistuje vzájomný vzťah medzi x, y, je chaotický. V prípade záporných hodnôt r, je vzťah negatívny – s rastom hodnôt jednej premennej hodnoty druhej klesajú. V prípade kladných hodnôt r, je vzťah pozitívny – s rastom hodnôt jednej premennej rastú aj hodnoty druhej.

LRM oboch typov tvoria tzv. združené regresné modely (obr.8.3). Spolu vytvárajú tzv. korelačné nožnice. Čím sú tieto viac „otvorené“, tým je r menší, a naopak. V prípade, že r = 1, stáva sa štatistická závislosť funkčnou. Za dobrý RM sa považuje, ak r > 0,7 (0,8). Za vyjadrený trend k LRM sa považuje ten, ak r > 0,4.

Pre dôležité závery, vyplývajúce z náhrady xi, yin LRM, sa testuje koeficient korelácie na významnosť pomocou Fisherovej transformácie kritických hodnôt r.

58

Page 57: Štatistické metódy

ŠTATISTICKÉ METÓDY

Obr.8.3 Združené regresné modely – korelačné nožnice

Pre malé výbery, vzhľadom na problematické oprávnenie vyjadrovať sa k dvoj-rozmernému normálnemu rozdeleniu hodnôt x, y, odporúča sa vypočítavať tzv. Spearmanov

poradový (rankový) koeficient korelácie , kde di – je rozdiel hodnôt poradí

premenných x, y, usporiadaných podľa veľkosti. Stráca sa tu teda vplyv veľkosti hodnôt x, y, uvažuje sa iba o zhode poradia týchto hodnôt. Hodnota R sa interpretuje rovnako, ako r (miera zhody poradí sa niekedy posudzuje pomocou konkordancie N.)

Ďalším dôležitým ukazovateľom hodnotenia vlastností LRM je Fisherova charak-

teristika adekvátnosti , ktorá má byť čo najväčšia, teda má byť čo najmenšie,

čo sa hodnotí F testom (testuje sa Ha o tom, že ), resp. jej recipročná hodnota, koeficient determinácie R2. (Pozor na zámenu so Spearmanovým koeficientom korelácie.)

Pre porovnávanie zhody dvoch, resp viacerých LRM (pri opakovaných výberoch) sa testujú nulové hypotézy na ich rovnobežnosť H0: a11 - a12 = 0, resp. b11 - b12 = 0 a nulové hypotézy na rovnaký absolútny člen, H0: a01 - a02 = 0, resp. b01 - b02 = 0.

Pre lepšiu vizualizáciu spracovávaných a vypočítavaných hodnôt závisle premennej sa odporúča zvlášť hodnotiť rezíduá ey voči X, resp. ex voči Y (absolútne pre hodnotenie trendu a

FLOREKOVÁ, BENKOVÁ 59

x

y

y

Yy

Xx x

Y

X

Yr = 0,8

y X

Y

r = 0

XY

r = -1

x

Page 58: Štatistické metódy

7. Analýza závislostí

relatívne pre zistenie, či neprekračujú kritické hodnoty), pomocou ich grafov a vykresliť tiež korelogram, teda vzťah y-Y, resp. x-X príslušného LRM (obr.8.4).

Obr.8.4 Grafy rezíduí e = y –Y a korelogram y/Y pre LRM

Diagnóza rezíduí rozširuje možnosti zvýšenia vypovedacej schopnosti kvantitatívnych korelačných charakteristík.

8.3.2 Nelineárne regresné modely – NLRM

Výber vhodných typov NLRM na základe vykresleného bodového diagramu nie je vždy jednoduchý. Ako pomôcku možno zostaviť niekoľko typických priebehov (obr.8.5) a pre ne potom prepočítať vhodné modely priamo pomocou MNŠ (lineárne v parametroch) alebo ne-priamo (po ich úprave linearizáciou).

Základný prehľad najpoužívanejších typov NLRM je v tabuľke 8.1, v členení polyno-mické typy P (do stupňa 4-5), mocninné typy M, exponenciálne typy E, hyperbolické typy H, logistické typy L, prípadne niektoré zložené typy Z, ktoré sa spravidla riešia pomocou tzv. stepwise procedúr, teda krokovým výberom významnej množiny závislostí, resp. pomocou tzv. spline metód, vyhľadávaním prekrývajúcich sa závislostí pre určité intervaly spracovávaných hodnôt.

60

y

polynómy 2.stupňa(x, y)

x

y

polynómy 2.stupňa(x, y)

x

y

polynómy 3.stupňa(x, y)

x

trend v rezíduách, väčšie hodnoty obsahujú väčšie chyby, LRM nie je vhodný

cyklické kolísanierezíduí, vplyv času

dobrý korelogram, pravidelné oscilovanie +/- hodnôt okolo uhlopriečky

ey

X

ey

X

Ye

y

45

štatisticky nezávislérezíduá

zvolený RM nie je lineárny

prevaha negatívnych rezíduí

ey

X

ey

X

ey

X

Page 59: Štatistické metódy

ŠTATISTICKÉ METÓDY

Obr.8.5 Niektoré základné typy nelineárnych závislostí medzi dvoma premennými

FLOREKOVÁ, BENKOVÁ 61

y

hyperbolické typy(y, x-1, / x, y-1)

x

y

zbortené hyperbolické typy (x, x/ y)

y

hyperbolické typy(y, x-1x-2)

x

y

exponenciálne typy(ln x, ln y)

x

y

mocninné typy(m = 0,5-2)

x

y

exponenciálne typy(log x, log y)

x

a0

y

logistické typy(odhad a0)

x

y

typy kriviek životného cyklu(splineové)

y

exponenciálny súčtovýtyp (odhad a0)(x, ln ( y – a 0)

Page 60: Štatistické metódy

8. Analýza závislostí

Tab.1 Vzťahy pre výpočty NLRM pomocou MNŠ

Typ NLRMLinearizáciaTransformácia

Tvar účelovej funkcie Sústava normálnych rovníc

P2: kvadratický, 2.stupeň

-

P3:

kubický, 3.stupeň-

M1: -

M2: , m-dané -

M3:

E1:

E2:

E3:

E4:

62

Page 61: Štatistické metódy

ŠTATISTICKÉ METÓDY

Typ NLRMLinearizáciaTransformácia

Tvar účelovej funkcie Sústava normálnych rovníc

E5:

E6:

E7:

H1: -

H2:pri y 0

H3: n

H4: n

FLOREKOVÁ, BENKOVÁ 63

Page 62: Štatistické metódy

8. Analýza závislostí

Typ NLRMLinearizáciaTransformácia

Tvar účelovej funkcie Sústava normálnych rovníc

H5:

L1:

L2:

Z1:

Z2: (úplná)

(pre riešenie step-wise procedúrou, hodnotenie významnosti koeficientov)

64

Page 63: Štatistické metódy

ŠTATISTICKÉ METÓDY

Hodnotenie vhodnosti NLRM sa vykonáva obdobne, ako pri LRM. Znova sa počítajú všetky tri rozptyly pre závisle premennú Y, teda a skontroluje sa platnosť rozptylovej rovnice.

Počíta index determinácie I2 a , ale index korelácie . Pre dobrý NLRM sa

požaduje I > 0,6, vyjadrený trend pre príslušný typ NLRM je pri I > 0,3.Z rozptylovej rovnice (ak platí) vyplýva, že , takže po dosadení do

predchádzajúceho vzťahu získame , tzv. približný index korelácie. (Je dobré ho

vypočítať, pretože v prípade nevhodného typu NLRM pre spracovávané dáta je , takže približný index bude väčší ako 1, mimo interval jeho platnosti.) Platí pravidlo, že rast

spôsobuje pokles a naopak.Odporúča sa vypočítať aj Fisherovu charakteristiku adekvátnosti, rovnako ako pri

LRM.Niektorí autori odporúčajú vykonať aj tzv. Blakemanov test linearity NLRM, teda

stupeň “odchýlenia” sa príslušného typu NLRM od LRM.

Pri výbere najvhodnejšieho typu NLRM z prepočítaných možných typov je najlepšie pridržiavať sa minimálneho súčtu poradí hodnotení (pri rovnakom celkovom rozptyle): minimálny reziduálny rozptyl, minimálny teoretický rozptyl, najväčšia hodnota presného indexu korelácie, najväčšia hodnota približného indexu korelácie, najväčšia hodnota charakteristiky adekvátnosti F, najmenší počet určovaných parametrov, najjednoduchší typ (tvar) modelu, logicky odpovedajúci vzťahu premenných.

Rovnako ako pri LRM, aj tu je vhodné vykresliť okrem grafu NLRM aj diagramy rezíduí a korelogram. Diagramy rezíduí, vždy ey, je možné zobraziť voči xi/Yi, ale nikdy nie voči yi, na ktorých sú samozrejme závislé.

8.4 Regresné modely pre viac premenných

Mnohokrát je potrebné sledovať vplyv viacerých (nezávislých) premenných na jednu (závislú) premennú z výberov hodnôt xij,yi, i = 1,,n; j = 1,,k. Tento vzájomný vzťah môže byť v parametroch lineárny alebo nelineárny.

Mnohonásobný lineárny regresný model – MNLRM má tvar:

Mnohonásobný linearizovateľný regresný model – MNLRM má tvar:

, ( pre riešenie ), alebo

, (pre riešenie ).

FLOREKOVÁ, BENKOVÁ 65

Page 64: Štatistické metódy

8. Analýza závislostí

Určiť najlepšie odhady vektorov parametrov je možné rôznymi úpravami metódy najmenších štvorcov, najčastejšie sa používajú :

klasická metóda najmenších štvorcov

, ktorá vedie k sústave rovníc (XTX)a=XTy, kde X je dátová matica,

y je dátový vektor, a je vektor určovaných parametrov MLRM,

, , ,

metóda centrovania

, ktorá vedie k sústave normálnych rovníc

, kde C je variančno-kovariančná matica, c je kovariančný vektor,

, ,

metóda normovania

, ktorá vedie k sústave normálnych rovníc

, kde R je korelačná matica, r je korelačný vektor

, ,

Z hľadiska konečného výsledku je jedno, ktorá z metód sa použije. Hodnoty vektora parametrov musia byť vždy tie isté. Z hľadiska informačnej obsažnosti má však každý postup svoje výhody, resp. nevýhody.

Najvyššiu vypovedaciu schopnosť má korelačná matica R. V prípade, že medzi sledovanými parametrami naozaj platí lineárny mnohonásobný vzťah, potom by mala byť jednotkovou maticou, malo by platiť R-I=0. (Hodnoty koeficientov korelácie mimo hlavnej diagonály by sa mali blížiť nule, teda medzi nezávislými premennými by nemala existovať korelácia.) Ak ale korelácia medzi nimi existuje, potom MLRM nie je vhodné použiť a treba hľadať model iný, napr. MRLM s interakciami, alebo mnohonásobný kvadratický regresný model, resp. mnohonásobný úplný regresný model, aj s interakciami aj s kvadratickými

66

Page 65: Štatistické metódy

ŠTATISTICKÉ METÓDY

členmi

teda . Okrem toho, korelačný vektor r priamo udáva hodnoty parciálnych čiastkových koeficientov korelácií medzi jednotlivými nezávisle premennými a závisle premennou, čo je významné pre celkové posúdenie MLRM.

Kovariančná matica C informuje o presnosti jednotlivých nezávislých premenných. V prípade homoskedasticity by na hlavnej diagonále mali byť všetky rozptyly rovnaké, malo by platiť C – Cdiag 0. Kovariancie by sa v prípade vhodnosti MLRM mali blížiť nule.

Práve pre tieto vlastnosti matíc R a C sa odporúča ich použitie, pretože je to spôsob, ako odhaliť medzi nezávisle premennými multikolinearitu.

Hodnotenie korelácie sa aj pri MLRM vykonáva pomocou rozptylov .Ako hlavná korelačná charakteristika sa vypočíta mnohonásobný koeficient korelácie

, resp. jeho druhá mocnina, , koeficient

mnohonásobnej determinácie, ako aj Fisherova charakteristika adekvátnosti.Kvôli nemožnosti vykresliť MLRM pre viac ako 2 (plochy), resp. 3 (telesá) premenné,

sa povinne robia grafy rezíduí a korelogramy. Hodnotením rezíduí pomocou Durbin-Watsonovho testu je možné zistiť autokoreláciu

hodnôt, čo znamená, že takéto dáta je potrebné spracovať ako časové rady, keďže čas je určujúci pre ich vznik.

Práve pre uvedené problémy je veľmi komplikované nájsť vhodné mnohonásobné regresné modely.

Newbold odporúča dodržať tzv. MALTHUS postup, t.j. overiť:1. MULTICOLINEARITY,2. AUTOCORRELATION,3. LACK of DATA – nevhodnosť, nepoužiteľnosť, nedostatočnosť dát,4. TIME (and COST CONSTRAINT) – obmedzenia závislé na čase a na nákladoch

na získanie dát,5. HETEROSCEDASTICITY – nerovnaká presnosť dát, rôzne rozptyly,6. UNDERIDENTIFICATION – vplyv veľkého počtu premenných, veľkej sústavy

rovníc, zlej podmienenosti matíc,7. SPECIFICATION – problém s výberom/určením dôležitých, relevantných,

podstatných premenných.

8.5 Kvalita regresných modelov

FLOREKOVÁ, BENKOVÁ 67

Page 66: Štatistické metódy

8. Analýza závislostí

Miera kvality vytváraných regresných modelov, ktoré boli použité ako náhrada za výbery dát, závisí na dodržaní postupnosti:

„Dobrý“ odhad by mal mať: významné parametre, ľahkú a logickú interpretáciu, dostatočný stupeň voľnosti, primeranú presnosť predpovede, dostatočnú robustnosť, nízke náklady na získavanie dát a aktualizáciu.

Robustná štatistika sa dá použiť aj pri určovaní parametrov RM. Váhy spracovávaných hodnôt je možné upraviť tak, aby sa zamedzilo veľkému vplyvu extrémnych hodnôt, pomocou dvojitého váženia:

Vypočíta sa príslušný RM, jeho parametre, a Yi (váhy = 1), určia sa rezíduá yi – Yi,

rezíduá sa normujú ,

(s – niektorá charakteristika rozptýlenia, napr. štandardná odchýlka, alebo medzikvartilové rozpätie všetkých rezíduí IQR),

váhy sa použijú v SNR, výsledkom sú robustné parametre aj Yir, opakovať postup od 2. dovtedy, až nedochádza k podstatnému zlepšeniu/minimalizácii

rezíduí.

68

Špecifikáciatypu modelu

Odhadparametrov

Interpretáciamodelu

Verifikáciamodelu

+

Dáta RMj overenie výber RM interpretácia

test významnosti

-zobrazenie

Page 67: Štatistické metódy

ŠTATISTICKÉ METÓDY

9. Časové rady

Časový rad – ČR je postupnosť vecne a priestorovo porovnateľných dát, jednoznačne usporiadaných z hľadiska času v smere minulosť – prítomnosť ČR xi,tin. ČR je teda dvojrozmerný (najmenej, ale aj viacrozmerný pri ďalších premenných) výber dát, kde nejaká náhodná premenná je jednoznačne viazaná na čas, resp. tvorí s časom, v ktorom vznikla, neoddeliteľnú dvojicu (k-ticu).

ČR sú neoddeliteľnou súčasťou najrozmanitejších oblastí života (priebeh pracovných veličín rôznych technológií, seizmické, geofyzikálne, biologické záznamy, meteorologické záznamy, záznamy o znečistení pôdy, vody, ovzdušia, demografické dáta, ekonomické dáta – objem produkcie, dopyt po výrobkoch, kapacity dopravných systémov, peňažné toky, ceny akcií, …).

Analýza ČR je súbor metód slúžiacich k popisu minulého správania ČR, prípadne k predvídaniu jeho budúceho správania. Metódy analýzy dát ČR sú

subjektívne (intuitívne) a objektívne, kvantitatívne (hodnotové), kvalitatívne (štatistické) a kauzálne (príčinné).

Voľba metódy analýzy ČR musí byť vyhovujúca v zmysle „vybalansovania“ vzťahov:

Dáta tvoriace ČR môžu byť: diskrétne (svojou povahou) – úroda, peniaze, počet nepodarkov, diskretizovateľné (spojité) – teplota, EKG, EEG, seizmické záznamy, kumulované (agregované za isté obdobie) – zrážky, výroba, zásoby.

Kategórie ČR sa delia z hľadiska: časového na intervalové a okamihové, periodicity na dlhodobé a krátkodobé, druhu na absolútne a relatívne, spôsobu vyjadrenia na materiálne (vecné) a peňažné (finančné).

Intervalový ČR je rad hodnôt intervalového ukazovateľa – jeho veľkosť závisí na dĺžke intervalu, počas ktorého bol sledovaný. Hodnoty takéhoto ČR má zmysel agregovať sčítavaním. Jednotlivé intervaly majú byť rovnako dlhé, pokiaľ nie sú, napr. ak intervalom je jeden mesiac, tak pre zaistenie porovnateľnosti údajov je potrebné prepočítať hodnoty ČR na

FLOREKOVÁ, BENKOVÁ 69

zložitosť

EXPERTÍZY MATEMATICKÉ MODELY

ANALÝZA ČRsubjektívnosť objektívnosť

jednoduchosť

METÓDY

EXTRAPOLÁCIA

KVANTITATÍVNE KVALITATÍVNE

INTUÍCIA

Page 68: Štatistické metódy

9. Časové rady

jednotkový časový interval (priemerný počet kalendárnych, resp. pracovných dní v mesiaci) t.j. očistiť ČR od dôsledku tzv. kalendárnych variácií.

Okamihový ČR zostavovaný z hodnôt ukazovateľov, ktoré sa vzťahujú k určitému okamihu, agregovanie sčítavaním nemá zmysel, robí sa pomocou jednoduchých resp. vážených chronologických priemerov.

Periodicita ČR radu je časové rozpätie medzi rozhodujúcimi okamihmi u okamihového časového radu, resp. dĺžka obdobia u intervalového časového radu. Ak je toto časové rozpätie kratšie ako jeden rok, jedná sa o krátkodobý časový rad. Špeciálnym druhom krátkodobých vysokofrekvenčné ČR, ktorých hodnoty sú monitorované s dennou, niekedy až s hodinovou periodicitou. Ak je periodicita ročná, prípadne dlhšia, jedná sa o dlhodobý časový rad. Toto rozlíšenie je veľmi dôležité z hľadiska metodických postupov využívaných pre popis a analýzu časových radov

Rôzne ČR môžeme porovnávať z hľadiska- vecného (porovnateľnosť toto istého typu dát s odstupom času),- priestorového (územného),- časového (problém kalendára, dĺžky sezóny),- cenového (pri aktuálnych, bežných cenách, resp. pri fixovaných – stálych cenách

k určitému dátumu).

9.1 Modelovanie časových radov

Základný jednorozmerný model časového radu, ak predpokladáme, že jediným faktorom dynamiky časového radu je čas, je možné napísať v tvare , kde je hodnota modelovaného ukazovateľa v čase t, , je hodnota náhodnej zložky v čase t. K jeho modelovaniu je možné pristupovať pomocou: klasického (formálneho) modelu, Box-Jenkinsovej metodológie alebo spektrálnej analýzy.

Popri jednorozmerných modeloch časových radov sú používané aj viacrozmerné modely, u ktorých sa predpokladá, že vývoj sledovaného ukazovateľa neovplyvňuje len časový faktor, ale aj iné ukazovatele. Takýto viacrozmerný model, ktorý zahŕňa aj ukazovatele je možné zapísať v tvare .

Box-Jenkinsova metodológia považuje za základ konštrukcie modelu časového radu náhodnú zložku, ktorá môže byť tvorená závislými náhodnými veličinami. Pre jej uplatnenie je potrebný časový rad, ktorý má aspoň 50 hodnôt. Poznáme model kĺzavých súčtov – MA, autoregresné modely – AR, zmiešané modely – ARMA, atď.

Modelovanie časového radu pomocou spektrálnej analýzy využíva Fourierove rady, teda ČR popisuje ako „zmes“ sínusoviek a kosínusoviek s rozličnými amplitúdami a frekvenciami. Takýto postup sa preto používa tam, kde potrebujeme modelovať periodické chovanie časového radu.

Klasický model časového radu vychádza z dekompozície časového radu na štyri zložky (nie v každom časovom rade je možné nájsť všetky štyri zložky): Tt - trendová zložka (trend), charakterizujúca dlhodobú tendenciu, zmeny v priemernom

správaní ČR, Ct - cyklická zložka (cyclical), vyjadrujúca fluktuácie okolo trendu, s rôznou dĺžkou

cyklu, s rôznou rýchlosťou zmien vo fázach rastu a poklesu hodnôt ČR, St - sezónna zložka (seasonal), periodická zložka, pravidelne sa v priebehu určitého

obdobia (cykly) opakujúca,

70

Page 69: Štatistické metódy

ŠTATISTICKÉ METÓDY

It - nepravidelná (irregular), náhodná (random), zvyšková (residual), chybová (error) zložka, ktorá zostáva v časovom rade aj po odstránení T,C, S zložiek, tvoria ju náhodné vplyvy, nemá rozpoznateľný charakter,

pričom tvar modelu môže byť: aditívny: (v praxi sa častejšie používa.), a

multiplikatívny: kde Yt - sú očakávané, teoretické hodnoty (závisle premennej Y) ČR.

Typický priebeh aditívneho ČR a jeho dekompozíciu zobrazuje obr. 9.1.

Obr.9.1 Aditívny rozklad ČR

FLOREKOVÁ, BENKOVÁ 71

Tt

t1970 1980

t

Ct

t

St

t

Tt+Ct

t

Tt+Ct+St

t

It

t

Tt+Ct+St+It

Page 70: Štatistické metódy

9. Časové rady

Cieľom dekompozície ČR pre tie najjednoduchšie úlohy je odhadnúť základný trend ČR a predpovedať dáta ČR aspoň o jeden časový krok do budúcnosti. Tieto základné úlohy vyžadujú primeraný rozsah dát. Pri veľmi dlhých ČR vzniká riziko, že dáta podstatne menia charakter. Pri veľmi krátkych ČR existuje riziko, že dáta nestačia vystihnúť charakteristický priebeh. Pri spracovaní ČR sa preto robí podľa potreby kompromis – zhusťovanie, zrieďovanie časových intervalov, voľba ekvidištančných, neekvidištančných krokov.

9.2 Analýza trendovej zložky

K najdôležitejším úlohám analýzy ČR patrí popis tendencie ich vývoja, teda ich trendovej zložky. Trendovú zložku ČR je možné získať viacerými spôsobmi. Môžeme ich rozdeliť na:

jednoduché grafické metódy (subjektívne): metóda vybalancovania výkyvov, metóda spriemerňovania cyklov, metóda súčtu plôch trojuholníkov,

analytické vyjadrenie trendu pomocou trendových funkcií, kedy sa celý časový rad vyrovnáva naraz, jednou funkciou,

adaptívne prístupy, kedy sa vyrovnávanie uskutočňuje postupne v kratších obdobiach: exponenciálne vyrovnávanie, metóda kĺzavých priemerov.

9.2.1 Grafické metódy odhadu trendu ČR

Jednoduché metódy grafického odhadu priebehu trendu Trt časového radu slúžia ako podklad pre výpočet trendu objektívnymi metódami. Pomocou týchto grafických metód sa zabezpečuje tzv. očistenie ČR od fluktuácií okolo trendu.

Metóda vybalansovania horných a dolných výkyvov ČR spočíva v „spriemerňovaní“ dvoch a dvoch hodnôt ČR a vykreslení čiary odhadu trendu (obr.9.2).

Obr.9.2 Grafické metódy určenia trendu ČR

72

Vybalancovanie výkyvov Spriemerňovanie cyklov

Page 71: Štatistické metódy

ŠTATISTICKÉ METÓDY

Metóda spriemerňovania cyklov v ČR spočíva v nájdení cyklov v ČR a spojení priemerných stredných hodnôt nábehu a dobehu každého cyklu (obr.9.2)

Metóda súčtu plôch trojuholníkov „nad“ a „pod“ odhadom trendu spočíva v hľadaní takého polynómu trendu, kde by .

9.2.2 Analytické vyjadrenie trendu pomocou trendových funkcií

Z existujúcich trendových funkcií v praxi medzi najpoužívanejšie, a to tak pre analýzu ako i prognózu časových radov, patria: lineárny, parabolický, exponenciálny, modifikovaný exponenciálny, logistický trend a Gompertzova krivka. Prvé tri patria medzi funkcie jednoduché, nemajú asymptotu a ich rast je neobmedzený. Ďalšie tri majú asymptotu a preto sú veľmi vhodné k modelovaniu javov vychádzajúcich z obmedzených zdrojov, u ktorých existuje určitá hranica nasýtenia.

Najpoužívanejšou metódou odhadu parametrov trendových funkcií je metóda najmenších štvorcov, ktorá je použiteľná v prípade, že vybraná trendová funkcia je lineárna v parametroch. Jej výhodou je jednoduchosť a minimalizácia rozptylu reziduálnej zložky. Z uvedených funkcií je vhodná priamo pre lineárne a parabolické funkcie. V prípade exponenciálnej funkcie je potrebná najprv funkciu transformovať tak, aby bola lineárna z hľadiska parametrov. Pre odhad parametrov ďalších funkcií – modifikovaný exponenciálny trend, Gompertzova krivka, Logistická krivka, sa využívajú metóda apriórnej informácie, metóda vybraných bodov, metóda čiastočných súčtov, metóda vnútornej regresie, či metóda postupného zlepšovania riešenia (Seger, Hidls, 1993).

Pre konštantný trend platí, t = 1, 2, …, n,

Predpoveď YT= a0

Pre lineárny trend platí:, t = 1, 2, …, n,

a0, a1 – výpočet ako pri LRMPredpoveď YT = a0+a1T

Pre kvadratický trend platí:(ak yt+2 – 2yt+1 + yt ÷ konšt.)

, t = 1, 2, …, na0, a1 – výpočet ako pri polynóme 2.stupňaPredpoveď

FLOREKOVÁ, BENKOVÁ 73

a0

y

t

y

t

y

t

Page 72: Štatistické metódy

9. Časové rady

Pre exponenciálny trend platí:

(ak )

, t = 1, 2, …, n, a1 > 0a0, a1, a2 – výpočet ako pri exponen. modeli Predpoveď

Pre logistický trend (S-krivka, rastová krivka)platí:

, t = 1, 2, …, n, a1 > 0, a2 > 0,

Predpoveď

Pre modifikovaný exponenciálny trend platí:

, t = 1, 2, …, n, a2 > 0,pri odhade a0 z grafuPredpoveď

Pre tzv. Gompertzovu krivku platí:, t = 1, 2, …, n, a2 > 0,

inflexný bod pre

Predpoveď

Pre tzv. spline trend,ak sa mení charakter ČR, rozdelí sa tento na úseky. Každý úsek sa nahradí trendovou krivkou, pospájajú sa krivky tak, aby sa ich prepojenia prekrývali.

74

y

t

y

t

ya0

t

IB

ya0

t

ya0

t

IB

y

t

Page 73: Štatistické metódy

ŠTATISTICKÉ METÓDY

Vhodný typ trendovej funkcie je možné vyberať pomocou interpolačných kritérií, t.j. základe analýzy chovania časového radu v minulosti, a to:

Vecnej analýzy skúmaného ekonomického javu. Často je možné posúdiť, či sa jedná o funkciu rastúcu, alebo klesajúcu, či prichádza do úvahy existencia inflexného bodu, alebo či ide o funkciu nekonečne rastúcu, nekonečne klesajúcu, prípadne s rastom len ku konečnej limite a pod. To umožňuje orientácia na určitú skupinu trendových čiar.

Analýzy grafu časového radu. Nebezpečie vizuálneho výberu je v jeho subjektivite, tvar grafu je tiež do veľkej miery závislý na použitom merítku.

Výpočtu hodnôt „mier úspešnosti“ trendovej funkcie:

minimálny súčet štvorcov rezíduí ,

kde yt – skutočné hodnoty, Trt – vypočítané hodnoty,

minimálna stredná kvadratická chyba odhadu ,

minimálna priemerná absolútna chyba odhadu ,

minimálna priemerná percentuálna absolútna chyba odhadu

[%],

minimálna priemerná chyba odhadu ,

minimálna priemerná percentuálna chyba odhadu [%].

Fisherovej charakteristiky adekvátnosti.

Analýzy diferencií časového radu (Hindls et al. 1997), viď tab. 2.

Tab.9.1 Výber vhodného typu trendu pomocou charakteristík ČR

Charakteristika ČR

Priebeh charakteristiky

v časeVhodný typ trendu

1.diferencie – 1t

2.diferencie –

približne konštantné

rovné nuleLineárny

1.diferencie – 1t

2.diferencie –

3.diferencie –

lineárny trend

približne konštantné

rovné nule

Parabolický

tempá rastu približne konštantné Exponenciálny

lineárne klesá Modifik. exponenciálny

lineárne klesá Gompetzova krivka

lineárne klesá Logistický

FLOREKOVÁ, BENKOVÁ 75

Page 74: Štatistické metódy

9. Časové rady

diferencia 1.rádu: ,

diferencia 2.rádu: , atď.,

tempo rastu (koeficient rastu) .

Metódy modelovania ČR sú založené na princípe ceteris paribus, teda na princípe: budúcnosť vyplýva z minulosti (pri relatívne stabilnom prostredí), preto môžu slúžiť aj pre predpovedanie, predikciu, prognózu, teda extrapoláciu dát. Predpoveď (forecast) je z historických dát ČR vypočítaný (objektívny) údaj (bodový, intervalový) pre nasledujúci, budúci časový bod (úsek), spravidla z krátkeho časového radu. Predikcia je z historických dát primerane dlhého ČR odhadnutý (subjektívny), napr. grafický údaj pre nasledujúci časový krok. Prognóza je z dlhodobých historických dát ČR odhadnutý údaj pre vzdialený časový horizont. Dobrá extrapolácia (predpoveď, predikcia, prognóza) ČR, dobrý odhad dát pre budúcnosť, je silne závislá na type ČR. Ak je teda zmyslom popisu trendu v časovom rade konštrukcia extrapolačných prognóz budúceho vývoja, je vhodnejšie využívať extrapolačné kritériá. Najčastejšie je spôsob použitia extrapolačných kritérií založený na simulácii. Simulácia spočíva v tom, že z analyzovaného ČR oddelíme niekoľko posledných hodnôt, z ostatných vypočítame trend a jeho vhodnosť posudzujeme podľa toho ako dobre dokáže extrapolovať nepoužitú časť radu. Nie všetky modely trendu, ktoré dobre popisujú minulosť, musia byť úspešné aj pri tvorbe prognóz. Podľa Hindlsa et al. (1997) je pre extrapoláciu vhodných iba 50-60 % modelov. Mierami prognostickej kvality modelu sú najčastejšie koeficienty nesúladu. Jedná sa o nesúlad medzi simulovanou predpoveďou a známou skutočnosťou.

Theilov koeficient nesúladu , kde ,

kde N je dĺžka časového radu použitá pre odhad modelu,D je skrátenie časového radu, teda ,

je extrapolácia na obdobie j dopredu modelom odhadnutým na základe prvých N hodnôt ČR,

môžeme interpretovať ako relatívnu chybu extrapolácie, udáva sa v percentách.Ak sa hodnota

- pohybuje medzi 3-5 % , považujeme chybu predpovede za malú a posudzovaný model môže byť (aj keď nemusí) dobrým nástrojom pre tvorbu predpovedí,

- pohybuje medzi 5-10 % , použitie modelu pre extrapoláciu nie je vylúčené,- pohybuje nad 10 % , je model pre extrapoláciu nepoužiteľný.

9.2.3 Adaptívne prístupy k vyjadreniu trendovej zložky ČR

predpokladajú, že sa v priebehu sledovanej doby parametre modelu menia, nepredpokladá sa ani stabilita analytického tvaru modelu ani stabilita štrukturálnych parametrov v čase. Všeobecne sa nepožaduje ani spojitá trendová funkcia. Dostupné sú dve koncepcie a to metóda kĺzavých priemerov a exponenciálne vyrovnávanie.

76

Page 75: Štatistické metódy

ŠTATISTICKÉ METÓDY

Exponenciálne vyrovnávanie

Táto metóda je založená na adaptívnom prístupe k trendu ČR (Method of Exponential Smoothing Time Series). Predpokladá sa exponenciálne znehodnocovanie historických dát, exponenciálny pokles váh starých dát v určitom časovom intervale.

Predpokladajme, že v časovom okamihu n máme k dispozícii rad empirických hodnôt z predošlých časových krokov. Čím je vyššia hodnota k, tým je

pozorovanie staršie. Vyjdeme z aditívneho modelu časového radu .

Trendovú zložku môžeme popísať funkciou . Odhady parametrov uvedenej trendovej funkcie je možné získať pomocou metódy najmenších

štvorcov, teda zo vzťahu . Pri takomto zápise má každá „historická“

hodnota rovnakú váhu. Keďže sa dá očakávať, že hodnoty „čerstvejšie“, t.j. bližšie k časovému okamihu n, budú viac ovplyvňovať budúci vývoj analyzovaného časového radu ako hodnoty „staršie“ , t.j. vzdialenejšie od časového okamihu n, je vhodné zaviesť váhy, ktoré budú nepriamo úmerné „veku“ pozorovania. Predchádzajúcu podmienku zapíšeme

v novom tvare ,

kde sú váhy, ktoré sú exponenciálnou funkciou veku pozorovania, teda

z toho . je tzv. vyrovnávacia konštanta. Ak

napríklad pre postupnosť k=0,1,... získame postupnosť nasledovných váh

k 0 1 2 3 4 5 6 ...1 0,7 0,49 0,343 0,2401 0,16807 0,11649 ...

Pretože váhy sú exponenciálnou funkciou veku pozorovania, vyrovnávanie časových radov podľa uvedeného princípu sa nazýva exponenciálne vyrovnávanie. Ak je možné trend považovať za:

približne konštantný, jedná sa o jednoduché exponenciálne vyrovnávanie,platí, že , potom vzťah pre vyrovnanú (modelovú) hodnotu

je možné zapísať v tvare , približne lineárny, jedná sa o dvojité exponenciálne vyrovnávanie, približne kvadratický, jedná sa o trojité exponenciálne vyrovnávanie.

Uvedené exponenciálne vyrovnávanie s jednou vyrovnávacou konštantou sa nazýva Brownovo exponenciálne vyrovnávanie. Ďalej sa používa Holtove exponenciálne vyrovnávanie, ktoré je dvojparametrické , a trojparametrické Wintersove exponenciálne vyrovnávanie, ktoré popisuje aj sezónnu zložku časového radu.

Metóda kĺzavých priemerov

predstavujú iný adaptívny prístup k modelovaniu trendovej zložky časového radu. Ich podstata spočíva v tom, že postupnosť pôvodných empirických pozorovaní sa nahradí radom kĺzavých priemerov. Názov kĺzavý priemer je odvodený od toho, že pri výpočte priemerov sa

FLOREKOVÁ, BENKOVÁ 77

Page 76: Štatistické metódy

9. Časové rady

postupuje vždy o jedno pozorovanie dopredu, pričom prvé pozorovanie zo skupiny pre výpočet posledného priemeru sa vypúšťa, teda kĺže sa po časovom rade. Veľmi dôležitou otázkou je stanovenie počtu pozorovaní na výpočet priemerov. V praxi sa tento počet stanovuje na základe vecnej analýzy skúmaného ekonomického javu. Najčastejšie sa používa 5, 7 alebo 9 hodnôt (niekedy aj viac), pretože pri nepárnom počte hodnôt je vypočítaný kĺzavý priemer možné priradiť priamo strednému členu uvažovaných hodnôt.

Nevýhodou použitia kĺzavých priemerov je strata okrajových hodnôt časového radu. Pri kĺzavých priemeroch z 5 hodnôt sa jedná o stratu 4 hodnôt (2 zo začiatku a 2 z konca), ak počítame kĺzavé priemery z 9 hodnôt stratíme až 8 hodnôt (4 zo začiatku a 4 z konca).

Ak predpokladáme, že pre kĺzavú časť vyrovnávaného časového radu je vhodné použiť lineárny trend, počítame jednoduché kĺzavé priemery (simple moving average)

, ak je vhodné použiť parabolický trend, počítame

vážené kĺzavé priemery v tvare

(weighted moving average). Používajú sa nasledovné systémy váh Wi:

pre päťčlenný vážený kĺzavý priemer,

pre sedemčlenný vážený kĺzavý priemer,

pre deväťčlenný vážený kĺzavý priemer.

Pri výpočte kĺzavých priemerov zostáva subjektívnym problémom ich rád. Najčastejšie sa volia priemery čo najnižšieho rádu.

V tab. 9.2 sú uvedené predpovedacie kĺzavé priemery (ak sa vypočítava predpokladaná hodnota o jeden časový krok dopredu).

Tab.9.2 Váhy predpovedacích kĺzavých priemerov

Počethodnôt

ČRPredpovedacie váhy

1.rádu 2.rádu

3

5

7

9

11

78

Page 77: Štatistické metódy

ŠTATISTICKÉ METÓDY

9.3 Analýza sezónnej zložky

Pri analýze časových radov (hlavne ekonomických) s periodicitou menšou ako jeden rok (najčastejšie mesačnou) sa stretávame s existenciou sezónnej zložky, ktorá je vyvolaná existenciou priamych i nepriamych príčin opakujúcich sa pravidelne každý rok v dôsledku kolobehu Zeme okolo Slnka. Jedná sa vplyvy klimatické, alebo sprostredkované. Dôsledkom pôsobenia sezónnych vplyvov sú tzv. sezónne výkyvy, t.j. pravidelné výkyvy ČR hore a dole voči určitému „nesezónnemu“ normálnemu vývoju.

Prvou úlohou je zistiť/identifikovať, či pozorované výkyvy sú štatisticky významné. Ak sa preukáže prítomnosť sezónnej zložky v ČR, je potrebné sezónne výkyvy kvantifikovať – teda vypočítať ich veľkosť. Pretože periodické kolísanie do istej miery zakrýva dynamiku ekonomických javov, na záver sa robí tzv. sezónne očistenie časového radu, ktorého úlohou je sezónnu zložku odstrániť z analyzovaného radu.

9.3.1 Identifikácia sezónnej zložky

K identifikácii sezónnej (ale aj cyklickej zložky) v ČR je možné použiť rôzne techniky a metódy, ktoré je možné rozdeliť na dve skupiny.

Do prvej skupiny sa zaradzujú jednoduché metódy, ktoré sa využívajú vtedy, ak je potrebné získať predbežné informácie o chovaní procesu a orientačné charakteristiky. Jedná sa o tzv. metódy vizuálnych odhadov a to grafy uvažovaných procesov, modifikácie kĺzavých priemerov, integrálne krivky a pod.

Do druhej skupiny patria tzv. objektívne metódy analýzy časových radov, napr. autokorelačná funkcia, koherenčné charakteristiky a hlavne analýza periodogramu a spektrálna analýza časových radov. Tieto metódy slúžia k hlbšiemu skúmaniu periodicity. Často sú numericky náročné a vyžadujú použitie výkonnej výpočtovej techniky.

Model skrytých periód

V podkapitole Modelovanie časových radov, je uvedený ako tretí z možných prístupov k modelovaniu ČR, modelovanie pomocou spektrálnej analýzy. Hodnoty ČR v tomto prípade popisujeme „goniometrickým“ spôsobom pomocou sínusoviek a kosínusoviek s rôznymi amplitúdami a frekvenciami.

Proces si môžeme predstaviť ako výsledok vzájomného pôsobenia H harmonických členov, tzv. harmoník. Z hľadiska vlnovej teórie sa jedná o interferenciu „vlnení“ (zmes vĺn) s rôznymi frekvenciami , (resp. dĺžkami periódy ) a s rôznymi amplitúdami. Jedná sa o proces vytvorený veľkým počtom vzájomne sa prelínajúcich goniometrických kriviek („vĺn“). Niektoré sa vo svojich účinkoch navzájom doplňujú, iné eliminujú, ale výsledkom ich pôsobenia je práve uvažovaný proces . Matematickým základom takejto koncepcie je tzv. trigonometrický polynóm

kde pre párne n, resp.

pre nepárne n, sú zatiaľ neznáme koeficienty.

FLOREKOVÁ, BENKOVÁ 79

Page 78: Štatistické metódy

9. Časové rady

Je možné predpokladať, že nie všetky periódy (frekvencie) sú významné. Často je významná len jedna periódy, všeobecne však predpokladajme, že je významných prvých m týchto periód. Ďalej predpokladajme, že trend v ČR je konštantný. (Ak nie je trend v časovom rade konštantný, potom je nutné ČR najprv upraviť.) Tzv. model skrytých periód je potom

možné zapísať v tvare . Najlepší odhad jeho

parametrov je možné vypočítať pomocou metódy najmenších štvorcov: ,

, , pre

Aby bolo možné dokázať existenciu periodickej zložky v časovom rade (pomocou periodogramu, viď ďalej) je potrebné určiť rozptyl modelom odhadnutých hodnôt . Pomocou tohto teoretického rozptylu je možné aj určenie miery, akou vytvorený model vysvetľuje chovanie empirického časového radu. Teoretický rozptyl sa počíta podľa vzťahu

. Z korelačnej analýzy je známy vzťah pre bilanciu rozptylov

, kde je celkový rozptyl empirických hodnôt časového radu

vypočítaný podľa vzťahu . Podielom rozptylov teoretických

a empirických hodnôt vypočítame index determinácie , ktorý sa vyjadruje

v percentách a udáva, akú časť chovania empirického časového radu vysvetľuje model skrytých periód.

Periodogram je prehľad/súpis všetkých hodnôt teoretických rozptylov pre všetky

frekvencie/periódy , kde . Potrebné je určiť, ktoré zo zložiek

periodogramu, t.j. ktoré periódy je možné pre ich podiel na výslednom súčte považovať za významný príspevok k vysvetleniu celkovej veľkosti teoretického rozptylu. Periódy, u ktorých dokážeme významnosť, sú „nositeľmi“ periodicity analyzovaného časového radu. Mnohí autori navrhli kritéria významnosti pre hľadanie lokálnych extrémov periodogramu. Jednou z možností je Fisherov test lokálnych extrémov periodogramu.

Fisherov test lokálnych extrémov periodogramu

H0: sledovaný časový rad neobsahuje významnú periodicitu

TK:

kde vj sú vypočítané hodnoty periodogramu zoradené vzostupne podľa veľkosti, KH: - je kritická hodnota určená podľa zvolenej hladiny významnosti a H.

Interpretácia testu: ak s nulovou hypotézou súhlasíme, ČR neobsahuje významnú periodicitu,

periodogram nemá lokálny extrém,

80

Page 79: Štatistické metódy

ŠTATISTICKÉ METÓDY

ak nulovú hypotézu zamietame, ČR obsahuje významnú periodicitu, periodogram má lokálny extrém, v testovaní pokračujeme ďalej výpočtom nového testovacieho kritériá pre druhú najväčšiu hodnotu periodogramu v2:

TK:

KH: - je kritická hodnota určená z tabuliek pre tento test podľa zvolenej hladiny významnosti a H-1.

Intepretácia testu: ak s nulovou hypotézou súhlasíme, časový rad neobsahuje ďalšiu

významnú periodicitu, periodogram nemá ďalší lokálny extrém, ak nulovú hypotézu zamietame, časový rad obsahuje ďalšiu

významnú periodicitu, periodogram má ďalší lokálny extrém, v testovaní pokračujeme ďalej výpočtom nového testovacieho kritériá pre tretiu najväčšiu hodnotu periodogramu, atď.

9.3.2 Kvantifikácia sezónnej zložky

Je možná pomocou modelov s konštantnou sezónnosťou, proporcionálnou sezónosťou resp. zmiešanou sezónnosťou.

V tejto podkapitole bude použité nové indexovanie údajov časového radu. Namiesto jedného indexu t, teda , budeme používať pre hodnoty časového radu dva indexy: pre roky a pre dielčie obdobia (napr. mesiace, štvrťroky), takže budeme pracovať s časovým radom hodnôt . Model časového radu potom zapíšeme v tvare . Pre tento typ modelu uvažujeme, že v dôsledku ročného kolobehu sezónnych vplyvov sa v tom istom dielčom období j sezónne výkyvy v jednotlivých rokoch nelíšia, teda pre roky

, kde pre sú sezónne parametre, v tomto prípade nazývané sezónne rozdiely, vyjadrujú/kvantifikujú sezónnu zložku v takých jednotkách, v akých sú hodnoty časového radu. Záporné hodnoty sezónneho parametra signalizujú sezónny pokles, kladné sezónny nárast.Ďalej uvažujeme, že sa sezónne vplyvy počas roka vykompenzujú, teda pre sezónne

parametre platí, že ich suma je rovná nule pre všetky roky .

Model s konštantnou sezónnosťou a schodovitým trendom vychádza z predpok-ladu, že trendová zložky má vo všetkých dielčích obdobiach jedného roku hodnotu , pričom postupnosť týchto hodnôt trendu v sledovaných rokoch predstavuje tzv. schodovitý trend. Keďže predpokladáme konštantnú sezónnosť dostávame model v tvare

Najlepšie odhady neznámych parametrov uvedeného modelu je možné získať metódou najmenších štvorcov. Odhad parametrov , ktoré sa nazývajú ročné priemery vypočítame

ako .Odhad sezónnych rozdielov vypočítame podľa vzťahu

FLOREKOVÁ, BENKOVÁ 81

Page 80: Štatistické metódy

9. Časové rady

, kde hodnoty sa nazývajú dielčie priemery (mesačné,

štvrťročné, atď.) a je celkový priemer hodnôt analyzovaného ČR.

Predpoklad o konštantnej sezónnosti, t.j. že sezónne výkyvy sa pravidelne v každom roku opakujú s rovnakou výškou, nie je použiteľný pre všetky ČR. Niekedy je potrebné uvažovať model, ktorý takéto zjednodušenie nepoužíva a to je model s proporcionálnou sezónnosťou.

Model s proporcionálnou sezónnosťou predpokladá, že sezónne výkyvy sú v jednot-livých dielčích obdobiach priamo úmerné dosiahnutej úrovni trendovej zložky, teda môžeme napísať pre , kde pre sú sezónne parametre. Pre model ČR potom platí . Veličina

sa nazýva sezónny index. Z jej definície vyplýva, že sa jedná o bezrozmerné

čísla. Vyjadruje sa v percentách. Ak je hodnota jedná sa o sezónny nárast, aj je hodnota jedná sa o sezónny pokles. Ďalej uvažujeme, podobne ako u modelov s konštantnou sezónnosťou, že sa sezónne vplyvy počas roka vykompenzujú, teda pre sezónne

indexy plat .

Model s proporcionálnou sezónnosťou a schodovitým trendom

Ak pre trendovú zložku vyjdeme z predpokladu, že pre jedného roku , pričom postupnosť týchto hodnôt trendu v sledovaných rokoch predstavuje tzv. schodovitý trend, je možné pomocou metódy najmenších štvorcov vypočítať najlepší odhad r parametrov modelu

v tvare . Dôležité je skontrolovať, či sa sezónne vplyvy počas roka

vykompenzujú, teda či pre priemerné sezónne parametre platí, že ich suma je rovná r. Ak tento predpoklad nie je splnený, je potrebné ich hodnoty upraviť pomocou tzv. štandardizácie,

t.j. vynásobiť každý z priemerných sezónnych indexov podielom . Takto upravené

hodnoty empirických sezónnych indexov sa nazývajú sezónne faktory.

9.3.3 Očistenie časového radu od sezónnej zložky

Metód používaných na očistenie časového radu od sezónnej zložky je veľa, od jednoduchých až po zložité. Zvyčajne vychádzajú z kombinácie rôznych typov kĺzavých priemerov, ktoré sa zvyknú nazývať filtre. Ak sa u časového radu predpokladá lineárny ročný

82

Page 81: Štatistické metódy

ŠTATISTICKÉ METÓDY

trend je možné použiť sedemčlenný vážený kĺzavý priemer s váhami ,

pre parabolický trend sú vhodnejšie váhy v tvare .

Nevýhodou uvedených filtrov je, že krajné hodnoty radu nie sú očistené a teda dochádza ku skracovaniu časového radu.

V prípade použitia tzv. Hendersonových filtrov tento problém nevzniká, pretože používajú iné váhy pre očistenie krajných hodnôt časového radu.

Zo zložitejších metód je potrebné spomenúť metódu Census X-II, ktorá využíva kĺzavé priemery rôznych dĺžok a na očisťovaný časový rad ich aplikuje postupne za sebou. Je schopná nielen odstrániť extrémne hodnoty časového radu, ale aj vyrovnávať nepravidelnosti spôsobené rôznou dĺžkou mesiacov v roku – kalendárne variácie. Vylepšením je nová metóda X-II ARIMA, v ktorej sa využíva popis časového radu pomocou ARIMA modelu (Box-Jenkinsovej metodológia).

Iný prístup k očisťovaniu časového radu predstavuje využívanie regresných metód založených na teórii lineárneho regresného modelu. Ak sa charakter sezónnej zložky v čase mení, sú veľmi vhodné adaptívne metódy, napr. Wintersovo exponenciálne vyrovnávanie.

Veľmi jednoduchým spôsobom očisťovania časového radu je použitie sezónnych parametrov. Očistený časový rad sa vypočíta odčítaním príslušných sezónnych rozdielov od hodnôt pôvodného časového radu, alebo podelením hodnôt pôvodného časového radu príslušným sezónnym indexom.

9.4 Analýza cyklickej zložky

Dôvod vzniku cyklickej zložky v ČR je nutné hľadať v pôsobení ekonomických mechanizmov a chovaní hospodárskych subjektov tvoriacich ekonomické prostredie spoločnosti. Termínom hospodársky cyklus (business cycle) označujeme všeobecne určitý typ kolísania súhrnnej ekonomickej aktivity. Toto „vlnenie veľkej amplitúdy“ má štyri základné fázy vývoja:

1. expanziu, t.j. fázu ekonomického rozmachu, v ktorej postupne narastajú rozpory vedúce k druhej fáze,

2. krízu, ktorá je odrazom expanzie,3. depresiu, ktorá rieši dosahy krízy a pokračuje do okamihu, kedy rastové faktory zvrátia

vývoj,4. oživenie, t.j. fázu, ktorá uzatvára jeden cyklus a zároveň utvára predpoklady pre nový

cyklus.Aj keď žiadne dva hospodárske cykly nie sú celkom zhodné, môžu mať veľa

spoločných čŕt. Problematikou hospodárskych cyklov sa preto zaoberajú nielen ekonómovia, ale aj politici. Predvídanie priebehu hospodárskych cyklov je v záujme i vládnych aktivít, pokiaľ chcú mať vo svojom programe realizáciu opatrení na utlmenie hospodárskych výkyvov a intervenčnú politiku v prospech stability prostredia na podnikanie.

Analýza ekonomického pohybu viedla postupne k definícii piatich základných typov cyklov z hľadiska dĺžky ich trvania (Vincúr 2000):

1. Storočné cykly, tzv. sekulárne tendencie, t.j. cykly zahŕňajúce rádovo jedno storočie.2. Dlhodobé cykly, tzv., Kondratevove cykly, zahŕňajúce základné fázy rastu a poklesu

s periódou približne 50 rokov. 3. Kuznetsove hypercykly – dlhohodobé cykly, ktorých trvanie v dĺžke asi 20 rokov

vychádza z vývoja cien a výroby.

FLOREKOVÁ, BENKOVÁ 83

Page 82: Štatistické metódy

9. Časové rady

4. Juglarove desaťročné cykly – predstavujú obdobie 6-10 rokov. 5. Kitchinov malý cyklus (hypocyklus) zahŕňa obdobie približne 40 mesiacov

oddeľujúcej špecifickej krízy.

Kvantitatívne prístupy používané na analýzu a predikciu môžu byť dvojaké. Prvé vychádzajú z poznatkov ekonomickej teórie o príčinách a mechanizme hospodárskych cyklov a usilujú sa o vytvorenie komplexného ekonometrického modelu makroekonomického vývoja. Pomocou odhadu vstupných premenných – na základe štatistických odhadov či špekulatívnych predpokladov – sa model použije na odvodzovanie budúceho správania sa makroekonomických ukazovateľov reprezentujúcich vývoj cyklu. Druhý prístup, ktorý je charakteristický pre konjunkturálnu analýzu je viac pragmatický a menej vedecký. Neusiluje sa o dlhodobú prognózu, ale o o krátkodobý ekonomický výhľad potrebný na rozhodnutia o úveroch, zákazkách, investíciách, zamestnanosti. Podstatou je využitie starostlivo vybraných faktorov spojených s vývojom ekonomickej aktivity v najbližších mesiacoch. Technicky ide o využitie metód štatistickej analýzy časových radov, indikátorov budúcich zmien s cieľom predpovedať, k akým zmenám a kedy dôjde. V pojmoch hospodárskeho cyklu ide o určenie bodu, v ktorom sa nachádza ekonomický vývoj práve dnes a ocenenie fázy najbližšieho obdobia ako recesie, konjunktúry, horného alebo dolného bodu obratu.

Pre zistenie, či časový rad obsahuje cyklickú zložku, alebo nie, je možné použiť tie isté metódy, ktoré sa používajú pre identifikáciu sezónnej zložky. Praktické hospodárske rozbory však vyžadujú rozpoznať nielen prítomnosť cyklu, ale tiež nájsť, v ktorých časových obdobiach sa vyskytujú sedlá (recesia) a vrcholy (expanzia, konjunktúra) analyzovaného cyklu (Hindls 1999). Jednou z vhodných metód je metóda zvyšku.

Prvým krokom pred použitím metódy zvyšku je nájdenie vhodného trendu analyzovaného ČR a jeho sezónne očistenie. Potom sa určia percentuálne odchýlky sezónne

očistených údajov od trendu podľa vzťahu: . Vyhodnotenie odchýliek

je najlepšie graficky, v plošnom grafe. Vizuálnym rozborom je možné zistiť v akých cykloch sa opakujú sedlá a vrcholy. Pre ich stanovenie je mimoriadne dôležité jednak akou metódou bol očistený empirický časový rad, jednak typ zvoleného trendu. Zmena trendu môže pozíciu sediel a vrcholov meniť.

9.5 Analýza náhodnej zložky

Náhodná zložka v ČR vzniká ako výsledok pôsobenia bližšie nešpecifikovaného súboru drobných, vzájomne nezávislých náhodných vplyvov. Z ČR, ktorý neobsahuje sezónnu ani cyklickú zložku ju vyjadríme ako . O tejto zložke ČR sa môžu prijímať tri skupiny predpokladov:

1. časový rad tvorí tzv. biely šum, ak platí:a. stredné hodnoty náhodnej zložky sú nulové, t.j. ,b. náhodné zložky majú konštantný rozptyl (homoskedasticita), t.j.

,c. náhodné zložky sú navzájom lineárne nezávislé, t.j.

.

2. druhá skupina predpokladov, na rozdiel od prvej skupiny, v bode b. uvažuje heteroskedasticitu náhodných zložiek:

84

Page 83: Štatistické metódy

ŠTATISTICKÉ METÓDY

a. stredné hodnoty náhodnej zložky sú nulové, t.j. ,

b. náhodné zložky majú konštantný rozptyl (homoskedasticita),t.j. ,

, sú váhy pozorovaní, ktoré spĺňajú požiadavku ,

c. náhodné zložky sú navzájom lineárne nezávislé, t.j. .

3. predpoklad o autokorelácii náhodných zložiek, teda platí kde je konštantný autokorelačný koeficient susedných náhodných zložiek, a

je postupnosť náhodných zložiek majúcich charakter bieleho šumu.Náhodná zložky v čase t sa teda tvorená dvomi zložkami – zložke závislej na predchádzajúcej hodnote a náhodnej zložky .

Hodnoty náhodnej zložky pre nie je možné presne vypočítať vzhľadom na to, že teoretické hodnoty časového radu nepočítame presne, len odhadujeme . Preto

rozdiel je len odhadom náhodnej zložky, nazýva sa rezíduum, a označuje sa .Rezíduá sa využívajú v rôznych testoch na overenie predpokladov o náhodnej zložke.

Najčastejšie sa overuje nezávislosť náhodnej zložky a to pomocou Znamienkového testu, Testu bodov obratu, alebo Durbinovho-Watsonovho testu autokorelácie.

Durbinov-Watsonov test autokorelácie

H0:

TK:

KH: Tento test je možné vyhodnocovať približne alebo presne.

Interpretácia testu pri približnom vyhodnotení sa vychádza z nasledujúcej úvahy. Hodnoty testovacieho kritéria d sa môžu pohybovať v intervale <1,4>, teda:

ak sú rezíduá nezávislé hodnota d sa pohybuje okolo čísla 2, ak sú priamo závislé hodnota d sa pohybuje okolo čísla 0, ak sú nepriamo závislé hodnota d sa pohybuje okolo čísla 4.

Pri presnom vyhodnotení sa používajú tabuľky kritických hodnôt. Kritické hodnoty sú dve: a ,kde je hladina významnosti,

n je počet hodnôt časového radu, k je počet štrukturálnych parametrov modelu (napr. pre lineárny trend je počet štrukturálnych parametrov, t.j. počet parametrov s časovou premennou 1).

Interpretácia testu: ak H 0 zamietame, medzi rezíduami je priama závislosť, ak s H 0 súhlasíme, medzi rezíduami nie je závislosť,

FLOREKOVÁ, BENKOVÁ 85

Page 84: Štatistické metódy

9. Časové rady

ak test “mlčí”.

9.6 Korelácia časových radov

Ak súčasne skúmame viac ČR, je potrebné zaoberať sa otázkou, či sa tieto navzájom neovplyvňujú, teda, či nie je možné zmeny chovania jedného časového radu vysvetliť zmenami v druhom časovom rade, prípadne viacerých časových radoch.

Pri skúmaní vzájomného vzťahu (korelácie) ČR budeme vychádzať z predpokladu, že tieto je možné popísať formálnym modelom aditívneho typu obsahujúcim štyri zložky. Otázkou je, ktorá zo zložiek bude pri posudzovaní korelácia rozhodujúca. Trendová, či sezónna zložka môžu vykazovať zhodný priebeh aj bez existencie korelácie časových radov, preto je pre potvrdenie korelácie nutné skúmať vzťah náhodných zložiek.

Predpokladajme, že máme dva časové rady, ktorých hodnoty označíme , pre posúdenie ich korelácie je nevyhnutné vypočítať odhady ich

náhodných zložiek – rezíduá – a pre , kde ,

sú hodnoty trendových zložiek časových radov a . Voľba typu trendových funkcií popisujúcich vývoj posudzovaných ČR zohráva pri zisťovaní ich korelácie kľúčovú úlohu. Pri nesprávnej voľbe trendu získame skreslenú predstavu o skutočnej závislosti medzi časovými radmi. Nevhodná voľba trendu sa môže prejaviť aj v tom, že vypočítané rezíduá nebudú správne vystihovať náhodné zložky časových radov, rezíduá nebudú náhodne usporiadané, ale naopak, bude medzi nimi existovať autokorelácia. Preto vhodným krokom po výpočte parametrov trendových funkcií je overenie ich nezávislosti, napr. Durbinovým-Watsonovým testom. Ak týmto testom potvrdíme autokoreláciu rezíduí, je nutné zmeniť typ trendovej funkcie a test opakovať.

Po správnej voľbe trendových funkcií, výpočte rezíduí je možné overiť, či sú časové rady korelované.

Test korelácie časových radov

H0:

TK:

Hodnoty testovacieho kritéria sa môžu pohybovať v intervale <-1,1>.

Záporné hodnoty svedčia o nepriamej závislosti, kladné o závislosti priamej.

KH: z tabuľky kritických hodnôt koeficienta korelácie:kde je hladina významnosti, , n je počet hodnôt ČR, p je rád polynómu použitého trendu.

Interpretácia testu: ak s H0 súhlasíme, koeficient korelácie je na zvolenej hladine

významnosti nevýznamný, časové rady nie sú korelované,

86

Page 85: Štatistické metódy

ŠTATISTICKÉ METÓDY

ak H0 zamietame, koeficient korelácie je na zvolenej hladine významnosti

významný, časové rady sú korelované.

Pri posudzovaní korelácie časových radov je možné naraziť na niekoľko zvláštnych situácií. Ak oba časové rady majú rovnaký lineárny trend, môžeme zistiť tzv. zdanlivú koreláciu, t.j. silnú koreláciu medzi časovými radmi, ktoré v skutočnosti nie sú vôbec korelované.

Ak sa vplyv jedného ČR na druhý neprejavuje v tom istom časovom období, ale po uplynutí jedného, alebo aj viac období, jedná sa o tzv. oneskorenú koreláciu. Pri skúmaní takejto korelácie je potrebné posunúť druhý časový rad o príslušný (oneskorený) rad o príslušný počet období.

FLOREKOVÁ, BENKOVÁ 87

Page 86: Štatistické metódy

ŠTATISTICKÉ METÓDY

10. Pôsobenie chýb na výsledky meraní a na modely

Proces merania je jediným zdrojom kvantitatívnych informácií o stave a vlastnostiach javu, procesu, ktorý chceme spoznať. Z výsledkov meraní vyplývajú ďalšie úvahy, rozbory, predpovede, projekty pre nasledovnú činnosť. Je zrejmé, že matematická interpretácia výsledkov meraní má vo vedeckej a technickej oblasti mimoriadny význam. Táto však musí byť podložená ich spoľahlivosťou.

Aj keď meranie a hodnotenie každej veličiny má veľa individuálneho, špecifického, má aj určitú spoločnú štruktúru ukazovateľov presnosti výsledkov. Chybový model poukazuje na vznik rôznych typov chýb, ktoré zaťažujú výsledky meraní, na vzťahy medzi ukazovateľmi presnosti rôznych prístrojov a metód merania. Základnými ukazovateľmi presnosti sú apriórne a aposteriórne chyby.

Apriórna chyba (zistenie á priori, teda pred vlastným meraním) sa získava logicko-deduktívnym rozborom, pri ktorom sa zohľadňujú známe, resp. predpokladané vplyvy všetkých činiteľov zúčastnených na meraní, t.j. vplyvy ľudského faktora – pozorovateľa, prístrojov, prostredia, objektu, spôsobu merania (obr. 13.1). Znamená to teda, že správna voľba prístrojov, ich nastavenie, technológia a metodika merania má pre spoznanie spoľahlivej hodnoty získanej meraním veľký význam.

Aposteriórna chyba (zistená á posteriori, teda po meraní) sa získava spracovaním empirických hodnôt, t.j. z výsledkov, získaných realizáciou laboratórnych alebo prevádzkových meraní, (obr. 13.2, 13.3). Táto chyba sa udáva ako jediný výsledný údaj o celkovej spoľahlivosti meranej veličiny. Nezohľadňuje však podiel jednotlivých rušivých vplyvov.

Je dôležité, aby apriórna hodnota chyby bola odvodená správnym teoretickým postupom a aby aposteriórna hodnota chyby bola získaná v podmienkach, ktoré korešpondujú s teoretickým odvodením.

Problematikou chýb a ich hodnotením sa zaoberá teória chýb. Jej základnými úlohami sú: získanie najpravdepodobnejšej hodnoty meranej veličiny, resp. najpravdepodobnejšieho

priebehu závislosti medzi meranými veličinami, skúmanie zákona rozdelenia chýb pozorovaní, posúdenie výslednej presnosti pozorovaní.

Vznik chýb súvisí s dialektikou pohybu a vývoja javov v reálnom prostredí. Základná klasifikácia chýb uvažuje s troma skupinami chýb, a to: chyby hrubé, omyly, chyby systematické, chyby náhodné.

Hrubé chyby sa vplyvom súhry nepriaznivých okolností môžu vo výsledku merania objaviť, ale nesmú sa dostať do ďalšieho spracovania.

Systematické chyby vznikajú ako dôsledok systému merania. Je preto potrebné voliť také usporiadanie, postup merania, aby sa ich vplyv v maximálnej miere eliminoval. Vyznačujú sa pravidelnosťou a sústavnosťou. Delia sa do niekoľkých skupín: stále (konštantné), pri každom pozorovaní majú rovnakú veľkosť aj znamienko; premenlivé, prejavia sa v rozdielnosti skupín výsledkov, získaných za zmenených

podmienok, kým vo vnútri jednej takejto skupiny sa nedajú zistiť, jednostranné, majú stále rovnaké znamienko, ale veľkosť je náhodne premenlivá, periodické, chyby pravidelne sa opakujúce, postupné (progresívne), plynulo meniace svoju hodnotu počas merania.

FLOREKOVÁ, BENKOVÁ 89

Page 87: Štatistické metódy

10. Pôsobenie chýb na výsledky meraní a na modely

Za súčasného stavu meracej techniky sú systematické chyby prekážkou ďalšieho zvyšovania presnosti meraní. Z terminologického hľadiska – neistota (chyba) presnosti výsledku merania môže byť dvojaká: Náhodná neistota – odvodená zo štatistickej analýzy opakovaných meraní, ktorých

rozdelenie je normálne alebo iné. Systematická neistota – vyplýva z úvah očakávaných fyzikálnych vplyvov na výsledok a

z opakovaných meraní, ktoré nespĺňajú podmienky normálneho alebo iného rozdelenia. Na presnosť merania pôsobia príčinné náhodné-stochastické vplyvy a systematické-deterministické vplyvy. Dôsledok pôsobenia náhodného/systematického vplyvu je náhodná/systematická chyba. Stochastické vplyvy sa s rastom n postupne zmenšujú, výsledná chyba sa blíži k nule. Systematické vplyvy nemajú vlastnosť konvergencie k nule, ale možno im predchádzať a z výsledkov meraní ich eliminovať. Medzi systematickými a náhodnými vplyvmi niet ostrého ohraničenia. V reálnych podmienkach vždy treba počítať aj s existenciou systematických vplyvov.

Poradie sledovania častí chybotvorného procesu:Objekt – prístroj –pozorovateľ – prostredie – výsledok – chyba

Obr.13.1 Chybotvorný proces v systéme merania

90

OBJEKT MERANIAPredmet, na ktorom sa

meranie uskutočňuje.Predmet, ktorého kvalitu nepoznáme.Predmet, ktorého stav

alebo priebeh sa má experimentálne určiť.

CHYBA MERANIAHodnota, ktorá nespĺňa vopred dané

požiadavkyRozdiel medzi name-

ranou a skutočnou hodnotou meranej

veličiny.

VÝSLEDOK MERANIA

Apriórne informácieInformácia z meraniaSúbor dát o meranej

veličine

PRÍSTROJ –merací, snímací, monitorovací Merací prostriedok-

technický prostriedok s presne určenými metro-

logickými vlastnosťami.prevodník, zariadenie,systém, prístroj

POZOROVATEĽKvalifikáciaSystematičnosťVytrvalosťÚnavaSpoľahlivosť

PROSTREDIEOkolie –stabilitaprostredia, v ktorom sa nachádza objekt

merania

chyb

a z

okol

ia

chyba z meracieho prístroja

prídavná chyba

Page 88: Štatistické metódy

ŠTATISTICKÉ METÓDY

Postup, usporiadanie meraní, voľba prístrojov, sa v zásade vždy volí tak, aby sa vylúčil – eliminoval v čo najväčšej miere vplyv a pôsobenie systematických chýb.

Obr.13.2 Konvenčná meracia technika – postup získavania údajov

Obr.13.3 Meracia technika podporovaná počítačom – postup získavania údajov

FLOREKOVÁ, BENKOVÁ 91

MERANÝ OBJEKT

(PROCES)

.

.

Materiál

Surovina

Energia

MERACÍ PRÍSTROJ

s mikropočítačom

Výsledky meraniaRiadiace povely

ČLOVEK(rozhodovanie)

Vstupnéveličiny

Riadenienastavovanie,

zmena,justáž

X1

veľa meraných veličín

Meranéveličiny

Nameranéveličiny

Xn

.

.

REGULAČNÁA RIADIACAJEDNOTKA

Kontrola

Obsluha

Kontrola

Programovanie

komplexný merací automat

komplikované spracovanie namer. hodnôt

úplná prevádzka v reálnom čase

Spracovanie, vyhodnocovanie

Rozhodovanie

MERANÝ OBJEKT

(PROCES)

.

.

Materiál

Surovina

Energia

MERACÍPRÍSTROJ

x

ČLOVEK(rozhodovanie)

Vstupnéveličiny

Nastavovanie,zmena,justáž

Kontrola

X

jednotlivé merané veličiny

jednoduché meracie prístroje

Obsluha

Kontrola

Meranéveličiny

Nameranéveličiny

Page 89: Štatistické metódy

10. Pôsobenie chýb na výsledky meraní a na modely

Náhodné chyby sú také, ktoré pri tej istej meranej veličine, pri tej istej metóde, pri rov-nakých podmienkach, nadobúdajú náhodne rôzne znamienko a veľkosť. Sú vzájomne nezávislé a z meraní sa nedajú vylúčiť. Vo vzniku jednotlivých chýb nepozorujeme žiadnu zákonitosť, avšak ich veľké množstvo má charakter tzv. hromadného náhodného javu a je predmetom skúmania teórie pravdepodobnosti a matematickej štatistiky.

Je potrebné uviesť, že ako náhodné, tak aj systematické chyby majú mnohokrát rovnaký zdroj vzniku (obr. 9.4) a je problematické vykonať ich prísne oddelenie. Hovoríme potom o celkových chybách.

Obr.13.4 Vznik celkových chýb (chybový model)

Celková chyba merania je spôsobená najmä chybou metódy, merania, chybou so zao-krúhľovania a neodstrániteľnými náhodnými chybami. Pri stanovovaní celkovej chyby posudzujeme meranie podľa troch skupín kritérií, ktoré zohľadňujú: presnosť, najmä nestrannosť, stabilitu (robustnosť), t.j. závislosť presnosti odhadov parametrov od predpokladov

o rozdelení chýb merania, zložitosť (náročnosť) postupov, algoritmov, výpočtov. Našou snahou je vždy zabezpečiť taký výsledok, o ktorom možno prehlásiť, že plní štyri

požiadavky: správnosť - podiel matematických chýb (odchýlok) vo výsledku merania je minimálny,

92

Osobné chybychyba v pozorovaní

pri odčítavaní z únavy

Prístrojové chybyparalaxa

kalibráciamierka

Vonkajšie chybyzo zmeny podmienok

Metodické chybyinterpolačnávýpočtová

Chyby modeluzlé predpoklady

Chyby klasifikácie

SYSTEMATICKÉ CHYBYKonštatntná -celý súbor meraní je

zaťažený rovnakou hodnotou i smerom.

Skupinová – veľký súbor je ovplyv-nený s rôznou intenzitou nehomogénnymi podmienkami (rôzne časové obdobie, teploty, pozorovatelia, prístroje)

Premenlivá – pri meniacich sa podmienkach merania mení veľkosť aj

znamienko.Jednostranná – ak systematické

vplyvy pôsobia stále tým istým smerom.

NÁHODNÉ CHYBYriadia sa

Gaussovým zákonom rozdeleniaCelkové chyby

HRUBÉ CHYBYnedostatok, omyl, neprípustná chyba, na základe, ktorej výrobok/činnosť nie sú vhodné na splnenie daných

cieľových kritérií.

Page 90: Štatistické metódy

ŠTATISTICKÉ METÓDY

precíznosť – podiel náhodných chýb (odchýlok) vo výsledku merania je minimálny, tolerancia – horná-dolná/medzná-hraničná/-najmenšia-najväčšia hodnota sú k sebe

najbližšie. Opakovateľnosť – stupeň zhody výsledku merania, získaných na rovnakých objektoch,

rovnakými meracími prístrojmi, za rovnakých podmienok s odstupom času je dosiahnuteľný (reprodukovateľnosť).

Náhodné chyby klasifikujeme z rôznych hľadísk. Najpoužívanejšie hľadiská sú na obr.13.5.

Stacionarita – náhodný signál ξ(t) je stacionárny, ak jeho pravdepodobnostné charakteristiky nezávisia na výbere začiatku odpočítavania času, t.j. sú invariantné vzhľadom na zmenu časovej premennej t. Signál je stacionárny v úzkom zmysle, ak sa invariantnosť zachováva pre všetky konečné rozdelenia. Signál je stacionárny v širšom zmysle, ak vlastnosť invariantnosti majú momenty prvého a druhého rádu, t.j. stredná hodnota a korelačná funkcia (kovariancia)

Ergodičnosť – stacionarita v úzkom zmysle, náhodný signál je ergodický, ak jeho ľubovoľná pravdepodobnostná charakteristika (získaná spriemernením množstva realizácií) s p=1 sa rovná časovému priemeru, získanému za dostatočne dlhý časový úsek z jedinej realizácie signálu.

Obr.13.5 Klasifikácia náhodných chýb

Skutočná chyba ε je všeobecne definovaná ako rozdiel medzi skutočnou hodnotou X a nameranou hodnotou x určovanej veličiny

a máme ju možnosť zistiť len sporadicky, tak ako len málokedy vieme zistiť skutočnú hodnotu X určovanej veličiny. Preto vo väčšine prípadov určujeme zdanlivú chybu ν ako rozdiel medzi najpravdepodobnejšou hodnotou a nameraním získanou realizáciou xi

.Ak vyjadrujeme chyby pomocou rozmerov príslušných meraných veličín, alebo ako

bezrozmerné čísla, hovoríme o chybách absolútnych a relatívnych.

FLOREKOVÁ, BENKOVÁ 93

NÁHODNÁ CHYBA

STACIONÁRNA NESTACIONÁRNA

ERGODICKÁ NEERGODICKÁ ZVLÁŠTNE NESTACIONÁRNE

a)

NÁHODNÁ CHYBA

SKUTOČNÁ ε

ZDANLIVÁ υ

b)

ABSOLÚTNA Δ

RELATÍVNA δ

Page 91: Štatistické metódy

10. Pôsobenie chýb na výsledky meraní a na modely

Absolútna chyba Δ je vyjadrená v rozmeroch meranej veličiny a môže to byť tak chyba skutočná, ako aj chyba zdanlivá |εi |, |vi|.

Relatívna chyba δ je pomerom absolútnej chyby a realizácie meranej veličiny, resp. relatívnej chyby a realizácie meranej veličiny

, ,

resp. tento pomer vyjadrený v percentách. Pomocou relatívnych chýb sa dajú vhodne porovnávať presnosti meraní veličín rôznych rozmerov a rôznych hodnôt.

Náhodné vplyvy jednotlivo-izolovane nepodliehajú žiadnym zákonitostiam. Pri veľkom množstve meraní sa u náhodných chýb pozorujú rovnaké zákonitosti ako pri hromadných náhodných javoch. Náhodné chyby rovnakého druhu sú náhodné premenné s príslušným zákonom rozdelenia pravdepodobnosti ich výskytu.

Základným zákonom, ktorý platí pre náhodné chyby je Gaussov zákon, určený troma postulátmi: pravdepodobnosť vzniku chyby určitej veľkosti a rôzneho znamienka je rovnaká, malé chyby sú pravdepodobnejšie ako veľké, nad určitou hranicou sa náhodné chyby nevyskytujú.

Tieto tri postuláty odpovedajú Gaussovmu zákonu normálneho rozdelenia náhodnej premennej. Znamená to teda, že náhodná premenná aj náhodná chyba podliehajú rovnakému rozdeleniu pravdepodobností ich výskytu.

miera presnosti, potom .

Nesúhlas, prípadne veľké odchýlky skutočného rozdelenia náhodných chýb od normálneho rozdelenia môžu byť vyvolané nazhromaždením systematických chýb.

Každé meranie sa skladá z niekoľkých úkonov, z ktorých každý je zdrojom nejakých, tzv. elementárnych chýb. Potom výsledná chyba merania je rovná algebraickému súčtu elementárnych chýb rôzneho znamienka a veľkosti. Ak by sme porovnávali medzi sebou dve metódy merania tej istej veličiny, tak potom bude presnejšia tá metóda, kde získané výsledky majú väčšiu koncentráciu (menší rozptyl) okolo skutočnej hodnoty meranej veličiny. Presnosť metódy merania je daná tzv. strednou kvadratickou chybou

,

resp. smerodajnou (štandardnou) odchýlkou

.

Všeobecne sa pripúšťa hodnota tzv. maximálne prípustnej chyby 2-3 násobok m, resp. s.Presnosť nezávislých meraní udáva zákon súčasného hromadenia a prenášania

stredných kvadratických chýb. Ak sú X, Y .., Q navzájom nezávislé,,

potom

, kde

Pre všeobecný prípad závislých meraní platí

.

94

Page 92: Štatistické metódy

ŠTATISTICKÉ METÓDY

Absolútnu chybu funkcie y = f(x) určíme pomocou vzťahu

,

relatívnu chybu pomocou vzťahu

Zákon prenášania stredných náhodných chýb môžeme interpretovať a využívať nasledovne: Napr. stredná chyba lineárneho regresného modelu , kde predpokladáme vplyv chýb v hodnotách x aj v parametroch a,b, bude

Pre model , bude

Ak pre regresný model budeme považovať iba x za zaťažené chybami, potom

.

Z uvedeného potom vyplýva, že je možné aj graficky znázorniť priebeh - vývoj strednej kvadratickej chyby v závislosti na hodnotách nezávisle premennej x (v rámci intervalu ich platnosti) a príslušných najlepších odhadov parametrov RM, t.j.

FLOREKOVÁ, BENKOVÁ 95

pri nezávislých =0 pri závislých -1,1

Page 93: Štatistické metódy

ŠTATISTICKÉ TABUĽKY

Tabuľka A Hustota pravdepodobnosti normovaného normálneho rozdelenia

Tabuľka B1 Fisher-Snedocorovo F-rozdelenie, = 0,01

Tabuľka B2 Fisher-Snedocorovo F-rozdelenie, = 0,05

Tabuľka C Pearsonovo 2 rozdelenie

Tabuľka D Studentovo t-rozdelenie

Tabuľka E Grubbsov test, kritické hodnoty

Tabuľka F Dixonov test, kritické hodnoty

Tabuľka H: Fisherov test lokálnych extrémov periodogramu, kritické hodnoty

Tabuľka G: Koeficient korelácie, kritické hodnoty pre výpočet

Tabuľka I: Durbin-Watsonov test, kritické hodnoty

97

Page 94: Štatistické metódy

Tabuľka A - Hustota pravdepodobnosti normovaného normálneho rozdelenia

u 0 1 2 3 4 5 6 7 8 9

0,0 0,3989 0,3989 0,3989 0,3988 0,3986 0,3984 0,3982 0,3980 0,3977 0,39730,1 0,3968 0,3968 0,3968 0,3968 0,3968 0,3968 0,3968 0,3968 0,3968 0,39680,2 0,3907 0,3907 0,3907 0,3907 0,3907 0,3907 0,3907 0,3907 0,3907 0,39070,3 0,3809 0,3809 0,3809 0,3809 0,3809 0,3809 0,3809 0,3809 0,3809 0,38090,4 0,3677 0,3677 0,3677 0,3677 0,3677 0,3677 0,3677 0,3677 0,3677 0,36770,5 0,3514 0,3514 0,3514 0,3514 0,3514 0,3514 0,3514 0,3514 0,3514 0,35140,6 0,3325 0,3325 0,3325 0,3325 0,3325 0,3325 0,3325 0,3325 0,3325 0,33250,7 0,3115 0,3115 0,3115 0,3115 0,3115 0,3115 0,3115 0,3115 0,3115 0,31150,8 0,2890 0,2890 0,2890 0,2890 0,2890 0,2890 0,2890 0,2890 0,2890 0,28900,9 0,2654 0,2654 0,2654 0,2654 0,2654 0,2654 0,2654 0,2654 0,2654 0,2654

1,0 0,2413 0,2413 0,2413 0,2413 0,2413 0,2413 0,2413 0,2413 0,2413 0,24131,1 0,2173 0,2173 0,2173 0,2173 0,2173 0,2173 0,2173 0,2173 0,2173 0,21731,2 0,1937 0,1937 0,1937 0,1937 0,1937 0,1937 0,1937 0,1937 0,1937 0,19371,3 0,1709 0,1709 0,1709 0,1709 0,1709 0,1709 0,1709 0,1709 0,1709 0,17091,4 0,1494 0,1494 0,1494 0,1494 0,1494 0,1494 0,1494 0,1494 0,1494 0,14941,5 0,1292 0,1292 0,1292 0,1292 0,1292 0,1292 0,1292 0,1292 0,1292 0,12921,6 0,1107 0,1107 0,1107 0,1107 0,1107 0,1107 0,1107 0,1107 0,1107 0,11071,7 0,0939 0,0939 0,0939 0,0939 0,0939 0,0939 0,0939 0,0939 0,0939 0,09391,8 0,0788 0,0788 0,0788 0,0788 0,0788 0,0788 0,0788 0,0788 0,0788 0,07881,9 0,0655 0,0655 0,0655 0,0655 0,0655 0,0655 0,0655 0,0655 0,0655 0,0655

2,0 0,0539 0,0539 0,0539 0,0539 0,0539 0,0539 0,0539 0,0539 0,0539 0,05392,1 0,0439 0,0439 0,0439 0,0439 0,0439 0,0439 0,0439 0,0439 0,0439 0,04392,2 0,0354 0,0354 0,0354 0,0354 0,0354 0,0354 0,0354 0,0354 0,0354 0,03542,3 0,0283 0,0283 0,0283 0,0283 0,0283 0,0283 0,0283 0,0283 0,0283 0,02832,4 0,0224 0,0224 0,0224 0,0224 0,0224 0,0224 0,0224 0,0224 0,0224 0,02242,5 0,0175 0,0175 0,0175 0,0175 0,0175 0,0175 0,0175 0,0175 0,0175 0,01752,6 0,0136 0,0136 0,0136 0,0136 0,0136 0,0136 0,0136 0,0136 0,0136 0,01362,7 0,0104 0,0104 0,0104 0,0104 0,0104 0,0104 0,0104 0,0104 0,0104 0,01042,8 0,0079 0,0079 0,0079 0,0079 0,0079 0,0079 0,0079 0,0079 0,0079 0,00792,9 0,0060 0,0060 0,0060 0,0060 0,0060 0,0060 0,0060 0,0060 0,0060 0,0060

3,0 0,0044 0,0044 0,0044 0,0044 0,0044 0,0044 0,0044 0,0044 0,0044 0,00443,1 0,0033 0,0033 0,0033 0,0033 0,0033 0,0033 0,0033 0,0033 0,0033 0,00333,2 0,0024 0,0024 0,0024 0,0024 0,0024 0,0024 0,0024 0,0024 0,0024 0,00243,3 0,0017 0,0017 0,0017 0,0017 0,0017 0,0017 0,0017 0,0017 0,0017 0,00173,4 0,0012 0,0012 0,0012 0,0012 0,0012 0,0012 0,0012 0,0012 0,0012 0,00123,5 0,0009 0,0009 0,0009 0,0009 0,0009 0,0009 0,0009 0,0009 0,0009 0,00093,6 0,0006 0,0006 0,0006 0,0006 0,0006 0,0006 0,0006 0,0006 0,0006 0,00063,7 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,00043,8 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,00033,9 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002

2u2

e2π

1f(u)

98

Page 95: Štatistické metódy

Tabuľka B1 - Fisher-Snedocorovo F-rozdelenie =0,01

1 2 3 4 5 6 7 8 9 10 12 14

1 4052 4999 5404 5624 5764 5859 5928 5981 6022 6056 6107 61432 98.50 99.00 99.16 99.25 99.30 99.33 99.36 99.38 99.39 99.40 99.42 99.433 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27.23 27.05 26.924 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.255 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.89 9.776 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.607 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.368 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5.569 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 5.01

10 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.6011 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.40 4.2912 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.0514 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94 3.80 3.7016 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.55 3.4520 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.1330 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.7440 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.66 2.5650 7.17 5.06 4.20 3.72 3.41 3.19 3.02 2.89 2.78 2.70 2.56 2.4660 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.3970 7.01 4.92 4.07 3.60 3.29 3.07 2.91 2.78 2.67 2.59 2.45 2.3580 6.96 4.88 4.04 3.56 3.26 3.04 2.87 2.74 2.64 2.55 2.42 2.31

100 6.90 4.82 3.98 3.51 3.21 2.99 2.82 2.69 2.59 2.50 2.37 2.27200 6.76 4.71 3.88 3.41 3.11 2.89 2.73 2.60 2.50 2.41 2.27 2.17400 6.70 4.66 3.83 3.37 3.06 2.85 2.68 2.56 2.45 2.37 2.23 2.13500 6.69 4.65 3.82 3.36 3.05 2.84 2.68 2.55 2.44 2.36 2.22 2.12

1000 6.66 4.63 3.80 3.34 3.04 2.82 2.66 2.53 2.43 2.34 2.20 2.10

Tabuľka B1 - Fisher-Snedocorovo F-rozdelenie =0,01 pokračovanie

20 30 40 50 60 70 80 100 200 400 500 1000

1 6209 6260 6286 6302 6313 6321 6326 6334 6350 6358 6360 63632 99.45 99.47 99.48 99.48 99.48 99.48 99.48 99.49 99.49 99.50 99.50 99.503 26.69 26.50 26.41 26.35 26.32 26.29 26.27 26.24 26.18 26.15 26.15 26.144 14.02 13.84 13.75 13.69 13.65 13.63 13.61 13.58 13.52 13.49 13.49 13.475 9.55 9.38 9.29 9.24 9.20 9.18 9.16 9.13 9.08 9.05 9.04 9.036 7.40 7.23 7.14 7.09 7.06 7.03 7.01 6.99 6.93 6.91 6.90 6.897 6.16 5.99 5.91 5.86 5.82 5.80 5.78 5.75 5.70 5.68 5.67 5.668 5.36 5.20 5.12 5.07 5.03 5.01 4.99 4.96 4.91 4.89 4.88 4.879 4.81 4.65 4.57 4.52 4.48 4.46 4.44 4.41 4.36 4.34 4.33 4.32

10 4.41 4.25 4.17 4.12 4.08 4.06 4.04 4.01 3.96 3.94 3.93 3.9211 4.10 3.94 3.86 3.81 3.78 3.75 3.73 3.71 3.66 3.63 3.62 3.6112 3.86 3.70 3.62 3.57 3.54 3.51 3.49 3.47 3.41 3.39 3.38 3.3714 3.51 3.35 3.27 3.22 3.18 3.16 3.14 3.11 3.06 3.03 3.03 3.0216 3.26 3.10 3.02 2.97 2.93 2.91 2.89 2.86 2.81 2.78 2.78 2.7620 2.94 2.78 2.69 2.64 2.61 2.58 2.56 2.54 2.48 2.45 2.44 2.4330 2.55 2.39 2.30 2.25 2.21 2.18 2.16 2.13 2.07 2.04 2.03 2.0240 2.37 2.20 2.11 2.06 2.02 1.99 1.97 1.94 1.87 1.84 1.83 1.8250 2.27 2.10 2.01 1.95 1.91 1.88 1.86 1.82 1.76 1.72 1.71 1.7060 2.20 2.03 1.94 1.88 1.84 1.81 1.78 1.75 1.68 1.64 1.63 1.6270 2.15 1.98 1.89 1.83 1.78 1.75 1.73 1.70 1.62 1.58 1.57 1.5680 2.12 1.94 1.85 1.79 1.75 1.71 1.69 1.65 1.58 1.54 1.53 1.51

100 2.07 1.89 1.80 1.74 1.69 1.66 1.63 1.60 1.52 1.47 1.47 1.45200 1.97 1.79 1.69 1.63 1.58 1.55 1.52 1.48 1.39 1.34 1.33 1.30400 1.92 1.75 1.64 1.58 1.53 1.49 1.46 1.42 1.32 1.26 1.25 1.22500 1.92 1.74 1.63 1.57 1.52 1.48 1.45 1.41 1.31 1.25 1.23 1.20

1000 1.90 1.72 1.61 1.54 1.50 1.46 1.43 1.38 1.28 1.21 1.19 1.16

99

Page 96: Štatistické metódy

Tabuľka B2 - Fisher-Snedocorovo F-rozdelenie =0,05

1 2 3 4 5 6 7 8 9 10 12 14

1 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54 241.88 243.90 245.362 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.41 19.423 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.714 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.875 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.646 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.967 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.538 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28 3.249 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.03

10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.8611 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.7412 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.6414 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53 2.4816 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.3720 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.2230 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.0440 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.9550 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 2.03 1.95 1.8960 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.92 1.8670 3.98 3.13 2.74 2.50 2.35 2.23 2.14 2.07 2.02 1.97 1.89 1.8480 3.96 3.11 2.72 2.49 2.33 2.21 2.13 2.06 2.00 1.95 1.88 1.82

100 3.94 3.09 2.70 2.46 2.31 2.19 2.10 2.03 1.97 1.93 1.85 1.79200 3.89 3.04 2.65 2.42 2.26 2.14 2.06 1.98 1.93 1.88 1.80 1.74400 3.86 3.02 2.63 2.39 2.24 2.12 2.03 1.96 1.90 1.85 1.78 1.72500 3.86 3.01 2.62 2.39 2.23 2.12 2.03 1.96 1.90 1.85 1.77 1.71

1000 3.85 3.00 2.61 2.38 2.22 2.11 2.02 1.95 1.89 1.84 1.76 1.70

Tabuľka B2 - Fisher-Snedocorovo F-rozdelenie =0,05 pokračovanie

20 30 40 50 60 70 80 100 200 400 500 1000

1 248.02 250.10 251.14 251.77 252.20 252.50 252.72 253.04 253.68 254.00 254.06 254.192 19.45 19.46 19.47 19.48 19.48 19.48 19.48 19.49 19.49 19.49 19.49 19.493 8.66 8.62 8.59 8.58 8.57 8.57 8.56 8.55 8.54 8.53 8.53 8.534 5.80 5.75 5.72 5.70 5.69 5.68 5.67 5.66 5.65 5.64 5.64 5.635 4.56 4.50 4.46 4.44 4.43 4.42 4.41 4.41 4.39 4.38 4.37 4.376 3.87 3.81 3.77 3.75 3.74 3.73 3.72 3.71 3.69 3.68 3.68 3.677 3.44 3.38 3.34 3.32 3.30 3.29 3.29 3.27 3.25 3.24 3.24 3.238 3.15 3.08 3.04 3.02 3.01 2.99 2.99 2.97 2.95 2.94 2.94 2.939 2.94 2.86 2.83 2.80 2.79 2.78 2.77 2.76 2.73 2.72 2.72 2.71

10 2.77 2.70 2.66 2.64 2.62 2.61 2.60 2.59 2.56 2.55 2.55 2.5411 2.65 2.57 2.53 2.51 2.49 2.48 2.47 2.46 2.43 2.42 2.42 2.4112 2.54 2.47 2.43 2.40 2.38 2.37 2.36 2.35 2.32 2.31 2.31 2.3014 2.39 2.31 2.27 2.24 2.22 2.21 2.20 2.19 2.16 2.15 2.14 2.1416 2.28 2.19 2.15 2.12 2.11 2.09 2.08 2.07 2.04 2.02 2.02 2.0220 2.12 2.04 1.99 1.97 1.95 1.93 1.92 1.91 1.88 1.86 1.86 1.8530 1.93 1.84 1.79 1.76 1.74 1.72 1.71 1.70 1.66 1.64 1.64 1.6340 1.84 1.74 1.69 1.66 1.64 1.62 1.61 1.59 1.55 1.53 1.53 1.5250 1.78 1.69 1.63 1.60 1.58 1.56 1.54 1.52 1.48 1.46 1.46 1.4560 1.75 1.65 1.59 1.56 1.53 1.52 1.50 1.48 1.44 1.41 1.41 1.4070 1.72 1.62 1.57 1.53 1.50 1.49 1.47 1.45 1.40 1.38 1.37 1.3680 1.70 1.60 1.54 1.51 1.48 1.46 1.45 1.43 1.38 1.35 1.35 1.34

100 1.68 1.57 1.52 1.48 1.45 1.43 1.41 1.39 1.34 1.31 1.31 1.30200 1.62 1.52 1.46 1.41 1.39 1.36 1.35 1.32 1.26 1.23 1.22 1.21400 1.60 1.49 1.42 1.38 1.35 1.33 1.31 1.28 1.22 1.18 1.17 1.15500 1.59 1.48 1.42 1.38 1.35 1.32 1.30 1.28 1.21 1.17 1.16 1.14

1000 1.58 1.47 1.41 1.36 1.33 1.31 1.29 1.26 1.19 1.14 1.13 1.11

100

Page 97: Štatistické metódy

Tabuľka - Pearsonovo 2 rozdelenie

0.005 0.010 0.025 0.050 0.100 0.900 0.950 0.975 0.990 0.995

1 7.879 6.635 5.024 3.841 2.706 0.016 0.004 0.001 0.000 0.0002 10.597 9.210 7.378 5.991 4.605 0.211 0.103 0.051 0.020 0.0103 12.838 11.345 9.348 7.815 6.251 0.584 0.352 0.216 0.115 0.0724 14.860 13.277 11.143 9.488 7.779 1.064 0.711 0.484 0.297 0.2075 16.750 15.086 12.832 11.070 9.236 1.610 1.145 0.831 0.554 0.4126 18.548 16.812 14.449 12.592 10.645 2.204 1.635 1.237 0.872 0.6767 20.278 18.475 16.013 14.067 12.017 2.833 2.167 1.690 1.239 0.9898 21.955 20.090 17.535 15.507 13.362 3.490 2.733 2.180 1.647 1.3449 23.589 21.666 19.023 16.919 14.684 4.168 3.325 2.700 2.088 1.735

10 25.188 23.209 20.483 18.307 15.987 4.865 3.940 3.247 2.558 2.156

11 26.757 24.725 21.920 19.675 17.275 5.578 4.575 3.816 3.053 2.60312 28.300 26.217 23.337 21.026 18.549 6.304 5.226 4.404 3.571 3.07413 29.819 27.688 24.736 22.362 19.812 7.041 5.892 5.009 4.107 3.56514 31.319 29.141 26.119 23.685 21.064 7.790 6.571 5.629 4.660 4.07515 32.801 30.578 27.488 24.996 22.307 8.547 7.261 6.262 5.229 4.60116 34.267 32.000 28.845 26.296 23.542 9.312 7.962 6.908 5.812 5.14217 35.718 33.409 30.191 27.587 24.769 10.085 8.672 7.564 6.408 5.69718 37.156 34.805 31.526 28.869 25.989 10.865 9.390 8.231 7.015 6.26519 38.582 36.191 32.852 30.144 27.204 11.651 10.117 8.907 7.633 6.84420 39.997 37.566 34.170 31.410 28.412 12.443 10.851 9.591 8.260 7.434

21 41.401 38.932 35.479 32.671 29.615 13.240 11.591 10.283 8.897 8.03422 42.796 40.289 36.781 33.924 30.813 14.041 12.338 10.982 9.542 8.64323 44.181 41.638 38.076 35.172 32.007 14.848 13.091 11.689 10.196 9.26024 45.558 42.980 39.364 36.415 33.196 15.659 13.848 12.401 10.856 9.88625 46.928 44.314 40.646 37.652 34.382 16.473 14.611 13.120 11.524 10.52026 48.290 45.642 41.923 38.885 35.563 17.292 15.379 13.844 12.198 11.16027 49.645 46.963 43.195 40.113 36.741 18.114 16.151 14.573 12.878 11.80828 50.994 48.278 44.461 41.337 37.916 18.939 16.928 15.308 13.565 12.46129 52.335 49.588 45.722 42.557 39.087 19.768 17.708 16.047 14.256 13.12130 53.672 50.892 46.979 43.773 40.256 20.599 18.493 16.791 14.953 13.787

31 55.002 52.191 48.232 44.985 41.422 21.434 19.281 17.539 15.655 14.45832 56.328 53.486 49.480 46.194 42.585 22.271 20.072 18.291 16.362 15.13433 57.648 54.775 50.725 47.400 43.745 23.110 20.867 19.047 17.073 15.81534 58.964 56.061 51.966 48.602 44.903 23.952 21.664 19.806 17.789 16.50135 60.275 57.342 53.203 49.802 46.059 24.797 22.465 20.569 18.509 17.19236 61.581 58.619 54.437 50.998 47.212 25.643 23.269 21.336 19.233 17.88737 62.883 59.893 55.668 52.192 48.363 26.492 24.075 22.106 19.960 18.58638 64.181 61.162 56.895 53.384 49.513 27.343 24.884 22.878 20.691 19.28939 65.475 62.428 58.120 54.572 50.660 28.196 25.695 23.654 21.426 19.99640 66.766 63.691 59.342 55.758 51.805 29.051 26.509 24.433 22.164 20.707

41 68.053 64.950 60.561 56.942 52.949 29.907 27.326 25.215 22.906 21.42142 69.336 66.206 61.777 58.124 54.090 30.765 28.144 25.999 23.650 22.13843 70.616 67.459 62.990 59.304 55.230 31.625 28.965 26.785 24.398 22.86044 71.892 68.710 64.201 60.481 56.369 32.487 29.787 27.575 25.148 23.58445 73.166 69.957 65.410 61.656 57.505 33.350 30.612 28.366 25.901 24.31146 74.437 71.201 66.616 62.830 58.641 34.215 31.439 29.160 26.657 25.04147 75.704 72.443 67.821 64.001 59.774 35.081 32.268 29.956 27.416 25.77548 76.969 73.683 69.023 65.171 60.907 35.949 33.098 30.754 28.177 26.51149 78.231 74.919 70.222 66.339 62.038 36.818 33.930 31.555 28.941 27.24950 79.490 76.154 71.420 67.505 63.167 37.689 34.764 32.357 29.707 27.991

101

Page 98: Štatistické metódy

Tabuľka C - Pearsonovo 2 rozdelenie - pokračovanie

0.005 0.010 0.025 0.050 0.100 0.900 0.950 0.975 0.990 0.995

51 80.746 77.386 72.616 68.669 64.295 38.560 35.600 33.162 30.475 28.73552 82.001 78.616 73.810 69.832 65.422 39.433 36.437 33.968 31.246 29.48153 83.253 79.843 75.002 70.993 66.548 40.308 37.276 34.776 32.019 30.23054 84.502 81.069 76.192 72.153 67.673 41.183 38.116 35.586 32.793 30.98155 85.749 82.292 77.380 73.311 68.796 42.060 38.958 36.398 33.571 31.73556 86.994 83.514 78.567 74.468 69.919 42.937 39.801 37.212 34.350 32.49157 88.237 84.733 79.752 75.624 71.040 43.816 40.646 38.027 35.131 33.24858 89.477 85.950 80.936 76.778 72.160 44.696 41.492 38.844 35.914 34.00859 90.715 87.166 82.117 77.930 73.279 45.577 42.339 39.662 36.698 34.77060 91.952 88.379 83.298 79.082 74.397 46.459 43.188 40.482 37.485 35.534

61 93.186 89.591 84.476 80.232 75.514 47.342 44.038 41.303 38.273 36.30062 94.419 90.802 85.654 81.381 76.630 48.226 44.889 42.126 39.063 37.06863 95.649 92.010 86.830 82.529 77.745 49.111 45.741 42.950 39.855 37.83864 96.878 93.217 88.004 83.675 78.860 49.996 46.595 43.776 40.649 38.61065 98.105 94.422 89.177 84.821 79.973 50.883 47.450 44.603 41.444 39.38366 99.330 95.626 90.349 85.965 81.085 51.770 48.305 45.431 42.240 40.15867 100.554 96.828 91.519 87.108 82.197 52.659 49.162 46.261 43.038 40.93568 101.776 98.028 92.688 88.250 83.308 53.548 50.020 47.092 43.838 41.71469 102.996 99.227 93.856 89.391 84.418 54.438 50.879 47.924 44.639 42.49370 104.215 100.425 95.023 90.531 85.527 55.329 51.739 48.758 45.442 43.275

71 105.432 101.621 96.189 91.670 86.635 56.221 52.600 49.592 46.246 44.05872 106.647 102.816 97.353 92.808 87.743 57.113 53.462 50.428 47.051 44.84373 107.862 104.010 98.516 93.945 88.850 58.006 54.325 51.265 47.858 45.62974 109.074 105.202 99.678 95.081 89.956 58.900 55.189 52.103 48.666 46.41775 110.285 106.393 100.839 96.217 91.061 59.795 56.054 52.942 49.475 47.20676 111.495 107.582 101.999 97.351 92.166 60.690 56.920 53.782 50.286 47.99677 112.704 108.771 103.158 98.484 93.270 61.586 57.786 54.623 51.097 48.78878 113.911 109.958 104.316 99.617 94.374 62.483 58.654 55.466 51.910 49.58179 115.116 111.144 105.473 100.749 95.476 63.380 59.522 56.309 52.725 50.37680 116.321 112.329 106.629 101.879 96.578 64.278 60.391 57.153 53.540 51.172

81 117.524 113.512 107.783 103.010 97.680 65.176 61.262 57.998 54.357 51.96982 118.726 114.695 108.937 104.139 98.780 66.076 62.132 58.845 55.174 52.76783 119.927 115.876 110.090 105.267 99.880 66.976 63.004 59.692 55.993 53.56784 121.126 117.057 111.242 106.395 100.980 67.876 63.876 60.540 56.813 54.36885 122.324 118.236 112.393 107.522 102.079 68.777 64.749 61.389 57.634 55.17086 123.522 119.414 113.544 108.648 103.177 69.679 65.623 62.239 58.456 55.97387 124.718 120.591 114.693 109.773 104.275 70.581 66.498 63.089 59.279 56.77788 125.912 121.767 115.841 110.898 105.372 71.484 67.373 63.941 60.103 57.58289 127.106 122.942 116.989 112.022 106.469 72.387 68.249 64.793 60.928 58.38990 128.299 124.116 118.136 113.145 107.565 73.291 69.126 65.647 61.754 59.196

91 129.490 125.289 119.282 114.268 108.661 74.196 70.003 66.501 62.581 60.00592 130.681 126.462 120.427 115.390 109.756 75.100 70.882 67.356 63.409 60.81593 131.871 127.633 121.571 116.511 110.850 76.006 71.760 68.211 64.238 61.62594 133.059 128.803 122.715 117.632 111.944 76.912 72.640 69.068 65.068 62.43795 134.247 129.973 123.858 118.752 113.038 77.818 73.520 69.925 65.898 63.25096 135.433 131.141 125.000 119.871 114.131 78.725 74.401 70.783 66.730 64.06397 136.619 132.309 126.141 120.990 115.223 79.633 75.282 71.642 67.562 64.87898 137.803 133.476 127.282 122.108 116.315 80.541 76.164 72.501 68.396 65.69399 138.987 134.641 128.422 123.225 117.407 81.449 77.046 73.361 69.230 66.510

100 140.170 135.807 129.561 124.342 118.498 82.358 77.929 74.222 70.065 67.328

102

Page 99: Štatistické metódy

Tabuľka D - Studentovo t-rozdelenie

0.10 0.05 0.01

1 6.314 12.706 63.6562 2.920 4.303 9.9253 2.353 3.182 5.8414 2.132 2.776 4.6045 2.015 2.571 4.0326 1.943 2.447 3.7077 1.895 2.365 3.4998 1.860 2.306 3.3559 1.833 2.262 3.250

10 1.812 2.228 3.16911 1.796 2.201 3.10612 1.782 2.179 3.05513 1.771 2.160 3.01214 1.761 2.145 2.97715 1.753 2.131 2.94716 1.746 2.120 2.92117 1.740 2.110 2.89818 1.734 2.101 2.87819 1.729 2.093 2.86120 1.725 2.086 2.84521 1.721 2.080 2.83122 1.717 2.074 2.81923 1.714 2.069 2.80724 1.711 2.064 2.79725 1.708 2.060 2.78726 1.706 2.056 2.77927 1.703 2.052 2.77128 1.701 2.048 2.76329 1.699 2.045 2.75630 1.697 2.042 2.75031 1.696 2.040 2.74432 1.694 2.037 2.73833 1.692 2.035 2.73334 1.691 2.032 2.72835 1.690 2.030 2.72436 1.688 2.028 2.71937 1.687 2.026 2.71538 1.686 2.024 2.71239 1.685 2.023 2.70840 1.684 2.021 2.704

103

Page 100: Štatistické metódy

Tabuľka E - Grubbsov test, kritické hodnoty Tabuľka F - Dixonov test, kritické hodnotyT1,=Tn, Q1,=Qn,

n0.05 0.01

n0.05 0.01

3 1.412 1.414 3 0.941 0.9884 1.689 1.723 4 0.765 0.8895 1.869 1.955 5 0.642 0.7806 1.996 2.130 6 0.560 0.6987 2.093 2.265 7 0.507 0.6378 2.172 2.374 8 0.468 0.5909 2.237 2.464 9 0.437 0.555

10 2.294 2.540 10 0.412 0.52711 2.343 2.606 11 0.392 0.50212 2.387 2.663 12 0.376 0.48213 2.426 2.714 13 0.361 0.46514 2.461 2.759 14 0.349 0.45015 2.493 2.800 15 0.338 0.43816 2.523 2.837 16 0.329 0.42617 2.551 2.871 17 0.320 0.41618 2.577 2.903 18 0.313 0.41719 2.600 2.932 19 0.306 0.39820 2.623 2.959 20 0.300 0.39121 2.644 2.984 21 0.295 0.38422 2.664 3.008 22 0.290 0.37823 2.683 3.030 23 0.285 0.37224 2.701 3.051 24 0.281 0.36725 2.717 3.071 25 0.277 0.36225 2,717 3,071 26 0.273 0.35726 2,734 3,089 27 0.269 0.35327 2,749 3,107 28 0.266 0.34928 2,764 3,124 29 0.263 0.34529 2,778 3,140 30 0.260 0.341

104

Page 101: Štatistické metódy

Tabuľka H: Kritické hodnoty pre Fisherov test lokálnych extrémov periodogramu:

H H

5 0,789 0 45 0,174 0

10 0,536 0 50 0,159 6

15 0,407 1 60 0,137 1

20 0,330 3 70 0,120 4

25 0,277 6 80 0,107 5

30 0,241 7 100 0,088 9

35 0,216 3 120 0,075 9

40 0,192 5 140 0,066 4

Tabuľka G: Kritické hodnoty korelačného koeficienta

α

0,1 0,05 0,02 0,01 0,001

1 0,987 69 0,996 92 0,999 507 0,999 677 0,999 998

2 0,900 00 0,950 0 0,980 00 0,990 000 0,999 000

3 0,805 4 0,878 3 0,934 33 0,958 73 0,991 116

4 0,729 3 0,811 4 0,882 2 0,917 20 0,974 05

5 0,669 4 0,754 5 0,832 9 0,874 5 0,950 74

6 0,621 5 0,706 7 0,788 7 0,834 3 0,924 93

7 0,582 2 0,666 4 0,749 8 0,797 7 0,898 2

8 0,549 4 0,631 9 0,715 5 0,764 6 0,872 1

9 0,521 4 0,602 1 0,685 1 0,734 8 0,847 1

10 0,497 3 0,576 0 0,658 1 0,707 9 0,823 3

11 0,476 2 0,552 9 0,633 9 0,683 5 0,801 1

12 0,457 5 0,532 4 0,612 0 0,661 4 0,780 0

13 0,440 9 0,513 9 0,592 3 0,641 1 0,760 3

14 0,425 9 0,497 3 0,574 2 0,622 6 0,742 0

15 0,412 4 0,482 1 0,557 7 0,605 5 0,724 6

16 0,400 0 0,468 3 0,542 5 0,589 7 0,708 4

17 0,388 7 0,455 5 0,528 5 0,575 1 0,693 2

18 0,378 3 0,433 8 0,515 5 0,561 4 0,678 7

19 0,368 7 0,432 9 0,503 4 0,548 7 0,665 2

20 0,359 8 0,422 7 0,492 1 0,536 8 0,652 4

25 0,323 3 0,380 9 0,445 1 0,486 9 0,597 4

30 0,296 0 0,349 4 0,409 3 0,448 7 0,554 1

35 0,274 6 0,324 6 0,381 0 0,418 2 0,518 9

40 0,257 3 0,304 4 0,357 8 0,393 2 0,489 6

45 0,242 8 0,287 5 0,338 4 0,372 1 0,464 8

50 0,230 6 0,273 2 0,321 8 0,364 1 0,443 3

60 0,210 8 0,250 0 0,294 8 0,324 8 0,407 8

70 0,195 4 0,231 9 0,273 7 0,301 7 0,379 9

80 0,182 9 0,217 2 0,256 5 0,283 0 0,356 8

90 0,172 6 0,205 0 0,242 2 0,267 3 0,337 5

100 0,163 8 0,194 6 0,230 1 0,254 0 0,321 1

105

Page 102: Štatistické metódy

Tabuľka H - Kritické hodnoty Durbin-Watsonovho testu pre autokoreláciu

DL DU DL DU DL DU DL DU DL DU

0,010 0,81 1,07 0,70 1,25 0,59 1,46 0,49 1,70 0,39 1,960,025 0,95 1,23 0,83 1,40 0,71 1,61 0,59 1,84 0,48 2,090,050 1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2,21

0,010 0,95 1,15 0,86 1,27 0,77 1,41 0,68 1,57 0,60 1,740,025 1,08 1,28 0,99 1,41 0,89 1,55 0,79 1,70 0,70 1,870,050 1,20 1,41 1,10 1,54 1,00 1,68 0,90 1,83 0,79 1,99

0,010 1,13 1,26 1,07 1,34 1,01 1,42 0,94 1,51 0,88 1,610,025 1,25 1,38 1,18 1,46 1,12 1,54 1,05 1,63 0,98 1,730,050 1,35 1,49 1,28 1,57 1,21 1,65 0,14 1,74 1,07 1,83

0,010 1,25 1,34 1,20 1,40 1,15 1,46 1,10 1,52 1,05 1,580,025 1,35 1,45 1,30 1,51 1,25 1,57 1,20 1,63 1,15 1,690,050 1,44 1,54 1,39 1,60 1,34 1,66 1,29 1,72 1,23 1,79

0,010 1,38 1,45 1,35 1,48 1,32 1,52 1,28 1,56 1,25 1,600,025 1,47 1,54 1,44 1,57 1,40 1,61 1,37 1,65 1,33 1,690,050 1,55 1,62 1,51 1,65 1,48 1,69 1,44 1,73 1,41 1,77

0,010 1,47 1,52 1,44 1,54 1,42 1,57 1,39 1,60 1,36 1,620,025 1,54 1,59 1,52 1,62 1,49 1,65 1,47 1,67 1,44 1,700,050 1,61 1,66 1,59 1,69 1,56 1,72 1,53 1,74 1,51 1,77

0,010 1,52 1,56 1,50 1,58 1,48 1,60 1,46 1,63 1,44 1,650,025 1,59 1,63 1,57 1,65 1,55 1,67 1,53 1,70 1,51 1,720,050 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,57 1,78

k = počet regresorov (bez konštánt)

n 1 2 3 4

100

30

40

5

15

20

60

80

106

Page 103: Štatistické metódy

Literatúra

Aczel, A.D. 1989. Complete Business Statistics. IRWIN, 1989.

Anděl, J. 1975. Matematická statistika. Praha: SNTL, 1975.

Bakytová, H. a kol. 1979. Základy štatistiky. Bratislava: Alfa, 1979.

Benková, M. 2003. Ekonomicko-štatistické metódy. Učebné texty pre III. ročník externého štúdia IM. Košice: TU v Košiciach, 2003

Curwin, J. – Slater, R. 1986. Quantitative Methods for Business Decisions. International Thompson Business Press, 1986.

Cyhelský, L. – Novák, I. 1967. Statistika. I.díl. Praha: SNTL/SVTL, 1967.

Cyhelský, L. – Kaňoková, J. – Novák, I. 1986. Teorie statistiky. SNTL/ALFA, Praha 1986

Čermák, V. 1968. Statistika. II.díl, Praha: Alfa/SNTL, 1968.

Fedorik, P. 1989. Ekonomická štatistika. Košice: Edičné stredisko VŠT, 1989.

Felix – Bláha. 1962. Matematickostatistické metódy v chemickém průmyslu. Praha: SNTL, 1962.

Floreková, Ľ. 1986. Matematické modelovanie. Bratislava: Alfa, 1986.

Floreková, Ľ. – Kostúr,K. 1986. Matematické modelovanie. Zbierka riešených príkladov. Bratislava: Alfa, 1986.

Floreková, Ľ. 1992. Plánované experimerty a ich vyhodnocovanie. Košice: Edičné stredisko TU Košice, 1992.

Floreková Ľ. – Benková M. 1998. Základy štatistického spracovania dát. Košice: FPP-F BERG, TU v Košiciach, 1998.

Floreková Ľ. – Benková M. 1999. Štatistické metódy. Košice: FPP-F BERG, TU v Košiciach, 1999.

Hátle, J. – Likeš. J. 1974. Základy počtu pravdepodobnosti a matematické statistiky. Praha: SNTL, 1974.

Hanousek, J. - Charamza, P. 1992. Moderní metody zpracování dat – Matematická statistika pro každého. Praha: Grada, 1992.

Hebák, P. – Hustopecký, J. 1990. Průvodce moderními statistickými metodami. Praha: SNTL, 1990.

Hindls, R. – Kaňoková, J. – Novák, I. 1997. Metody statistické analýzy pro ekonomy. Praha: Management Press, 1997.

Hindls, R. – Hronová, S. – Novák, I. 1999. Analýza dat v manažérskem rozhodonání. Praha: Grada Publishing, 1999.

Hindls, R. – Hronová, S. – Seger, J. 2003. Statistika pro ekonomy. 3.doplnené vydanie. Praha:

Professional Publishing, Praha, 2003,

Hines,W.W. – Montgomery, D.C. 1980. Propability and Statistics in Engineering and Management Science. second ed. New York: 1980.

Hušek, R. – Walter, J. 1976. Ekonometrie. Praha: SNTL, 1976.

Hendl, J. 2004. Přehled statistických metod spracování dat. Praha: Portál, 2004.

107

Page 104: Štatistické metódy

Himmelblau, D. 1969. Process Analysis by Statistical Methods. New York: 1969.

Hudec, O. 2004. Pravdepodobnosť a induktívna štatistika. Košice: TU v Košiciach, Ekonomická fakulta, 2004.

Chajdiak, J. – Komorník, J. – Komorníková, M. 1999. Štatistické metódy. Bratislava: STATIS, 1999.

Kašpar, J. a kol. 1969. Ekonomická statistika. Praha: SNTL, 1969.

Lamoš, F., Potocký, R. 1989. Pravdepodobnosť a matematická štatistika. Štatistické analýzy. Bratislava Alfa, 1989.

Meloun, M. – Militký, J. 1994. Statistické zpracovaní experimentálních dat. Praha: Plus, 1994.

Meloun M. – Militký J. 2002. Kompendium statistického zpracování dat. Praha: Academia, 2002.

Montgomery, D.C. 1985. Design and Analysis of Experiments. New York, 1985.

Pechoč, V. 1981. Vyhodnocovaní měření a početní metody v chemickém inženýství. SNTL, 1981.

Pidany, J. 1996. Metódy porovnávania a sledovania dynamiky vývoja v ekonomike. Košice: ELFA, 1996.

Potocký, R a kol. 1986. Zbierka úloh z pravdepodepodobnosti a matematickej štatistiky. Bratislava: Alfa/SNTL, 1986.

Rektorys, K. a kol. 1985. Přehled užité matematiky. Praha: 1985.

Riečan, B. – Lamoš, F. 1984. Pravdepodobnosť a matematická štatistika. Bratislava: Alfa/SNTL, 1984.

Riečanová, Z. a kol. 1987. Numerické metódy a matematická štatistika. Bratislava: Alfa/SNTL, 1987.

Sachs, L. 1969. Statistische Auswertungsmethoden. Berlin: 1969.

Seger, J. – Hindls, R. 1993. Statistické metody v ekonomii. Praha: H&H, 1993.

Seger, J. 1988. Statistické metody pro ekonomy průmyslu. Praha: SNTL, 1988.

Seger, J. – Hindls, R. 1995. Statistické metody v tržním hospodářství. Praha: Victoria publ., 1995.

Svoboda, H. 1977. Moderní statistika. Svoboda, 1977.

Tošenovský, J. – Noskievičová, D. 2000. Statistické metody pro zlepšování jakosti. Ostrava: Montanex a.s., 2000.

Tošenovský, J. – Dudek, M. 2004. Základy statistického spracování dat. Ostrava: Ediční středisko VŠB-TU Ostrava, 2004.

Vincúr P. 2000. Makroekonomická analýzy a prognóza. Bratislava: Sprint vfra, 2000.

Wonnacot, T.H. – Wonnacot, R.J. 1994. Statistika pro obchod a hospodářství. New York:Victoria publishing, 1994.

108

Page 105: Štatistické metódy

Poznámky

109

Page 106: Štatistické metódy

Druh publikácie: skriptáAutori: Doc.Ing. Ľubica Floreková,CSc., Ing. Marta Benková, CSc.

Recenzenti: Doc.RNDr. Anton Lavrin, CSc., Ing. Dagmar BednárováNázov: Štatistické metódy

Dátum tlače: máj 2006Počet výtlačkov: 150

Počet strán: 109Vydanie: druhé

ISBN: 80-8073-527-1Tlač: TU v Košiciach

Page 107: Štatistické metódy

ISBN 80-8073-527-1