Štatistická indukcia – Výberové skúmanie

1

Štatistická indukcia

–Výberové skúmanie

2

Štatistické zisťovanie môžeme robiť buď ako vyčerpávajúce (úplné) alebo výberové (neúplné).

Úplné zisťovanie predpokladá, že vyšetrujeme všetky štatistické jednotky konečného štatistického súboru a zároveň existuje možnosť získať požadované informácie o každej jednotke, ktorá patrí do základného súboru. Závery získané z vyčerpávajúceho zisťovania platia deterministicky.

Ak nie je možné splniť tieto predpoklady používa sa výberové zisťovanie, kedy skúmame len jednotky vybrané do výberového súboru a pomocou nich robíme úsudky o základnom súbore. Závery výberového šetrenie platia pre výberový súbor deterministicky, ale ak pomocou nich robíme úsudky o celom základnom súbore výsledky majú pravdepodobnostný charakter.

3

Ak chceme vedieť ako chutí víno, uložené v hektolitrovom sude, nemusíme vypiť celý sud. Stačí malý „dúšok“ k posúdeniu jeho kvality….

Ak chceme zistiť, či náklad orechov v nákladnom aute je z veľkej časti pokazený, stačí keď vyberieme pár orechov z rôznych miest nákladu a rozlúskneme ich…

Ak chceme vedieť aká je vlhkosť obilia na vlečke nemusíme merať vlhkosť celej vlečky ale náhodným spôsobom zoberieme niekoľko vzoriek z rôznych miest ...

4

Pri výberovom zisťovaní teda neskúmame všetky jednotky základného súboru, ale iba ich časť, ktorá musí byť schopná poskytnúť informácie o základnom súbore tj. je reprezentatívna.

Je potrebné si uvedomiť, že nie každý výber je reprezentatívny .

5

Úlohy výberového zisťovania možno rozdeliť do dvoch základných skupín:

1. teória odhadu, kedy odhadujeme charakteristiky základných súborov pomocou výberových údajov.

2. testovanie hypotéz, kedy o základnom súbore vytvárame určité hypotézy a overujeme ich platnosť.

Okrem základných úloh riešime aj dve pomocné (sprievodné) úlohy, ktoré sú vždy súčasťou základných úloh:

11. otázky spojené s vytváraním výberových súborov2. určenie teoretických rozdelení charakteristík,

získaných z výberových súborov.

6

Príklady výberového skúmania

• Štatistika rodinných účtov,

• kontrola kvality

• marketingový prieskum spotrebiteľských zvyklostí…

• výberové skúmanie u podnikov vybraného sektora,

• prieskum verejnej mienky …

7

Podstata výberového skúmania a základné pojmy

Výberový súbor,

rozsah n

Označenie:parametre základného súboru: , 2, , Nvšeobecne G

charakteristiky výberového súboru:všeobecne un

2, s , ,x s n

Základnýsúbor, rozsah N,resp.

8

Charakteristika Základný súbor Výberový súbor

Rozsah N n

Stredná hodnota

Rozptyl

Smerodajná odchýlka

x

2 21s

1s

9

Kvantifikácia rizík rôznych výrokov alebo úsudkov o základnom súbore na základe výberových údajov je možná, ak sa jednotky zo základného súboru vyberajú náhodne.

Náhodným výberom budeme rozumieť taký výber, kedy každá jednotka základného súboru má rovnakú pravdepodobnosť, že bude vybraná.

Tento predpoklad umožňuje využívať teóriu pravdepodobnosti ku kvantifikácii rizika omylu a tak hodnotiť presnosť a spoľahlivosť získaných výsledkov. Induktívne usudzovanie pomocou matematicko – štatistických metód sa nazýva

štatistická indukcia (= zovšeobecňovanie).

10

Náhodný a zámerný výber

Náhodný výber je taký výber štatistických jednotiek zo základného súboru, kedy o tom či bude jednotka zaradená do výberu rozhoduje len náhoda.

Náhodný výber môže byť realizovaný rôznymi spôsobmi. Najjednoduchším typom náhodného výberu je jednoduchý náhodný výber, kedy jednotky vyberáme priamo z netriedeného základného súboru a každá jednotka má pritom rovnakú možnosť, že bude vybraná.

Jednoduchý náhodný výber môžeme prakticky realizovať dvoma spôsobmi:

výber s opakovaním, kedy vybraná jednotka zostáva v zozname jednotiek a môže byť ešte znovu vybraná do výberu.výber bez opakovania, kedy vybraná jednotka nezostáva po vybratí

v zozname, tzn.: do výberu môže byť zaradená len raz.

11

Okrem jednoduchého náhodného výberu sa často používajú aj niektoré zložitejšie typy náhodného výberu. Jedná sa najmä o oblastný alebo stratifikovaný výber a viacstupňový výber.

Princíp oblastného výberu spočíva v tom, že základný súbor roztriedime podľa určitého hľadiska do oblastí (skupín alebo strat ) a v jednotlivých skupinách sa urobia náhodné výbery jednotiek. Ak sa v každej skupine vyberá rovnaké množstvo jednotiek hovoríme o oblastnom proporcionálnom výbere .

Pri viacstupňovom výbere je samotný proces výberu rozdelený do viacerých stupňov alebo krokov. Napríklad pri dvojstupňovom výbere sa v prvom stupni vyberajú skupiny jednotiek (tzv. primárne jednotky) a v druhom stupni sa vo vybraných skupinách vyberajú opäť náhodným spôsobom samotné jednotky (tzv. sekundárne jednotky). Pri viacstupňovom výbere sa tento postup uskutočňuje vo viac krokoch. Modifikácií náhodného výberu existuje samozrejme viac.

12

Zámerným výberom sa rozumie taký výber, kedy o zaradení jednotiek do výberu nerozhoduje len náhoda, ale aj rôzne logické alebo praktické hľadiská a tiež subjektívne názory .

Zvolené hľadiská vyplývajú najčastejšie z toho, že poznáme dôležité črty základného súboru a využívame ich pri výberovom zisťovaní. Pri zámernom výbere vplývajú subjektívne názory na výber jednotiek, pričom dôsledky ich vplyvu na číselné hodnoty vo výberovom súbore nepoznáme.

Záverom treba pripomenúť, že výberový súbor sa často tvorí tak, že nepoužijeme žiadny výberový postup, ale jednotky sa zaraďujú do výberového súboru postupne podľa ich výskytu. Nejedná sa tu teda o vyberanie, ale o voľné nekontrolované zaraďovanie jednotiek do výberového súboru. Takýto prípad sa často vyskytuje pri hypotetických základných súboroch. Je potrebné dôsledne posúdiť, či voľné zaraďovanie jednotiek do výberového súboru nevedie ku skresleniu záverov výberového skúmania.

13

Výberové charakteristiky a ich rozdelenia

Výberové súbory hodnotíme pomocou výberových charakteristík vypočítaných z hodnôt alebo obmien štatistických znakov výberového súboru.

Vzhľadom na konkrétny výberový súbor je výberová charakteristika konštantná veličina, z hľadiska skúmaného základného súboru je však náhodnou premennou.

Vyplýva to z toho, že z daného základného súboru môžeme vytvoriť veľký počet výberových súborov s určitým, vopred stanoveným rozsahom, ktoré sa navzájom líšia. Z každého takto vytvoreného výberového súboru získame rôzne hodnoty výberových charakteristík, lebo každá výberová charakteristika je odvodená z hodnôt vybraných jednotiek, je to náhodná premenná.

14

Pri praktických úlohách vytvárame z jedného základného súboru spravidla len jeden výberový súbor a z neho jednu výberovú charakteristiku určitého typu, teda jednu realizáciu náhodnej premennej. Predpokladajme, že náhodný výber o rozsahu n jednotiek sa skladá z hodnôt , výberovú charakteristiku potom možno vyjadriť ako funkciu

),,,( 21 nn xxxfu

15

Medzi najbežnejšie výberové charakteristiky patria

1. výberový úhrn

n

iixm

1

2. výberový priemer

n

iixn

x1

1

3. výberový rozptyl pri známej strednej hodnote základného súboru

n

iixn

s1

220

1

4. výberový rozptyl

n

ii xx

ns

1

221 1

1

16

5. rozptyl výberového súboru

22 1xx

ns i

je zrejmé, že platí 221 .

1s

n

ns

rozdiel medzi je tým menší, čím väčší je rozsah výberového súboru n, pričom pri veľmi rozsiahlych výberových súboroch je zanedbateľný.

2 21,s s

Rozdelenie pravdepodobností výberovej charakteristiky je veľmi dôležité pre riešenie úloh výberového skúmania a preto sa snažíme určiť jeho analytické vyjadrenie a jeho parametre. Pre výberové rozdelenie, ako pre každé rozdelenie náhodnej premennej, je možné určiť rôzne charakteristiky. Rozdelenie pravdepodobností výberovej charakteristiky všeobecne závisí od rozdelenia pravdepodobnosti skúmanej premennej v základnom súbore, od typu výberovej charakteristiky a od rozsahu výberového súboru.

17

Pri riešení úloh výberového šetrenia používame :

Rozdelenie Podmienky Parameter ZS Kvantil –výpočet

Normálne n ≥ 30 μ, resp.μ1 μ2 =normsinv(1-α)

Studentovo n < 30 μ, resp.μ1 μ2 =tinv(α,n-1)

Chí-kvadrát σ2 =chiinv(1-α/2,n-1)

F pre σ21 a σ2

2 = finv(α,n1-1,n2-1)

Kde α je hladina významnosti a koeficient 1-α nazývame spoľahlivosť s ktorou riešime úlohy výberového zisťovania. Uspokojivé výsledky dostaneme spravidla vtedy, ak volíme spoľahlivosť 95 %, resp. 99%.

Pre 95 % spoľahlivosť zodpovedá hladina významnosti α = 0,05, 1 – α = 0,95,Pre 99 % spoľahlivosť zodpovedá hladina významnosti α = 0,01, 1 – α = 0,99

18

Teória štatistického odhadu (TO)

Rozlišujeme:

1. Bodový odhad

2. Intervalový odhad

Podstatou teórie odhadu je neznáme parametre základného súboru odhadovať pomocou výberových charakteristík

19

Bodový odhadZákladom bodového odhadu je odhadnúť parameter G základného súboru pomocou údajov z výberového súboru, tj. pomocou výberovej charakteristiky un . Parameter pritom odhadujeme jedným číslom, (jedným bodom) odtiaľ názov bodový odhad tj.: un = G resp. nestG u

čo čítame : estimátorom (odhadom ) parametra G je un .

Výberová charakteristika je náhodná premenná, ktorej hodnoty sa menia v závislosti od toho, ktoré jednotky základného súboru tvoria výberový súbor. Rozdiel medzi G a un definuje chybu odhadu tj.:

nn uGu

20

Prirodzenou požiadavkou je, aby chyba odhadu bola čo najmenšia. To dosiahneme vtedy ak výberová charakteristika spĺňa základné vlastnosti bodových odhadov:

1. konzistenciu, tj výberová charakteristika un je konzistentným odhadom parametra G základného súboru, ak sa so zväčšovaním rozsahu výberového súboru výberová charakteristika blíži parametru G.

2. neskreslenosť, tj. výberová charakteristika un je neskresleným (nevychýleným) odhadom parametra G, ak sa stredná hodnota výberovej charakteristiky rovná odhadovanému parametru .

3. výdatnosť, tj. výdatným odhadom parametra G základného súboru nazývame takú charakteristiku un , ktorej rozptyl je zo všetkých výberových charakteristík poskytujúcich neskreslený odhad parametra G najmenší.

21

K bodovému odhadu parametrov základného súboru najčastejšie využívame tieto metódy: - metóda momentov

- metóda maximálnej vierohodnosti- metóda najmenších štvorcov.

22

Na základe vlastností, ktoré musí spĺňať výberová charakteristika, platí, že výberový priemer , je konzistentným, neskresleným a výdatným odhadom strednej hodnoty základného súboru , čo zapíšeme:

x

est x a čítame: estimátorom (bodovým odhadom) strednej hodnoty základného súboru je výberový priemer . Ak odhadujeme priemer základného súboru výberovým priemerom dopúšťame sa chyby odhadu, ktorú definujeme:

xunpričom jej veľkosť nevieme presne určiť. Ale môžeme odhadnúť tzv. štandardnú chybu odhadu, ktorá predstavuje priemernú veľkosť chýb odhadov pri mnohokrát opakovaných výberoch daného rozsahu. Štandardnú chybu pri známej štandardnej odchýlke základného súboru a rozsahu výberového súboru vypočítame

n

x

23

Avšak štandardnú odchýlku základného súboru často nepoznáme, preto nemôžeme štandardnú chybu výberového priemeru určiť presne, a tak ju odhadujeme pomocou výberovej štandardnej chyby odhadu výberového priemeru , ktorú definujeme

xs

n

sxs 1

1

s

n

24

Pre rozptyl základného súboru platí, že jeho bodovým odhadom (konzistentným, neskresleným a výdatným), je výberový rozptyl tj.:

2 21est s

čo čítame: estimátorom (bodovým odhadom) rozptylu základného súboru je výberový rozptyl , ktorý vypočítame podľa vzťahu

n

ii xx

ns

1

221 1

1

Pre štandardnú odchýlku základného súboru platí, že jej bodovým odhadom, konzistentným, neskresleným a výdatným, je výberová štandardná odchýlka

čo čítame: estimátorom, (bodovým odhadom) štandardnej odchýlky základného súboru je výberová štandardná odchýlka , ktorú vypočítame ako odmocninu s výberového rozptylu

Skutočnosť, že pri bodových odhadoch dochádza k výberovým chybám, veľkosť ktorých nie je možné presne určiť, vedie k tomu, že sa bodové odhady dopĺňajú o intervalové odhady

1est s

211 ss

25

Intervalové odhadyIntervalovým odhadom parametra G základného súboru sa nazýva taký odhad, kedy sa odhadovaný parameter nachádza s pravdepodobnosťou v intervale , tj.:1

121 gGgP

Interval sa nazýva interval spoľahlivosti. Hranice g1 a g2 sú funkcie výberovej charakteristiky un . Ak sú hranice intervalu spoľahlivosti konečné čísla definujeme pravdepodobnosť

22 gGP 11 gGP

tj. pravdepodobnosť, že parameter základného súboru G je menší ako g1 sa rovná a pravdepodobnosť, že prekročí hodnotu g2 sa rovná . Súčet pravdepodobností označuje pravdepodobnosť, že parameter

základného súboru G nie je z intervalu spoľahlivosti a nazýva sa riziko odhadu

( riziko podhodnotenia, riziko nadhodnotenia)

1 221

12

26

)( nuf

1

2

1-

g1 g2

Riziko odhadu a interval spoľahlivosti

27

Pravdepodobnosť sa nazýva koeficient spoľahlivosti alebo jednoducho spoľahlivosť odhadu, a je hladina významnosti. Za predpokladu, že koeficient spoľahlivosti je číslo blízke jednej, možno s určitosťou tvrdiť, že parameter základného súboru je z intervalu spoľahlivosti.

Zvyšovaním spoľahlivosti sa však súčasne interval spoľahlivosti rozširuje, čím sa znižuje presnosť odhadu - a naopak, so znižovaním spoľahlivosti sa interval spoľahlivosti zužuje, čím sa zvyšuje presnosť odhadu. Bodový odhad potom môžeme považovať za extrémny prípad intervalového odhadu s nulovou šírkou intervalu ( odhad je síce presný ale stráca na spoľahlivosti ).

1

Pri praktických výpočtoch najčastejšie zostavujeme intervaly spoľahlivosti obojstranné, ak je parameter základného súboru ohraničený zdola aj zhora, kedy aj sú rôzne od nuly. O symetrickom intervale hovoríme vtedy ak riziko nadhodnotenia aj podhodnotenia je rovnaké (v ďalšom texte sa budeme zaoberať len symetrickými intervalmi),

28

Intervalový odhad strednej hodnoty

a.) pri známom rozptyle základného súboru , vychádzame pri konštrukcii intervalu spoľahlivosti z veličiny:

xx

1)( 2121 u

x

xuP

1))(.)(.( 2121 xuxxuxP

21 u je kvantil normovaného normálneho rozdelenia

29

1xxP

Intervalový odhad je možné zapísať v tvare

prípustná chyba odhadu predstavujúca polovicu šírky symetrického intervalu spoľahlivosti a je daná výrazom:

n

uxu .. 2121

b.) ak nepoznáme rozptyl základného súboru má veličina tvar

xsx

1)( 2121 u

xs

xuP

30

1))(.)(.( 2121 xstxxstxP

1xxP

n

st 1

21 .alebo

1 21

st

n

c.) ak nepoznáme rozptyl základného súboru

a n je menší ako 30 má veličina tvar

1 2 1 2( . ( ) . ( )) 1P x u s x x u s x

31

Intervalový odhad rozptylu a štandardnej odchýlky

1)

1( 2

212

212

2

snP

1)11

(2

2

212

221

21 snsn

P

22 je dolný kvantil a

221 je horný kvantil rozdelenia z (n-1) stupňami voľnosti

2

32

1112

2

21

221

21 snsn

P

2

Documents

Štatistická indukcia – Výberové skúmanie