Upload
josie
View
50
Download
8
Embed Size (px)
DESCRIPTION
Štatistická indukcia – Výberové skúmanie. Štatistické zisťovanie môžeme robiť buď ako vyčerpávajúce (úplné) alebo výberové (neúplné) . - PowerPoint PPT Presentation
Citation preview
1
Štatistická indukcia
–Výberové skúmanie
2
Štatistické zisťovanie môžeme robiť buď ako vyčerpávajúce (úplné) alebo výberové (neúplné).
Úplné zisťovanie predpokladá, že vyšetrujeme všetky štatistické jednotky konečného štatistického súboru a zároveň existuje možnosť získať požadované informácie o každej jednotke, ktorá patrí do základného súboru. Závery získané z vyčerpávajúceho zisťovania platia deterministicky.
Ak nie je možné splniť tieto predpoklady používa sa výberové zisťovanie, kedy skúmame len jednotky vybrané do výberového súboru a pomocou nich robíme úsudky o základnom súbore. Závery výberového šetrenie platia pre výberový súbor deterministicky, ale ak pomocou nich robíme úsudky o celom základnom súbore výsledky majú pravdepodobnostný charakter.
3
Ak chceme vedieť ako chutí víno, uložené v hektolitrovom sude, nemusíme vypiť celý sud. Stačí malý „dúšok“ k posúdeniu jeho kvality….
Ak chceme zistiť, či náklad orechov v nákladnom aute je z veľkej časti pokazený, stačí keď vyberieme pár orechov z rôznych miest nákladu a rozlúskneme ich…
Ak chceme vedieť aká je vlhkosť obilia na vlečke nemusíme merať vlhkosť celej vlečky ale náhodným spôsobom zoberieme niekoľko vzoriek z rôznych miest ...
4
Pri výberovom zisťovaní teda neskúmame všetky jednotky základného súboru, ale iba ich časť, ktorá musí byť schopná poskytnúť informácie o základnom súbore tj. je reprezentatívna.
Je potrebné si uvedomiť, že nie každý výber je reprezentatívny .
5
Úlohy výberového zisťovania možno rozdeliť do dvoch základných skupín:
1. teória odhadu, kedy odhadujeme charakteristiky základných súborov pomocou výberových údajov.
2. testovanie hypotéz, kedy o základnom súbore vytvárame určité hypotézy a overujeme ich platnosť.
Okrem základných úloh riešime aj dve pomocné (sprievodné) úlohy, ktoré sú vždy súčasťou základných úloh:
11. otázky spojené s vytváraním výberových súborov2. určenie teoretických rozdelení charakteristík,
získaných z výberových súborov.
6
Príklady výberového skúmania
• Štatistika rodinných účtov,
• kontrola kvality
• marketingový prieskum spotrebiteľských zvyklostí…
• výberové skúmanie u podnikov vybraného sektora,
• prieskum verejnej mienky …
7
Podstata výberového skúmania a základné pojmy
Výberový súbor,
rozsah n
Označenie:parametre základného súboru: , 2, , Nvšeobecne G
charakteristiky výberového súboru:všeobecne un
2, s , ,x s n
Základnýsúbor, rozsah N,resp.
8
Charakteristika Základný súbor Výberový súbor
Rozsah N n
Stredná hodnota
Rozptyl
Smerodajná odchýlka
x
2 21s
1s
9
Kvantifikácia rizík rôznych výrokov alebo úsudkov o základnom súbore na základe výberových údajov je možná, ak sa jednotky zo základného súboru vyberajú náhodne.
Náhodným výberom budeme rozumieť taký výber, kedy každá jednotka základného súboru má rovnakú pravdepodobnosť, že bude vybraná.
Tento predpoklad umožňuje využívať teóriu pravdepodobnosti ku kvantifikácii rizika omylu a tak hodnotiť presnosť a spoľahlivosť získaných výsledkov. Induktívne usudzovanie pomocou matematicko – štatistických metód sa nazýva
štatistická indukcia (= zovšeobecňovanie).
10
Náhodný a zámerný výber
Náhodný výber je taký výber štatistických jednotiek zo základného súboru, kedy o tom či bude jednotka zaradená do výberu rozhoduje len náhoda.
Náhodný výber môže byť realizovaný rôznymi spôsobmi. Najjednoduchším typom náhodného výberu je jednoduchý náhodný výber, kedy jednotky vyberáme priamo z netriedeného základného súboru a každá jednotka má pritom rovnakú možnosť, že bude vybraná.
Jednoduchý náhodný výber môžeme prakticky realizovať dvoma spôsobmi:
výber s opakovaním, kedy vybraná jednotka zostáva v zozname jednotiek a môže byť ešte znovu vybraná do výberu.výber bez opakovania, kedy vybraná jednotka nezostáva po vybratí
v zozname, tzn.: do výberu môže byť zaradená len raz.
11
Okrem jednoduchého náhodného výberu sa často používajú aj niektoré zložitejšie typy náhodného výberu. Jedná sa najmä o oblastný alebo stratifikovaný výber a viacstupňový výber.
Princíp oblastného výberu spočíva v tom, že základný súbor roztriedime podľa určitého hľadiska do oblastí (skupín alebo strat ) a v jednotlivých skupinách sa urobia náhodné výbery jednotiek. Ak sa v každej skupine vyberá rovnaké množstvo jednotiek hovoríme o oblastnom proporcionálnom výbere .
Pri viacstupňovom výbere je samotný proces výberu rozdelený do viacerých stupňov alebo krokov. Napríklad pri dvojstupňovom výbere sa v prvom stupni vyberajú skupiny jednotiek (tzv. primárne jednotky) a v druhom stupni sa vo vybraných skupinách vyberajú opäť náhodným spôsobom samotné jednotky (tzv. sekundárne jednotky). Pri viacstupňovom výbere sa tento postup uskutočňuje vo viac krokoch. Modifikácií náhodného výberu existuje samozrejme viac.
12
Zámerným výberom sa rozumie taký výber, kedy o zaradení jednotiek do výberu nerozhoduje len náhoda, ale aj rôzne logické alebo praktické hľadiská a tiež subjektívne názory .
Zvolené hľadiská vyplývajú najčastejšie z toho, že poznáme dôležité črty základného súboru a využívame ich pri výberovom zisťovaní. Pri zámernom výbere vplývajú subjektívne názory na výber jednotiek, pričom dôsledky ich vplyvu na číselné hodnoty vo výberovom súbore nepoznáme.
Záverom treba pripomenúť, že výberový súbor sa často tvorí tak, že nepoužijeme žiadny výberový postup, ale jednotky sa zaraďujú do výberového súboru postupne podľa ich výskytu. Nejedná sa tu teda o vyberanie, ale o voľné nekontrolované zaraďovanie jednotiek do výberového súboru. Takýto prípad sa často vyskytuje pri hypotetických základných súboroch. Je potrebné dôsledne posúdiť, či voľné zaraďovanie jednotiek do výberového súboru nevedie ku skresleniu záverov výberového skúmania.
13
Výberové charakteristiky a ich rozdelenia
Výberové súbory hodnotíme pomocou výberových charakteristík vypočítaných z hodnôt alebo obmien štatistických znakov výberového súboru.
Vzhľadom na konkrétny výberový súbor je výberová charakteristika konštantná veličina, z hľadiska skúmaného základného súboru je však náhodnou premennou.
Vyplýva to z toho, že z daného základného súboru môžeme vytvoriť veľký počet výberových súborov s určitým, vopred stanoveným rozsahom, ktoré sa navzájom líšia. Z každého takto vytvoreného výberového súboru získame rôzne hodnoty výberových charakteristík, lebo každá výberová charakteristika je odvodená z hodnôt vybraných jednotiek, je to náhodná premenná.
14
Pri praktických úlohách vytvárame z jedného základného súboru spravidla len jeden výberový súbor a z neho jednu výberovú charakteristiku určitého typu, teda jednu realizáciu náhodnej premennej. Predpokladajme, že náhodný výber o rozsahu n jednotiek sa skladá z hodnôt , výberovú charakteristiku potom možno vyjadriť ako funkciu
),,,( 21 nn xxxfu
15
Medzi najbežnejšie výberové charakteristiky patria
1. výberový úhrn
n
iixm
1
2. výberový priemer
n
iixn
x1
1
3. výberový rozptyl pri známej strednej hodnote základného súboru
n
iixn
s1
220
1
4. výberový rozptyl
n
ii xx
ns
1
221 1
1
16
5. rozptyl výberového súboru
22 1xx
ns i
je zrejmé, že platí 221 .
1s
n
ns
rozdiel medzi je tým menší, čím väčší je rozsah výberového súboru n, pričom pri veľmi rozsiahlych výberových súboroch je zanedbateľný.
2 21,s s
Rozdelenie pravdepodobností výberovej charakteristiky je veľmi dôležité pre riešenie úloh výberového skúmania a preto sa snažíme určiť jeho analytické vyjadrenie a jeho parametre. Pre výberové rozdelenie, ako pre každé rozdelenie náhodnej premennej, je možné určiť rôzne charakteristiky. Rozdelenie pravdepodobností výberovej charakteristiky všeobecne závisí od rozdelenia pravdepodobnosti skúmanej premennej v základnom súbore, od typu výberovej charakteristiky a od rozsahu výberového súboru.
17
Pri riešení úloh výberového šetrenia používame :
Rozdelenie Podmienky Parameter ZS Kvantil –výpočet
Normálne n ≥ 30 μ, resp.μ1 μ2 =normsinv(1-α)
Studentovo n < 30 μ, resp.μ1 μ2 =tinv(α,n-1)
Chí-kvadrát σ2 =chiinv(1-α/2,n-1)
F pre σ21 a σ2
2 = finv(α,n1-1,n2-1)
Kde α je hladina významnosti a koeficient 1-α nazývame spoľahlivosť s ktorou riešime úlohy výberového zisťovania. Uspokojivé výsledky dostaneme spravidla vtedy, ak volíme spoľahlivosť 95 %, resp. 99%.
Pre 95 % spoľahlivosť zodpovedá hladina významnosti α = 0,05, 1 – α = 0,95,Pre 99 % spoľahlivosť zodpovedá hladina významnosti α = 0,01, 1 – α = 0,99
18
Teória štatistického odhadu (TO)
Rozlišujeme:
1. Bodový odhad
2. Intervalový odhad
Podstatou teórie odhadu je neznáme parametre základného súboru odhadovať pomocou výberových charakteristík
19
Bodový odhadZákladom bodového odhadu je odhadnúť parameter G základného súboru pomocou údajov z výberového súboru, tj. pomocou výberovej charakteristiky un . Parameter pritom odhadujeme jedným číslom, (jedným bodom) odtiaľ názov bodový odhad tj.: un = G resp. nestG u
čo čítame : estimátorom (odhadom ) parametra G je un .
Výberová charakteristika je náhodná premenná, ktorej hodnoty sa menia v závislosti od toho, ktoré jednotky základného súboru tvoria výberový súbor. Rozdiel medzi G a un definuje chybu odhadu tj.:
nn uGu
20
Prirodzenou požiadavkou je, aby chyba odhadu bola čo najmenšia. To dosiahneme vtedy ak výberová charakteristika spĺňa základné vlastnosti bodových odhadov:
1. konzistenciu, tj výberová charakteristika un je konzistentným odhadom parametra G základného súboru, ak sa so zväčšovaním rozsahu výberového súboru výberová charakteristika blíži parametru G.
2. neskreslenosť, tj. výberová charakteristika un je neskresleným (nevychýleným) odhadom parametra G, ak sa stredná hodnota výberovej charakteristiky rovná odhadovanému parametru .
3. výdatnosť, tj. výdatným odhadom parametra G základného súboru nazývame takú charakteristiku un , ktorej rozptyl je zo všetkých výberových charakteristík poskytujúcich neskreslený odhad parametra G najmenší.
21
K bodovému odhadu parametrov základného súboru najčastejšie využívame tieto metódy: - metóda momentov
- metóda maximálnej vierohodnosti- metóda najmenších štvorcov.
22
Na základe vlastností, ktoré musí spĺňať výberová charakteristika, platí, že výberový priemer , je konzistentným, neskresleným a výdatným odhadom strednej hodnoty základného súboru , čo zapíšeme:
x
est x a čítame: estimátorom (bodovým odhadom) strednej hodnoty základného súboru je výberový priemer . Ak odhadujeme priemer základného súboru výberovým priemerom dopúšťame sa chyby odhadu, ktorú definujeme:
xunpričom jej veľkosť nevieme presne určiť. Ale môžeme odhadnúť tzv. štandardnú chybu odhadu, ktorá predstavuje priemernú veľkosť chýb odhadov pri mnohokrát opakovaných výberoch daného rozsahu. Štandardnú chybu pri známej štandardnej odchýlke základného súboru a rozsahu výberového súboru vypočítame
n
x
23
Avšak štandardnú odchýlku základného súboru často nepoznáme, preto nemôžeme štandardnú chybu výberového priemeru určiť presne, a tak ju odhadujeme pomocou výberovej štandardnej chyby odhadu výberového priemeru , ktorú definujeme
xs
n
sxs 1
1
s
n
24
Pre rozptyl základného súboru platí, že jeho bodovým odhadom (konzistentným, neskresleným a výdatným), je výberový rozptyl tj.:
2 21est s
čo čítame: estimátorom (bodovým odhadom) rozptylu základného súboru je výberový rozptyl , ktorý vypočítame podľa vzťahu
n
ii xx
ns
1
221 1
1
Pre štandardnú odchýlku základného súboru platí, že jej bodovým odhadom, konzistentným, neskresleným a výdatným, je výberová štandardná odchýlka
čo čítame: estimátorom, (bodovým odhadom) štandardnej odchýlky základného súboru je výberová štandardná odchýlka , ktorú vypočítame ako odmocninu s výberového rozptylu
Skutočnosť, že pri bodových odhadoch dochádza k výberovým chybám, veľkosť ktorých nie je možné presne určiť, vedie k tomu, že sa bodové odhady dopĺňajú o intervalové odhady
1est s
211 ss
25
Intervalové odhadyIntervalovým odhadom parametra G základného súboru sa nazýva taký odhad, kedy sa odhadovaný parameter nachádza s pravdepodobnosťou v intervale , tj.:1
121 gGgP
Interval sa nazýva interval spoľahlivosti. Hranice g1 a g2 sú funkcie výberovej charakteristiky un . Ak sú hranice intervalu spoľahlivosti konečné čísla definujeme pravdepodobnosť
22 gGP 11 gGP
tj. pravdepodobnosť, že parameter základného súboru G je menší ako g1 sa rovná a pravdepodobnosť, že prekročí hodnotu g2 sa rovná . Súčet pravdepodobností označuje pravdepodobnosť, že parameter
základného súboru G nie je z intervalu spoľahlivosti a nazýva sa riziko odhadu
( riziko podhodnotenia, riziko nadhodnotenia)
1 221
12
26
)( nuf
1
2
1-
g1 g2
Riziko odhadu a interval spoľahlivosti
27
Pravdepodobnosť sa nazýva koeficient spoľahlivosti alebo jednoducho spoľahlivosť odhadu, a je hladina významnosti. Za predpokladu, že koeficient spoľahlivosti je číslo blízke jednej, možno s určitosťou tvrdiť, že parameter základného súboru je z intervalu spoľahlivosti.
Zvyšovaním spoľahlivosti sa však súčasne interval spoľahlivosti rozširuje, čím sa znižuje presnosť odhadu - a naopak, so znižovaním spoľahlivosti sa interval spoľahlivosti zužuje, čím sa zvyšuje presnosť odhadu. Bodový odhad potom môžeme považovať za extrémny prípad intervalového odhadu s nulovou šírkou intervalu ( odhad je síce presný ale stráca na spoľahlivosti ).
1
Pri praktických výpočtoch najčastejšie zostavujeme intervaly spoľahlivosti obojstranné, ak je parameter základného súboru ohraničený zdola aj zhora, kedy aj sú rôzne od nuly. O symetrickom intervale hovoríme vtedy ak riziko nadhodnotenia aj podhodnotenia je rovnaké (v ďalšom texte sa budeme zaoberať len symetrickými intervalmi),
28
Intervalový odhad strednej hodnoty
a.) pri známom rozptyle základného súboru , vychádzame pri konštrukcii intervalu spoľahlivosti z veličiny:
xx
1)( 2121 u
x
xuP
1))(.)(.( 2121 xuxxuxP
21 u je kvantil normovaného normálneho rozdelenia
29
1xxP
Intervalový odhad je možné zapísať v tvare
prípustná chyba odhadu predstavujúca polovicu šírky symetrického intervalu spoľahlivosti a je daná výrazom:
n
uxu .. 2121
b.) ak nepoznáme rozptyl základného súboru má veličina tvar
xsx
1)( 2121 u
xs
xuP
30
1))(.)(.( 2121 xstxxstxP
1xxP
n
st 1
21 .alebo
1 21
st
n
c.) ak nepoznáme rozptyl základného súboru
a n je menší ako 30 má veličina tvar
1 2 1 2( . ( ) . ( )) 1P x u s x x u s x
31
Intervalový odhad rozptylu a štandardnej odchýlky
1)
1( 2
212
212
2
snP
1)11
(2
2
212
221
21 snsn
P
22 je dolný kvantil a
221 je horný kvantil rozdelenia z (n-1) stupňami voľnosti
2
32
1112
2
21
221
21 snsn
P
2