Přednáška 6

Preview:

DESCRIPTION

Přednáška 6. Výběrové charakteristiky, Úvod do teorie odhadu Výběrové charakteristiky parametry populace vs. výběrové charakteristiky limitní věty další rozdělení pravděpodobnosti ( Pearsonovo , Studentovo, Fisher-Snedecorovo ) Úvod do teorie odhadu bodové odhady vs. intervalové odhady - PowerPoint PPT Presentation

Citation preview

Přednáška 6Výběrové charakteristiky, Úvod do teorie odhadu

• Výběrové charakteristiky– parametry populace vs. výběrové charakteristiky– limitní věty– další rozdělení pravděpodobnosti (Pearsonovo, Studentovo, Fisher-

Snedecorovo)• Úvod do teorie odhadu

– bodové odhady vs. intervalové odhady– vlastnosti bodových odhadů– intervalové odhady

• jednovýběrové• rozdílů, resp. podílů, parametrů dvou populací

Princip statistické indukce

Výběrové charakteristiky

Výběrové charakteristiky

• Parametry populace (obvykle pro jejich značení používáme symboly řecké abecedy) jsou konstanty.

• Charakteristiky výběru (obvykle značíme latinkou) jsou obvykle různé – v závislosti na pořízeném výběru. Jsou to náhodné veličiny.

Základní soubor

(populace)stř. hodnota

, resp. medián

x0,5

rozptyl, resp.

směr. odchylkaσ

pravděpodobnostπ

Výběrový soubor (výběr)

(výběrový) průměr

výběrový medián výběrový rozptyl

S2

výběrovásměr. odchylka

Srel. četnost

p

Variabilita výběrových charakteristik

Variabilitu výběrových charakteristik ovlivňují tři faktory:• rozsah populace ,• rozsah výběru ,

• způsob získání náhodného výběru.

Je-li rozsah populace mnohem větší než rozsah výběru , pak variabilita výběrových charakteristik je obvykle zhruba stejná jak pro výběry s opakováním, tak pro výběry bez opakování.

Rozdělení výběrového průměru

• V appletu Rozdělení průměru (java) sledujte vliv rozdělení populace a rozsahu výběru na rozdělení průměru.

• Vlastnosti výběrového průměru

Limitní větyaneb popis pravděpodobnostních modelů pro případ

rostoucího počtu realizací náhodného pokusu

Slabý zákon velkých čísel

Mějme nekonečný náhodný výběr z rozdělení se střední hodnotou a konečným rozptylem, kde jsou nekorelované náhodné veličiny. Potom platí, že výběrový průměr vypočítaný z prvních n pozorování se pro blíží ke střední hodnotě , což zapisujeme

.

Centrální limitní věta

Jsou-li nezávislé náhodné veličiny se stejnou střední hodnotou a se stejným konečným rozptylem, pak výběrový průměr má při dostatečně velkém počtu pozorování přibližně normální rozdělení, ať už pocházejí z libovolného rozdělení. Centrální limitní větu zapisujeme

nebo .

Předpoklady CLV:• nezávislé náhodné veličiny ,• , • ; ,• (v praxi, , výběr neobsahuje odlehlé pozorování).

Centrální limitní věta

• Vlastnosti výběrového průměru

n=1n=5n=10n=30

x

f(x)

0 200

0,2

0,4

0,6

0,8

1

1,2

Vliv rozsahu výběru na graf hustoty pravděpodobnosti výběrového průměru

Životnost elektrického holicího strojku EHS má exponenciální rozdělení se střední hodnotou 2 roky. Určete pravděpodobnost, že průměrná životnost 150 prodaných holicích strojků EHS bude vyšší než 27 měsíců.

Řešení:

… průměrná životnost 150 holících strojků EHS

, tj.

Důsledky centrální limitní věty (1)

• Rozdělení součtu náhodných veličinNechť:

• nezávislé náhodné veličiny ,• , • ; ,• (v praxi, , výběr neobsahuje odlehlé pozorování),

pak.

Výletní člun má nosnost 5000kg. Hmotnost cestujících je náhodná veličina se střední hodnotou 70kg a směrodatnou odchylkou 20kg. Kolik cestujících může člunem cestovat, aby pravděpodobnost přetížení člunu byla menší než 0,001?

Řešení:

… celková hmotnost n cestujících

>>… řešení je dokončeno v Úvod do statistiky, str. 72-73.

Důsledky centrální limitní věty (2)

Důkaz:

• Nechť , pak .• Dle CLV: , tj. .

p

Relativní četnost p má pro dostatečně velké výběry přibližně normální rozdělení s parametry .

Výběry považujeme obvykle za dostatečně velké v případě, že .

Rozdíl průměrů

Mějme náhodný výběr z rozdělení se střední hodnotou a náhodný výběr z rozdělení se střední hodnotou . Dále nechť jsou splněny následující předpoklady:• Rozsah každé z populací je dostatečně velký vzhledem k rozsahu

příslušného výběru .• Platí předpoklady CLV, zejména to, že každý z výběrů pochází z normálního

rozdělení nebo je dostatečně velký (za dostatečně velké obvykle považujeme výběry s rozsahem větším než 30). Pak:

.

Dokažte!

Rozdíl relativních četností

Výběrový průměr vypočítaný z prvních pozorování náhodného výběru z udává relativní četnost jevu A a značíme ji . Obdobně vypočítaný z prvních pozorování náhodného výběru z udává relativní četnost jevu B a značíme ji . Dále nechť:• Rozsah každé z populací je dostatečně velký vzhledem k rozsahu

příslušného výběru .• Výběry z obou populací jsou dostatečně velké na to, aby pro modelování

rozdílu mezi relativními četnostmi mohlo být použito normální rozdělení. Výběry jsou obvykle považovány za dostatečně velké v případě, že . Pak:

.

Dokažte!

Spojitá rozdělení náhodné veličinymající využití v metodách statistické indukce

K čemu potřebujeme znát výběrová rozdělení?

• Výběrová rozdělení nacházejí uplatnění při odhadech střední hodnoty a pravděpodobnosti, resp. jejich rozdílů nebo při testování hypotéz o těchto parametrech.

Při odhadech rozptylu, poměru rozptylů, odhadech střední hodnoty v případě, že máme k dispozici pouze malý výběr, který nepochází z normálního rozdělení, a v dalších metodách statistické indukce nacházejí uplatnění tři důležitá spojitá rozdělení:

• - rozdělení, • Studentovo rozdělení,

• Fisher – Snedecorovo rozdělení.

- rozdělení (Pearsonovo rozdělení)

Mějme nezávislé náhodné veličiny , z nichž každá má normované normální rozdělení. Součet čtverců těchto náhodných veličin, tj. náhodná veličina má rozdělení (čteme „chí-kvadrát“) s stupni volnosti, což značíme .

, pak

Sledujte vliv stupňů volnosti na tvar rozdělení NV s rozdělením , její střední hodnotu a rozptyl. (Spojitá rozdělení – excel)

- rozdělení (Pearsonovo rozdělení)

Mějme nezávislé náhodné veličiny , z nichž každá má normované normální rozdělení. Součet čtverců těchto náhodných veličin, tj. náhodná veličina má rozdělení (čteme „chí-kvadrát“) s stupni volnosti, což značíme .

, pak

Vlastnosti - rozdělení: 1. ; . Pro 2. Předpokládejme, že provedeme náhodný pokus spočívající v náhodném

výběru o rozsahu n z populace podléhající normálnímu rozdělení s rozptylem . Pro uvedený výběr určíme výběrovou směrodatnou odchylku s. Lze ukázat, že :

- rozdělení (Pearsonovo rozdělení)

Mějme nezávislé náhodné veličiny , z nichž každá má normované normální rozdělení. Součet čtverců těchto náhodných veličin, tj. náhodná veličina má rozdělení (čteme „chí-kvadrát“) s stupni volnosti, což značíme .

, pak

Použití - rozdělení: 1. Vlastnosti, že se využívá k testování toho, zda rozptyl základního souboru

s normálním rozdělením je roven , resp. k odhadování směrodatné odchylky ZS s norm. rozdělením.

2. - rozdělení se používá pro ověření nezávislosti kategoriálních proměnných (test nezávislosti v kontingenční tabulce).

3. Pokud testujeme, zda náhodné veličiny (naměřená data) pocházejí z určitého rozdělení, můžeme také s úspěchem použít - rozdělení. Tento test je znám pod názvem "test dobré shody".

Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Pro ověřování kvality výroby bude testováno 20 žárovek. Jaká je pravděpodobnost, že při tomto testu bude zjištěna směrodatná odchylka životnosti vyšší než 7 měsíců?

Řešení:S … výběrová směrodatná odchylka

Neznáme rozdělení S!ALE!

Nechť . Pak .V našem případě:

S využitím výpočetního appletu vybrana_rozdeleni_pravdepodobnosti.xlsx .

Studentovo (t) rozdělení

Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T,

, má Studentovo t rozdělení s stupni volnosti, což značíme . Sledujte vliv stupňů volnosti na tvar rozdělení NV s rozdělením , její střední hodnotu a rozptyl. (Spojitá rozdělení – excel)

Studentovo (t) rozdělení

Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T,

, má Studentovo t rozdělení s stupni volnosti, což značíme . Vlastnosti Studentova rozdělení: 1. ; . Pro 2. Pokud náhodné veličiny X1,X2,...,Xn mají normální rozdělení a jsou

navzájem nezávislé, pak náhodná veličina .

Studentovo (t) rozdělení

Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T,

, má Studentovo t rozdělení s stupni volnosti, což značíme . Vlastnosti Studentova rozdělení: 3. Mějme dva výběry z normálního rozdělení se stejným rozptylem. Pak .

Studentovo (t) rozdělení

Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T,

, má Studentovo t rozdělení s stupni volnosti, což značíme . Vlastnosti Studentova rozdělení: 4. Mějme dva výběry z normálního rozdělení s různými rozptyly. Pak kde .

Studentovo (t) rozdělení

Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T,

, má Studentovo t rozdělení s stupni volnosti, což značíme . Vlastnosti Studentova rozdělení: 4. Mějme dva výběry z normálního rozdělení s různými rozptyly. Pak kde .

Studentovo (t) rozdělení

Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T,

, má Studentovo t rozdělení s stupni volnosti, což značíme . Použití Studentova rozdělení: 1. modelování založené na analýze malých výběrů,2. testování hypotéz o střední hodnotě, pokud je rozptyl základního

souboru neznámý a výběr pochází z normálního rozdělení,3. testování hypotéz o shodě středních hodnot, 4. analýza výsledků regresní analýzy.

Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.)

Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit)

Jak na to?Nechť X je NV, jejíž rozdělení známe. Pak

.

Zvolíme-li , pak

Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.)

Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit)

Jak na to?

Nechť .Po dosazení: , kde je p-kvantil Studentova rozdělení s (n-1) stupni volnosti.

Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.)

Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit)

Po dosazení: , kde je p-kvantil Studentova rozdělení s (n-1) stupni volnosti. (Uvědomte si, že .)

Po úpravě:

Po dosazení:

Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.)

Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit)

Po dosazení: , kde je p-kvantil Studentova rozdělení s (n-1) stupni volnosti. (Uvědomte si, že .)

Po úpravě:

Po dosazení:

Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.)

Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit)

S pravděpodobností 95% se hledaná střední hodnota životnosti žárovek pohybuje v rozmezí 921,7h až 978,3h.

Fisher-Snedecorovo (F) rozdělení

Mějme dvě nezávislé náhodné veličiny V a W s rozdělením . První z nich má počet stupňů volnosti m, druhá má počet stupňů volnosti n (obecně mají různý počet stupňů volnosti). Pak má náhodná veličina

Fisherovo-Snedecorovo rozdělení o m a n stupních volnosti, což značíme .

Sledujte vliv stupňů volnosti na tvar rozdělení NV s rozdělením , její střední hodnotu a rozptyl. (Spojitá rozdělení – excel)

Fisher-Snedecorovo (F) rozdělení

Mějme dvě nezávislé náhodné veličiny V a W s rozdělením . První z nich má počet stupňů volnosti m, druhá má počet stupňů volnosti n (obecně mají různý počet stupňů volnosti). Pak má náhodná veličina

Fisherovo-Snedecorovo rozdělení o m a n stupních volnosti, což značíme .

Vlastnosti Fisherova-Snedecorova rozdělení:1. Mějme dva výběry z normálního rozdělení ( a jsou příslušné výběrové

rozptyly. Pak

Fisher-Snedecorovo (F) rozdělení

Mějme dvě nezávislé náhodné veličiny V a W s rozdělením . První z nich má počet stupňů volnosti m, druhá má počet stupňů volnosti n (obecně mají různý počet stupňů volnosti). Pak má náhodná veličina

Fisherovo-Snedecorovo rozdělení o m a n stupních volnosti, což značíme .

Použití Fisherova-Snedecorova rozdělení:1. k testu o shodě rozptylů dvou základních souborů,2. k testům o shodě středních hodnot více než dvou základních souborů,

v tzv. analýze rozptylu,3. k testům v regresní analýze.

Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Uvedené informace specifikujeme: Žárovky jsou vyráběny na dvou linkách. Předpokládejme, že obě linky mají srovnatelné parametry, tj. že průměrná životnost a variabilita životnosti žárovek Ed vyrobených ve firmě Edison nezávisí na tom, na jaké lince byly vyrobeny. Pro ověření kvality výroby bude testována životnost 20 žárovek z linky 1 a 30 žárovek z linky 2. Jaká je pravděpodobnost, že u vzorku z linky 1 bude zjištěn více než dvojnásobný rozptyl oproti rozptylu zjištěnému u vzorku z linky 2?

Řešení: … rozptyl životnosti zjištěný u vzorku z linky 1 … rozptyl životnosti zjištěný u vzorku z linky 2

Za předpokladu, že oba vzorky jsou výběrem z normálního rozdělení platí

Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Uvedené informace specifikujeme: Žárovky jsou vyráběny na dvou linkách. Předpokládejme, že obě linky mají srovnatelné parametry, tj. že průměrná životnost a variabilita životnosti žárovek Ed vyrobených ve firmě Edison nezávisí na tom, na jaké lince byly vyrobeny. Pro ověření kvality výroby bude testována životnost 20 žárovek z linky 1 a 30 žárovek z linky 2. Jaká je pravděpodobnost, že u vzorku z linky 1 bude zjištěn více než dvojnásobný rozptyl oproti rozptylu zjištěnému u vzorku z linky 2?

Řešení: … rozptyl životnosti zjištěný u vzorku z linky 1 … rozptyl životnosti zjištěný u vzorku z linky 2

Za předpokladu, že oba vzorky jsou výběrem z normálního rozdělení platí

Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Uvedené informace specifikujeme: Žárovky jsou vyráběny na dvou linkách. Předpokládejme, že obě linky mají srovnatelné parametry, tj. že průměrná životnost a variabilita životnosti žárovek Ed vyrobených ve firmě Edison nezávisí na tom, na jaké lince byly vyrobeny. Pro ověření kvality výroby bude testována životnost 20 žárovek z linky 1 a 30 žárovek z linky 2. Jaká je pravděpodobnost, že u vzorku z linky 1 bude zjištěn více než dvojnásobný rozptyl oproti rozptylu zjištěnému u vzorku z linky 2?

Řešení: … rozptyl životnosti zjištěný u vzorku z linky 1 … rozptyl životnosti zjištěný u vzorku z linky 2

(dle vybrana_rozdeleni_pravdepodobnosti.xlsx)

Za předpokladu, že oba vzorky jsou výběrem z normálního rozdělení platí

Úvod do teorie odhadu

Lze určit střední hodnotu životnosti el. součástek?

Lze určit účinnost léku?

Lze určit, který výrobce vyrábí kvalitněji?

Neznáme-li rozdělení náhodné veličiny X, pak

parametry náhodné veličiny X nelze většinou přesně určit, lze je jen odhadnout.

Jak odhadnout parametry populace?

• Bodový odhad - parametr základního souboru aproximujeme jediným číslem

• Intervalový odhad – parametr populace aproximujeme intervalem, v němž s velkou pravděpodobností příslušný populační parametr leží.

Bodový odhad

Mějme náhodný výběr z určitého rozdělení, které závisí na neznámém parametru . Odhadem parametru je pak výběrová charakteristika , která nabývá hodnot „blízkých“ neznámému parametru .

Vybrané populační parametry a jejich bodové odhady:

Základní soubor

(populace)stř. hodnota

, resp. medián

x0,5

rozptyl, resp.

směr. odchylkaσ

pravděpodobnostπ

Výběrový soubor (výběr)

(výběrový) průměr

výběrový medián výběrový rozptyl

S2

výběrovásměr. odchylka

Srel. četnost

p

obecně značíme

obecně značíme

konstanty

náhodné veličiny

Vlastnosti „dobrého“ bodového odhadu

• nestrannost (nevychýlenost, nezkreslenost)– odhad je nestranný, jestliže se jeho střední hodnota rovná hledanému

parametru, tj. (viz příklad 4.1, Úvod do statistiky)

• vydatnost (eficience)– nestranný odhad, jehož rozptyl je nejmenší mezi rozptyly všech

nestranných odhadů příslušného parametru, se nazývá nejlepší nestranný (vydatný, eficientní) odhad

• konzistence– odhad je konzistentní, pokud se s rostoucím rozsahem výběru

zpřesňuje, k čemuž dochází pokud ,, tj. pokud se rozdělení odhadu T s rostoucím rozsahem výběru „zužuje“ kolem hledaného parametru .

Interval spolehlivosti vs. intervalový odhad

Interval spolehlivosti (konfidenční interval) pro parametr se spolehlivostí , kde , je taková dvojice statistik , že

.

Intervalový odhad je jednou z realizací intervalu spolehlivosti.

V čem spočívá výhoda intervalových odhadů vůči bodovým odhadům?

Přinášejí informaci o nejistotě (nepřesnosti) odhadu.

Co je co v terminologii intervalových odhadů?

𝑃 (𝑇 𝐷≤𝜃≤𝑇𝐻 )=1−𝛼

hledaný parametr(konstanta, kterou nejsme

schopni přesně určit)

meze intervalu spolehlivosti(náhodné veličiny)

spolehlivost odhadu, tj. pravděpodobnost s níž hledaný parametr leží v intervalu

Co to znamená, že spolehlivost odhadu je 1-?

1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97Vę660ob660cný

Vę660ob660cný

realizace

odha

d

Simulace intervalových odhadů střední hodnoty (spolehlivost 0,95) získaných na základě opakovaných výběrů o rozsahu 30 z populace se střední hodnotou 100. 6 intervalů ze 100 neobsahuje skutečnou střední hodnou.

Jaké máme požadavky na interval spolehlivosti?

• Co největší spolehlivost odhadu.• Co nejmenší šířka intervalu spolehlivosti. (S rostoucí šířkou intervalového

odhadu klesá významnost získané informace.)

V appletu Intervalové odhady (jar) sledujte vliv spolehlivosti odhadu a rozsahu výběru na intervalový odhad.

Závěr:• S rostoucí spolehlivostí se zvětšuje šířka intervalového odhadu a tím klesá

významnost takto získané informace. Nutnost kompromisu • S rostoucím rozsahem výběru se šířka intervalového odhadu snižuje.

hladina významnosti

Jaké jsou typy intervalů spolehlivosti?

• oboustranné

Tyto dvě podmínky zaručují, že .

• jednostranné (odhadujeme-li například délku života nějakého zařízení, je pro nás důležitá pouze dolní mez)– levostranné: – pravostranné :

Jak najít intervalový odhad parametru

Obecně:1) Zvolíme vhodnou výběrovou charakteristiku , jejíž rozdělení známe.

(Nechť jsou p-kvantily náhodné veličiny .)

, .

Vždyť jsme již něco takového počítali!

(str. 27-30 této prezentace)

Vybrané intervalové odhady parametrů rozdělení náhodné veličiny

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením

a) známe-li rozptyl Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou a známým rozptylem . Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n a průměr .

• Dle CLV: • Označme .• Oboustranný interval spolehlivosti , kde jsou p-kvantily N(0;1)

𝑃 (𝑋 − 𝜎√𝑛

𝑧1− 𝛼2≤𝜇≤ 𝑋+

𝜎√𝑛

𝑧1−𝛼2 )=1−𝛼

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením

a) známe-li rozptyl Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou a známým rozptylem . Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n a průměr .

• Dle CLV: • Označme .• Levostranný interval spolehlivosti

𝑃 (𝜇 ≥𝑋 − 𝜎√𝑛

𝑧1−𝛼)=1−𝛼

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením

a) známe-li rozptyl Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou a známým rozptylem . Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n a průměr .

• Dle CLV: • Označme .• Pravostranný interval spolehlivosti

𝑃 (𝜇 ≤𝑋+𝜎√𝑛

𝑧 1−𝛼)=1−𝛼

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením

a) známe-li rozptyl Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou a známým rozptylem . Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n a průměr .

Intervalový odhad střední hodnoty se spolehlivostí při známém rozptylu

OboustrannýLevostrannýPravostranný

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením

b) neznáme-li rozptyl Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou a neznámým rozptylem . Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n, průměr a výběrovou směrodatnou odchylku .

• Dle vlastností Studentova rozdělení: • Označme a dále můžeme pokračovat obdobně jako v předchozím

případě.

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením

b) neznáme-li rozptyl Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou a neznámým rozptylem . Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n, průměr a výběrovou směrodatnou odchylku .

jsou p-kvantily Studentova rozdělení s n-1 stupni volnosti

Intervalový odhad střední hodnoty se spolehlivostí při neznámém rozptylu

OboustrannýLevostrannýPravostranný

Intervalový odhad střední hodnoty - obecně

V obecném případě, kdy neznáme typ rozdělení, používáme tzv. robustní (neparametrické) postupy. Robustní postupy hodnocení náhodné veličiny typicky používáme v případech, kdy • výběrový soubor obsahuje odlehlá pozorování, která nemohou být

opravena a není vhodné je vyloučit,• výběrový soubor nepochází z normálního rozdělení,• výběrový soubor má velké rozptýlení dat.

Výklad robustních přístupů není součástí základního kurzu statistiky. Zájemci najdou základní informace v kapitole 4.4 (Úvod do statistiky).

Intervalový odhad rozptylunormálního rozdělení

Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou a neznámým rozptylem . Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n a výběrovou směrodatnou odchylku .

• Dle vlastností Pearsonova ( rozdělení: • Označme . Jednoduše lze ukázat, že:

Intervalový odhad rozptylunormálního rozdělení

Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou a neznámým rozptylem . Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n a výběrovou směrodatnou odchylku .

jsou p-kvantily -rozdělení s n-1 stupni volnosti

Intervalový odhad rozptylu se spolehlivostí při neznámé střední hodnotě

Oboustranný Levostranný Pravostranný

Intervalový odhad parametru binom. rozdělení(máme-li k dispozici dostatečně velký výběr

Mějme k dispozici výběrový soubor, jehož rozsah• je dostatečně velký ,• je menší než 5% rozsahu základního souboru ,• splňuje podmínku

• Dle CLV: , tj. • Označme . Lze ukázat, že:

Intervalový odhad parametru binom. rozdělení(máme-li k dispozici dostatečně velký výběr

Mějme k dispozici výběrový soubor, jehož rozsah• je dostatečně velký ,• je menší než 5% rozsahu základního souboru ,• splňuje podmínku

Intervalový odhad relativní četnosti se spolehlivostí

Oboustranný Levostranný Pravostranný

standardní (Waldův) odhad

Intervalový odhad parametru binom. rozdělení(máme-li k dispozici dostatečně velký výběr

POZOR!• Relativní četnost je z intervalu . Je tedy zřejmé, že dolní mez

intervalových odhadů relativní četnosti nemůže klesnout pod 0 a horní mez těchto odhadů nemůže být větší než 1!

• Bylo ukázáno, že standardní (Waldův) odhad není optimální, existuje spousta vhodnějších alternativ (např. Wilsonův odhad, Clopperův-Pearsonův odhad (Statgraphics), Agresti-Coullův odhad…).

Při kontrole data spotřeby určitého druhu masové konzervy ve skladech produktů masného průmyslu bylo náhodně vybráno 320 z 20 000 konzerv a zjištěno, že 59 z nich má prošlou záruční lhůtu. Stanovte se spolehlivostí 95% intervalový odhad podílu konzerv s prošlou záruční lhůtou

Řešení:Výběrový soubor:, • Rozsah výběru je dostatečně velký a nepřevyšuje 5% rozsahu populace .

Pro konkrétní výpočet použijte výpočetní applet Intervalové odhady jednovýběrové (excel)

Odhad rozsahu výběruv případě, že odhadujeme střední hodnotu nebo rel. četnost

• chyba odhadu polovina šířky oboustranného intervalu spolehlivosti

• Požadovanou přesnost výpočtu vyjadřujeme pomocí tzv. přípustné chyby odhadu , tj. hodnoty o kterou jsme ochotni se zmýlit oproti skutečné hodnotě odhadovaného parametru při dané spolehlivosti odhadu (hladině významnosti).

Odhad rozsahu výběruv případě, že odhadujeme střední hodnotu nebo rel. četnost

Oboustranný intervalový odhad střední hodnoty pro případ, že neznáme rozptyl je

. Přípustná chyba odhadu je . Požadujeme-li, aby přípustná chyba odhadu , pak:

Odhad rozsahu výběruv případě, že odhadujeme střední hodnotu nebo parametr binom.

rozdělení

Odhad rozsahu výběru potřebného pronalezení interval. odhadu se spolehlivostí a maximální přípustnou chybou

Odhadovaný populační parametr Požadovanýrozsah výběru

Střední hodnota (známe )Střední hodnota (neznáme )

Relativní četnost

Výběrovým šetřením bychom chtěli odhadnout průměrnou mzdu pracovníků určitého výrobního odvětví. Z vyčerpávajícího šetření, které probíhalo před několika měsíci, víme, že směrodatná odchylka mezd byla 750,- Kč. Odhad chceme provést s 95% spolehlivostí a jsme ochotni připustit maximální chybu ve výši 50,-Kč. Jak velký musíme provést výběr, abychom zajistili požadovanou přesnost a spolehlivost?

Řešení:

,

(viz Tabulka 1, resp. dle appletu Vybraná rozdělení pravděpodobnosti (excel)) Rozsah výběru proto odhadneme jako

, tj. .

Pro řešení lze použít výpočetní applet Intervalové odhady jednovýběrové (excel).

Intervalový odhad poměru rozptylů dvou náhodných veličin s normálním rozdělením

Mějme dva výběry z normálního rozdělení, tj. , kde je rozsah prvního výběru: , kde je rozsah prvního výběru: Nechť a jsou výběrové rozptyly daných výběrů.

• Dle vlastností Fisher-Sneecorova rozdělení: • Označme , pak je zřejmé, že:

Intervalový odhad poměru rozptylů dvou náhodných veličin s normálním rozdělením

Mějme dva výběry z normálního rozdělení, tj. , kde je rozsah prvního výběru: , kde je rozsah prvního výběru: Nechť a jsou výběrové rozptyly daných výběrů.

jsou p-kvantily Fisher-Snedecorova rozdělení s st. volnosti v čitateli a st. volnosti ve jmenovateli

Intervalový odhad poměru rozptylů se spolehlivostí Oboustranný Levostranný Pravostranný

Intervalový odhad rozdílů středních hodnot dvou náhodných veličin s normálním rozdělením

Intervalový odhad rozdílu středních hodnot dvou populací s normálním rozdělením, z nichž byly pořízeny náhodné výběry, lze provádět za trojího předpokladu. • Známe rozptyly σ1

2 a σ22 obou populací.

• Neznáme rozptyly obou populací, ale lze předpokládat, že jsou shodné.• Neznáme rozptyly obou populací a nelze předpokládat, že jsou shodné.

Intervalový odhad rozdílů středních hodnot dvou náhodných veličin s normálním rozdělením

a) známe rozptyly σ12 a σ2

2 obou populací

Mějme dvě populace s normálním rozdělením, jejichž rozptyly σ12 a σ2

2 známe. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n1 a n2 a určili jejich průměry a .

• Z vlastností rozdílu dvou průměru víme, že .• Označme: Pak lze jednoduše ukázat, že: 𝑇 ( 𝑿 )

Intervalový odhad rozdílů středních hodnot dvou náhodných veličin s normálním rozdělením

a) známe rozptyly σ12 a σ2

2 obou populací

Mějme dvě populace s normálním rozdělením, jejichž rozptyly σ12 a σ2

2 známe. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n1 a n2 a určili jejich průměry a .

Intervalový odhad rozdílu středních hodnot se spolehlivostí (známe )

Oboustranný Levostranný Pravostranný

Intervalový odhad rozdílů středních hodnot dvou náhodných veličin s normálním rozdělením

b) neznáme jejich rozptyly a , ale víme, že

Mějme dvě populace s normálním rozdělením, jejichž rozptyly neznáme. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n1 a n2 a určili jejich průměry a a výběrové směrodatné odchylky a .

jsou 100p% kvantily Studentova rozdělení s stupni volnosti

Intervalový odhad rozdílu středních hodnot se spolehlivostí (neznáme , ale víme, že )

Oboustranný Levostranný Pravostranný

Intervalový odhad rozdílů středních hodnot dvou náhodných veličin s normálním rozdělením

c) neznáme jejich rozptyly a , a nelze předpokládat, že

Mějme dvě populace s normálním rozdělením, jejichž rozptyly neznáme. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n1 a n2 a určili jejich průměry a a výběrové směrodatné odchylky a .

… 100p% kvantily Student. rozdělení s stupni volnosti

Intervalový odhad rozdílu středních hodnot se spolehlivostí (neznáme a nelze předpokládat, že )

Oboustranný Levostranný Pravostranný

Intervalový odhad pro rozdíl parametrů binom. rozdělenídvou náhodných veličin

Mějme dvě populace. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n1 a n2. Výběr z první populace obsahoval x1 prvků se sledovanou vlastností, výběr z druhé populace obsahoval x2 prvků se sledovanou vlastností. Výběrové relativní četnosti jsme pak určili dle vztahů , . Mají-li výběrové soubory rozsahy, které• jsou dostatečně velké ,• jsou menší než 5% rozsahu základního souboru ,• splňují podmínky , , pak víme, že

má přibližně normované normální rozdělení .

Mějme dvě populace. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n1 a n2. Výběr z první populace obsahoval x1 prvků se sledovanou vlastností, výběr z druhé populace obsahoval x2 prvků se sledovanou vlastností. Výběrové relativní četnosti jsme pak určili dle vztahů , .

Intervalový odhad rozdílu relativních četností se spolehlivostí

Oboustranný Levostranný Pravostranný

Intervalový odhad pro rozdíl parametrů binom. rozdělenídvou náhodných veličin

Diskety dvou velkých výrobců - DISK a EMEM byly podrobeny zkoušce kvality. Diskety obou výrobců jsou baleny po 20 kusech. Ve 40 balíčcích firmy DISK bylo nalezeno 24 vadných disket, ve 30 balíčcích EMEM bylo nalezeno 14 vadných disket. Se spolehlivostí 0,95 určete intervalový odhad rozdílu relativních četností (procent) vadných disket v celkové produkci firem DISK a EMEM.

Řešení:

Pro konkrétní numerické řešení lze použít výpočetní applet Intervalové odhady rozdílu, resp. podílu parametrů dvou populací (excel).

A co jsem se to vlastně dozvěděl?

Diskety dvou velkých výrobců - DISK a EMEM byly podrobeny zkoušce kvality. Diskety obou výrobců jsou baleny po 20 kusech. Ve 40 balíčcích firmy DISK bylo nalezeno 24 vadných disket, ve 30 balíčcích EMEM bylo nalezeno 14 vadných disket. Se spolehlivostí 0,95 určete intervalový odhad rozdílu relativních četností (procent) vadných disket v celkové produkci firem DISK a EMEM.

Řešení:Pokud by diskety firem DISK a EMEM byly stejně kvalitní, pak by podíly vadných disket v jejích produkcích byly stejné, neboli rozdíl v podílech vadných disket v jednotlivých produkcích by byl 0.

. Ukázali jsme, že intervalový odhad rozdílu podílu vadných disket obsahuje 0.

Se spolehlivostí 95% lze tedy tvrdit, že diskety obou výrobců jsou stejně kvalitní. Zamyslete se nad tím, jak by musel vypadat nalezený intervalový odhad, abychom mohli tvrdit, že diskety firmy 5M jsou kvalitnější.

Ale to už jsme se dostali k testování hypotéz, jimž se budeme zabývat příště.

Děkuji za pozornost!