80
Přednáška 6 Výběrové charakteristiky, Úvod do teorie odhadu Výběrové charakteristiky parametry populace vs. výběrové charakteristiky limitní věty další rozdělení pravděpodobnosti (Pearsonovo, Studentovo, Fisher-Snedecorovo) Úvod do teorie odhadu bodové odhady vs. intervalové odhady vlastnosti bodových odhadů intervalové odhady • jednovýběrové • rozdílů, resp. podílů, parametrů dvou populací

Přednáška 6

  • Upload
    cleave

  • View
    59

  • Download
    0

Embed Size (px)

DESCRIPTION

Přednáška 6. Výběrové charakteristiky, Úvod do teorie odhadu Výběrové charakteristiky parametry populace vs. výběrové charakteristiky limitní věty další rozdělení pravděpodobnosti ( Pearsonovo , Studentovo, Fisher-Snedecorovo ) Úvod do teorie odhadu bodové odhady vs. intervalové odhady - PowerPoint PPT Presentation

Citation preview

Page 1: Přednáška 6

Přednáška 6Výběrové charakteristiky, Úvod do teorie odhadu

• Výběrové charakteristiky– parametry populace vs. výběrové charakteristiky– limitní věty– další rozdělení pravděpodobnosti (Pearsonovo, Studentovo, Fisher-

Snedecorovo)• Úvod do teorie odhadu

– bodové odhady vs. intervalové odhady– vlastnosti bodových odhadů– intervalové odhady

• jednovýběrové• rozdílů, resp. podílů, parametrů dvou populací

Page 2: Přednáška 6

Princip statistické indukce

Page 3: Přednáška 6

Výběrové charakteristiky

Page 4: Přednáška 6

Výběrové charakteristiky

• Parametry populace (obvykle pro jejich značení používáme symboly řecké abecedy) jsou konstanty.

• Charakteristiky výběru (obvykle značíme latinkou) jsou obvykle různé – v závislosti na pořízeném výběru. Jsou to náhodné veličiny.

Základní soubor

(populace)stř. hodnota

, resp. medián

x0,5

rozptyl, resp.

směr. odchylkaσ

pravděpodobnostπ

Výběrový soubor (výběr)

(výběrový) průměr

výběrový medián výběrový rozptyl

S2

výběrovásměr. odchylka

Srel. četnost

p

Page 5: Přednáška 6

Variabilita výběrových charakteristik

Variabilitu výběrových charakteristik ovlivňují tři faktory:• rozsah populace ,• rozsah výběru ,

• způsob získání náhodného výběru.

Je-li rozsah populace mnohem větší než rozsah výběru , pak variabilita výběrových charakteristik je obvykle zhruba stejná jak pro výběry s opakováním, tak pro výběry bez opakování.

Page 6: Přednáška 6

Rozdělení výběrového průměru

• V appletu Rozdělení průměru (java) sledujte vliv rozdělení populace a rozsahu výběru na rozdělení průměru.

• Vlastnosti výběrového průměru

Page 7: Přednáška 6

Limitní větyaneb popis pravděpodobnostních modelů pro případ

rostoucího počtu realizací náhodného pokusu

Page 8: Přednáška 6

Slabý zákon velkých čísel

Mějme nekonečný náhodný výběr z rozdělení se střední hodnotou a konečným rozptylem, kde jsou nekorelované náhodné veličiny. Potom platí, že výběrový průměr vypočítaný z prvních n pozorování se pro blíží ke střední hodnotě , což zapisujeme

.

Page 9: Přednáška 6

Centrální limitní věta

Jsou-li nezávislé náhodné veličiny se stejnou střední hodnotou a se stejným konečným rozptylem, pak výběrový průměr má při dostatečně velkém počtu pozorování přibližně normální rozdělení, ať už pocházejí z libovolného rozdělení. Centrální limitní větu zapisujeme

nebo .

Předpoklady CLV:• nezávislé náhodné veličiny ,• , • ; ,• (v praxi, , výběr neobsahuje odlehlé pozorování).

Page 10: Přednáška 6

Centrální limitní věta

• Vlastnosti výběrového průměru

n=1n=5n=10n=30

x

f(x)

0 200

0,2

0,4

0,6

0,8

1

1,2

Vliv rozsahu výběru na graf hustoty pravděpodobnosti výběrového průměru

Page 11: Přednáška 6

Životnost elektrického holicího strojku EHS má exponenciální rozdělení se střední hodnotou 2 roky. Určete pravděpodobnost, že průměrná životnost 150 prodaných holicích strojků EHS bude vyšší než 27 měsíců.

Řešení:

… průměrná životnost 150 holících strojků EHS

, tj.

Page 12: Přednáška 6

Důsledky centrální limitní věty (1)

• Rozdělení součtu náhodných veličinNechť:

• nezávislé náhodné veličiny ,• , • ; ,• (v praxi, , výběr neobsahuje odlehlé pozorování),

pak.

Page 13: Přednáška 6

Výletní člun má nosnost 5000kg. Hmotnost cestujících je náhodná veličina se střední hodnotou 70kg a směrodatnou odchylkou 20kg. Kolik cestujících může člunem cestovat, aby pravděpodobnost přetížení člunu byla menší než 0,001?

Řešení:

… celková hmotnost n cestujících

>>… řešení je dokončeno v Úvod do statistiky, str. 72-73.

Page 14: Přednáška 6

Důsledky centrální limitní věty (2)

Důkaz:

• Nechť , pak .• Dle CLV: , tj. .

p

Relativní četnost p má pro dostatečně velké výběry přibližně normální rozdělení s parametry .

Výběry považujeme obvykle za dostatečně velké v případě, že .

Page 15: Přednáška 6

Rozdíl průměrů

Mějme náhodný výběr z rozdělení se střední hodnotou a náhodný výběr z rozdělení se střední hodnotou . Dále nechť jsou splněny následující předpoklady:• Rozsah každé z populací je dostatečně velký vzhledem k rozsahu

příslušného výběru .• Platí předpoklady CLV, zejména to, že každý z výběrů pochází z normálního

rozdělení nebo je dostatečně velký (za dostatečně velké obvykle považujeme výběry s rozsahem větším než 30). Pak:

.

Dokažte!

Page 16: Přednáška 6

Rozdíl relativních četností

Výběrový průměr vypočítaný z prvních pozorování náhodného výběru z udává relativní četnost jevu A a značíme ji . Obdobně vypočítaný z prvních pozorování náhodného výběru z udává relativní četnost jevu B a značíme ji . Dále nechť:• Rozsah každé z populací je dostatečně velký vzhledem k rozsahu

příslušného výběru .• Výběry z obou populací jsou dostatečně velké na to, aby pro modelování

rozdílu mezi relativními četnostmi mohlo být použito normální rozdělení. Výběry jsou obvykle považovány za dostatečně velké v případě, že . Pak:

.

Dokažte!

Page 17: Přednáška 6

Spojitá rozdělení náhodné veličinymající využití v metodách statistické indukce

Page 18: Přednáška 6

K čemu potřebujeme znát výběrová rozdělení?

• Výběrová rozdělení nacházejí uplatnění při odhadech střední hodnoty a pravděpodobnosti, resp. jejich rozdílů nebo při testování hypotéz o těchto parametrech.

Při odhadech rozptylu, poměru rozptylů, odhadech střední hodnoty v případě, že máme k dispozici pouze malý výběr, který nepochází z normálního rozdělení, a v dalších metodách statistické indukce nacházejí uplatnění tři důležitá spojitá rozdělení:

• - rozdělení, • Studentovo rozdělení,

• Fisher – Snedecorovo rozdělení.

Page 19: Přednáška 6

- rozdělení (Pearsonovo rozdělení)

Mějme nezávislé náhodné veličiny , z nichž každá má normované normální rozdělení. Součet čtverců těchto náhodných veličin, tj. náhodná veličina má rozdělení (čteme „chí-kvadrát“) s stupni volnosti, což značíme .

, pak

Sledujte vliv stupňů volnosti na tvar rozdělení NV s rozdělením , její střední hodnotu a rozptyl. (Spojitá rozdělení – excel)

Page 20: Přednáška 6

- rozdělení (Pearsonovo rozdělení)

Mějme nezávislé náhodné veličiny , z nichž každá má normované normální rozdělení. Součet čtverců těchto náhodných veličin, tj. náhodná veličina má rozdělení (čteme „chí-kvadrát“) s stupni volnosti, což značíme .

, pak

Vlastnosti - rozdělení: 1. ; . Pro 2. Předpokládejme, že provedeme náhodný pokus spočívající v náhodném

výběru o rozsahu n z populace podléhající normálnímu rozdělení s rozptylem . Pro uvedený výběr určíme výběrovou směrodatnou odchylku s. Lze ukázat, že :

Page 21: Přednáška 6

- rozdělení (Pearsonovo rozdělení)

Mějme nezávislé náhodné veličiny , z nichž každá má normované normální rozdělení. Součet čtverců těchto náhodných veličin, tj. náhodná veličina má rozdělení (čteme „chí-kvadrát“) s stupni volnosti, což značíme .

, pak

Použití - rozdělení: 1. Vlastnosti, že se využívá k testování toho, zda rozptyl základního souboru

s normálním rozdělením je roven , resp. k odhadování směrodatné odchylky ZS s norm. rozdělením.

2. - rozdělení se používá pro ověření nezávislosti kategoriálních proměnných (test nezávislosti v kontingenční tabulce).

3. Pokud testujeme, zda náhodné veličiny (naměřená data) pocházejí z určitého rozdělení, můžeme také s úspěchem použít - rozdělení. Tento test je znám pod názvem "test dobré shody".

Page 22: Přednáška 6

Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Pro ověřování kvality výroby bude testováno 20 žárovek. Jaká je pravděpodobnost, že při tomto testu bude zjištěna směrodatná odchylka životnosti vyšší než 7 měsíců?

Řešení:S … výběrová směrodatná odchylka

Neznáme rozdělení S!ALE!

Nechť . Pak .V našem případě:

S využitím výpočetního appletu vybrana_rozdeleni_pravdepodobnosti.xlsx .

Page 23: Přednáška 6

Studentovo (t) rozdělení

Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T,

, má Studentovo t rozdělení s stupni volnosti, což značíme . Sledujte vliv stupňů volnosti na tvar rozdělení NV s rozdělením , její střední hodnotu a rozptyl. (Spojitá rozdělení – excel)

Page 24: Přednáška 6

Studentovo (t) rozdělení

Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T,

, má Studentovo t rozdělení s stupni volnosti, což značíme . Vlastnosti Studentova rozdělení: 1. ; . Pro 2. Pokud náhodné veličiny X1,X2,...,Xn mají normální rozdělení a jsou

navzájem nezávislé, pak náhodná veličina .

Page 25: Přednáška 6

Studentovo (t) rozdělení

Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T,

, má Studentovo t rozdělení s stupni volnosti, což značíme . Vlastnosti Studentova rozdělení: 3. Mějme dva výběry z normálního rozdělení se stejným rozptylem. Pak .

Page 26: Přednáška 6

Studentovo (t) rozdělení

Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T,

, má Studentovo t rozdělení s stupni volnosti, což značíme . Vlastnosti Studentova rozdělení: 4. Mějme dva výběry z normálního rozdělení s různými rozptyly. Pak kde .

Page 27: Přednáška 6

Studentovo (t) rozdělení

Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T,

, má Studentovo t rozdělení s stupni volnosti, což značíme . Vlastnosti Studentova rozdělení: 4. Mějme dva výběry z normálního rozdělení s různými rozptyly. Pak kde .

Page 28: Přednáška 6

Studentovo (t) rozdělení

Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s stupni volnosti. Potom náhodná veličina T,

, má Studentovo t rozdělení s stupni volnosti, což značíme . Použití Studentova rozdělení: 1. modelování založené na analýze malých výběrů,2. testování hypotéz o střední hodnotě, pokud je rozptyl základního

souboru neznámý a výběr pochází z normálního rozdělení,3. testování hypotéz o shodě středních hodnot, 4. analýza výsledků regresní analýzy.

Page 29: Přednáška 6

Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.)

Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit)

Jak na to?Nechť X je NV, jejíž rozdělení známe. Pak

.

Zvolíme-li , pak

Page 30: Přednáška 6

Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.)

Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit)

Jak na to?

Nechť .Po dosazení: , kde je p-kvantil Studentova rozdělení s (n-1) stupni volnosti.

Page 31: Přednáška 6

Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.)

Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit)

Po dosazení: , kde je p-kvantil Studentova rozdělení s (n-1) stupni volnosti. (Uvědomte si, že .)

Po úpravě:

Po dosazení:

Page 32: Přednáška 6

Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.)

Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit)

Po dosazení: , kde je p-kvantil Studentova rozdělení s (n-1) stupni volnosti. (Uvědomte si, že .)

Po úpravě:

Po dosazení:

Page 33: Přednáška 6

Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.)

Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit)

S pravděpodobností 95% se hledaná střední hodnota životnosti žárovek pohybuje v rozmezí 921,7h až 978,3h.

Page 34: Přednáška 6

Fisher-Snedecorovo (F) rozdělení

Mějme dvě nezávislé náhodné veličiny V a W s rozdělením . První z nich má počet stupňů volnosti m, druhá má počet stupňů volnosti n (obecně mají různý počet stupňů volnosti). Pak má náhodná veličina

Fisherovo-Snedecorovo rozdělení o m a n stupních volnosti, což značíme .

Sledujte vliv stupňů volnosti na tvar rozdělení NV s rozdělením , její střední hodnotu a rozptyl. (Spojitá rozdělení – excel)

Page 35: Přednáška 6

Fisher-Snedecorovo (F) rozdělení

Mějme dvě nezávislé náhodné veličiny V a W s rozdělením . První z nich má počet stupňů volnosti m, druhá má počet stupňů volnosti n (obecně mají různý počet stupňů volnosti). Pak má náhodná veličina

Fisherovo-Snedecorovo rozdělení o m a n stupních volnosti, což značíme .

Vlastnosti Fisherova-Snedecorova rozdělení:1. Mějme dva výběry z normálního rozdělení ( a jsou příslušné výběrové

rozptyly. Pak

Page 36: Přednáška 6

Fisher-Snedecorovo (F) rozdělení

Mějme dvě nezávislé náhodné veličiny V a W s rozdělením . První z nich má počet stupňů volnosti m, druhá má počet stupňů volnosti n (obecně mají různý počet stupňů volnosti). Pak má náhodná veličina

Fisherovo-Snedecorovo rozdělení o m a n stupních volnosti, což značíme .

Použití Fisherova-Snedecorova rozdělení:1. k testu o shodě rozptylů dvou základních souborů,2. k testům o shodě středních hodnot více než dvou základních souborů,

v tzv. analýze rozptylu,3. k testům v regresní analýze.

Page 37: Přednáška 6

Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Uvedené informace specifikujeme: Žárovky jsou vyráběny na dvou linkách. Předpokládejme, že obě linky mají srovnatelné parametry, tj. že průměrná životnost a variabilita životnosti žárovek Ed vyrobených ve firmě Edison nezávisí na tom, na jaké lince byly vyrobeny. Pro ověření kvality výroby bude testována životnost 20 žárovek z linky 1 a 30 žárovek z linky 2. Jaká je pravděpodobnost, že u vzorku z linky 1 bude zjištěn více než dvojnásobný rozptyl oproti rozptylu zjištěnému u vzorku z linky 2?

Řešení: … rozptyl životnosti zjištěný u vzorku z linky 1 … rozptyl životnosti zjištěný u vzorku z linky 2

Za předpokladu, že oba vzorky jsou výběrem z normálního rozdělení platí

Page 38: Přednáška 6

Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Uvedené informace specifikujeme: Žárovky jsou vyráběny na dvou linkách. Předpokládejme, že obě linky mají srovnatelné parametry, tj. že průměrná životnost a variabilita životnosti žárovek Ed vyrobených ve firmě Edison nezávisí na tom, na jaké lince byly vyrobeny. Pro ověření kvality výroby bude testována životnost 20 žárovek z linky 1 a 30 žárovek z linky 2. Jaká je pravděpodobnost, že u vzorku z linky 1 bude zjištěn více než dvojnásobný rozptyl oproti rozptylu zjištěnému u vzorku z linky 2?

Řešení: … rozptyl životnosti zjištěný u vzorku z linky 1 … rozptyl životnosti zjištěný u vzorku z linky 2

Za předpokladu, že oba vzorky jsou výběrem z normálního rozdělení platí

Page 39: Přednáška 6

Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Uvedené informace specifikujeme: Žárovky jsou vyráběny na dvou linkách. Předpokládejme, že obě linky mají srovnatelné parametry, tj. že průměrná životnost a variabilita životnosti žárovek Ed vyrobených ve firmě Edison nezávisí na tom, na jaké lince byly vyrobeny. Pro ověření kvality výroby bude testována životnost 20 žárovek z linky 1 a 30 žárovek z linky 2. Jaká je pravděpodobnost, že u vzorku z linky 1 bude zjištěn více než dvojnásobný rozptyl oproti rozptylu zjištěnému u vzorku z linky 2?

Řešení: … rozptyl životnosti zjištěný u vzorku z linky 1 … rozptyl životnosti zjištěný u vzorku z linky 2

(dle vybrana_rozdeleni_pravdepodobnosti.xlsx)

Za předpokladu, že oba vzorky jsou výběrem z normálního rozdělení platí

Page 40: Přednáška 6

Úvod do teorie odhadu

Page 41: Přednáška 6

Lze určit střední hodnotu životnosti el. součástek?

Lze určit účinnost léku?

Lze určit, který výrobce vyrábí kvalitněji?

Neznáme-li rozdělení náhodné veličiny X, pak

parametry náhodné veličiny X nelze většinou přesně určit, lze je jen odhadnout.

Page 42: Přednáška 6

Jak odhadnout parametry populace?

• Bodový odhad - parametr základního souboru aproximujeme jediným číslem

• Intervalový odhad – parametr populace aproximujeme intervalem, v němž s velkou pravděpodobností příslušný populační parametr leží.

Page 43: Přednáška 6

Bodový odhad

Mějme náhodný výběr z určitého rozdělení, které závisí na neznámém parametru . Odhadem parametru je pak výběrová charakteristika , která nabývá hodnot „blízkých“ neznámému parametru .

Vybrané populační parametry a jejich bodové odhady:

Základní soubor

(populace)stř. hodnota

, resp. medián

x0,5

rozptyl, resp.

směr. odchylkaσ

pravděpodobnostπ

Výběrový soubor (výběr)

(výběrový) průměr

výběrový medián výběrový rozptyl

S2

výběrovásměr. odchylka

Srel. četnost

p

obecně značíme

obecně značíme

konstanty

náhodné veličiny

Page 44: Přednáška 6

Vlastnosti „dobrého“ bodového odhadu

• nestrannost (nevychýlenost, nezkreslenost)– odhad je nestranný, jestliže se jeho střední hodnota rovná hledanému

parametru, tj. (viz příklad 4.1, Úvod do statistiky)

• vydatnost (eficience)– nestranný odhad, jehož rozptyl je nejmenší mezi rozptyly všech

nestranných odhadů příslušného parametru, se nazývá nejlepší nestranný (vydatný, eficientní) odhad

• konzistence– odhad je konzistentní, pokud se s rostoucím rozsahem výběru

zpřesňuje, k čemuž dochází pokud ,, tj. pokud se rozdělení odhadu T s rostoucím rozsahem výběru „zužuje“ kolem hledaného parametru .

Page 45: Přednáška 6

Interval spolehlivosti vs. intervalový odhad

Interval spolehlivosti (konfidenční interval) pro parametr se spolehlivostí , kde , je taková dvojice statistik , že

.

Intervalový odhad je jednou z realizací intervalu spolehlivosti.

V čem spočívá výhoda intervalových odhadů vůči bodovým odhadům?

Přinášejí informaci o nejistotě (nepřesnosti) odhadu.

Page 46: Přednáška 6

Co je co v terminologii intervalových odhadů?

𝑃 (𝑇 𝐷≤𝜃≤𝑇𝐻 )=1−𝛼

hledaný parametr(konstanta, kterou nejsme

schopni přesně určit)

meze intervalu spolehlivosti(náhodné veličiny)

spolehlivost odhadu, tj. pravděpodobnost s níž hledaný parametr leží v intervalu

Page 47: Přednáška 6

Co to znamená, že spolehlivost odhadu je 1-?

1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97Vę660ob660cný

Vę660ob660cný

realizace

odha

d

Simulace intervalových odhadů střední hodnoty (spolehlivost 0,95) získaných na základě opakovaných výběrů o rozsahu 30 z populace se střední hodnotou 100. 6 intervalů ze 100 neobsahuje skutečnou střední hodnou.

Page 48: Přednáška 6

Jaké máme požadavky na interval spolehlivosti?

• Co největší spolehlivost odhadu.• Co nejmenší šířka intervalu spolehlivosti. (S rostoucí šířkou intervalového

odhadu klesá významnost získané informace.)

V appletu Intervalové odhady (jar) sledujte vliv spolehlivosti odhadu a rozsahu výběru na intervalový odhad.

Závěr:• S rostoucí spolehlivostí se zvětšuje šířka intervalového odhadu a tím klesá

významnost takto získané informace. Nutnost kompromisu • S rostoucím rozsahem výběru se šířka intervalového odhadu snižuje.

hladina významnosti

Page 49: Přednáška 6

Jaké jsou typy intervalů spolehlivosti?

• oboustranné

Tyto dvě podmínky zaručují, že .

• jednostranné (odhadujeme-li například délku života nějakého zařízení, je pro nás důležitá pouze dolní mez)– levostranné: – pravostranné :

Page 50: Přednáška 6

Jak najít intervalový odhad parametru

Obecně:1) Zvolíme vhodnou výběrovou charakteristiku , jejíž rozdělení známe.

(Nechť jsou p-kvantily náhodné veličiny .)

, .

Vždyť jsme již něco takového počítali!

(str. 27-30 této prezentace)

Page 51: Přednáška 6

Vybrané intervalové odhady parametrů rozdělení náhodné veličiny

Page 52: Přednáška 6

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením

a) známe-li rozptyl Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou a známým rozptylem . Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n a průměr .

• Dle CLV: • Označme .• Oboustranný interval spolehlivosti , kde jsou p-kvantily N(0;1)

𝑃 (𝑋 − 𝜎√𝑛

𝑧1− 𝛼2≤𝜇≤ 𝑋+

𝜎√𝑛

𝑧1−𝛼2 )=1−𝛼

Page 53: Přednáška 6

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením

a) známe-li rozptyl Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou a známým rozptylem . Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n a průměr .

• Dle CLV: • Označme .• Levostranný interval spolehlivosti

𝑃 (𝜇 ≥𝑋 − 𝜎√𝑛

𝑧1−𝛼)=1−𝛼

Page 54: Přednáška 6

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením

a) známe-li rozptyl Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou a známým rozptylem . Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n a průměr .

• Dle CLV: • Označme .• Pravostranný interval spolehlivosti

𝑃 (𝜇 ≤𝑋+𝜎√𝑛

𝑧 1−𝛼)=1−𝛼

Page 55: Přednáška 6

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením

a) známe-li rozptyl Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou a známým rozptylem . Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n a průměr .

Intervalový odhad střední hodnoty se spolehlivostí při známém rozptylu

OboustrannýLevostrannýPravostranný

Page 56: Přednáška 6

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením

b) neznáme-li rozptyl Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou a neznámým rozptylem . Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n, průměr a výběrovou směrodatnou odchylku .

• Dle vlastností Studentova rozdělení: • Označme a dále můžeme pokračovat obdobně jako v předchozím

případě.

Page 57: Přednáška 6

Intervalový odhad střední hodnoty náhodné veličiny s normálním rozdělením

b) neznáme-li rozptyl Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou a neznámým rozptylem . Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n, průměr a výběrovou směrodatnou odchylku .

jsou p-kvantily Studentova rozdělení s n-1 stupni volnosti

Intervalový odhad střední hodnoty se spolehlivostí při neznámém rozptylu

OboustrannýLevostrannýPravostranný

Page 58: Přednáška 6

Intervalový odhad střední hodnoty - obecně

V obecném případě, kdy neznáme typ rozdělení, používáme tzv. robustní (neparametrické) postupy. Robustní postupy hodnocení náhodné veličiny typicky používáme v případech, kdy • výběrový soubor obsahuje odlehlá pozorování, která nemohou být

opravena a není vhodné je vyloučit,• výběrový soubor nepochází z normálního rozdělení,• výběrový soubor má velké rozptýlení dat.

Výklad robustních přístupů není součástí základního kurzu statistiky. Zájemci najdou základní informace v kapitole 4.4 (Úvod do statistiky).

Page 59: Přednáška 6

Intervalový odhad rozptylunormálního rozdělení

Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou a neznámým rozptylem . Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n a výběrovou směrodatnou odchylku .

• Dle vlastností Pearsonova ( rozdělení: • Označme . Jednoduše lze ukázat, že:

Page 60: Přednáška 6

Intervalový odhad rozptylunormálního rozdělení

Předpokládejme, že sledovaná náhodná veličina X má normální rozdělení s neznámou střední hodnotou a neznámým rozptylem . Vyberme vzorek z dané populace. Nechť má tento výběrový soubor rozsah n a výběrovou směrodatnou odchylku .

jsou p-kvantily -rozdělení s n-1 stupni volnosti

Intervalový odhad rozptylu se spolehlivostí při neznámé střední hodnotě

Oboustranný Levostranný Pravostranný

Page 61: Přednáška 6

Intervalový odhad parametru binom. rozdělení(máme-li k dispozici dostatečně velký výběr

Mějme k dispozici výběrový soubor, jehož rozsah• je dostatečně velký ,• je menší než 5% rozsahu základního souboru ,• splňuje podmínku

• Dle CLV: , tj. • Označme . Lze ukázat, že:

Page 62: Přednáška 6

Intervalový odhad parametru binom. rozdělení(máme-li k dispozici dostatečně velký výběr

Mějme k dispozici výběrový soubor, jehož rozsah• je dostatečně velký ,• je menší než 5% rozsahu základního souboru ,• splňuje podmínku

Intervalový odhad relativní četnosti se spolehlivostí

Oboustranný Levostranný Pravostranný

standardní (Waldův) odhad

Page 63: Přednáška 6

Intervalový odhad parametru binom. rozdělení(máme-li k dispozici dostatečně velký výběr

POZOR!• Relativní četnost je z intervalu . Je tedy zřejmé, že dolní mez

intervalových odhadů relativní četnosti nemůže klesnout pod 0 a horní mez těchto odhadů nemůže být větší než 1!

• Bylo ukázáno, že standardní (Waldův) odhad není optimální, existuje spousta vhodnějších alternativ (např. Wilsonův odhad, Clopperův-Pearsonův odhad (Statgraphics), Agresti-Coullův odhad…).

Page 64: Přednáška 6

Při kontrole data spotřeby určitého druhu masové konzervy ve skladech produktů masného průmyslu bylo náhodně vybráno 320 z 20 000 konzerv a zjištěno, že 59 z nich má prošlou záruční lhůtu. Stanovte se spolehlivostí 95% intervalový odhad podílu konzerv s prošlou záruční lhůtou

Řešení:Výběrový soubor:, • Rozsah výběru je dostatečně velký a nepřevyšuje 5% rozsahu populace .

Pro konkrétní výpočet použijte výpočetní applet Intervalové odhady jednovýběrové (excel)

Page 65: Přednáška 6

Odhad rozsahu výběruv případě, že odhadujeme střední hodnotu nebo rel. četnost

• chyba odhadu polovina šířky oboustranného intervalu spolehlivosti

• Požadovanou přesnost výpočtu vyjadřujeme pomocí tzv. přípustné chyby odhadu , tj. hodnoty o kterou jsme ochotni se zmýlit oproti skutečné hodnotě odhadovaného parametru při dané spolehlivosti odhadu (hladině významnosti).

Page 66: Přednáška 6

Odhad rozsahu výběruv případě, že odhadujeme střední hodnotu nebo rel. četnost

Oboustranný intervalový odhad střední hodnoty pro případ, že neznáme rozptyl je

. Přípustná chyba odhadu je . Požadujeme-li, aby přípustná chyba odhadu , pak:

Page 67: Přednáška 6

Odhad rozsahu výběruv případě, že odhadujeme střední hodnotu nebo parametr binom.

rozdělení

Odhad rozsahu výběru potřebného pronalezení interval. odhadu se spolehlivostí a maximální přípustnou chybou

Odhadovaný populační parametr Požadovanýrozsah výběru

Střední hodnota (známe )Střední hodnota (neznáme )

Relativní četnost

Page 68: Přednáška 6

Výběrovým šetřením bychom chtěli odhadnout průměrnou mzdu pracovníků určitého výrobního odvětví. Z vyčerpávajícího šetření, které probíhalo před několika měsíci, víme, že směrodatná odchylka mezd byla 750,- Kč. Odhad chceme provést s 95% spolehlivostí a jsme ochotni připustit maximální chybu ve výši 50,-Kč. Jak velký musíme provést výběr, abychom zajistili požadovanou přesnost a spolehlivost?

Řešení:

,

(viz Tabulka 1, resp. dle appletu Vybraná rozdělení pravděpodobnosti (excel)) Rozsah výběru proto odhadneme jako

, tj. .

Pro řešení lze použít výpočetní applet Intervalové odhady jednovýběrové (excel).

Page 69: Přednáška 6

Intervalový odhad poměru rozptylů dvou náhodných veličin s normálním rozdělením

Mějme dva výběry z normálního rozdělení, tj. , kde je rozsah prvního výběru: , kde je rozsah prvního výběru: Nechť a jsou výběrové rozptyly daných výběrů.

• Dle vlastností Fisher-Sneecorova rozdělení: • Označme , pak je zřejmé, že:

Page 70: Přednáška 6

Intervalový odhad poměru rozptylů dvou náhodných veličin s normálním rozdělením

Mějme dva výběry z normálního rozdělení, tj. , kde je rozsah prvního výběru: , kde je rozsah prvního výběru: Nechť a jsou výběrové rozptyly daných výběrů.

jsou p-kvantily Fisher-Snedecorova rozdělení s st. volnosti v čitateli a st. volnosti ve jmenovateli

Intervalový odhad poměru rozptylů se spolehlivostí Oboustranný Levostranný Pravostranný

Page 71: Přednáška 6

Intervalový odhad rozdílů středních hodnot dvou náhodných veličin s normálním rozdělením

Intervalový odhad rozdílu středních hodnot dvou populací s normálním rozdělením, z nichž byly pořízeny náhodné výběry, lze provádět za trojího předpokladu. • Známe rozptyly σ1

2 a σ22 obou populací.

• Neznáme rozptyly obou populací, ale lze předpokládat, že jsou shodné.• Neznáme rozptyly obou populací a nelze předpokládat, že jsou shodné.

Page 72: Přednáška 6

Intervalový odhad rozdílů středních hodnot dvou náhodných veličin s normálním rozdělením

a) známe rozptyly σ12 a σ2

2 obou populací

Mějme dvě populace s normálním rozdělením, jejichž rozptyly σ12 a σ2

2 známe. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n1 a n2 a určili jejich průměry a .

• Z vlastností rozdílu dvou průměru víme, že .• Označme: Pak lze jednoduše ukázat, že: 𝑇 ( 𝑿 )

Page 73: Přednáška 6

Intervalový odhad rozdílů středních hodnot dvou náhodných veličin s normálním rozdělením

a) známe rozptyly σ12 a σ2

2 obou populací

Mějme dvě populace s normálním rozdělením, jejichž rozptyly σ12 a σ2

2 známe. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n1 a n2 a určili jejich průměry a .

Intervalový odhad rozdílu středních hodnot se spolehlivostí (známe )

Oboustranný Levostranný Pravostranný

Page 74: Přednáška 6

Intervalový odhad rozdílů středních hodnot dvou náhodných veličin s normálním rozdělením

b) neznáme jejich rozptyly a , ale víme, že

Mějme dvě populace s normálním rozdělením, jejichž rozptyly neznáme. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n1 a n2 a určili jejich průměry a a výběrové směrodatné odchylky a .

jsou 100p% kvantily Studentova rozdělení s stupni volnosti

Intervalový odhad rozdílu středních hodnot se spolehlivostí (neznáme , ale víme, že )

Oboustranný Levostranný Pravostranný

Page 75: Přednáška 6

Intervalový odhad rozdílů středních hodnot dvou náhodných veličin s normálním rozdělením

c) neznáme jejich rozptyly a , a nelze předpokládat, že

Mějme dvě populace s normálním rozdělením, jejichž rozptyly neznáme. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n1 a n2 a určili jejich průměry a a výběrové směrodatné odchylky a .

… 100p% kvantily Student. rozdělení s stupni volnosti

Intervalový odhad rozdílu středních hodnot se spolehlivostí (neznáme a nelze předpokládat, že )

Oboustranný Levostranný Pravostranný

Page 76: Přednáška 6

Intervalový odhad pro rozdíl parametrů binom. rozdělenídvou náhodných veličin

Mějme dvě populace. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n1 a n2. Výběr z první populace obsahoval x1 prvků se sledovanou vlastností, výběr z druhé populace obsahoval x2 prvků se sledovanou vlastností. Výběrové relativní četnosti jsme pak určili dle vztahů , . Mají-li výběrové soubory rozsahy, které• jsou dostatečně velké ,• jsou menší než 5% rozsahu základního souboru ,• splňují podmínky , , pak víme, že

má přibližně normované normální rozdělení .

Page 77: Přednáška 6

Mějme dvě populace. Z těchto populací jsme provedli dva nezávislé náhodné výběry o rozsahu n1 a n2. Výběr z první populace obsahoval x1 prvků se sledovanou vlastností, výběr z druhé populace obsahoval x2 prvků se sledovanou vlastností. Výběrové relativní četnosti jsme pak určili dle vztahů , .

Intervalový odhad rozdílu relativních četností se spolehlivostí

Oboustranný Levostranný Pravostranný

Intervalový odhad pro rozdíl parametrů binom. rozdělenídvou náhodných veličin

Page 78: Přednáška 6

Diskety dvou velkých výrobců - DISK a EMEM byly podrobeny zkoušce kvality. Diskety obou výrobců jsou baleny po 20 kusech. Ve 40 balíčcích firmy DISK bylo nalezeno 24 vadných disket, ve 30 balíčcích EMEM bylo nalezeno 14 vadných disket. Se spolehlivostí 0,95 určete intervalový odhad rozdílu relativních četností (procent) vadných disket v celkové produkci firem DISK a EMEM.

Řešení:

Pro konkrétní numerické řešení lze použít výpočetní applet Intervalové odhady rozdílu, resp. podílu parametrů dvou populací (excel).

A co jsem se to vlastně dozvěděl?

Page 79: Přednáška 6

Diskety dvou velkých výrobců - DISK a EMEM byly podrobeny zkoušce kvality. Diskety obou výrobců jsou baleny po 20 kusech. Ve 40 balíčcích firmy DISK bylo nalezeno 24 vadných disket, ve 30 balíčcích EMEM bylo nalezeno 14 vadných disket. Se spolehlivostí 0,95 určete intervalový odhad rozdílu relativních četností (procent) vadných disket v celkové produkci firem DISK a EMEM.

Řešení:Pokud by diskety firem DISK a EMEM byly stejně kvalitní, pak by podíly vadných disket v jejích produkcích byly stejné, neboli rozdíl v podílech vadných disket v jednotlivých produkcích by byl 0.

. Ukázali jsme, že intervalový odhad rozdílu podílu vadných disket obsahuje 0.

Se spolehlivostí 95% lze tedy tvrdit, že diskety obou výrobců jsou stejně kvalitní. Zamyslete se nad tím, jak by musel vypadat nalezený intervalový odhad, abychom mohli tvrdit, že diskety firmy 5M jsou kvalitnější.

Page 80: Přednáška 6

Ale to už jsme se dostali k testování hypotéz, jimž se budeme zabývat příště.

Děkuji za pozornost!