157
ˇ CESK ´ E VYSOK ´ EU ˇ CEN ´ I TECHNICK ´ E V PRAZE Fakulta dopravn´ ı PRAVD ˇ EPODOBNOST A MATEMATICK ´ A STATISTIKA Doc. RNDr. Jana Novoviˇ cov´ a, CSc. verze 12. dubna 2006 Vydavatelstv´ ı ˇ CVUT

PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Embed Size (px)

Citation preview

Page 1: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

CESKE VYSOKE UCENI TECHNICKE V PRAZEFakulta dopravnı

PRAVDEPODOBNOST

A MATEMATICKA STATISTIKA

Doc. RNDr. Jana Novovicova, CSc.

verze 12. dubna 2006

Vydavatelstvı CVUT

Page 2: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Lektor : Doc. Ing. Miloslav Vosvrda, CSc.

Page 3: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Predmluva

Text je usporadan tak, ze prvnı ctyri kapitoly jsou venovany popisne statistice a poctupravdepodobnosti, zbyvajıcı kapitoly pak zakladum matematicke statistiky vcetne regresnıa korelacnı analyzy. Tradicnı latka o regresi a korelaci je rozdelena na dve casti, prvnı jevenovana popisnym metodam v regresi a korelaci, druha statisticke indukci. Seznam liter-atury obsahuje prameny pouzite pri zpracovanı tohoto textu. Shrnutı dulezitych vzorcu jezarazeno na konci ucebnıho textu jako prıloha.

Cılem tohoto ucebnıho textu je vysvetlit zakladnı statisticke pojmy a metody a naucit seje aplikovat. Na zacatku kazde kapitoly je strucne popsano o cem kapitola pojednava a jakobsah kapitoly souvisı s ostatnı latkou v ucebnım textu.

K vykladu nove latky jsou pouzity prıklady. Obecna teorie je vykladana teprve pote,co se zıska jasna predstava o zakladnıch pojmech. Studenti dostanou zakladnı vedecke poz-natky, ktere jsou podrobneji vysvetlene ve specialnıch textech. Podmınkou zvladnutı latkytohoto ucebnıho textu je znalost zakladu matematicke analyzy a elementarnı algebry. Zhlediska matematickych vypoctu jsou ilustracnı prıklady co nejjednodussı, aby se studentimohli soustredit na podstatu problemu. Smyslem provadenı rucnıch vypoctu je vypestovatve studentech cit pro vyznam statistickych pojmu, nikoliv udelat z nich skvele poctare.

PodekovanıMoje vrele podekovanı patrı predevsım Ing. Pavlu Paclıkovi, PhD (od roku 2000 Delft Uni-versity of Technology, Faculty of Electrical Engineering, Mathematics and Computer Science,The Netherlands), ktery zhotovil vsechny obrazky, navrhl a realizoval technickou formu to-hoto textu a poskytl cenne podnety a navrhy pramenıcı z jeho zkusenostı ze studia na fakultedopravnı CVUT.

Praha, leden 2006

Doc.RNDr. Jana Novovicova, CSc.Ustav teorie informace a automatizace

Akademie ved Ceske republiky

3

Page 4: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Oznacenı

N mnozina nezapornych celych cısel

N+ mnozina prirozenych cısel

Nm mnozina 1, 2, · · · ,m,m ∈ N+

R mnozina realnych cısel

R+ mnozina kladnych realnych cısel

Rk mnozina k-rozmernych realnych vektoru

[ nm

] cela cast cısla nm

AT transponspozice matice A

I jednotkova matice

uT radkovy vektor, transpozice sloupcoveho vektoru u

F : R → R+ F je zobrazenı definovane na mnozine R s hodnotami v mnozine R+

t(ν) Studentovo t-rozdelenı s ν stupni volnosti

χ2(ν) χ2-rozdelenı s ν stupni volnosti

X ∼ N (µ, σ2) nahodna velicina ma normalnı rozdelenı s parametry µ a σ2

X ≈ N (µ, σ2) nahodna velicina ma priblizne normalnı rozdelenı s parametry µ a σ2

(a, b) x ∈ R : a < x < b, a ≤ b ∈ R

(a, b〉 x ∈ R : a < x ≤ b, a ≤ b ∈ R

〈a, b〉 x ∈ R : a ≤ x ≤ b, a ≤ b ∈ R

4

Page 5: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Obsah

Predmluva 3

Oznacenı 4

1 Podstata statistiky 9

1.1 Dva zakladnı typy statistiky . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2 Vyber a zakladnı soubor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.2.1 Prosty nahodny vyber . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.2.2 Jine metody vyberu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2 Popisna statistika 13

2.1 Veliciny a data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2 Elementarnı zpracovanı statistickych dat . . . . . . . . . . . . . . . . . . . . 14

2.2.1 Trıdenı dat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.2.2 Statisticke grafy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2.3 Tvar rozdelenı cetnostı; symetrie a sikmost . . . . . . . . . . . . . . . 21

2.3 Popisne mıry statistickych souboru . . . . . . . . . . . . . . . . . . . . . . . 22

2.3.1 Kvantily . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.3.2 Mıry polohy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.3.3 Mıry rozptylenosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.3.4 Mıry sikmosti a spicatosti . . . . . . . . . . . . . . . . . . . . . . . . 30

3 Pocet pravdepodobnosti 31

3.1 Pojem pravdepodobnosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.2 Nahodne jevy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2.1 Vztahy mezi jevy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.2.2 Vzajemne neslucitelne jevy . . . . . . . . . . . . . . . . . . . . . . . . 35

3.3 Axiomaticka definice pravdepodobnosti . . . . . . . . . . . . . . . . . . . . . 36

3.4 Pravidla pro pocıtanı s pravdepodobnostmi . . . . . . . . . . . . . . . . . . . 37

3.4.1 Pravidlo o scıtanı pravdepodobnostı . . . . . . . . . . . . . . . . . . . 37

3.4.2 Pravidlo pro pravdepodobnost opacneho jevu . . . . . . . . . . . . . 37

3.4.3 Pravidlo o podmınene pravdepodobnosti . . . . . . . . . . . . . . . . 38

3.4.4 Pravidlo pro nasobenı pravdepodobnostı; nezavislost jevu . . . . . . . 39

3.4.5 Vzorec uplne pravdepodobnosti a Bayesuv vzorec . . . . . . . . . . . 42

3.5 Jine pohledy na pravdepodobnost . . . . . . . . . . . . . . . . . . . . . . . . 43

5

Page 6: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

OBSAH

4 Nahodna velicina 444.1 Nahodna velicina a jejı rozdelenı . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.1.1 Distribucnı funkce a hustota . . . . . . . . . . . . . . . . . . . . . . . 454.1.2 Vıcerozmerna rozdelenı pravdepodobnostı . . . . . . . . . . . . . . . 494.1.3 Nezavislost nahodnych velicin . . . . . . . . . . . . . . . . . . . . . . 50

4.2 Charakteristiky nahodnych velicin . . . . . . . . . . . . . . . . . . . . . . . . 514.2.1 Strednı hodnota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.2.2 Rozptyl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.2.3 Kvantily . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.2.4 Kovariance a korelace . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.2.5 Vektor strednıch hodnot, kovariancnı matice . . . . . . . . . . . . . . 55

4.3 Nektera rozdelenı pravdepodobnostı . . . . . . . . . . . . . . . . . . . . . . . 564.3.1 Diskretnı rozdelenı . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.3.2 Spojita rozdelenı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.4 Nektere limitnı vety . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.4.1 Zakon velkych cısel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.4.2 Centralnı limitnı vety . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5 Nahodny vyber 685.1 Pojem nahodneho vyberu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 685.2 Vyberove charakteristiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695.3 Rozdelenı vyberovych charakteristik . . . . . . . . . . . . . . . . . . . . . . . 69

5.3.1 Rozdelenı vyberoveho prumeru . . . . . . . . . . . . . . . . . . . . . 705.3.2 Rozdelenı vyberoveho rozptylu . . . . . . . . . . . . . . . . . . . . . . 715.3.3 Rozdelenı vyberoveho podılu . . . . . . . . . . . . . . . . . . . . . . . 72

5.4 Nezavisle nahodne vybery . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735.4.1 Dva nezavisle vybery z normalnıho rozdelenı nebo velke rozsahy vyberu 735.4.2 Dva nezavisle vybery z alternativnıho rozdelenı . . . . . . . . . . . . 75

5.5 Parove nahodne vybery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

6 Zaklady teorie odhadu parametru 776.1 Bodove a intervalove odhady . . . . . . . . . . . . . . . . . . . . . . . . . . . 776.2 Vlastnosti bodovych odhadu . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6.2.1 Nestranne odhady . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786.2.2 Konzistentnı odhady . . . . . . . . . . . . . . . . . . . . . . . . . . . 796.2.3 Vydatnost odhadu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6.3 Nektere metody bodovych odhadu . . . . . . . . . . . . . . . . . . . . . . . . 816.3.1 Metoda momentu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 826.3.2 Metoda maximalnı verohodnosti . . . . . . . . . . . . . . . . . . . . . 82

6.4 Intervaly spolehlivosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 856.4.1 Sestrojenı intervalu spolehlivosti . . . . . . . . . . . . . . . . . . . . . 85

6.5 Intervaly spolehlivosti pro strednı hodnotu . . . . . . . . . . . . . . . . . . . 866.5.1 Intervaly spolehlivosti pro strednı hodnotu pri znamem

rozptylu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 866.5.2 Intervaly spolehlivosti pro strednı hodnotu pri nezname smerodatne

odchylce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 896.6 Intervaly spolehlivosti pro rozptyl . . . . . . . . . . . . . . . . . . . . . . . . 90

6

Page 7: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

OBSAH

6.7 Intervaly spolehlivosti pro podıl . . . . . . . . . . . . . . . . . . . . . . . . . 92

7 Zaklady testovanı statistickych hypotez 957.1 Podstata testovanı hypotez . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

7.1.1 Formulace hypotez . . . . . . . . . . . . . . . . . . . . . . . . . . . . 967.1.2 Volba testoveho kriteria . . . . . . . . . . . . . . . . . . . . . . . . . 97

7.2 Zakladnı pojmy a terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . 977.2.1 Testova statistika, obor prijetı, obor zamıtnutı, kriticke hodnoty . . . 977.2.2 Chyba prvnıho a druheho druhu . . . . . . . . . . . . . . . . . . . . . 977.2.3 Zavery pri testovanı hypotez a jejich interpretace . . . . . . . . . . . 997.2.4 Kriticky obor pro zadanou hladinu vyznamnosti . . . . . . . . . . . . 997.2.5 Formulace procesu testovanı hypotez . . . . . . . . . . . . . . . . . . 1007.2.6 Klasicky prıstup k testovanı hypotez . . . . . . . . . . . . . . . . . . 101

7.3 P -hodnoty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1017.3.1 Prıstup k testovanı hypotez zalozeny na P -hodnote . . . . . . . . . . 102

7.4 Nektere testy parametrickych hypotez . . . . . . . . . . . . . . . . . . . . . . 1037.4.1 Test hypotezy o strednı hodnote µ . . . . . . . . . . . . . . . . . . . 1037.4.2 Test hypotezy o rozptylu . . . . . . . . . . . . . . . . . . . . . . . . . 1067.4.3 Testy hypotezy o podılu p . . . . . . . . . . . . . . . . . . . . . . . . 107

7.5 Testy hypotez o shode dvou strednıch hodnot . . . . . . . . . . . . . . . . . 1087.5.1 Testy hypotezy o shode dvou strednıch hodnot pro nezavisle vybery . 1097.5.2 Testy hypotezy pro dve strednı hodnoty uzitım parovych vyberu . . . 112

7.6 Test hypotezy o shode dvou podılu pri nezavislych vyberech . . . . . . . . . 1137.7 Chı-kvadrat test dobre shody . . . . . . . . . . . . . . . . . . . . . . . . . . 1157.8 Chı-kvadrat test nezavislosti . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

8 Regresnı a korelacnı analyza 1208.1 Linearnı rovnice s jednou nezavislou promennou . . . . . . . . . . . . . . . . 1218.2 Regresnı rovnice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

8.2.1 Extrapolace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1258.2.2 Odlehla a vlivna pozorovanı . . . . . . . . . . . . . . . . . . . . . . . 125

8.3 Koeficient determinace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1278.4 Linearnı korelace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1298.5 Linearnı regresnı model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

8.5.1 Bodovy odhad rozptylu σ2 . . . . . . . . . . . . . . . . . . . . . . . . 1338.5.2 Testy hypotez a intervaly spolehlivosti pro parametr β1 . . . . . . . . 1348.5.3 Odhad a predikce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

8.6 Testy hypotez o korelacnım koeficientu . . . . . . . . . . . . . . . . . . . . . 1408.7 Obecny regresnı model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

8.7.1 Maticove vyjadrenı modelu linearnı regrese . . . . . . . . . . . . . . . 144

Statistiske tabulky 146

Prıloha i

7

Page 8: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

8

Page 9: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Kapitola 1

Podstata statistiky

Pod pojmem statistika si vetsina lidı predstavuje cıselna fakta, jako naprıklad pocetnezamestnanych, ceny potravin, nebo mnozstvı uzavrenych snatku a rozvodu atd.

Statistika (nazev z latinskeho slova”status“ = stat) puvodne znamenala vedu zabyvajıcı

se shromazd’ovanım, trıdenım a tabelovanım takovychto dat. Statistika ale znamena mnohemvıce, nez je obsazeno v teto definici. Statistikove nejen data shromazd’ujı, trıdı a tabelujı, aletake analyzujı za ucelem formulovanı obecnych zaveru a rozhodovanı. Na prıklad politickyanalytik muze pouzıt udaje zıskane z casti opravnenych volicu v CR k predikci volebnıch pref-erencı vsech opravnenych volicu cele CR. Mestske zastupitelstvo muze rozhodnout o tom, kdepostavit novou dalnici, na zaklade souhrnnych zprav o zivotnım prostredı a demografickychzprav, ktere zahrnujı ruzne statisticke udaje. V teto kapitole zavedeme zakladnı terminologii,takze ruzne vyznamy slova statistika budou zrejmejsı.

1.1 Dva zakladnı typy statistiky

Pri statistickych vyzkumech nas zajımajı hromadne jevy a procesy, tj. jevy a procesy vysky-tujıcı se u velkeho poctu prvku. Tyto prvky nazyvame statisticke jednotky a jsou to ele-mentarnı jednotky statistickeho zkoumanı. Mohou to byt osoby (napr. zamestnanci podnikupri sledovanı mezd), organizace (napr. podniky pri zkoumanı vyse vyroby), veci, udalosti,zvırata apod.

Pouzijeme dobre zname prıklady z oblasti sportu a z oblasti politickych voleb k objasnenıdvou zakladnıch typu statistiky: popisne statistiky a inferencnı statistiky.

Prıklad 1.1 Popisna statistikaV unoru 1998 se v Japonsku konaly zimnı olympijske hry. Cestı hokejiste hrali celkem 6 zapasu,vyhrali 5 zapasu a prohrali 1 zapas. Prace lidı, kterı nashromazdili udaje o techto zapasechi o hracıch (pocet nastrılenych golu, prumerny pocet golu pripadajıcı na jeden zapas, prumernyvek hracu a pod.), je ilustracı popisne statistiky.

Formalnı vymezenı termınu popisna statistika je dano nasledujıcı definicı 1.1.

Definice 1.1 POPISNA STATISTIKA

Popisna statistika se sklada z metod pro zjist’ovanı a sumarizaci informacı.

9

Page 10: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 1 PODSTATA STATISTIKY

Popisna statistika zahrnuje konstrukci grafu, diagramu a tabulek a vypocet ruznychpopisnych charakteristik jako je aritmeticky prumer, mıry rozptylenosti a percentily, jimizse budeme zabyvat kapitole 2.

Inferencnı statistika (nebo tez statisticka indukce) je ilustrovana na prıkladu 1.2.

Prıklad 1.2 Inferencnı statistika

Agentura STEM provedla v unoru 1998 v Ceske republice pruzkum volebnıch preferencı u 2000opravnenych volicu. Zjistila, ze 10% preferuje ODS, 29% CSSD, 11% US atd. Vyrok: V predcasnychvolbach v cervnu 1998 zvıtezı CSSD a zıska podporu od 25% volicu, kterı se zucastnı voleb, je vyrokeminferencnı statistiky.

Politicke volby poskytujı prıklad inferencnı statistiky. Bylo by prılis nakladne a nere-alisticke dotazovat se vsech volicu na jejich volebnı preference. Statistikove, kterı si prejıodhadnout mınenı cele populace volicu CR, se mohou dotazat jen peclive vybrane skupinynekolika tisıc volicu. Takova skupina volicu se nazyva vyber z populace. Statistikove analyzujıinformace zıskane z vyberu volicske populace, aby udelali zavery o volebnıch preferencıch celevolicske populace. Inferencnı statistika poskytuje metody pro formulovanı takovych zaveru.Terminologie zavedena v kontextu politickych voleb se bezne uzıva ve statistice.

Definice 1.2 ZAKLADNI SOUBOR (POPULACE) A VYBEROVY SOUBOR (VYBER)

Zakladnı soubor: Soubor vsech statistickych jednotek, ktere jsou predmetem statistickestudie.Vyberovy soubor: Cast zakladnıho souboru, ktera slouzila k zıskanı informacı.

Pocet vsech jednotek zakladnıho souboru nazyvame rozsah zakladnıho souboru, jekonecny nebo spocetne nekonecny, zpravidla je velky. Pocet vsech jednotek vyberovehosouboru se nazyva rozsah vyberoveho souboru. Informace zıskane z vyberoveho souboruslouzı k formulovanı zaveru o zakladnım souboru.

Definice 1.3 INFERENCNI STATISTIKA

Inferencnı statistika se sklada z metod pro prijımanı a merenı spolehlivosti zaveru opopulaci zalozenych na informacıch zıskanych z vyberu z teto populace.

Popisna statistika a inferencnı statistika jsou vzajemne propojeny. Temer vzdy je nutnepouzıt metody popisne statistiky k organizovanı a sumarizaci informacı zıskanych z vyberudrıve nez provedeme statisticke vyhodnocovanı. Krome toho predbezna popisna analyzavyberu casto odhalı rysy, ktere vedou k volbe (nebo k prehodnocenı volby) vhodnych in-ferencnıch metod.

Statisticke zkoumanı lze zpravidla rozdelit do nekolika etap. Jde o etapu statistickehozjist’ovanı neboli setrenı, statistickeho zpracovanı zjistenych udaju a konecne o etapu stati-stickeho vyhodnocovanı. Prestoze nejdulezitejsı je etapa tretı, je nezbytnym predpoklademjejı uspesnosti, aby byly spravne provedeny etapy predchozı. Predmetem techto skript nenıprvnı etapa statistickeho zkoumanı (viz napr. [10, 7]).

10

Page 11: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

1.2 VYBER A ZAKLADNI SOUBOR

1.2 Vyber a zakladnı soubor

Jestlize informace potrebne k formulovanı zaveru o zakladnım souboru nejsou k dispozici,je treba provest studii k zıskanı informacı. Zhruba receno, existujı dve metody pro zıskanıinformacı: vzıt vyber nebo shromazdit udaje o celem zakladnım souboru. Vyber je nejvıcerozsıreny zpusob, nebot’ je levnejsı a rychlejsı nez sledovanı celeho zakladnıho souboru.

Rozhodneme-li se pro vyber, je treba rozhodnout, jakou metodu pro vyber ze zakladnıhosouboru zvolıme. V uvahu musıme vzıt skutecnost, ze na zaklade informacı zıskanychz vyberu budeme delat zavery o celem zakladnım souboru. Tudız rozhodujıcı je, aby vyberbyl reprezentativnı, to znamena, ze musı odrazet co mozna nejverneji relevantnı charak-teristiky zakladnıho souboru, ktery je predmetem naseho zkoumanı.

Naprıklad by nemelo velky vyznam pouzıt prumernou vysku vyberu hracu basketbaluk formulovanı zaveru o prumerne vysce vsech dospelych muzu v CR.

Prezidentske volby v roce 1936 v USA nam umoznı uvedomit si, co se muze stat,nenı-li vyber reprezentativnı. Pred volbami se snazili vydavatele casopisu Literary Digestpredpovedet vysledek prezidentskych voleb. Tym pracovnıku, zabyvajıcı se pruzkumem,polozil vybranym volicum otazku, zda budou volit kandidata demokratu D. Roosvelta nebokandidata republikanu A. Landona. Na zaklade vysledku pruzkumu casopis predpovedelsnadne vıtezstvı Landona. Skutecny vysledek voleb byl, ze Roosvelt zvıtezil s takovouprevahou, jaka nemela obdoby v historii prezidentskych voleb v USA.

Co se stalo? Existujı dva duvody proc pruzkum selhal: (1) Vyber byl proveden mezilidmi, kterı vlastnili automobil a meli telefon. V roce 1936 tato skupina volicu byla slozenapouze ze zamoznejsıch lidı a takova skupina lidı tradicne volila republikany. (2) Jen asi25% oslovenych volicu odpovedelo na dotaznık. Nasledkem toho byl vyber tak vychylenya nereprezentativnı, ze jeho pouzitı vedlo ke spatnemu odhadu vıtezstvı republikanu.

Nejmodernejsı postupy porizovanı vyberu pouzıvajı pravdepodobnostnı vybery, prikterych nahodne rozhodovanı, naprıklad pomocı tabulek nahodnych cısel, je vyuzito prorozhodnutı, ktere statisticke jednotky zakladnıho souboru budou tvorit vyber, mısto toho,aby se toto rozhodnutı ponechalo na lidskem posouzenı. Samozrejme, ze i v tomto prıpademuzeme dostat nereprezentativnı vyber. Avsak pravdepodobnostnı vyber vylucuje zamernoujednostrannost vyberu a dovoluje vyzkumnym pracovnıkum kontrolovat moznost zıskanınereprezentativnıho vyberu.

1.2.1 Prosty nahodny vyber

Statisticke inferencnı metody, kterymi se budeme v ramci techto skript zabyvat, jsou urcenypouze pro pouzitı prostych (jednoduchych) nahodnych vyberu.

Definice 1.4 PROSTY NAHODNY VYBER

Prosty nahodny vyber nebo jen nahodny vyber je takovy nahodny vyber, kdy pri jehosestavovanı mela kazda statisticka jednotka zakladnıho souboru stejnou moznost bytvybrana.

Existujı dva typy prosteho nahodneho vyberu. Prosty nahodny vyber s vracenım,ve kterem kazda jednotka zakladnıho souboru muze byt vybrana vıce nez jednou; jiny jeprosty nahodny vyber bez vracenı, ve kterem kazda jednotka zakladnıho souboru muze

11

Page 12: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 1 PODSTATA STATISTIKY

byt vybrana nejvyse jednou. Pokud nebude receno jinak, budeme predpokladat, ze prostynahodny vyber je porızen bez vracenı.

Prosty nahodny vyber je nejjednodussı zpusob vyberu statistickych jednotek. Provadı seprımo a bez predbeznych omezenı. Proto lze ve vyberu pocıtat se vsemi myslitelnymi napr.n-clennymi kombinacemi statistickych jednotek. Prosty nahodny vyber ma take nekterenevyhody. Naprıklad nam neukaze dokonale strukturu zakladnıho souboru a muze bytneprakticky a drahy, jsou-li statisticke jednotky geograficky siroce roztrouseny. Uvedemenektere metody vyberu, ktere jsou casto vhodnejsı nez prosty nahodny vyber.

1.2.2 Jine metody vyberu

Jedna metoda vyberu, kterou lze snadneji realizovat nez prosty nahodny vyber, je syste-maticky nahodny vyber. Lze ji uplatnit, jsou-li jednotky zakladnıho souboru serazenynahodne vzhledem ke sledovanemu znaku. Tento vyber probıha ve trech krocıch: (1) Vydelımerozsah zakladnıho souboru rozsahem vyberu a vysledek zaokrouhlıme dolu na nejblizsı celecıslo m; (2) pomocı tabulky nahodnych cısel (nebo obdobneho zarızenı) urcıme cıslo k lezıcımezi 1 a m; (3) z posloupnosti nahodne serazenych jednotek vybereme ty statisticke jednotkyzakladnıho souboru, ktere majı prirazena cısla k, k + m, k + 2m, · · · .

Jina alternativnı metoda k prostemu nahodnemu vyberu je tzv. vyber skupin. Tatometoda probıha v nasledujıcıch trech krocıch: (1) Zakladnı soubor se rozdelı do skupin(klastru); provede se prosty nahodny vyber skupin; (3) vsechny statisticke jednotky skupinyvybrane v kroku (2) tvorı nahodny vyber. Tento typ vyberu setrı penıze i cas, ale ma urcitenedostatky. V idealnım prıpade by vybrana skupina mela odrazet charakteristicke rysy celehozakladnıho souboru. Avsak to se vetsinou nestane, skupina je obvykle stejnorodejsı, nezzakladnı soubor jako celek.

Dalsı metoda vyberu znama jako stratifikovany vyber je casto spolehlivejsı nez vyberskupin. Pri realizaci stratifikovaneho vyberu je nejprve cely zakladnı soubor rozdelen nanekolik dılcıch souboru, oblastı, pricemz je snaha tvorit tyto podsoubory tak, aby obsahovalypokud mozno statisticke jednotky stejnych vlastnostı. Tım docılıme, ze kazda oblast je samao sobe stejnorodejsım celkem, nez puvodnı zakladnı soubor. V kazde oblasti se pak provedeprosty nahodny vyber. Oblastmi mohou byt napr. univerzity trıdene podle zamerenı, podnikytrıdene podle urcitych hledisek, domacnosti o ruznem poctu clenu apod. Oblastnı vyberje narocnejsı casove i financne nez prosty nahodny vyber, je-li vsak spravne proveden, jeucinnejsı a dava kvalitnejsı informace o zakladnım souboru nez prosty nahodny vyber.

Vıcestupnovy nahodny vyber je kombinacı vsech predchazejıcıch nahodnych vyberuvcetne prosteho nahodneho vyberu.

Problematika vyberovych setrenı je velice rozsahla a presahuje ramec tohoto ucebnıhotextu. Vıce se lze docıst ve specializovane statisticke literature.

12

Page 13: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Kapitola 2

Popisna statistika

V teto kapitole se budeme zabyvat popisnou statistikou. Nejprve ukazeme, jak klasifikovatzıskane udaje podle typu, jak je usporadat do tabulek a sumarizovat je pomocı grafickehozobrazenı. Pokracovat budeme zkoumanım charakteristik, ktere muzeme pouzıt k popisudatovych souboru.

2.1 Veliciny a data

Vlastnosti statistickych jednotek, ktere se menı od jedne jednotky ke druhe se nazyvajıstatisticke znaky nebo veliciny, prıpadne promenne. Zvolıme-li za statistickou jednotkuosobu, lze tuto jednotku charakterizovat napr. znaky: vyska, vaha, pocet sourozencu, barvaocı, nejvyssı dosazene vzdelanı, rodinny stav apod.

Statisticke znaky muzeme rozdelit podle nekolika kriteriı, zejmena podle toho, jak lzevyjadrit jejich obmeny. Prvnı tri vyse zmınene veliciny charakterizujıcı osobu lze vyjadritcıselnou formou, poskytujı tedy cıselnou informaci a jsou prıkladem kvantitativnıchvelicin. Poslednı tri veliciny poskytujı informaci, ktera nenı cıselna, je dana slovnı definicıa tyto veliciny jsou prıkladem kvalitativnıch velicin. Kvantitativnı veliciny mohou bytdiskretnı (nespojite) nebo spojite. Diskretnı velicina je takova velicina, jejız mozne hodnotytvorı konecnou nebo spocetne nekonecnou mnozinu cısel, obvykle mnozinu celych cısel. Pocetsourozencu nejake osoby je prıkladem diskretnı veliciny. Spojite veliciny mohou nabyvatv ramci urciteho intervalu libovolnych hodnot. Vyska osoby je prıklad spojite veliciny. Spo-jita velicina je tudız velicina, jejız mozne hodnoty tvorı nejaky cıselny interval. Predchozıdiskuse je shrnuta v definici 2.1.

Definice 2.1 VELICINY

Velicina: Charakteristika, ktera se menı od jedne statisticke jednotky ke druhe.Kvalitativnı velicina: Velicina, kterou nelze vyjadrit cıselne.Kvantitativnı velicina: Velicina, kterou lze vyjadrit cıselne.Diskretnı velicina: Kvantitativnı velicina, jejız mozne hodnoty tvorı konecnou nebospocetne nekonecnou mnozinu cısel.Spojita velicina: Kvantitativnı velicina, jejız mozne hodnoty tvorı nejaky cıselny interval.

Pozorovanım nebo merenım hodnot veliciny na nekolika statistickych jednotkach zıskamevstupnı data nebo jen data. Data jsou tudız informace, ktere statistikove shromazd’ujı, trıdı

13

Page 14: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 2 POPISNA STATISTIKA

a analyzujı. Nazvy kvalitativnı, kvantitativnı, diskretnı a spojite pouzıvame rovnez k popisudat stejne jako velicin: kvalitativnı data jsou data zıskana pozorovanım, merenım kvalitativnıveliciny, apod. Soubor vsech pozorovanych hodnot sledovaneho statistickeho znaku, kteremame k dispozici, budeme nazyvat datovy soubor nebo mnozina dat.

Mnozinu vsech statistickych jednotek, u nichz zkoumame prıslusne statisticke znaky,nazyvame statisticky soubor. Zjist’ujeme-li u kazde statisticke jednotky pouze jeden stati-sticky znak, zıskame soubor jednorozmerny. Zjist’ujeme-li u kazde jednotky dva nebovıce znaku a zkoumame-li soucasne jejich vzajemne vztahy, zıskame statisticky souborvıcerozmerny. Statisticky soubor vsech jednotek, ktery je vlastnım predmetem sledovanı,o nemz chceme provadet zavery, se nazyva zakladnı soubor nebo populace, jak jsme sejiz zmınili v kapitole 1.

2.2 Elementarnı zpracovanı statistickych dat

2.2.1 Trıdenı dat

Vysledkem statistickeho setrenı je zpravidla velke mnozstvı cıselnych udaju, ktere jsouvetsinou neprehledne. Aby vynikly charakteristicke rysy a zakonitosti analyzovaneho souborua aby se udaje staly prehlednymi, musıme je setrıdit. Trıdenım tedy rozumıme rozdelenıstatistickych jednotek souboru do takovych skupin, aby co nejlepe vynikly charakteristickevlastnosti zkoumanych jevu. Trıdenı je tedy metoda pro usporadanı udaju do prehledneformy a take jejich zhustenı. Provadıme-li trıdenı pouze podle obmen jednoho statistickehoznaku, mluvıme o jednostupnovem trıdenı. Provadıme-li trıdenı podle vıce statistickychznaku najednou, jde o trıdenı vıcestupnove.

Prıklad 2.1 Trıdenı dat

Zıskali jsme udaje o poctu dnı zbyvajıcıch do splatnosti 40 kratkodobych uveru.

70 64 99 55 64 89 87 65 62 38 67 70 60 69 78 39 75 56 71 51

99 68 95 86 57 53 47 50 55 81 80 98 51 36 63 66 85 79 83 70

Tyto udaje jsou znacne neprehledne a ani zkuseny pracovnık z nich nezıska zakladnı infor-mace o rozdelenı uveru podle doby zbyvajıcı do splatnosti. Rozdelenım dat do skupin muzemedosahnout toho, ze data se stanou mnohem prehlednejsı. Nejprve rozhodneme, jak velke trıdyzvolıme. V tomto prıkladu je vhodne rozdelit uvery do trıd o delce 10 dnı. Vzhledem k tomu, zenejmensı udaj je 36 a nejvetsı 99, rozdelenım udaju do 10 trıd dostaneme trıdy 30–39, 40–49,50–59, 60–69, 70–79, 80–89, 90–99. Dalsım a poslednım krokem pri trıdenı dat je stanovenı,jaky pocet uveru pripada na kazdou trıdu. Naprıklad pocet uveru, pro ktere doba zbyvajıcı dosplatnosti lezı mezi 60–69 dny je 10.

Kdybychom provedli rozdelenı do trıd 30–40, 40–50, 50–60 atd., meli bychom problem, doktere trıdy zaradit naprıklad uver, kteremu chybı 50 dnı do splatnosti. Tento problem nevzniknepri zpusobu trıdenı uvedenem vyse.

Pri trıdenı dat do trıd v prıkladu 2.1 jsme se ridili urcitymi zasadami, ktere majı obecnouplatnost. Uvedeme ty nejdulezitejsı.

1. Pocet trıd nema byt prılis maly, aby to nevedlo k velmi zjednodusenemu pohledu navlastnosti souboru a nemel by byt prılis velky, nebot’ by se mohlo stat, ze se zpracovanıstane neprehlednym a zaniknou zakonitosti charakteristicke pro dany soubor.

14

Page 15: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

2.2 ELEMENTARNI ZPRACOVANI STATISTICKYCH DAT

Pri urcovanı poctu trıd se snazıme potlacit nahodne kolısanı cetnostı, ale zarovennesmıme setrıt charakteristicke rysy. Na stanovenı poctu trıd neexistuje jednotny nazorani obecny predpis.

2. Jednotlive pozorovane hodnoty znaku patrı do jedne a jen jedne trıdy.Tento problem je spojen s otazkou, jak urcovat hranice trıd, aby bylo mozne jednotlivehodnoty zaradit do prıslusnych trıd jednoznacne.

3. Pokud je to mozne, stanovıme shodnou sırku pro vsechny trıdy.

V prıpade jednostupnoveho trıdenı tudız usporadame udaje o zkoumanem kvantitativnımznaku do rostoucı posloupnosti, rozdıl mezi maximalnı a minimalnı zjistenou hodnotou znakurozdelıme na urcity pocet intervalu, ktere nazyvame trıdnı intervaly nebo trıdy a mluvımeo intervalovem trıdenı. Kazdemu intervalu priradıme pocet statistickych jednotek s hod-notou znaku, ktery patrı do prıslusne trıdy.

Rozdelenı cetnostı a relativnıch cetnostı

Pocet statistickych jednotek s hodnotou znaku, ktery patrı do urcite trıdy, nazyvame abso-lutnı cetnostı nebo jen cetnostı trıdy. V prıkladu 2.1 o kratkodobych uverech je cıslo 10cetnost trıdy 60–69, zatımco cıslo 7 je cetnost trıdy 70–79 a take trıdy 80–89. Podıl prıslusnecetnosti a rozsahu datoveho souboru se nazyva relativnı (pomerna) cetnost. Naprıkladrelativnı cetnost trıdy 50–59 je 8/40 = 0.2. Poznamenejme, ze soucet relativnıch cetnostıvsech trıd je roven jedne.

Tabulku, do ktere usporadavame cetnosti resp. relativnı cetnosti, nazyvame tabulkourozdelenı cetnostı resp. tabulkou rozdelenı relativnıch cetnostı.

Chceme-li mezi sebou porovnavat ruzne datove soubory, lisicı se svym rozsahem, jevhodnejsı pouzıt relativnı cetnosti nez absolutnı cetnosti. Je to z toho duvodu, ze relativnıcetnost je cıslo mezi 0 a 1 a tudız muze byt kriteriem pro porovnanı. Dva datove souborymajıcı shodne rozdelenı cetnostı, budou mıt shodne rozdelenı relativnıch cetnostı. Ale dvadatove soubory majıcı shodne rozdelenı relativnıch cetnostı, budou mıt shodne rozdelenıcetnostı jen v prıpade, ze oba datove soubory majı stejny rozsah.

Krome uvedenych dvou zpusobu konstrukce rozdelenı cetnostı, konstruujeme tez rozdelenıkumulativnıch cetnostı a kumulativnıch relativnıch cetnostı, ktere podavajı informaci o tom,kolik jednotek souboru, resp. jaka pomerna cast souboru ma hodnotu sledovane velicinymensı nebo rovnu urcite dane hodnote. Naprıklad pro data z prıkladu 2.1 zjistıme, ze kumu-lativnı cetnost uveru s dobou splatnosti kratsı nez 50 dnı je 3+1=4, takze 4 uvery majı dobusplatnosti kratsı nez 50 dnı. Dale zjistıme, ze kumulativnı relativnı cetnost uveru s dobousplatnosti kratsı nez 50 dnı je 4/40 = 0.10, to znamena, ze 10% uveru ma dobu splatnostimensı nez 50 dnı.

Terminologie pouzıvana pri trıdenı

Vrat’me se opet k prıkladu 2.1. Uvazujme naprıklad trıdu 50–59. Nejmensı pocet dnı dosplatnosti je 50. Tato hodnota se nazyva dolnı hranice trıdy. Nejvetsı doba splatnostiv teto trıde je 59. Tato hodnota se nazyva hornı hranice trıdy.

Prostrednı hodnota trıdy 50–59 je (50 + 59)/2 = 54.5 a nazyva se stred trıdy. Stredytrıd nam umoznujı reprezentaci jednotlivych trıd pomocı jedineho cısla a nekdy se pouzıvajıpri grafickem zobrazovanı a pri pocıtanı popisnych mer.

Sırka trıdy 50–59 zıskana odectenım sve dolnı hranice od dolnı hranice sousednı vyssıtrıdy, je 60− 50 = 10 a nazyva se sırka trıdy.

15

Page 16: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 2 POPISNA STATISTIKA

V definici 2.2 jsou shrnuty zakladnı pojmy pouzıvane pri trıdenı dat.

Definice 2.2 POJMY POUZIVANE PRI TRIDENI DAT

Trıdy: Skupiny, do kterych jednotliva data rozdelujeme.Dolnı hranice trıdy: Nejmensı hodnota ktera patrı do prıslusne trıdy.Hornı hranice trıdy: Nejvetsı hodnota, ktera patrı do do prıslusne trıdy.Stred trıdy: Stred prıslusne trıdy.Sırka trıdy: Dolnı hranici dane trıdy odecteme od dolnı hranice sousednı vyssı trıdy.Cetnost trıdy: Pocet jednotlivych dat v dane trıde.Relativnı cetnost trıdy: Podıl cetnosti trıdy a celkoveho poctu dat v datovem souboru.Kumulativnı cetnost: Soucet cetnostı vsech trıd reprezentujıcıch vsechny hodnoty mensınez hornı hranice prıslusne trıdy.Kumulativnı relativnı cetnost trıdy: Podıl kumulativnı cetnosti a celkoveho poctu datv souboru.

Nynı uvedeme vypocetnı vzorce pro cetnosti. Necht’ x1, · · · , xn jsou pozorovanı urcitehostatistickeho znaku x, xj ∈ (a, b〉, j = 1, · · · , n a = a0 < a1 < · · · < ak = b. Interval (a, b〉rozdelıme na k disjunktnıch podintervalu (ai−1, ai〉, i = 1, 2, · · · , k. Sırka i-te trıdy je pakrozdıl mezi hornı hranicı intervalu (ai−1, ai〉 a hornı hranicı sousednıho intervalu (ai−2, ai−1〉.Cetnost i-te trıdy ni je pocet pozorovanı xj, pro ktera platı ai−1 < xj ≤ ai.

Tabulka 2.1 Rozdelenı cetnostı a kumulativnıch cetnostı

Interval Cetnost Kumulativnı cetnost Stredabsolutnı relativnı absolutnı relativnı trıdy

(ai−1, ai〉 ni pi Ni Pi yi

(a0, a1〉 n1 p1 n1 p1 y1

(a1, a2〉 n2 p2 n1 + n2 p1 + p2 y2

... ... ... ... ...(ak−1, ak〉 nk pk

∑ki=1 ni

∑ki=1 pi yk

Celkem∑k

i=1 ni = n∑k

i=1 pi = 1

Vypocetnı vzorce pro cetnosti a kumulativnı cetnostiRelativnı cetnost i-te trıdy pi: Podıl cetnosti ni i-te trıdy a poctu n vsech dat v datovemsouboru.

pi =ni

n,

k∑

i=1

pi = 1. (2.1)

Kumulativnı cetnost i-te trıdy Ni: Pocet vsech xj, pro ktera platı a0 < xj ≤ ai:

Ni =i∑

r=1

nr, 1 ≤ r ≤ k. (2.2)

Kumulativnı relativnı cetnost i-te trıdy Pi: Podıl kumulativnı cetnost i-te trıdy, Ni a poctun vsech dat v souboru. Nebo ekvivalentne, soucet relativnıch cetnostı vsech trıd od 1. trıdyaz po i-tou trıdu.

Pi =i∑

r=1

pr, 1 ≤ r ≤ k. (2.3)

16

Page 17: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

2.2 ELEMENTARNI ZPRACOVANI STATISTICKYCH DAT

Tabulku, ve ktere jsou uvedeny trıdy, cetnosti, relativnı cetnosti, kumulativnı cetnosti,kumulativnı relativnı cetnosti a stredy trıd pro datovy soubor budeme nazyvat tabulkouintervaloveho trıdenı dat.

Oznacme yi stred i-te trıdy. Rozdelenı cetnostı a kumulativnıch cetnostı je uvedenov nasledujıcı tabulce 2.1.

Pro data z prıkladu 2.1 nynı uvedeme tabulku intervaloveho trıdenı.

Tabulka 2.2 Cetnosti a kumulativnı cetnosti pro dobu splatnosti kratkodobych uveru

Pocet dnı Cetnost Relativnı Kumulativnı Kumul.relativnı Streddo splatnosti (pocet uveru) cetnost cetnost cetnost trıdy

30–39 3 0.075 3 0.075 34.540–49 1 0.025 4 0.100 44.550–59 8 0.200 12 0.300 54.560–69 10 0.250 22 0.550 64.570–79 7 0.175 29 0.725 74.580–89 7 0.175 36 0.900 84.590–99 4 0.100 40 1.000 94.5

Celkem 40 1

Jednoduche trıdenı Kazda trıda, kterou jsme doposud pouzili pri trıdenı dat, reprezen-tovala nekolik moznych cıselnych hodnot. Pri zpracovanı udaju diskretnıho statistickehoznaku, ktery nabyva pouze urciteho poctu obmen, je nekdy vhodnejsı pouzıt takove trıdy,kdy vsechny reprezentujı jednu moznou cıselnou hodnotu. Pak hovorıme o jednoduchemtrıdenı. Mame-li k dispozici udaje o spojitem statistickem znaku, nebo o znaku, ktery jesice diskretnı, ale muze nabyvat velkeho poctu nejruznejsıch obmen, pak radeji konstruujemeintervalove rozdelenı cetnostı.

Prıklad 2.2 Jednoduche trıdenıV jednom malem meste byl proveden pruzkum poctu detı skolnıho veku v rodine. Bylo nahodnevybrano 15 rodin. Pocet detı skolnıho veku v kazde z 15 vybranych rodin je nasledujıcı.

2 0 4 2 0 1 0 1 0 0 4 0 1 3 2

Usporadame tyto udaje do tabulky rozdelenı cetnostı.

Pocet detı Cetnost Kumulativnı cetnostskolnıho veku absolutnı relativnı absolutnı relativnı0 6 0.400 6 0.4001 3 0.200 9 0.6002 3 0.200 12 0.8003 1 0.067 13 0.8674 2 0.133 15 1.000Celkem 15 1.000

Rozdelenı cetnostı pro kvalitativnı data

Pojmy jako dolnı a hornı hranice trıdy nebo stred trıdy jsou pouzitelne pro kvantita-tivnı data, nejsou vsak vhodne pro kvalitativnı data jako naprıklad pri praci s udaji prozarazovanı lidı do trıd podle toho, zda jde o muze nebo zenu. I v tomto prıpade vsak muzemeurcovat cetnosti a relativnı cetnosti.

17

Page 18: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 2 POPISNA STATISTIKA

Prıklad 2.3 Rozdelenı cetnostı pro kvalitativnı data

40 nahodne vybranych dospelych obcanu bylo dotazano, jakemu dopravnımu prostredku davaprednost pri cestach na dovolenou do zahranicı. Urcete rozdelenı cetnostı pro data, ktera jsouuvedena v nasledujıcı tabulce. (Osobnı automobil (A), autobus (B), letadlo (L), ostatnı (O)).

O B A B B A B A L B B B A A A O O O B AA O L A L O B B A O O L B B B B B B A A

Tabulka cetnostı a relativnıch cetnostı pouzitı dopravnıch prostredku:

Dopravnı prostredek Cetnost Relativnı cetnostOsobnı automobil 12 0.30Autobus 16 0.40Letadlo 4 0.10Ostatnı 8 0.20Celkem 40 1.000

2.2.2 Statisticke grafy

Vedle statistickych tabulek je dulezitou formou zobrazovanı statistickych udaju graf.Graficke zobrazenı dava rychlou a prehlednou predstavu o tendencıch a charakteristickych ry-sech analyzovanych jevu. Grafy jsou take ucinnym popularizacnım prostredkem statistickychvysledku.

Z hlediska konstrukce lze grafy rozdelit do ruznych skupin. O nekterych se zde zmınıme.

Histogramy pro intervalove trıdenı

Uvazujme pro ilustraci trıdenı doby splatnosti kratkodobych uveru (prıklad 2.1). V tabulce2.2 jsou data usporadana do trıd. Cılem je graficke zobrazenı takto roztrıdenych dat. Jedenzpusob jak zobrazit tato data, je sestrojit graf, v nemz jsou trıdy zobrazeny v pravouhlesouradnicove soustave na vodorovnou osu a cetnosti na svislou osu. Muzeme to udelat pomocıhistogramu cetnostı. Je na obr. 2.1(a).

Obrazek 2.1 Histogramy pro pocet dnı po splatnosti kratkodobych uveru

1

2

3

4

5

6

7

8

9

10

10 30 50 70 90Pocet dnı po splatnosti

Cet

nos

t

(a) histogram cetnostı

0.05

0.10

0.15

0.20

0.25

10 30 50 70 90Pocet dnı po splatnosti

Rel

ativ

nıce

tnos

t

(b) histogram relativnıch cetnostı

Vyska kazdeho sloupce je rovna cetnosti trıdy, kterou reprezentuje. Kazdy sloupek je umısten

18

Page 19: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

2.2 ELEMENTARNI ZPRACOVANI STATISTICKYCH DAT

mezi dolnı hranici trıdy a dolnı hranici nejblizsı vyssı trıdy. Histogram cetnostı zobrazujecetnosti trıd. K zobrazenı relativnıch cetnostı muzeme pouzıt histogram relativnıchcetnostı, ktery je podobny histogramu cetnostı. Jediny rozdıl je v tom, ze vyska kazdehosloupku v tomto histogramu je rovna relativnı cetnosti trıdy mısto cetnosti trıdy. Histogramrelativnıch cetnostı pro data z prıkladu 2.1 je na obr. 2.1(b).

Poznamenejme, ze tvary histogramu relativnıch cetnostı na obr. 2.1(b) a histogramucetnostı na obr. 2.1(a) jsou shodne.

Nynı uvedeme formalnı definice histogramu cetnostı a histogramu relativnıch cetnostı.

Definice 2.3 HISTOGRAM CETNOSTI A RELATIVNICH CETNOSTI

Histogram cetnostı: Graf, ktery v pravouhle souradnicove soustave zobrazuje trıdy navodorovnou osu a cetnosti trıd na svislou osu. Cetnost kazde trıdy je reprezentovanasloupcem, jehoz vyska je rovna cetnosti trıdy.Histogram relativnıch cetnostı: Graf, ktery v pravouhlem souradnicove soustave zobrazujetrıdy na vodorovnou osu a relativnı cetnosti trıd na svislou osu. Relativnı cetnost kazdetrıdy je reprezentovana svislym sloupcem, jehoz vyska je rovna relativnı cetnosti trıdy.

Histogramy pro jednoduche trıdenıKonstrukce histogramu je trochu odlisna pri

Obrazek 2.2 Polygony cetnostı

14.5

24.5

34.5

44.5

54.5

64.5

74.5

84.5

94.5

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0 kumulativnı cetnostrelativnı cetnost

jednoduchem trıdenı dat, kdy trıdy jsou zalozenypouze na jedne hodnote statistickeho znaku. V tomtoprıpade umıstıme stred kazdeho sloupce histogramuprımo do jedine cıselne hodnoty, ktera reprezentujetrıdu.

Polygony cetnostı a kumulativnıch cetnostıDalsı velice casto pouzıvane graficke znazornenı cetnostıje polygon cetnostı. Polygon cetnostı je graf, kteryvznikne tak, ze v pravouhle souradnicove soustavespojıme useckami body o souradnicıch (yi, ni), resp.(yi, pi), kde yi je stred i-te trıdy a ni resp. (pi) jecetnost i-te trıdy resp. relativnı cetnost. Nahradıme-li cetnosti odpovıdajıcımi kumulativnımi cetnostmi,dostaneme polygon kumulativnıch cetnostı.Pro udaje z prıkladu 2.1 je polygon relativnıch cetnostı

Obrazek 2.3 Bodovy graf

1 2 3 4 5

a kumulativnıch relativnıch cetnostı uveden na obr. 2.2.

Bodove grafyDalsı typ grafickeho znazornenı pro kvantitativnı dataje bodovy graf. Bodove grafy pouzıvajı jako grafickeprostredky body umıstene v souradnicove soustave. Jsouzvlaste uzitecne pro znazornenı relativnı polohy jednohoudaje v souboru vsech dat, ktera jsou k dispozici prodanou ulohu, nebo pro porovnanı dvou nebo vıce da-tovych souboru. Bodovy graf pro data z prıkladu 2.2 jena obrazku 2.3.

19

Page 20: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 2 POPISNA STATISTIKA

Z obrazku je patrne, ze bodove grafy jsou podobne histogramum. Pokud provedemejednoduche trıdenı dat, pak oba jsou vpodstate identicke. Konstrukce bodovych grafu jejednodussı.

Kruhove diagramy a sloupkove grafyHistogramy, polygony a bodove grafy slouzı k znazornovanı kvantitativnıch dat. Kvalitativnıdat se zobrazujı pomocı odlisne techniky. Dve nejcasteji pouzıvane metody pro znazornenıkvalitativnıch dat jsou kruhove diagramy nebo tez nazyvane kolacove grafy a sloupkove grafy.Kruhovy diagram je kruh rozdeleny na casti ve tvaru

”kousku kolace“, ktere zıskame

rozdelenım stredoveho uhlu kruznice umerne k podılu jednotlivych castı zobrazovaneho jevuvyjadrenych v procentech. Sloupkovy graf je podobny histogramu az na to, ze jeho sloupkyse nedotykajı jeden druheho.

Kruhovy diagram a sloupkovy graf pro rozdelenı relativnıch cetnostı z prıkladu 2.3 jsouznazorneny na obr. 2.4 (a) a (b).

Obrazek 2.4 Dopravnı preference

letadlo (10%)

ostatnı (20%)

autobus (40%)

auto (30%)

(a) kruhovy diagram

0.1

0.2

0.3

0.4

auto

auto

bus

leta

dlo

osta

tnı

Rel

ativ

nıce

tnos

t

(b) sloupkovy graf

Stem-and-Leaf diagramy (stonek s listy, cıslicovy dendrogram)

Stem-and-leaf diagram je obdoba histogramu cetnostı. Konstrukce tohoto diagramu byvacasto jednodussı nez konstrukce histogramu cetnostı a obecne zobrazuje vıce informacı nezhistogram cetnostı. Pro udaje v tabulce k prıkladu 2.1 zıskame tento diagram tak, ze sinejprve vybereme z dat tzv. rıdıcı cıslice. Dostaneme tak cısla 3, 4, · · · , 9 a zapıseme je do1. sloupce. Pak postupne prochazıme data a napıseme koncovou cıslici kazdeho cısla vpravood rıdıcı cıslice. Rıdıcı cıslice se nazyvajı stems (stonky) a koncove cıslice leaves (listy).Jiny tvar stem-and-leaf diagramu je tzv. usporadany stem-and-leaf diagram. V tomtodiagramu jsou listy v kazdem radku usporadany od nejmensıho k nejvetsımu. Stem-and-leafdiagram resp. usporadany stem-and-leaf diagram je zobrazen pro data v prıkladu 2.1 na obr.2.5 (a) resp. (b).

20

Page 21: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

2.2 ELEMENTARNI ZPRACOVANI STATISTICKYCH DAT

Obrazek 2.5 Pocet dnı do splatnosti uveru

Stems Leaves Stems Leaves3 8 6 9 3 6 8 94 7 4 75 7 1 6 3 5 1 0 5 5 0 1 1 3 5 5 6 76 2 4 7 3 6 4 0 9 8 5 6 0 2 3 4 4 5 6 7 8 97 0 5 1 0 9 8 0 7 0 0 0 1 5 8 98 5 9 1 7 0 3 6 8 0 1 3 5 6 7 99 9 9 5 8 9 5 8 9 9

(a) stem-and-leaf diagram (b) usporadany stem-and-leaf diagram

2.2.3 Tvar rozdelenı cetnostı; symetrie a sikmost

Dulezitym aspektem rozdelenı cetnostı datoveho souboru je jeho tvar. Pozdeji uvidıme, zetvar rozdelenı cetnostı hraje casto dulezitou roli pri urcenı vhodne metody statisticke analyzy.

V odstavci 2.2.2 jsme se seznamili s metodami grafickeho znazornenı dat, mezi nimis histogramy, polygony a diagramy. Pri diskusi o tvarech rozdelenı je vhodnejsı pouzıvathladkou krivku jako aproximaci tvaru rozdelenı. Naprıklad obr. 2.1 zobrazuje histogramrelativnıch cetnostı pro pocet dnı zbyvajıcıch do splatnosti kratkodobych uveru. Zarovenznazornuje i hladkou krivku, ktera aproximuje tvar rozdelenı.

Tvary rozdelenı cetnostı

Obrazek 2.6 na strane 22 zobrazuje nektere bezne tvary rozdelenı: tvar zvonu, troj-uhelnıkovy, rovnomerny (rektangularnı), ve tvaru pısmene J, tvaru obraceneho J,vpravo sesikmene (vpravo protazene), vlevo sesikmene (vlevo protazene), bimodalnı,vıcemodalnı. V praxi majı rozdelenı jen zrıdka tyto uvedene idealizovane tvary.

Modalita

Zkoumame-li tvar rozdelenı, je vhodne zjistit pocet vrcholu (nejvyssıch bodu) stejne vysky.Rozdelenı nazyvame jednovrcholove nebo unimodalnı, ma-li jeden vrchol; dvouvr-cholove nebo bimodalnı, ma-li dva vrcholy; a vıcevrcholove nebo multimodalnı, jestlizema tri nebo vıce vrcholu.

Zvlastnım prıpadem bimodalnıho rozdelenı je rozdelenı U, ktere ma vrcholy na dvoukrajıch. Rozdelenı s vyraznymi vrcholy ale ne nutne stejne vysky oznacujeme v praxi castotake jako bimodalnı nebo vıcemodalnı.Poznamka: Pocet vrcholu rozdelenı cetnostı vetsı nez jeden ma vetsinou puvod v nestejno-rodosti zkoumaneho statistickeho souboru, z nehoz byva v takovem prıpade mozne a vetsinoui nutne vytvorit vhodnym roztrıdenım tolik statistickych souboru, kolik melo puvodnırozdelenı cetnostı vrcholu.

Symetrie a sikmostVsimneme si, ze kazde ze trı rozdelenı na obr. 2.6(a)-(c) ma tu vlastnost, ze je lze rozdelit nadve casti zrcadlove shodne. Takova rozdelenı se nazyvajı symetricka. Bimodalnı rozdelenızobrazene na obr. 2.6(h) je take symetricke, ale neplatı to obecne pro bimodalnı a vıcemodalnırozdelenı. Obr. 2.6(i) ukazuje nesymetricke trımodalnı rozdelenı.

21

Page 22: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 2 POPISNA STATISTIKA

Pri klasifikaci rozdelenı podle tvaru si musıme byt vedomi toho, ze rozdelenı vyskytujıcı sev praxi, povazujeme za symetricke i kdyz nenı presne symetricke.

Obrazek 2.6 Tvary rozdelenı

(a) Tvar zvonu (b) Trojuhelnık (c) Rovnomerny

(d) Obracene J (e) Tvar J (f) Vpravo protazene

(g) Vlevo protazene (h) Bimodalnı (i) Vıcemodalnı

Zakladnı soubor a vyberova rozdelenı

Pri jednoduchem nahodnem vyberu ze zakladnıho souboru ocekavame, ze rozdelenı rela-tivnıch cetnostı vyberu bude podobne i kdyz ne identicke s rozdelenım zakladnıho souboru.V praxi vsak vetsinou rozdelenı zakladnıho souboru nezname. Za techto okolnostı muzemepouzıt rozdelenı nahodneho vyberu ze zakladnıho souboru, abychom si udelali hruboupredstavu o rozdelenı celeho souboru dat. Jestlize tedy mame k dispozici nahodny vyber zezakladnıho souboru, pak rozdelenı relativnıch cetnostı vyberu bude aproximovat rozdelenırelativnıch cetnostı zakladnıho souboru. Cım vetsı bude rozsah vyberu, tım lepsı aproximacedosahneme.

2.3 Popisne mıry statistickych souboru

V odstavcıch 2.1 a 2.2 jsme se zacali zabyvat popisnou statistikou. Dozvedeli jsme se, jakusporadat data do tabulek a sumarizovat udaje pomocı grafu. Rozdelenı cetnostı poskytujeuzitecnou informaci o strukture zkoumaneho souboru, ale popisovat a zejmena porovnavatnekolik souboru pouze pomocı tabulek nebo grafu by bylo pracne. Z techto duvodu sesnazıme shrnout informaci obsazenou ve zjistenych udajıch o statistickem znaku a vyjadritji v koncentrovane forme pomocı urcitych charakteristik. Pri popisu statistickych souborunas zajımajı predevsım poloha (uroven) rozdelenı cetnostı a variabilita (rozptylenost). Mene

22

Page 23: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

2.3 POPISNE MIRY STATISTICKYCH SOUBORU

casto se zamerujeme na sikmost a spicatost. Cısla, ktera slouzı k popisu datovych sou-boru se nazyvajı popisne mıry. V teto casti se budeme zabyvat nekterymi nejdulezitejsımipopisnymi mırami.

2.3.1 Kvantily

Kvantil datoveho souboru je hodnota, ktera rozdeluje soubor hodnot urcite veliciny na dvecasti - jedna obsahuje ty hodnoty, ktere jsou mensı (nebo stejne) nez kvantil, druha castnaopak obsahuje ty hodnoty, ktere jsou vetsı (nebo stejne) nez kvantil. Presneji receno,kvantil je hodnota urcena tak, ze hodnoty, ktere jsou mensı a stejne tvorı urcitou stanovenoucast rozsahu statistickeho souboru, napr. 1, 15, 50, 90% apod. zatımco hodnoty, ktere jsouvetsı a stejne tvorı zbyvajıcı cast souboru tj. napr. 99, 85, 50, 10% atd. Kvantil velicinyx, ktery oddeluje zhruba 100p% malych hodnot znaku veliciny x (p je relativnı cetnostmalych hodnot) od 100(1 − p)% velkych hodnot veliciny x, oznacujeme x100p a nazyvameho 100p% kvantil veliciny x. Mezi dalsı nejcasteji pouzıvane kvantily patrı percentily, decilya kvartily. Percentily x1, · · · x99 datoveho souboru rozdelujı soubor na 100 stejnych castı,a decily x10, · · · , x90 rozdelujı soubor na 10 stejnych castı. Nejcasteji pouzıvane percentilyjsou kvartily. Jsou celkem tri.

Definice 2.4 KVARTILY

Kvartily jsou hodnoty, ktere delı usporadany statisticky soubor na ctyri casti, pricemzkazda obsahuje 25% jednotek.Dolnı kvartil x25 oddeluje zhruba 25% nejnizsıch hodnot veliciny od ostatnıch.Prostrednı kvartil - median (x50) rozdeluje obor hodnot veliciny na dve stejne casti, znichz kazda obsahuje 50% jednotek.Hornı kvartil x75 je takova hodnota znaku, ktera oddeluje zhruba 75% nejnizsıch hodnotveliciny od zbyvajıcıch 25%.

Necht’ x1, x2, ..., xn jsou pozorovane hodnoty sledovane veliciny x, ktere mame k dispozicia n je celkovy pocet pozorovanı. Usporadejme pozorovane hodnoty veliciny x do neklesajıcıposloupnosti x(1) ≤ x(2) ≤ ... ≤ x(n). Pak 100p% kvantil urcıme pro 0 < p < 1 podlenasledujıcıho vzorce:

x100p =

x([np]+1), pokud nenı np cele cıslo12(x(np) + x(np+1)) pro np cele.

(2.4)

Prıklad 2.4 Ilustrace definice 2.420 vybranych televiznıch divaku bylo pozadano, aby si tyden zaznamenavali dobu venovanousledovanı televiznıch poradu. Nasledujı data usporadana podle velikosti.

5 15 16 20 21 25 26 27 30 30 31 32 32 34 35 38 38 41 43 66

Urcete kvartily datoveho souboru.Resenı: Pocet dat je sudy, takze prostrednı kvartil je roven x50 = (30 + 31)/2 = 30.5. Dolnıkvartil je roven prostrednımu kvartilu 50% nejnizsıch dat, to je x25 = (21 + 25)/2 = 23. Hornıkvartil je roven prostrednımu kvartilu 50% nejvetsıch dat, to je x75 = (35 + 38)/2 = 36.5.

23

Page 24: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 2 POPISNA STATISTIKA

2.3.2 Mıry polohy

Popisne mıry, ktere ukazujı, kde lezı stred nebo nejtypictejsı hodnota datoveho souboru senazyvajı mıry polohy nebo mıry urovne. Nejdulezitejsı tri mıry polohy jsou: aritmetickyprumer, median a modus. Termınem prumer budeme v dalsım textu oznacovat aritmetickyprumer. Prumer a median muzeme pouzıt pro kvantitativnı data, zatımco modus muze bytpouzit jak pro kvantitativnı tak i kvalitativnı data.

PrumerNejcasteji pouzıvanou mırou polohy je prumer.

Definice 2.5 PRUMER DATOVEHO SOUBORU

Prumer datoveho souboru x je definovan jako podıl souctu hodnot datoveho souborua poctu jednotlivych hodnot datoveho souboru.

Prumer x lze vypocıtat podle vzorce

x =1

n

n∑

i=1

xi. (2.5)

Oznacme yi, i = 1, ..., k, 1 ≤ k ≤ n ruzne hodnoty sledovane veliciny x a ni odpovıdajıcıcetnosti, n necht’ znacı rozsah vyberoveho souboru. Pak pro vypocet prumeru pouzijemevzorec

x =

∑ki=1 yini∑ni=1 ni

=1

n

k∑

i=1

yini =k∑

i=1

yipi. (2.6)

Relativnı cetnosti pi udavajı vahu, ktera je prisuzovana jednotlivym ruznym hodnotam

sledovane veliciny. Prumer pocıtany podle vzorce (2.6) nazyvame vazeny aritmetickyprumer.

Aritmeticky prumer ma radu vlastnostı, z nichz nektere majı teoreticky vyznam, jine sedajı s vyhodou pouzıt pri jeho vypoctu. Uvedeme si je:

Vlastnosti prumeru:

1. Soucet jednotlivych odchylek od prumeru je nulovy; tj. obecne platı∑n

i=1(xi− x) = 0.

2. Pricteme-li ke kazde hodnote sledovane veliciny tutez konstantu c, zvysı se o tutokonstantu i aritmeticky prumer: 1

n

∑ni=1(xi + c) = x + c.

3. Nasobıme-li vsechny hodnoty sledovane veliciny stejnou konstantou c, je touto kon-stantou nasoben i prumer: 1

n

∑ni=1 cxi = cx.

Prıklad 2.5 Ilustrace definice 2.5Poradenska firma zamestnava nekolik starsıch konzultantu, jejichz tydennı plat je mezi 7000a 9500 Kc a nekolik mladych konzultantu s tydennım platem od 3000 do 3500 Kc. Nasledujıcıdve tabulky udavajı prehled tydennıch vydelku (ve stovkach Kc) v cervenci resp. v srpnu tehozroku. Vypoctete prumer pro kazdy datovy soubor. Jaky byl prumerny tydennı vydelek v cervencia v srpnu?

Datovy soubor I (ve stovkach Kc) 20 20 20 84 20 20 30 20 30 35 70 35 95

Datovy soubor II (ve stovkach Kc) 20 20 84 35 30 30 20 20 95 20

24

Page 25: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

2.3 POPISNE MIRY STATISTICKYCH SOUBORU

Resenı: Vzhledem k definici 2.5 dostavame:

Prumer datoveho souboru I =49913

.= 38.40 a prumer datoveho souboru II =37410

= 37.40.

Takze prumerny tydennı vydelek trinacti zamestnancu poradenske firmy v datovem souboru Ibyl 3.840 Kc a deseti zamestnancu v datovem souboru II byl 3740 Kc.

Median

Jinou casto pouzıvanou mırou polohy je median. Jak jsme se dovedeli v odstavci 2.3.1,median datoveho souboru je hodnota, ktera rozdeluje soubor hodnot urcite veliciny na dvecasti-jedna obsahuje 50% tech hodnot, ktere jsou mensı (nebo stejne) nez median, druhacast naopak obsahuje 50% hodnot, ktere jsou vetsı (nebo stejne) nez median.

Definice 2.6 MEDIAN DATOVEHO SOUBORU

Usporadejme pozorovane hodnoty sledovane veliciny do neklesajıcı posloupnosti.Jestlize rozsah datoveho souboru n je lichy, pak median je hodnota, ktera lezı praveuprostred usporadane posloupnosti hodnot.Jestlize rozsah datoveho souboru n je sudy, pak median je prumer dvou hodnot, kterelezı uprostred usporadane posloupnosti hodnot.

Ze vzorce 2.4 pro vypocet 100p% kvantilu plyne, ze median lze spocıtat podle nasledujıcıhovzorce:

x50 =

x([n

2]+1), pokud je n liche cıslo

12(x(n

2) + x(n

2+1)) pro n sude.

(2.7)

Prıklad 2.6 Ilustrace definice 2.6Uvazujme opet datove soubory I a II z prıkladu 2.5. Urcete median pro oba soubory.Resenı: Pouzijeme definici 2.6. Nejprve data usporadame do neklesajıcı posloupnosti:

20 20 20 20 20 20 30 30 35 35 70 84 95

Pocet dat v datovem souboru I je 13, to je liche cıslo. Median je tudız roven sedme hodnotev usporadane posloupnosti, to je hodnota 30. Median tydennıch platu 13 zamestnancu je 3000Kc. Podobne postupujeme i v prıpade datoveho souboru II. Data usporadame:

20 20 20 20 20 30 30 35 84 95

Pocet dat v datovem souboru II je 10, to je sude cıslo. Tudız median tydennıch platu 10zamestnancu z datoveho souboru II je (2000 + 3000)/2 = 2500 Kc.

Modus

Poslednı mıra polohy, kterou se budeme zabyvat, je modus.

Definice 2.7 MODUS DATOVEHO SOUBORU

Modus datoveho souboru x je kazda hodnota, jejız cetnost vyskytu je vetsı nez 1 a jestejna nebo vetsı nez cetnost vyskytu kterekoliv jine hodnoty.

Jestlize cetnost zadne hodnoty v datovem souboru nenı vetsı nez 1, pak rıkame, ze datovysoubor nema modus. Jinak, kazda hodnota, ktera ma nejvetsı cetnost se nazyva modusdatoveho souboru. Datovy soubor muze mıt tudız vıc nez jeden modus.

25

Page 26: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 2 POPISNA STATISTIKA

K tomu, abychom urcili modus datoveho souboru, konstruujeme nejprve tabulkurozdelenı cetnostı dat pro jednoduche trıdenı. Modus lze pak jednoduse urcit jak ukazujenasledujıcı prıklad.

Prıklad 2.7 Ilustrace definice 2.7Urcete modus kazdeho datoveho souboru z prıkladu 2.5.Resenı: Nejprve uvazujme soubor I. Pri jednoduchem trıdenı je rozdelenı cetnostı pro data zesouboru I dano nıze:

Plat 2000 3000 3500 7000 8400 9500Cetnost 6 2 1 1 1 1

Z tabulky je videt, ze nejcasteji se vyskytujıcı hodnota v datovem souboru je 2000. Tudız modus13 platu v datovem souboru I je 2000 Kc. Stejnym postupem bychom zjistili, ze modus 10 platuv datoveme souboru II je 2000 Kc.

Porovnanı prumeru, medianu a modu datoveho souboru

Prumer, median a modus datoveho souboru majı obvykle ruzne hodnoty. V obou datovychsouborech I a II, je prumer vetsı nez median. Je to proto, ze prumer je silne ovlivnen nekolikavelkymi hodnotami v kazdem souboru. Obecne platı, ze prumer je citlivy vuci extremum (toje vuci malym nebo velkym hodnotam), zatımco median ne. Tudız medianu davame jako mırepolohy prednost pred prumerem v prıpade, ze v datovem souboru jsou extremnı hodnoty.

Obrazek 2.7 ukazuje vzajemnou polohu prumeru, medianu a modu pro vpravo sesikmene,symetricke a vlevo sesikmene rozdelenı. Jak je videt, prumer lezı ve smeru extremnıch hod-not. Je-li rozdelenı vpravo sesikmene, prumer je vetsı nez median; v prıpade symetrickehorozdelenı jsou si prumer a median rovny; je-li rozdelenı vlevo sesikmene, prumer je mensınez median.Pro symetricke rozdelenı cetnostı platı: x = x = x50.Pro nesymetricke rozdelenı cetnostı platı: vzhledem k modu lezı median ve smeru delsıcasti rozdelenı a prumer dale v tomto smeru.

Obrazek 2.7 Vzajemna poloha prumeru a medianu

median prumer

(a) vpravo sesikmene

prumer median

(b) symetricke

prumer median

(c) vlevo sesikmene

Odlehla pozorovanı

Data, ktera”lezı daleko“ od vetsiny dat datoveho souboru. Mohou to byt chyby merenı nebo

zaznamu dat, nebo proste neobvykle extremnı hodnoty.

Popisna mıra se nazyva rezistentnı, jestlize nenı citliva na vliv maleho poctu extremnıchpozorovanych hodnot. Tudız median je rezistentnı, zatımco prumer nikoliv. Rezistenceprumeru muze byt zlepsena pouzitım useknutych prumeru, kdy urcite procento nej-mensıch a nejvetsıch pozorovanych hodnot je odstraneno z datoveho souboru predtım, nezpocıtame prumer.

26

Page 27: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

2.3 POPISNE MIRY STATISTICKYCH SOUBORU

Modus obou datovych souboru I a II je jiny nez prumer i median. Zatımco prumera median se snazı najıt stred datoveho souboru, modus nikoliv. Modus lze nejsnadneji urcit,avsak nejcetnejsı hodnota muze lezet daleko od vetsiny dat souboru. Prumer je jedina mırapolohy, ktera zahrnuje vsechny pozorovane hodnoty sledovane veliciny.

Je zrejme, ze prumer, median a modus obecne poskytujı ruzne informace o datovemsouboru. Neexistuje jednoduche pravidlo pro rozhodnutı, ktera z mer polohy by mela bytpouzita v dane situaci. Pro nektere ucely je vhodna jedna, pro druhe jina. Dokonce i expertise mohou lisit v nazoru na nejvhodnejsı mıru polohy pro urcity soubor dat.

2.3.3 Mıry rozptylenosti

Casto se setkavame se situacı, ze rozdelenı cetnostı majı shodnou polohu, ale presto se od sebevyrazne lisı. I kdyz prumer muze byt nejdulezitejsı charakteristikou polohy, je dulezite takevedet, jak rozdelenı kolem prumeru kolısa. Obecne je mozno rıci, ze vypovıdacı schopnostprumeru je tım vetsı, cım je rozptylenost nebo variabilita sledovane veliciny mensı. Tak jakoexistuje nekolik mer polohy, byla zkonstruovana i cela rada mer variability. Zmınıme se pouzeo tech nejdulezitejsıch, ktere se v praxi pouzıvajı.

Mıry, ktere charakterizujı menlivost statistickeho souboru v absolutnı velikosti, nazyvamemırami absolutnı rozptylenosti. Mıry tohoto typu merı rozptylenost ve stejnychmernych jednotkach, ve kterych je vyjadrovana merena velicina. V prıpade, ze srovnavamerozptylenost souboru lisıcıch se polohou, pouzıvame mıry relativnı rozptylenosti, kteremerı variabilitu v pomeru k poloze sledovane veliciny v souboru. Tyto mıry jsou bezrozmernacısla, coz dovoluje porovnavat rozptylenost statistickych znaku lisıcıch se mernou jednotkou.

Mıry absolutnı rozptylenosti

a) Variacnı rozpetıNejjednodussı mırou rozptylenosti je variacnı rozpetı nebo jen rozpetı, ktere znacıme R.

Definice 2.8 ROZPETI DATOVEHO SOUBORU

Rozpetı datoveho souboru je definovano jako rozdıl mezi nejvetsı a nejmensı hodnotouv datovem souboru

R = xmax − xmin.

Rozpetı datoveho souboru se velmi snadno a rychle spocıta a ma jednoduchou interpretaci.Avsak, pouzitı rozpetı vede k tomu, ze znacne mnozstvı informace je ignorovano - jsouvyuzity pouze nejvetsı a nejmensı hodnoty souboru a zbytek dat nenı vzat v uvahu. Krometoho, krajnı hodnoty posloupnosti pozorovanı, na nichz je rozpetı zalozeno, mohou byt na-hodile. Prıpadne extremnı vlivy se projevı predevsım na techto hodnotach. Vyznamne pouzitınachazı rozpetı ve statisticke kontrole jakosti, kde poskytuje dostatecnou informaci o vari-abilite zkoumaneho znaku.

Ve vetsine prıpadu vsak dava statisticka teorie i praxe prednost dvema jinym mıramrozptylenosti a sice smerodatne odchylce a mezikvartilovemu rozpetı.

b) Vyberovy rozptylNa rozdıl od variacnıho rozpetı, rozptyl bere v uvahu vsechny hodnoty datoveho souboru.Dava se jı prednost v prıpadech, kdy jako mıra polohy je pouzit prumer. Zhruba receno,rozptyl merı variabilitu hodnot datoveho souboru tak, ze zjistuje, jak daleko jsou v prumerujednotky datoveho souboru od aritmetickeho prumeru.

27

Page 28: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 2 POPISNA STATISTIKA

Prvnı krok k urcenı vyberoveho rozptylu je stanovit, jak je kazda jednotka xi souboruvzdalena od prumeru x, to je zjistit jejı odchylku od prumeru xi − x.

Druhy krok pri vypoctu je urcit mıru celkove odchylky od prumeru pro vsechna datasouboru. Prumerna odchylka vsak nema zadny vyznam pro urcenı rozptylenosti, protoze jevzdy rovna nule (viz vlastnost 1 prumeru). Soucet ctvercu odchylek od prumeru,

∑(xi− x)2

se nazyva soucet ctvercu odchylek a je to mıra celkove odchylky od prumeru pro vsechnadata.

Tretı krok pri urcenı vyberoveho rozptylu je urcit prumernou hodnotu ctvercu odchylek,to znamena vydelit soucet ctvercu odchylek faktorem n − 1, nikoliv rozsahem vyberu n.Duvod, proc se mısto delitele n pouzıva n− 1 bude vysvetlen pozdeji. Tım zıskame charak-teristiku variability, kterou nazyvame vyberovy rozptyl a znacıme s2.

Definice 2.9 VYBEROVY ROZPTYL

Vyberovy rozptyl s2 vyberu o rozsahu n je definovan vztahem

s2 =1

n− 1

n∑

i=1

(xi − x)2.

Cım vetsı je variabilita datoveho souboru, tım vetsı je rozptyl. Rozptyl nenı rezis-tentnı, jeho hodnota muze byt silne ovlivnena nekolika extremnımi hodnotami. Pro praktickevypocty nenı vzorec ve vyse uvedene definici 2.9 prılis vhodny. Jednoduchou upravou se daprevest na vhodnejsı tvar.

n∑

i=1

(xi − x)2 =n∑

i=1

x2i − 2x

n∑

i=1

xi + n(x)2 =n∑

i=1

x2i − 2x

n∑

i=1

xi + xn∑

i=1

xi =n∑

i=1

x2i − x

n∑

i=1

xi

=n∑

i=1

x2i − n(x)2 =

n∑

i=1

x2i − (

n∑

i=1

xi)2/n = nx2 − x2.

Pak muzeme pouzıvat tzv. vypocetnı vzorec pro rozptyl.

Vzorec 2.1 Vypocetnı vzorec pro vyberovy rozptyl

Vyberovy rozptyl s2 vyberu o rozsahu n lze pocıtat podle vzorce:

s2 =

∑ni=1 x2

i − (∑n

i=1 xi)2/n

n− 1.

Vlastnosti vyberoveho rozptylu:

1. Pricteme-li ke kazde hodnote sledovane veliciny x konstantu c, rozptyl s2y veliciny y =

x + c bude stejny jako rozptyl s2x puvodnı veliciny.

s2y =

1

n− 1

n∑

i=1

(yi − y)2 =1

n− 1

n∑

i=1

(xi + c− (x + c))2 =1

n− 1

n∑

i=1

(xi − x)2 = s2x.

2. Vynasobıme-li vsechny hodnoty sledovane veliciny x konstantou c, pak rozptyl s2z

veliciny z = cx vypocteme vynasobenım rozptylu s2x veliciny x ctvercem konstanty c.

s2z =

1

n− 1

n∑

i=1

(zi − z)2 =1

n− 1

n∑

i=1

(cxi − cx)2 = c2 1

n− 1

n∑

i=1

(xi − x)2 = c2s2x.

28

Page 29: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

2.3 POPISNE MIRY STATISTICKYCH SOUBORU

Je dulezite si uvedomit, ze vyberovy rozptyl je vyjadren v mernych jednotkach, ktere jsouctvercem puvodnıch jednotek. Proto se pouzıva tzv. vyberova smerodatna odchylka s

s =

√√√√ 1

n− 1

n∑

i=1

(xi − x)2. (2.8)

c) Mezikvartilove rozpetıMezi dalsı mıry absolutnı variability, ktere se nekdy v praxi pouzıvajı patrı mezikvartiloverozpetı. Teto mıre davame prednost v prıpadech, kdy jako mıra polohy je pouzit median.Stejne jako median je mezikvartilove rozpetı rezistentnı charakteristika.

Definice 2.10 MEZIKVARTILOVE ROZPETI

Mezikvartilove rozpetı IQR, je definovano jako rozdıl mezi hornım a dolnım kvartilem

IQR = x75 − x25.

Zhruba receno IQR udava rozpetı strednıch 50% dat. Nevyhodou teto mıry je, ze nezachycujevariabilitu vsech hodnot zkoumane veliciny. Z tohoto hlediska jsou vyberova smerodatnaodchylka a rozptyl nejdulezitejsı charakteristiky variability.

Mıry relativnı rozptylenosti

Charakteristiky variability uvedene v predchazejıcım textu jsou vyjadreny ve stejnychmernych jednotkach jako hodnoty analyzovane veliciny nebo jejich prumer. Merı tedy vari-abilitu absolutne. Pomocı techto mer nelze srovnavat variabilitu statistickeho znaku u dvounebo vıce souboru, ktere se vyrazne lisı polohou ani variabilitu nekolika statistickych velicinvyjadrenych v ruznych mernych jednotkach. V takovych prıpadech pouzıvame relativnıcharakteristiky variability, ktere vliv polohy nebo vliv merıcı jednotky vylucujı tım, zecharakteristiky absolutnı variability davajı do pomeru k prumeru nebo k medianu. Nej-znamnejsı mırou relativnı variability je variacnı koeficient.

Definice 2.11 VARIACNI KOEFICIENT

Variacnı koeficient je definovan jako pomer vyberove smerodatne odchylky a prumeru

Vx =s

x.

Vx je bezrozmerne cıslo. Jeho stonasobek (100Vx) udava rozptylenost v procentech. Podlevelmi hrubeho pravidla, variacnı koeficient vyssı nez 0.5 je prıznakem znacne nesourodostistatistickeho souboru. Variacnı koeficient pro datovy soubor II z prıkladu 2.5 je 0.7519. Tatohodnota je znakem znacne nesourodosti souboru II.

Peti–cıselna charakteristika

Pomocı trı kvartilu zıskame mıru polohy datoveho souboru (median, x50) a mıru variabilitypro dve prostrednı ctvrtiny usporadaneho datoveho souboru (x75 − x25). Tyto kvartily namvsak neposkytnou zadnou informaci o prvnı a ctvrte ctvrtine datoveho souboru. Abychomzıskali tuto informaci, je treba uvazovat take maximalnı a minimalnı hodnotu. Pak variabilitaprvnı ctvrtiny souboru muze byt merena pomocı rozdılu mezi dolnım kvartilem a minimalnı

29

Page 30: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 2 POPISNA STATISTIKA

hodnotou a variabilita ctvrte ctvrtiny souboru pomocı rozdılu maximalnı hodnoty a hornıhokvartilu. Tudız minimalnı hodnota, maximalnı hodnota a tri kvartily poskytujı, krome jineho,informaci o poloze a variabilite souboru. Dostavame se tak k definici pojmu peti–cıselnacharakteristika.

Definice 2.12 PETI–CISELNA CHARAKTERISTIKA

Peti–cıselnou charakteristiku datoveho souboru tvorı minimalnı hodnota, maximalnı hod-nota a vsechny kvartily zapsane v poradı: xmin, x25, x50, x75, xmax.

Napr. peti–cıselna charakteristika pro datovy sou- Obrazek 2.8 Krabicovy diagram

xmin x25 x50 x75 xmax

bor v prıkladu 2.4 udavajıcı dobu, kterou 20 vy-branych divaku venuje sledovanı televize je 5, 23,30.5, 36.5, a 66.

Krabicovy grafKrabicovy graf take nazyvany box and whiskers plotneboli krabice s vousy, je zalozen na peti–cıselne charakteristice a muze byt pouzit kegrafickemu zobrazenı polohy a variability dat. Krabicovy graf je zobrazen na obrazku 2.8.

2.3.4 Mıry sikmosti a spicatosti

Mıry sikmosti jsou zalozeny na porovnanı stupne nahustenosti malych hodnot sledovanehostatistickeho znaku se stupnem nahustenosti velkych hodnot tohoto znaku. Mıry spicatostijsou zalozeny na porovnanı stupne nahustenosti hodnot prostrednı velikosti se stupnemnahustenosti ostatnıch hodnot, respektive vsech hodnot sledovaneho statistickeho znaku.

Definice 2.13 M IRA SIKMOSTI, MIRA SPICATOSTI

Necht’ xi, i = 1, 2 · · · , n jsou namerene hodnoty sledovaneho statistickeho znaku x, x jejejich aritmeticky prumer a s je smerodatna odchylka.Mıra sikmosti α (strucne sikmost) a mıra spicatosti β (strucne spicatost) jsou definovanynasledujıcımi vztahy

α =

∑ni=1(xi − x)3

ns3a β =

∑ni=1(xi − x)4

ns4− 3.

Stejny stupen hustoty malych a velkych hodnot se zpravidla projevuje v symetrii tvarurozdelenı cetnostı. Vetsı stupen nahustenosti malych hodnot v porovnanı s hustotou velkychhodnot se projevı vpravo sesikmenym tvarem rozdelenı cetnostı, ktere oznacujeme take kladnesesikmenym tvarem rozdelenı (α je kladne cıslo). Vetsı stupen nahustenosti velkych hodnotve srovnanı s hustotou malych hodnot se projevı zpravidla vlevo sesikmenym tvarem rozdelenıcetnostı, ktere take nazyvame zaporne sesikmeny tvarem rozdelenı (α je zaporne cıslo).

Jsou-li cetnosti prostrednıch hodnot srovnatelne s cetnostmi ostatnıch hodnot znaku,spicatost se zpravidla projevuje plochym tvarem rozdelenı cetnostı. Vetsı stupen koncen-trace prostrednıch hodnot ve srovnanı s cetnostmi vsech hodnot znaku se projevı spicatymtvarem rozdelenı cetnostı. Z vyssı cıselne hodnoty mıry β se zpravidla usuzuje na spicatejsırozdelenı cetnostı a tım zaroven na vyssı stupen koncentrace prostrednıch hodnot ve srovnanıs ostatnımi hodnotami sledovaneho znaku. Casto se pouzıvajı ruzne modifikace mıry sikmostiα a mıry spicatosti β, ktere zde nebudeme uvadet (viz napr. [7]).

30

Page 31: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Kapitola 3

Pocet pravdepodobnosti

Az dosud jsme se soustredili na popisnou statistiku, to je na metody pro organizovanı a suma-rizaci dat. Avsak hlavnım cılem je seznamit se se zaklady inferencnı statistiky, s meto-dami formulovanı zaveru o zakladnım souboru na zaklade informacı zıskanych z vyberu zezakladnıho souboru.

Vzhledem k tomu, ze statisticka indukce zahrnuje formulovanı zaveru o celem zakladnımsouboru na zaklade informacı zıskanych pouze z casti tohoto souboru, nemuzeme si bytnikdy jisti, ze nase zavery jsou spravne – neurcitost je vlastnı inferencnı statistice. Drıve nezzacneme odvozovat a aplikovat metody inferencnı statistiky, musıme se seznamit s pojmemneurcitost.

Veda o neurcitosti se nazyva teorie pravdepodobnosti. Teorie pravdepodobnosti namumoznı ohodnotit, zda nase statisticke zavery jsou spravne.

3.1 Pojem pravdepodobnosti

Kazda lidska cinnost spocıvajıcı v realizaci urcitych predem stanovenych podmınek a sle-dovanı prıslusnych dusledku se nazyva pokus. Vysledek pokusu nazyvame jev. V prırode sesetkavame s pokusy, ktere se rıdı deterministickym schematem: Vstoupı-li v platnost urcitykomplex okolnostı, pak nutne nastane urcity jev. Krome toho se vsak vyskytujı v prırodea beznem zivote cetne jevy, ktere nelze popsat podobnym schematem a ktere lze charak-terizovat takto: V dusledku komplexu okolnostı muze urcity jev nastat, ale muze tez ne-nastat. Takove jevy se nazyvajı nahodnymi jevy a schemata tohoto druhu se nazyvajıstochastickymi schematy. Pokusy tohoto typu nazyvame nahodne pokusy. Naprıklad prisebelepsım dodrzenı vyrobnıch podmınek jsou nektere vyrobky vadne. Nebo pri jednom hodumincı vysledek, ze padne lıc, muze nastat, ale take muze nenastat.

Pravdepodobnost jevu je mıra verohodnosti, ze jev nastane. Pravdepodobnost blızka nuleznamena, ze je velice neverohodne, aby jev nastal, zatımco pravdepodobnost blızka jedneznamena, ze je velice verohodne, ze jev nastane. Abychom zıskali dalsı pohled na vyznam po-jmu pravdepodobnost pouzijeme k tomu interpretaci pojmu pravdepodobnost pomocırelativnıch cetnostı. Pri teto interpretaci chapeme pravdepodobnost jevu jako relativnıcetnost jeho vyskytu pri velkem poctu opakovanı tehoz pokusu.

Pro ilustraci uvazujme pokus spocıvajıcı v jednom hodu zcela pravidelnou mincı. Protozemince je pravidelna (zhotovena z homogennıho materialu) usuzujeme, ze je sance 1 ku 1, zepadne lıc. Tudız prisoudıme jevu, ze padne lıc, pravdepodobnost rovnou 0.5. Interpretacepomocı relativnıch cetnostı znamena, ze pri velkem poctu hodu jednou mincı padne lıc

31

Page 32: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 3 POCET PRAVDEPODOBNOSTI

priblizne v polovine prıpadu. Existujı tedy nahodne jevy, jejichz relativnı cetnost vykazujeurcitou stabilitu, tj. relativnı cetnost kolısa kolem urcite hodnoty a jejı vychylky se vetsinouzmensujı tım vıce, cım vıce pokusu je vykonano. Necht’ na je cetnost urciteho jevu v serii nnezavislych opakovanı pokusu, pak

pravdepodobnost jevu ≈ na

n.

Prestoze interpretace pojmu pravdepodobnost pomocı relativnıch cetnostı je uzitecna propochopenı pojmu pravdepodobnost, nemuze byt pouzita jako definice pravdepodobnosti.

Klasicka pravdepodobnostNejprve budeme diskutovat klasickou pravdepodobnost, ktera vyuzıva pojem pravde-podobnostnıho modelu, ve kterem kazdy jev ma stejnou moznost, ze nastane. Pojem stejnemoznosti vsech jevu chapeme jako jakousi apriornı rovnocenost vsech moznych vysledkupokusu, jako objektivnı vlastnost moznych variant prubehu pokusu. Zhruba receno, predpo-klada se, ze nenı duvod, abychom ocekavali jeden z vysledku spıse nez jiny.

Prıklad 3.1 Klasicka pravdepodobnost

Uvazujme tabulku cetnostı a relativnıch cetnostı starı 40 studentu v jednom rocnıku na nejakeuniverzite. Predpokladejme, ze jsme vybrali jednoho studenta nahodne, mıneno tım, ze kazdystudent mel stejnou moznost, ze bude vybran. Urcete pravdepodobnost, ze nahodne vybranemustudentovi je 20 let.

Starı 18 19 20 21 22 23 24 26 35 36Cetnost 2 9 7 7 5 3 4 1 1 1Relativnı c. 0.050 0.225 0.175 0.175 0.125 0.075 0.100 0.025 0.025 0.025

Resenı: Z druheho radku tabulky je videt, ze 7 ze 40 studentu je ve veku 20 let. Tudız je sance 7ku 40, ze nahodne vybranemu studentovi bude 20 let. Pravdepodobnost je tudız

pocet 20 let starych studentucelkovy pocet studentu

=740

.

Vsimneme si, ze pravdepodobnost, ze nahodne vybranemu studentovi je 20 let, je stejna jako rela-tivnı cetnost studentu, kterym je 20 let (7/40 = 0.175).

Definice 3.1 KLASICKA PRAVDEPODOBNOST

Predpokladejme, ze existuje N stejne moznych vysledku nejakeho pokusu, z nichz fma za nasledek nastoupenı urciteho jevu, zatımco zbylych N − f je vylucuje. Pakpravdepodobnost, ze urcity jev nastane, je rovna poctu f opakovanı pokusu, pri kterychtento jev nastal, delenemu celkovym poctem N moznych vysledku. Jinymi slovy,

pravdepodobnost jevu =pocet prıpadu, kdy jev nastal

celkovy pocet moznych vysledku=

f

N.

”Klasickou definici“ pravdepodobnosti nepokladame dnes jiz za definici, ale pouze za metodu

vypoctu pravdepodobnostı.

32

Page 33: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

3.2 NAHODNE JEVY

Prıklad 3.2 Ilustrace definice 3.1Vratıme se opet k prıkladu 3.1. Urcete pravdepodobnost, ze nahodne vybrany student budemladsı nez 21 let.Resenı: Z tabulky k prıkladu 3.1 je videt, ze 18 (2+9+7) studentum je mene nez 21 let. Takzef = 18 a pravdepodobnost je rovna

f

N=

1840

= 0.450.

Pravdepodobnosti a procenta

V prıkladu 3.1 jsme upozornili na to, ze pravdepodobnost, ze nahodne vybrany student budemladsı nez 20 let, je rovna relativnı cetnosti dvacetiletych studentu.

Predpokladejme, ze pokus spocıva v nahodnem vyberu jedne statisticke jednotky z ko-necneho souboru. Pak pravdepodobnost, ze urcity jev nastane, je rovna relativnı cetnosti(procentu) poctu tech jednotek souboru, ktere splnujı podmınky kladene na jev.

Tudız, naprıklad skutecnost, ze 10% obyvatel CR je romske narodnosti take znamena, zepravdepodobnost, ze nahodne vybrany obcan CR bude Rom, je rovna 0.10.

Zakladnı vlastnosti pravdepodobnostı

1. Pravdepodobnost jevu je vetsı nebo rovna 0 a mensı nebo rovna 1.

2. Pravdepodobnost jevu, ktery nemuze nastat, je rovna 0. Jev, ktery nemuze nastat, senazyva nemozny jev.

3. Pravdepodobnost jevu, ktery musı nastat, je rovna 1. Jev, ktery musı nastat, se nazyvajisty jev.

V nekterych prıpadech nenı splnen zakladnı pozadavek klasicke definice pravdepodobnosti,tj. predpoklad stejne moznosti vsech jevu. V takovych prıpadech musıme pouzıt jine metodyurcenı pravdepodobnostı. Nekterymi metodami se budeme zabyvat pozdeji v teto kapitole.

3.2 Nahodne jevy

Nez budeme pokracovat ve studiu pravdepodobnosti, musıme se seznamit podrobneji s po-jmem nahodny jev. Zatım jsme pouzıvali slovo jev intuitivne.

Necht’ pokus spocıva v hazenı pravidelnou kostkou, zhotovenou z homogennıho materialu.Pak pri jednom hodu muze nastat jeden z 6 moznych vysledku tohoto pokusu, to je, zepadne jedno z cısel 1, 2, 3, 4, 5, 6. Tyto vysledky pokusu nazyvame elementarnı jevydaneho pokusu. Vsechny elementarnı jevy daneho pokusu tvorı prostor elementarnıchjevu. Kazdou podmnozinu prostoru elementarnıch jevu nazyvame nahodny jev. Nahodnyjev muze byt totozny s nekterym jevem elementarnım. System vsech jevu nazyvame jevovepole pro dany pokus. S nasım pokusem je spjato mnoho ruznych jevu. Budeme uvazovatnasledujıcı tri a urcıme z kterych elementarnıch jevu jsou slozeny :

a) Jev spocıvajıcı v tom, ze pri hodu jednou kostkou padne cıslo 4.

b) Jev spocıvajıcı v tom, ze pri hodu jednou kostkou padne liche cıslo.

c) Jev spocıvajıcı v tom, ze pri hodu jednou kostkou padne cıslo delitelne dvema.

33

Page 34: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 3 POCET PRAVDEPODOBNOSTI

Prvnı jev nastane, padne-li pri hodu kostkou cıslo 4. Druhy jev je tvoren tremi vysledkya sice: padne cıslo 1, padne cıslo 3, padne cıslo 5. Tretı jev je tvoren tremi vysledky a sice:padne cıslo 2, padne cıslo 4, padne cıslo 6. Jestlize pri hodu jednou kostkou padne cıslo 3,pak nastane druhy jev, zatımco prvnı a tretı jev nenastane.V nasledujıcı definici 3.2 je shrnuta terminologie, kterou jsme zavedli v tomto prıkladu.

Definice 3.2 PROSTOR ELEMENTARNICH JEVU, JEVY, JEVOVE POLE

Prostor elementarnıch jevu: Neprazdna mnozina Ω vsech moznych vysledku urcitehopokusu. Prvky Ω se nazyvajı elementarnı jevy a znacıme je ω.Jevove pole: System A podmnozin prostoru elementarnıch jevu. Prvky A ∈ A se nazavajınahodne jevy.

3.2.1 Vztahy mezi jevy

Jevy budeme oznacovat velkymi pısmeny A, B, C, · · · . Jev jisty budeme oznacovat Ω a jevnemozny ∅. Mezi jevy existujı nektere vztahy zname z teorie mnozin.

Dva jevy, ktere pri kazdem vysledku pokusu bud’to oba nastanou nebo ani jeden anidruhy nenastane, povazujeme za sobe rovny. Okolnost, ze jevy A a B jsou rovnocenne,zapisujeme A = B.

Okolnost, ze jev A nenastal, je take urcity jev; oznacıme jej A nebo Ac a nazveme jevemopacnym.

Kazdym dvema jevum A a B muzeme priradit dva nove jevy. Jeden jev je urcen podmınkou,ze

”oba jevy A a B nastanou soucasne“, je oznacovan A ∩ B nebo AB a nazyvame ho

prunikem jevu A a B. Jev A ∩B tvorı vsechny vysledky pokusu spolecne obema jevum.Druhy jev prirazeny k obema jevum A a B je urcen podmınkou, ze

”bud’ nastane jev A

nebo jev B nebo nastanou oba“ nebo ekvivalentne”alespon jeden z jevu A a B nastane“.

Tento jev je oznacovan A ∪ B nebo A + B a nazyvame ho sjednocenım jevu A a B. JevA ∪B tvorı vsechny vysledky, pri kterych nastane jev A nebo jev B nebo oba jevy.

Rozdılem jevu A a B nazyvame jev spocıvajıcı v nastoupenı jevu A a v nenastoupenıjevu B. Oznacujeme jej A−B.

Na zaver se zmınıme jeste o jednom vztahu mezi jevy. Jestlize pri kazde realizaci jevu Anastava i jev B, pak rıkame, ze jev A ma za nasledek jev B, neboli jev A je castı jevu B,symbolicky A ⊂ B.

Jevy casto zapisujeme vyctem elementarnıch jevu ve slozene zavorce nebo pomocı logi-ckeho vyroku v hranate zavorce, napr. pro hod kostkou A = 2, 4, 6 = [padlo sude cıslo].

Definice 3.3 shrnuje pojmy popisujıcı vztahy mezi jevy.

Definice 3.3 VZTAHY MEZI JEVY

Necht’ A a B jsou jevy. Pak A je jev, ze”A nenastal“.

A ∩B nebo AB je jev,”A a B nastaly soucasne“.

A ∪B nebo A + B je jev,”bud’ A nebo B nebo oba nastaly“.

A−B je jev, ze”A nastal a zaroven B nenastal“.

A ⊂ B znamena, ze vyskyt jevu A ma za nasledek vyskyt jevu B.

Protoze vyrok”A a B nastaly soucasne“ je stejny jako vyrok

”B a A nastaly soucasne“, jev

A ∩B je stejny jako jev B ∩ A. Stejne tak platı A ∪B = B ∪ A.

34

Page 35: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

3.2 NAHODNE JEVY

Casto se uzıvajı de Morganova pravidla

(A ∪B) = A B, AB = A ∪B,

ktera platı i pro sjednocenı ci prunik vetsıho poctu jevu.

Prıklad 3.3 Ilustrace definice 3.3

V pokusu spocıvajıcım v jednom hodu pravidelnou hracı kostkou oznacme:

A = [ jev, ze padne cıslo 4 ], B = [ jev, ze padne cıslo vetsı nez 2 ],C = [ jev, ze padne liche cıslo ], D = [ jev, ze padne cıslo delitelne 2 ].

Urcete nasledujıcı jevy: a) A, b) B ∩ C, c) B ∪D, d) D −A.

Resenı: V tomto prıpade je Ω = 1, 2, 3, 4, 5, 6

a) A je jev, ze nenastal jen A, tj., ze nepadne cıslo 4. Tudız A = 1, 2, 3, 5, 6.b) B∩C je jev, ze nastaly jevy C a B soucasne, tj., ze padne cıslo vetsı nez 2 a zaroven, ze padne

liche cıslo. Tento jev nastane, pokud vysledkem pokusu bude jedno ze dvou cısel 3 a 5, tj.B ∩ C = 3, 5.

c) B ∪D je jev, ze bud’ padne cıslo vetsı nez 2, nebo cıslo delitelne dvema nebo oba jevy. Takovyjev se sklada z peti jednotlivych vysledku a sice B ∪D = 2, 3, 4, 5, 6.

d) D−A je jev, ze nastane D, ale nenastane A. Tento jev nastane, kdyz pri hodu kostkou padnecıslo 2 nebo cıslo 6. Cili D −A = 2, 6.

3.2.2 Vzajemne neslucitelne jevy

Dva jevy A a B jsou vzajemne neslucitelne (nebo disjunktnı), jestlize nejvyse jedenz nich muze nastat. Pro dva vzajemne neslucitelne jevy A a B platı A ∩ B = ∅. Mamenasledujıcı definici.

Definice 3.4 DVA VZAJEMNE NESLUCITELNE JEVY

O dvou jevech rekneme, ze jsou vzajemne neslucitelne, jestlize nastal jeden, nemohlnastat druhy, tj. nemajı zadny spolecny vysledek.

Prıklad 3.4 Ilustrace definice 3.4

V pokusu spocıvajıcım v jednom hodu pravidelnou hracı kostkou oznacme

A = [ jev, ze padne cıslo vetsı nez 2], B = [ jev, ze padne liche cıslo],C = [ jev, ze padne cıslo delitelne dvema].

Urcete, ktere z nasledujıcıch dvojic jevu jsou vzajemne neslucitelne: a) A, B b) A, C c) B, C.

Resenı:

a) Jevy A a B nejsou neslucitelne. Oba jevy nastanou, kdyz padne cıslo 3 nebo 5.

b) Jevy A a C nejsou neslucitelne. Oba jevy nastanou, kdyz padne cıslo 4 nebo cıslo 6.

c) Jevy B a C jsou neslucitelne. Oba nemohou soucasne nastat pri hodu jednou kostkou, nebot’je nemozne, aby padlo zaroven liche cıslo a cıslo delitelne dvema.

35

Page 36: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 3 POCET PRAVDEPODOBNOSTI

Pojem vzajemne neslucitelne jevy lze rozsırit na vıce nez dva jevy.

Definice 3.5 VZAJEMNE NESLUCITELNE JEVY

Jevy A1, A2, · · · , As jsou vzajemne neslucitelne, jestlize zadne dva z nich nemohounastat soucasne, tj. kazda dvojice Ai, Aj splnuje podmınku Ai ∩ Aj = ∅, i 6= j , i, j =1, 2, · · · , s.

3.3 Axiomaticka definice pravdepodobnosti

Obecna teorie pravdepodobnosti, ktera zahrnuje v predchazejıcıch castech uvedene vykladypojmu pravdepodobnost, vychazı z nasledujıcıch axiomu:

1. Je dan prostor elementarnıch jevu Ω 6= ∅.

2. Je dano jevove pole A podmnozin Ω splnujıcı podmınky:

(a) Ω ∈ A(b) jestlize A ∈ A, potom A ∈ A(c) je-li A1, A2, · · · , An, · · · konecna nebo spocetna posloupnost jevu patrıcıch do A,

potom sjednocenı⋃∞

n=1 An ∈ A.

3. Kazdemu jevu A ∈ A je prirazena pravdepodobnost P (A) tohoto jevu; P je mnozinovafunkce zobrazujıcı A na interval 〈0, 1〉 s vlastnostmi:

(α) P (Ω) = 1

(β) pro kazdou konecnou nebo spocetnou posloupnost vzajemne neslucitelnych jevuA1, A2, · · · , An, · · · patrıcıch do A platı P (

⋃∞n=1 An) =

∑∞n=1 P (An).

Je-li Ω konecna nebo spocetna mnozina, potom je obycejne A system vsech podmnozin Ω.

Definice 3.6 PRAVDEPODOBNOSTNI PROSTOR (PRAVDEPODOBNOSTNI MODEL)

Pravdepodobnostnım prostorem nazyvame trojici (Ω,A,P), kde Ω je neprazdna mnozina,A je system podmnozin Ω, na kterem je definovana mnozinova funkce P tak, ze jsousplneny axiomy (a)–(c) a (α), (β).

Z axiomu uvedenych vyse lze odvodit nasledujıcı vlastnosti pravdepodobnosti:

1. P (∅) = 0

2. jestlize A ⊂ B =⇒ P (A) ≤ P (B)

3. jestlize A ⊂ B =⇒ P (B − A) = P (B)− P (A).

Axiomaticka teorie pravdepodobnosti vychazı z axiomu, na jejichz zaklade formulujeobecne platne vety a podava tak navod, jak ze znalosti pravdepodobnostı jednech jevu urcitpravdepodobnosti jinych jevu, ktere s nimi danym zpusobem souvisı.

36

Page 37: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

3.4 PRAVIDLA PRO POCITANI S PRAVDEPODOBNOSTMI

3.4 Pravidla pro pocıtanı s pravdepodobnostmi

V teto casti se seznamıme s nekterymi pravidly pro vypocet pravdepodobnostı.

3.4.1 Pravidlo o scıtanı pravdepodobnostı

Prvnı pravidlo, kterym se budeme zabyvat, je pravidlo pro scıtanı pravdepodobnostı prolibovolne jevy.

Vzorec 3.1 Pravdepodobnost sjednocenı libovolnych jevu

Necht’ A a B jsou dva libovolne jevy, pak

P (A ∪B) = P (A) + P (B)− P (A ∩B).

Obecne, jestlize A1, A2, · · · , As, s > 2 jsou libovolne jevy, pak

P (s⋃

i=1

) =s∑

i=1

P (Ai)−s∑

i<j

P (AiAj) +s∑

i<j<k

P (AiAjAk) + ... + (−1)s−1P (A1A2...As).

Prıklad 3.5 Ilustrace vzorce 3.1

Pruzkum sledovanosti televiznıho poradu Arena manzelskymi pary ukazal, ze pravidelne tentoporad sleduje 30% vsech manzelek a 50% vsech manzelu. Zaroven se ukazalo, ze tento poradsleduje 18% manzelskych paru. Nahodne vybereme manzelsky par. Jaka je pravdepodobnost, zeporad bude sledovat alespon jeden z manzelu.Resenı: Oznacme A = [porad sleduje manzelka] a B = [porad sleduje manzel]. Ze zadanı prıkladuplyne, ze P (A) = 0.30 a P (B) = 0.50 a P (A ∩ B) = 0.18. Je zrejme, ze jev [porad sleduje alesponjeden z manzelu] je roven sjednocenı jevu A a B. Podle vzorce 3.1 pro vypocet pravdepodobnostisjednocenı dvou jevu dostaneme

P (A ∪B) = P (A) + P (B)− P (A ∩B) = 0.30 + 0.50− 0.18 = 0.62.

Tudız pravdepodobnost, ze nahodne vybrany manzelsky par sleduje TV porad Arena, je rovna 0.62.

3.4.2 Pravidlo pro pravdepodobnost opacneho jevu

Druhe pravidlo, kterym se budeme zabyvat je pravidlo pro vypocet pravdepodobnosti opac-neho jevu, ktere stanovı, ze pravdepodobnost, ze jev nastal se rovna 1 minus pravdepodobnost,ze jev nenastal.

Vzorec 3.2 Pravdepodobnost opacneho jevu

Pro kazdy jev A ∈ A platıP (A) = 1− P (A).

Toto pravidlo je dulezite z toho duvodu, ze je nekdy jednodussı vypocıtat pravdepodobnostP (A), ze jev nenastal, nez pravdepodobnost P (A), ze jev nastal.

37

Page 38: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 3 POCET PRAVDEPODOBNOSTI

Prıklad 3.6 Ilustrace vzorce 3.2

Uvazujme opet prıklad 3.1. Predpokladejme, ze jeden student byl nahodne vybran. Urcete pra-vdepodobnost, ze starı nahodne vybraneho studenta bude mene nez 36 let.Resenı: Necht’ A oznacuje jev, ze starı nahodne vybraneho studenta bude mene nez 36 let. K tomu,abychom urcili P (A), pouzijeme pravidlo o pravdepodobnosti opacneho jevu, nebot’ je jednodussıspocıtat P (A). Poznamenejme, ze jev A je jev, ze starı nahodne vybraneho studenta je 36 let. Z tab-ulky relativnıch cetnostı snadno zjistıme, ze P (A) = 0.025. Pouzitım pravidla o pravdepodobnostiopacneho jevu dostaneme, ze

P (A) = 1− P (A) = 1− 0.025 = 0.975.

Pravdepodobnost, ze starı nahodne vybraneho studenta bude nizsı nez 36 let, je rovna 0.975.

3.4.3 Pravidlo o podmınene pravdepodobnosti

V teto casti zavedeme pojem podmınena pravdepodobnost. Podmınena pravdepodobnostjevu je pravdepodobnost, ze jev nastane za podmınky, ze jiny jev nastal.

Definice 3.7 PODMINENA PRAVDEPODOBNOST

Predpokladejme, ze A,B jsou jevy. Potom pravdepodobnost, ze nastane jev A zapodmınky, ze nastal jev B, se nazyva podmınena pravdepodobnost. Oznacujeme jisymbolem P (A|B), ktery cteme

”pravdepodobnost jevu A za podmınky B“.

Prıklad 3.7 Ilustrace definice 3.7

Hodıme-li jedenkrat pravidelnou hracı kostkou, pak muze nastat 6 stejne moznych vysledku,tj. Ω = 1, 2, 3, 4, 5, 6. Necht’ A = [padne cıslo 5] a L = [padne liche cıslo]. Urcete nasledujıcıpravdepodobnosti: a) Pravdepodobnost, ze padlo cıslo 5. b) Podmınenou pravdepodobnost, zepadne cıslo 5, za podmınky, ze padlo liche cıslo. c) Podmınenou pravdepodobnost, ze padne lichecıslo, za podmınky, ze nepadlo cıslo 5.

Resenı:

a) Vzhledem k tomu, ze je sest moznych vysledku pri hodu jednou kostkou a jev A nastane jenpokud padne cıslo 5, je

P (A) =16

= 0.167.

b) V tomto prıpade nastal jev L, ze padlo liche cıslo, tudız uz nenı sest moznych vysledku, alepouze 3 mozne vysledky. Prostor elementarnıch jevu je nynı Ω1 = 1, 3, 5. Tudız podmınenapravdepodobnost je

P (A|L) =13

= 0.333.

Porovname-li tuto pravdepodobnost s pravdepodobnostı vypoctenou v a) vidıme, ze P (A|L)6= P (A); to znamena, vıme-li, ze padlo liche cıslo, pak to ma vliv na pravdepodobnost, zepadne cıslo 5.

38

Page 39: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

3.4 PRAVIDLA PRO POCITANI S PRAVDEPODOBNOSTMI

c) Pokud padlo jine cıslo nez 5, nastal jev A a prostor elementarnıch jevu je Ω2 = 1, 2, 3, 4, 6.Za teto podmınky jev L nastane v prıpade, ze padlo cıslo 1 nebo cıslo 3. Tudız podmınenapravdepodobnost, ze padne liche cıslo za podmınky, ze nepadlo cıslo 5 je

P (L|A) =25

= 0.40.

Pravidlo podmınene pravdepodobnosti

V predchazejıcım prıkladu jsme pocıtali podmınene pravdepodobnosti prımo, tj. nejprvejsme urcili novy prostor elementarnıch jevu za podmınky, ze nastal urcity jev a pak jsmepocıtali pravdepodobnosti obvyklym zpusobem.

Avsak nekdy nemuzeme podmınene pravdepodobnosti urcit prımo, ale musıme je pocıtatpomocı pravdepodobnostı nepodmınenych.

Vzorec 3.3 Pravidlo podmınene pravdepodobnosti

Jestlize A,B jsou dva jevy takove, ze P (B) > 0, potom

P (A|B) =P (A ∩B)

P (B).

Jinymi slovy, podmınena pravdepodobnost, ze nastane jev A za podmınky, ze nastal jev B,je rovna pravdepodobnosti pruniku jevu A a B delenemu pravdepodobnostı jevu B.

V prıkladu 3.7 jsme podmınene pravdepodobnosti vypocıtali prımo, muzeme je vsak takeurcit pomocı pravidla pro podmınenou pravdepodobnost.

Prıklad 3.8 Ilustrace vzorce 3.3

Uvazujme prıklad 3.7. Vypocteme pravdepodobnosti P (A|L) a P (L|A) pomocı vzorce 3.3.Resenı: Nejprve vypocteme P (A|L). V tomto prıpade je jev A ∩ L rovnocenny s jevem A, tj. A ∩ L =5 = L. Pomocı vzorce 3.3 dostaneme

P (A|L) =P (A ∩ L)

P (L)=

P (A)P (L)

=1636

=13

= 0.333.

V prıpade vypoctu P (L|A) je L ∩A = 1, 3 a

P (L|A) =P (L ∩A)

P (A)=

2656

=25.

3.4.4 Pravidlo pro nasobenı pravdepodobnostı; nezavislost jevu

Pravidlo pro podmınenou pravdepodobnost, vzorec 3.3 pouzıvame pro vypocet podmınenychpravdepodobnostı pomocı nepodmınenych pravdepodobnostı. Vynasobıme-li obe strany rov-nice ve vzorci 3.3 pravdepodobnostı P (B), dostaneme vzorec pro vypocet pravdepodobnostipruniku jevu A a B pomocı nepodmınene pravdepodobnosti jevu B a podmınene pravde-podobnosti P (A|B). Vzorec, ktery dostaneme, se nazyva pravidlo pro nasobenı a je uvedenove vzorci 3.4.

39

Page 40: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 3 POCET PRAVDEPODOBNOSTI

Vzorec 3.4 Pravidlo pro nasobenı pravdepodobnostı

Jestlize A,B jsou dva jevy, pak

P (A ∩B) = P (B) · P (A|B).

Jsou-li A1, A2, · · · , As jevy, P (A1 · · ·As) > 0, s ≥ 2, pak platı

P (A1A2 · · ·As) = P (A1)P (A2|A1)P (A3|A1A2) · · ·P (As|A1A2 · · ·As−1).

Prıklad 3.9 Ilustrace vzorce 3.4

Dva delnıci vyrabejıcı stejny vyrobek se lisı produktivitou i kvalitou prace. Zatımco prvnı z nichvyrabı v prumeru 60% a druhy 40% dennı produkce, je mezi vyrobky prveho v prumeru 10%zmetku a u druheho 5% zmetku. Urciteho dne vybereme z produkce nahodne jeden vyrobek.Jaka je pravdepodobnost, ze vybereme vyrobek, ktery soucasne pochazı od prvnıho delnıka a jezmetek?Resenı: Oznacme A jev, ze z produkce urciteho dne vybereme nahodne vyrobek prvnıho delnıkaa B oznacme jev, ze vybereme zmetek. Hodnoty pravdepodobnostı budou P (A) = 0.60, P (B|A) =0.10. Podle pravidla pro nasobenı dostaneme

P (A ∩B) = P (A) · P (B|A) = 0.60 · 0.10 = 0.06.

Pravdepodobnost, ze vybereme vyrobek, ktery soucasne pochazı od prvnıho delnıka a je zme-tek je 0.06.

Nezavislost jevu

Dva jevy A a B se nazyvajı statisticky nezavisle, jestlize pravdepodobnost nastoupenınebo nenastoupenı jednoho z jevu neovlivnuje pravdepodobnost nastoupenı nebo nenas-toupenı druheho jevu.

Definice 3.8 STATISTICKA NEZAVISLOST

Jev B je statisticky nezavisly na jevu A, jestlize nastoupenı jevu A neovlivnujepravdepodobnost, ze jev B nastoupı. Symbolicky

P (B|A) = P (B).

To znamena, ze informace o tom, ze nastal jev A, neposkytuje zadnou pravdepodobnostnı in-formaci o nastoupenı jevu B. Z duvodu strucnosti budeme naprıste pouzıvat termın nezavislymısto statisticky nezavisly.

Prıklad 3.10 Ilustrace definice 3.8

Hodıme jedenkrat hracı kostkou. Uvazujme nasledujıcı jevy: A = [padne cıslo vetsı nez 4], B =[padne sude cıslo], C = [padne cıslo delitelne 3]. Urcete, zda a) jev A je nezavisly na jevu B;b) jev A je nezavisly na jevu C.

40

Page 41: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

3.4 PRAVIDLA PRO POCITANI S PRAVDEPODOBNOSTMI

Resenı:

a) Nepodmınena pravdepodobnost jevu A je P (A) = 26 = 0.333. K tomu, abychom zjistili, zda jev

A je nezavisly na jevu B, musıme vypocıtat P (A|B) a porovnat ji s P (A).

P (A|B) =13

= 0.333.

Vidıme, ze P (A|B) = P (A). Tudız nastoupenı jevu B neovlivnuje pravdepodobnost, ze nas-tane jev A. To znamena, ze jev A je nezavisly na jevu B.

b) Nynı potrebujeme spocıtat P (A|C) a porovnat ji s P (A).

P (A|C) =12

= 0.5.

Tato pravdepodobnost se nerovna P (A). Tudız nastoupenı jevu C ovlivnuje pravdepodobnost,ze nastane jev A. To znamena, ze jev A nenı nezavisly na jevu C.

Jestlize jev B je nezavisly na jevu A, pak take platı, ze jev A je nezavisly na jevu B. Protocasto rıkame, ze jevy A a B jsou nezavisle, nebo ze A a B jsou nezavisle jevy.

Definici nezavislosti zobecnıme pro s > 2 jevu. Jevy A1, A2, · · · , As jsou vzajemnenezavisle, jestlize pro kazdou konecnou podmnozinu s1, s2, · · · , sk ⊂ N+ indexove mnozinyprirozenych cısel platı

P (As1 ∩ As2 ∩ · · · ∩ Ask) = P (As1)P (As2)...P (Ask

).

Pravidlo o nasobenı pravdepodobnostı pro vzajemne nezavisle jevy

Jestlize jevy A a B jsou nezavisle, pak platı P (A|B) = P (A). Tudız pro vzajemne nezavislejevy dostaneme nasledujıcı pravidlo o nasobenı pravdepodobnostı.

Vzorec 3.5 Pravidlo o nasobenı pravdepodobnostı pro vzajemne nezavisle jevy

Jestlize A,B jsou dva nezavisle jevy, pak

P (A ∩B) = P (A) · P (B),

a naopak, jestlize P (A ∩ B) = P (A)P (B), pak A a B jsou nezavisle jevy. Jsou-liA1, A2, · · · , As vzajemne nezavisle jevy, pak platı

P (A1A2 · · ·As) = P (A1)P (A2) · · ·P (As).

Jinymi slovy, dva jevy jsou nezavisle prave tehdy, jestlize pravdepodobnost soucasneho nas-toupenı obou jevu je rovna soucinu pravdepodobnostı jednotlivych jevu.

Prıklad 3.11 Ilustrace vzorce 3.5

Obchodnı cestujıcı navstıvı denne 12 zakaznıku. Pravdepodobnost, ze neco proda, je 0.20 u kazdehozakaznıka. Jaka je pravdepodobnost, ze obchodnık neproda za den vubec nic?

41

Page 42: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 3 POCET PRAVDEPODOBNOSTI

Resenı: Oznacme Ai jev, ze i-ty zakaznık nic nekoupı, i = 1, · · · , 12. Vzhledem k zadanı je P (Ai) =1 − 0.20 = 0.80. Dale oznacme A jev, ze zadny zakaznık nic nekoupı. Potom P (A) = P (

⋂12i=1 Ai) =∏12

i=1 P (Ai) = 0.8012 = 0.0687.

Nezavislost versus neslucitelnostJe dulezite si uvedomit, ze pojmy vzajemne neslucitelny a nezavisly jsou dva ruzne pojmy.Vzajemne neslucitelne jevy jsou takove jevy, ktere nemohou nastat soucasne. Nezavisle jevyjsou takove jevy, pro ktere platı, ze pravdepodobnost jednoho z nich nezavisı na tom, zdadruhy jev nastal nebo nenastal. Jestlize dva jevy jsou neslucitelne, pak vyskyt jednohoznemoznı vyskyt druheho, tj. dva neslucitelne jevy nejsou urcite nezavisle. Nenı mozne, abydva jevy byly soucasne neslucitelne a nezavisle. Pouze jev jisty a jev nemozny jsou dvaneslucitelne a nezavisle jevy.

3.4.5 Vzorec uplne pravdepodobnosti a Bayesuv vzorec

Vzajemne neslucitelne jevy Hi, Hi ∈ A, i = 1, 2, · · · , s tvorı uplny system jevu, jestlizeP (Hi) > 0 pro kazde i = 1, 2, · · · , s a P (

⋃si=1 Hi) = 1.

Chceme urcit pravdepodobnost jevu A, ktery muze nastat jen ve spojenı s jednım z jevuH1, H2, · · · , Hs, ktere tvorı uplny system jevu. V tomto prıpade se jev A rozpada na castecneprıpady A∩H1, A∩H2, · · · , A∩Hs. Jevy A∩Hi, i = 1, 2, · · · , s jsou vzajemne neslucitelne,a A =

⋃si=1(A ∩Hi). Protoze platı

P (A ∩Hi) = P (Hi)P (A|Hi),

dostavame nasledujıcı vzorec.

Vzorec 3.6 Vzorec uplne pravdepodobnosti

Necht’ jevy Hi ∈ A, i = 1, 2, · · · , s tvorı uplny system jevu. Potom pro jev A ∈ A platı

P (A) =s∑

i=1

P (Hi)P (A|Hi).

V prıpade, ze jsou znamy nejen nepodmınene pravdepodobnosti P (Hi) a podmınene pravde-podobnosti P (A|Hi), ale je take znamo, ze vysledkem pokusu je nastoupenı jevu A, lzepodmınene pravdepodobnosti P (Hi|A) vypocıtat pomocı Bayesova vzorce, ktery vyplyvaz pravidla o nasobenı pravdepodobnostı a ze vzorce uplne pravdepodobnosti.

Vzorec 3.7 Bayesuv vzorec

Necht’ jevy Hi ∈ A i = 1, 2, · · · , s tvorı uplny system jevu, A ∈ A, P (A) > 0. Potom

P (Hi|A) =P (Hi)P (A|Hi)∑s

i=1 P (Hi)P (A|Hi).

V aplikacıch Bayesova vzorce majı jevy Hi vyznam hypotez, ktere se navzajem vylucujıa prave jedna je spravna. P (Hi) jsou jejich pravdepodobnosti pred provedenım doplnujıcıhopokusu nebo testu, rıka se jim apriornı pravdepodobnosti a jsou znamy. P (·|Hi) je pravde-podobnostnı mıra vysledku testu za platnosti hypotezy Hi, ktera je casto znama. Bayesuv

42

Page 43: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

3.5 JINE POHLEDY NA PRAVDEPODOBNOST

vzorec umoznuje vypocıtat podmınene pravdepodobnosti hypotez po provedenı pokusu nebotestu, pri nemz nastal jev A, ktere berou v uvahu i vysledek pokusu. Jsou to aposteriornıpravdepodobnosti.

Prıklad 3.12 Ilustrace vzorcu 3.6 a 3.7

Havarovalo male letadlo a patranı je organizovano podle trı oblastı. Pravdepodobnost, ze letadlose nachazı v dane oblasti, je:

Oblast Apriornı pravdepodobnost, Pravdepodobnost prehlednutıze letadlo je zde pri pruzkumu oblasti

Hory (H1) 0.50 0.30Bus (H2) 0.30 0.20More (H3) 0.20 0.90

V poslednım sloupci je uvedena pravdepodobnost, ze letadlo nebude nalezeno, prestoze se v daneoblasti nachazı.a) Urcete uplnou pravdepodobnost, ze letadlo nebude nalezeno?Pruzkum byl proveden ve vsech trech oblastech a letadlo nebylo nalezeno.b) Jaka je nynı pravdepodobnost, ze letadlo se presto nachazı v horach?

Resenı: Oznacme A jev, ze letadlo nebude nalezeno. Jevy H1,H2 a H3 tvorı uplny system jevu.

a) Jev A je sjednocenım neslucitelnych jevu A ∩H1, A ∩H2 a A ∩H3 a tudız

P (A) =3∑

i=1

P (A ∩Hi).

Pravdepodobnost, ze letadlo nebude nalezeno, dostaneme dosazenım do vzorce 3.6

P (A) =3∑

i=1

P (Hi)P (A|Hi) = 0.30 · 0.50 + 0.30 · 0.20 + 0.20 · 0.90 = 0.39.

b) Pravdepodobnost P (H1|A), ze se letadlo nachazı v horach i kdyz po pruzkumu vsech trı oblastınebylo nalezeno, dostaneme dosazenım do vzorce 3.7.

P (H1|A) =P (H1)P (A|H1)

P (A)=

0.50 · 0.300.39

= 0.38.

3.5 Jine pohledy na pravdepodobnost

V odstavci 3.1 a 3.3 jsme uvedli interpretaci pravdepodobnosti pomocı relativnıch cetnostı,klasickou definici pravdepodobnosti a nakonec axiomatickou definici.

Subjektivnı pravdepodobnost je pokusem o resenı jedinecnych historickych jevu,ktere se nemohou opakovat, a tudız pro ne nelze pouzıt interpretace cetnostnı (napr. pra-vdepodobnost svrzenı urcite vlady prıstı mesıc, nebo zdvojnasobenı prumerneho obratu naburze v prıstım desetiletı). Takove jevy se povazujı za

”pravdepodobne“ nebo

”nepravdepo-

dobne“, presto, ze neexistuje zpusob, jak tyto jevy pozorovat pomocı relativnıch cetnostı.Nicmene jejich pravdepodobnost silne ovlivnuje politicka rozhodnutı a pro jejich zavaznostje treba je nejakym zpusobem odhadovat. Teprve pak lze cinit rozumna rozhodnutı a uvazit,zda dane riziko stojı za to.

43

Page 44: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Kapitola 4

Nahodna velicina

Dosud jsme se zabyvali v podstate jen otazkou, zda uvazovane nahodne jevy nastanou nebonenastanou. V mnoha prıpadech je vsak takovy kvalitativnı vyrok nepostacujıcı, a je nutnei kvantitativnı vysetrenı. Jinymi slovy, k popisu hromadnych nahodnych jevu budeme obecnepotrebovat take cıselne udaje; pritom tyto cıselne udaje nejsou konstantnı, ale vykazujınahodne vychylky. Takovou nahodnou cıselnou hodnotou je naprıklad pocet aut, ktere vlastnınahodne vybrana prazska domacnost, zrovna tak jako mnozstvı spotrebovane elektriny zamesıc ve vybrane domacnosti. Obe tyto veliciny jsou numericke a jejich hodnota zavisı natom, ktera domacnost byla vybrana.

Muzeme rıci, ze vysledek nahodneho pokusu, dany realnym cıslem, je hodnotou veliciny,kterou nazveme nahodna velicina. Jinak receno, nahodna velicina je velicina, jejız hodnotaje jednoznacne urcena vysledkem nahodneho pokusu.

Rozlisujeme dva zakladnı typy nahodnych velicin: diskretnı a spojite. Diskretnı (cilinespojita) nahodna velicina muze nabyvat pouze konecne nebo spocetne nekonecne mnohahodnot. Pocet aut, ktere vlastnı domacnost, je prıklad diskretnı veliciny. Spojita nahodnavelicina muze nabyvat vsech hodnot z nejakeho konecneho nebo nekonecneho intervalu.Mnozstvı elektriny spotrebovane za mesıc je prıklad spojite nahodne veliciny.

4.1 Nahodna velicina a jejı rozdelenı

Nynı uvedeme matematickou definici nahodne veliciny.

Definice 4.1 NAHODNA VELICINA

Nahodna velicina je kazde zobrazenı X : Ω → R takove, ze pro kazde x ∈ R je

A = ω|X(ω) ≤ x ∈ A.

Jestlize A je system vsech podmnozin Ω, pak kazda realna funkce X definovana na Ω jenahodna velicina.

Nahodne veliciny budeme oznacovat velkymi pısmeny z konce abecedy, napr. X, Y, Z neboX1, X2, · · · . Jejich konkretnı hodnoty pak malymi pısmeny x, y, z nebo x1, x2, · · · . Pocetclenu domacnosti v souboru prazskych domacnostı je nahodna velicina napr. X, zatımcov urcite nahodne vybrane treba ctyrclenne domacnosti jde uz o konkretnı hodnotu tetonahodne veliciny, o konkretnı pocet clenu teto domacnosti, tudız X = 4. Oznacenı [X = 4]

44

Page 45: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

4.1 NAHODNA VELICINA A JEJI ROZDELENI

bude vyjadrovat jev, ze vybrana domacnost ma 4 cleny, zatımco oznacenı P (X = 4) jezjednodusene oznacenı pro pravdepodobnost tohoto jevu.

Nahodnou velicinu povazujeme za danou, zname-li vsechny jejı mozne hodnoty a pra-vdepodobnosti vyskytu kazde z nich. Pravidlo, ktere kazde hodnote nebo mnozine hodnotz kazdeho intervalu prirazuje pravdepodobnost, ze nahodna velicina nabude teto hodnotynebo hodnoty z urciteho intervalu, se nazyva zakon rozdelenı nahodne veliciny nebokratce rozdelenı nahodne veliciny.

4.1.1 Distribucnı funkce a hustota

Zakladnı formou popisu zakona rozdelenı je distribucnı funkce. Distribucnı funkce nahodneveliciny udava pravdepodobnost, ze nahodna velicina X nabude hodnoty mensı nebo rovnenez zvolene x. Znacıme ji F (x).

Definice 4.2 DISTRIBUCNI FUNKCE

Distribucnı funkce nahodne veliciny X je funkce F : R→ 〈0, 1〉 definovana vztahem

F (x) = P (X ≤ x).

Zakladnı vlastnosti distribucnıch funkcı

1. F (x) je neklesajıcı funkce, tj. pro kazdou dvojici x1 < x2 platı

F (x1) ≤ F (x2).

2. F (x) je zprava spojita, tj. pro libovolnou distribucnı funkci platı

limh→0+

F (x + h) = F (x).

3. Pro kazdou distribucnı funkci platı

limx→−∞F (x) = 0 a lim

x→∞F (x) = 1,

zkracene

F (−∞) = 0 a F (∞) = 1.

Jestlize mozne hodnoty nahodne veliciny X patrı do intervalu (a, b) pak

F (a) = 0, F (b) = 1.

Kazdou funkci, ktera ma vsechny vlastnosti 1.–3. muzeme pokladat za distribucnı funkci.

Poznamka: Definujeme-li distribucnı funkci vztahem F (x) = P (X < x) (tj. vynechameznamenko (=)), pak F je zleva spojita.Casto se pouzıva i dalsı vlastnost distribucnıch funkcı: necht’ x1 < x2, potom platı

P (x1 < X ≤ x2) = P ([X ≤ x2] ∩ [X > x1]) = P ([X ≤ x2])− P ([X ≤ x1]) = F (x2)− F (x1).

45

Page 46: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 4 NAHODNA VELICINA

Distribucnı funkce nemusı byt spojita, ale bodu nespojitosti muze mıt nanejvys spocetnemnoho. Dva nejdulezitejsı typy distribucnıch funkcı, ktere majı nejvetsı uplatnenı v mate-maticke statistice, jsou diskretnı distribucnı funkce a absolutne spojite distribucnı funkce.

Diskretnı distribucnı funkceDistribucnı funkce F (x) se nazyva diskretnı, existuje-li konecna nebo spocetna posloupnostbodu xn a posloupnost nezapornych cısel pn splnujıcıch podmınku

∑n pn = 1 takova, ze

F (x) =∑

n:xn≤xpn, pro x ∈ R. (4.1)

Diskretnı distribucnı funkce ma schodovity tvar se skoky velikosti pn v bodech xn. Ma-linahodna velicina X diskretnı distribucnı funkci (4.1), tj. pn = P (X = xn), rıkame, ze X madiskretnı rozdelenı pravdepodobnostı, strucne diskretnı rozdelenı. Grafu diskretnıdistribucnı funkce odpovıda v popisne statistice graf kumulativnıch cetnostı.Diskretnı zakon rozdelenı lze vedle distribucnı funkce popsat i tzv. pravdepodobnostnıfunkcı

P (x) = P (X = x), (4.2)

ktera kazdemu x prirazuje jeho pravdepodobnost P (x). Tyto pravdepodobnosti P (x) splnujıpodmınku

∑x P (x) = 1.

Pomocı pravdepodobnostnı funkce P (x) muzeme stanovit s pouzitım pravidla o scıtanıpravdepodobnostı pro neslucitelne jevy pravdepodobnost, ze nahodna velicina nabude hod-noty z intervalu 〈x1, x2〉. Tato pravdepodobnost je rovna souctu pravdepodobnostı hodnotz tohoto intervalu

P (x1 ≤ X ≤ x2) =x2∑

x=x1

P (x). (4.3)

Specifikace diskretnıho rozdelenı nahodne veliciny X pomocı pravdepodobnostı P (x) a po-mocı distribucnı funkce je rovnocenna. Ze znamych pravdepodobnostı P (x) je mozno odvoditdistribucnı funkci F (x) a naopak, jak vyplyva z definice 4.2.Pravdepodobnostnı funkci odpovıdajı v popisne statistice relativnı cetnosti.

Prıklad 4.1 Diskretnı nahodna velicina, distribucnı funkce

Hazıme-li trikrat po sobe mincı, dostaneme osm stejne moznych vysledku jak ukazuje nasledujıcıtabulka 4.1

Tabulka 4.1 Mozne vysledky pri trech hodech mincı

Pokus Hazenı 3krat jednou mincıMozne vysledky ω LLL LLR LRL RLL LRR RRL RLR RRR

Necht’ X udava celkovy pocet lıcu pri trech hodech jednou mincı. Pak X je nahodna velicina,ktera muze nabyvat hodnot 0, 1, 2 a 3.

a) Vyjadrete pomocı nahodne veliciny jev, ze padly prave dva lıce. Urcete P (X = 2), tj.pravdepodobnost, ze padnou prave dva lıce.

b) Najdete rozdelenı nahodne veliciny X.

c) Vyjadrete pomocı nahodne veliciny jev, ze padnou nejvyse dva lıce. Vypocıtejte P (X ≤ 2), tj.pravdepodobnost, ze padnou nejvyse dva lıce.

d) Urcete distribucnı funkci nahodne veliciny X.

46

Page 47: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

4.1 NAHODNA VELICINA A JEJI ROZDELENI

e) Vyjadrete pomocı nahodne veliciny jev, ze pocet lıcu, ktere padnou, je nejvyse roven trema vetsı nez jedna. Vypocıtejte P (1 < X ≤ 3).

Resenı:

a) Jev, ze padnou prave dva lıce lze vyjadrit [X = 2]. P (X = 2) je pravdepodobnost, ze padnouprave dva lıce. Z tabulky 4.1 vidıme, ze jsou tri zpusoby jak dostat celkove dva lıce a ze jecelkem osm moznych vysledku. Tudız podle klasickeho pravidla vypoctu pravdepodobnostıdostaneme

P (X = 2) =38

= 0.375.

b) Zbyvajıcı pravdepodobnosti pro X jsou vypocıtany stejnym zpusobem a jsou uvedenyv nasledujıcı tabulce 4.2.

Tabulka 4.2 Rozdelenı veliciny X udavajıcı pocet lıcu pri trech hodech mincı.

Pocet lıcu x 0 1 2 3Pravdepodobnost P (X = x) 0.125 0.375 0.375 0.125

c) Jev [X ≤ 2], ze padnou nejvyse dva lıce lze vyjadrit jako

[X ≤ 2] = ([X = 0] ∪ [X = 1] ∪ [X = 2]).

Protoze tri jevy na prave strane rovnice jsou vzajemne neslucitelne, dostaneme aplikacıpravidla pro scıtanı pravdepodobnostı a z tabulky 4.2

P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = 0.125 + 0.375 + 0.375 = 0.875

Tudız pravdepodobnost, ze padnou nejvyse dva lıce je rovna 0.875.

d) Distribucnı funkci F (x) vypocteme podle vzorce

F (x) =x∑

n=0

P (X = n) pro x = 0, 1, 2, 3.

Hodnoty F (x) jsou uvedeny v tabulce 4.3. a jejı graf na obrazku 4.1

Tabulka 4.3 Distribucnı funkce rozdelenı poctu lıcu pri 3 hodech mincı

Pocet lıcu x 0 1 2 3Distribucnı funfce F (x) 0.125 0.500 0.875 1.000

Obrazek 4.1 Graf distribucnı funkce

x

F (x)

0 1 2 3

1.000

0.125

0.500

0.875 Distribucnı funkce ma schodovity tvar seskoky velikosti 0.375 v bodech x = 1 a x = 2 ase skoky velikosti 0.125 v bodech x = 0 a x = 3.

47

Page 48: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 4 NAHODNA VELICINA

e) Jev, ze padnou nejvyse tri lıce a vıce nez 1 lıc muze byt vyjadren jako

[1 < X ≤ 3] = ([X ≤ 3] ∩ [X > 1]) = ([X ≤ 3]− [X ≤ 1]).

Protoze, platı [X ≤ 1] ⊂ [X ≤ 3] pouzijeme vlastnost 2. pravdepodobnosti (viz kapitola 3) kvypoctu P (1 < X ≤ 3):

P (1 < X ≤ 3) = P (X ≤ 3)− P (X ≤ 1) = 1.000− 0.500 = 0.500.

Tudız pravdepodopbnost, ze padnou nejvyse tri lıce a vıce nez jeden lıc je rovna 0.5.

Absolutne spojita distribucnı funkceZvlastnı pozornost zasluhujı distribucnı funkce, ktere jsou nejen spojite, ale dokonce abso-lutne spojite. Distribucnı funkce F se nazyva absolutne spojita, jestlize existuje nezapornafunkce f(x) takova, ze platı

F (x) =∫ x

−∞f(u) du pro kazde x ∈ R. (4.4)

Funkce f(x) se nazyva hustota rozdelenı pravdepodobnostı, definovaneho dis-tribucnı funkcı F (x), strucne hustota pravdepodobnosti nebo jen hustota. Ma-li nahodnavelicina X absolutne spojitou distribucnı funkci, rıkame, ze ma spojite rozdelenıpravdepodobnostı, zkracene spojite rozdelenı.Hustota f(x) splnuje rovnost ∫ ∞

−∞f(x) dx = 1. (4.5)

Existuje-li derivace F ′ distribucnı funkce v bode x, je F ′(x) = f(x). Tato hustotapravdepodobnosti je definovana jako

f(x) = lim∆x→0

F (x + ∆x)− F (x)

∆x= lim

∆x→0

P (x < X ≤ x + ∆x)

∆x,

tj. jako limita pravdepodobnosti, ze velicina X padne do velmi maleho intervalu (x, x+∆x),vydelena delkou tohoto intervalu v prıpade, ze se tato delka ∆x blızı nule. Soucin ∆xf(x)pak priblizne vyjadruje pravdepodobnost, ze nahodna velicina X padne do velmi malehointervalu (x, x + ∆x), a to tım presneji, cım je ∆x mensı.Pro a, b ∈ R, a < b platı

P (a < X ≤ b) =∫ b

af(x) dx = F (b)− F (a).

Pravdepodobnost je tedy plocha pod krivkou hustoty. Odtud plyne, ze pro nahodnou velicinuse spojitym rozdelenım je P (X = a) = 0 pro libovolne a ∈ R.

Prıklad 4.2 Distribucnı funkce a hustota pravdepodobnosti spojiteho rozdelenı

Funkce F (x) = 1 − e−λx pro x > 0 a F (x) = 0 pro x ≤ 0, kde λ > 0 je konstanta, splnuje zakladnıvlastnosti 1. – 3. distribucnı funkce a je distribucnı funkcı nejake nahodne veliciny X se spojitymrozdelenım. Odpovıdajıcı hustota je f(x) = λe−λx pro x > 0 a f(x) = 0 pro x ≤ 0. P (1 < X ≤ 2) =λ

∫ 2

1e−λxdx = 1− e−2λ − 1 + e−λ = e−λ(1− e−λ).

48

Page 49: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

4.1 NAHODNA VELICINA A JEJI ROZDELENI

4.1.2 Vıcerozmerna rozdelenı pravdepodobnostı

Casto se neomezujeme pouze na jednu nahodnou velicinu, ale zkoumame cely systemnahodnych velicin, tak zvanou vıcerozmernou presneji n-rozmernou nahodnou velicinu.Vıcerozmernou nahodnou velicinou X = (X1, X2, · · · , Xn) budeme nazyvat n-rozmernyvektor, jehoz vsechny slozky Xi jsou nahodne veliciny. Pro vıcerozmernou nahodnou velicinuse take pouzıva nazev nahodny vektor. Nadale budeme podle potreby pouzıvat obou nazvu.

Vsimneme si podrobneji dvourozmerne nahodne veliciny (X,Y ). Zakon rozdelenı tetonahodne veliciny muze byt dan ve forme sdruzene (simultannı) distribucnı funkceF (x, y), ktera je definovana jako pravdepodobnost, ze nahodna velicina X, nabude hodnotymensı nez x a soucasne nahodna velicina Y nabude hodnoty mensı nez y.

Definice 4.3 SDRUZENA DISTRIBUCNI FUNKCE NAHODNEHO VEKTORU (X,Y )

Sdruzena distribucnı funkce nahodneho vektoru (X, Y ) je funkce definovana vztahem

F (x, y) = P (X ≤ x, Y ≤ y)

pro kazde x ∈ R, y ∈ R.

Zakladnı vlastnosti distribucnı funkce F (x, y)

1. F (x, y) je neklesajıcı v kazde sve promenne.

2. limx,y→∞ F (x, y) = 1.

3. limx→−∞ F (x, y) = 0, limy→−∞ F (x, y) = 0.

4. F (x, y) je zprava spojita v kazde promenne.

Krome techto trivialnıch vlastnostı ma kazda dvourozmerna distribucnı funkce jednu dalsıcharakterizujıcı vlastnost, kterou je mozne vyjadrit ve tvaru

P (x1 < X ≤ x2, y1 < Y ≤ y2) = F (x1, y1)− F (x1, y2)− F (x2, y1) + F (x2, y2)

pro kazde x1 < x2, y1 < y2.

Sdruzena distribucnı funkce F (x, y) se nazyva diskretnı, jestlize

F (x, y) =∑

xi≤x

yj≤y

P (X = xi, Y = yj), (4.6)

kde xi respektive yj jsou konecne nebo spocetne posloupnosti vsech hodnot, kterychnabyva X respektive Y . Pravdepodobnosti P (X = xi, Y = yj) se nazyvajı sdruzene pra-vdepodobnosti a platı ∑

xi

∑yj

P (X = xi, Y = yj) = 1.

Nahodny vektor (X, Y ) s diskretnı distribucnı funkcı ma diskretnı sdruzene rozdelenı(diskretnı rozdelenı). Soucty sdruzenych pravdepodobnostı

PX(xi) =∑yj

P (X = xi, Y = yj) resp. PY (yj) =∑xi

P (X = xi, Y = yj)

49

Page 50: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 4 NAHODNA VELICINA

se nazyvajı marginalnı pravdepodobnosti nahodne veliciny X respektive Y a vyjadrujıpravdepodobnosti ruznych hodnot jedne z velicin bez ohledu na hodnotu veliciny druhe.Zakon rozdelenı, ktery popisujı, se nazyva marginalnı zakon rozdelenı.

Omezıme-li se na dve diskretnı nahodne veliciny X a Y , muzeme pravdepodobnostisoucasneho vyskytu ruznych kombinacı dvojic hodnot (xi, yj), i = 1, 2, · · · , r, j = 1, 2, · · · , sobou velicin usporadat do dvourozmerne kombinacnı tabulky 4.4.

Tabulka 4.4 Kombinacnı tabulka

X \ Y y1 · · · yj · · · ys PX(xi)x1 P (x1, y1) · · · P (x1, yj) · · · P (x1, ys) PX(x1)·xi P (xi, y1) · · · P (xi, yj) · · · P (xi, ys) PX(xi)·xr P (xr, y1) · · · P (xr, yj) · · · P (xr, ys) PX(xr)

PY (yj) PY (y1) · · · PY (yj) · · · PY (ys) 1

Distribucnı funkce F (x, y) se nazyva absolutne spojita, jestlize existuje nezaporna funkcef(x, y) nazyvana sdruzena hustota pravdepodobnosti takova, ze

F (x, y) =∫ x

−∞

∫ y

−∞f(u, v) dudv. (4.7)

Hustota sdruzeneho rozdelenı ma tyto zakladnı vlastnosti:

1.∫ ∞

−∞

∫ ∞

−∞f(x, y) dx dy = 1.

2.∂2F (x, y)

∂x∂y= f(x, y) pokud derivace funkce F existuje.

3. P (x1 < X ≤ x2, y1 < Y ≤ y2) =∫ x2

x1

∫ y2

y1

f(x, y) dx dy pro x1 < x2, y1 < y2.

Nahodny vektor (X,Y ) s absolutne spojitou distribucnı funkcı ma spojite sdruzenerozdelenı. Z distribucnı funkce F (x, y) muzeme odvodit marginalnı distribucnı funkcenahodne veliciny X respektive Y

FX(x) = P (X ≤ x) = limy→∞F (x, y), resp. FY (y) = P (Y ≤ y) = lim

x→∞F (x, y). (4.8)

Podobne z hustoty pravdepodobnosti f(x, y) muzeme odvodit marginalnı hustotyrozdelenı pravdepodobnostı nahodne veliciny X respektive Y

fX(x) =∫ ∞

−∞f(x, y) dy, resp. fY (y) =

∫ ∞

−∞f(x, y) dx. (4.9)

4.1.3 Nezavislost nahodnych velicin

Budeme rıkat, ze nahodne veliciny X a Y jsou nezavisle, jestlize pro vsechna x,y ∈ R platı

P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y),

50

Page 51: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

4.2 CHARAKTERISTIKY NAHODNYCH VELICIN

tj. jestlize se dvourozmerna distribucnı funkce nahodnych velicin X a Y rovna soucinu dis-tribucnıch funkcı nahodne veliciny X a nahodne veliciny Y. Pro diskretnı rozdelenı to zna-mena totez jako

P (X = xi, Y = yj) = PX(xi)PY (yj), i = 1, 2, · · · , r, j = 1, 2, · · · , s

a pro rozdelenı s hustotou f(x, y)

f(x, y) = fX(x)fY (y)

pro vsechna x, y ∈ R.

Nezavislost vıce nahodnych velicin je mozno definovat obdobne. Nahodne velicinyX1, X2, · · · , Xn jsou nezavisle, jestlize pro kazdou n-tici x1, x2, · · · , xn realnych cısel platı

P (X1 ≤ x1, · · · , Xn ≤ xn) =n∏

i=1

P (Xi ≤ xi).

Pro nezavisle nahodne veliciny platı:

1. Jestlize X1, X2, · · · , Xn jsou nezavisle nahodne veliciny, a hk(x), k = 1, 2, · · · , n funkcerealne promenne, pak nahodne veliciny Yk = hk(X), k = 1, 2, · · · , n jsou take nezavisle.

2. Jestlize nahodne veliciny X1, X2, · · · , Xn jsou nezavisle, a kazda z nich ma hustotu,pak platı

f(x1, · · · , xn) =n∏

i=1

fi(xi), (4.10)

kde fi(xi) je hustota nahodne veliciny Xi, i = 1, 2, · · · , n a f(x1, · · · , xn) je hustota n-rozmerne nahodne veliciny (X1, X2, · · · , Xn). Ze vztahu (4.10) plyne naopak nezavislostnahodnych velicin X1, X2, · · · , Xn.

4.2 Charakteristiky nahodnych velicin

Distribucnı funkce podava o nahodne velicine uplnou informaci. Zname-li tuto funkci, vımejakych hodnot muze uvazovana nahodna velicina nabyvat a jake jsou pravdepodobnostijednotlivych hodnot. V praxi casto potrebujeme koncentrovanejsı a prehlednejsı vyjadrenıteto informace. K tomu pouzıvame podobne jako v popisne statistice, cıselne hodnoty,ktere nazyvame charakteristiky nahodnych velicin. Nejcasteji pouzıvanymi charakteri-stikami jsou strednı hodnota, ktera popisuje polohu (uroven) nahodne veliciny, a rozptylktery popisuje variabilitu (rozptylenost) nahodne veliciny. Strucne se zmınıme i o dalsıchcharakteristikach.

4.2.1 Strednı hodnota

Necht’ X je nahodna velicina s distribucnı funkcı F (x). Pak mame nasledujıcı definice strednıhodnoty nahodne veliciny X s diskretnım respektive spojitym rozdelenım. Budeme ji znacitE(X).

51

Page 52: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 4 NAHODNA VELICINA

Definice 4.4 STREDNI HODNOTA NAHODNE VELICINY

Strednı hodnota nahodne veliciny X s diskretnım rozdelenım danym pravdepodobnostnıfunkcı P (x) je definovana vztahem

E(X) =∑x

xP (x).

Strednı hodnota nahodne veliciny se spojitym rozdelenım s hustotou f(x) je definovanavztahem

E(X) =∫ ∞

−∞xf(x) dx.

V diskretnım prıpade jde v podstate o jakysi vazeny prumer moznych hodnot veliciny Xs vahami odpovıdajıcımi jednotlivym pravdepodobnostem. Ve spojitem prıpade je strednıhodnota nahodne veliciny X definovana obdobne (soucet je nahrazen integralem).

Poznamka: V dalsım textu budeme oznacovat strednı hodnotu nahodne veliciny X takesymbolem µx.

Strednı hodnota se nekdy nazyva prvnı obecny moment. Obecne, k-ty obecny momentE(Xk) nahodne veliciny X je definovan jako

E(Xk) =

∑x

xkP (x) pro diskretnı rozdelenı

∫ ∞

−∞xkf(x) dx pro spojite rozdelenı.

Pro praci se strednımi hodnotami jsou dulezite nektere jejı matematicke vlastnosti, ktereuvedeme.

Zakladnı vlastnosti strednı hodnoty

1. Strednı hodnota konstanty je rovna konstante: E(c) = c.

2. Strednı hodnota soucinu konstanty a nahodne veliciny je rovna soucinu teto konstantya strednı hodnoty dane veliciny, E(cX) = cE(X).

3. Strednı hodnota souctu n nahodnych velicin je rovna souctu jejich strednıch hodnot:

E(n∑

i=1

Xi) =n∑

i=1

E(Xi).

Pojem strednı hodnoty zobecnıme na nejakou funkci h(X) nahodne veliciny X

E(h(X)) =∑

j

h(xj)P (xj), resp. E(h(X)) =∫ ∞

−∞h(x)f(x) dx.

52

Page 53: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

4.2 CHARAKTERISTIKY NAHODNYCH VELICIN

4.2.2 Rozptyl

Rozptyl je mırou variability nahodne veliciny.

Definice 4.5 ROZPTYL NAHODNE VELICINY

Rozptyl nahodne veliciny s diskretnım rozdelenım s pravdepodobnostnı funkcı P (x) jedefinovan vztahem

D(X) =∑x

(x− E(X))2P (x).

Rozptyl nahodne veliciny se spojitym rozdelenım s hustotou f(x) je definovan vztahem

D(X) =∫ ∞

−∞(x− E(X))2f(x) dx.

Rozptyl se take nazyva druhy centralnı moment.Obecne, k-ty centralnı moment E(X − µx)

k nahodne veliciny X je definovan jako

E((X − µx)k) =

∑x

(x− µx)kP (x) pro diskretnı rozdelenı

∫ ∞

−∞(x− µx)

kf(x) dx pro spojite rozdelenı.

Rozptyl lze pocıtat podle vzorce

D(X) = E(X − E(X))2 = E(X2 − 2XE(X) + (E(X))2) = E(X2)− [E(X)]2. (4.11)

Poznamka: V dalsım textu budeme oznacovat rozptyl nahodne veliciny X take symbolem σ2x.

Merne jednotky, ve kterych je vyjadren rozptyl D(X) jsou ctverce jednotek nahodneveliciny X. V puvodnıch jednotkach merı variabilitu odmocnina rozptylu, kterou nazyvame

smerodatnou odchylkou a znacıme σx =√

D(X).

Zakladnı vlastnosti rozptylu

1. Rozptyl konstanty je rovna nule, D(c) = 0.

2. Rozptyl soucinu konstanty a nahodne veliciny je roven soucinu ctverce teto konstantya rozptylu dane veliciny, D(cX) = c2D(X).

3. Rozptyl souctu nezavislych nahodnych velicin je roven souctu rozptylu techtonahodnych velicin,

D(n∑

i=1

Xi) =n∑

i=1

D(Xi).

4.2.3 Kvantily

Vedle uvedenych charakteristik nahodne veliciny se pri popisu spojite nahodne veliciny velmicasto pouzıvajı kvantily. S tımto pojmem jsme se jiz seznamili v popisne statistice v casti2.3.1. Nynı tuto charakteristiku uvedeme do souvislosti se spojitou nahodnou velicinou.

53

Page 54: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 4 NAHODNA VELICINA

Definice 4.6 KVANTIL

Necht’ X je nahodna velicina s distribucnı funkcı F (x) a hustotou pravdepodobnosti f(x).p-kvantilem nahodne veliciny X nebo 100p procentnım kvantilem je cıslo Qp, pro ktereplatı

P (X ≤ Qp) = F (Qp) =∫ Qp

−∞f(x) dx = p, 0 < p < 1.

50% kvantil nazyvame median. Median Q0.5 nahodne veliciny je jednoznacne urcenpodmınkou F (Q0.5) = 1

2.

Prıklad 4.3 Strednı hodnota a rozptyl diskretnıho rozdelenı

Urcete E(X) a D(X) nahodne veliciny, ktera nabyva hodnot z mnoziny 0, 1 s pravdepodobnostnıfunkcı P (X = 1) = p, P (X = 0) = 1− p, 0 < p < 1.Resenı: E(X) = 1p + 0(1− p) = p a D(X) = (1− p)2p + (0− p)2(1− p) = p(1− p)

Prıklad 4.4 Strednı hodnota, rozptyl a median spojiteho rozdelenı

Uvazujme nahodnou velicinu z prıkladu 4.2. Urcete strednı hodnotu, rozptyl a median tetoveliciny.

Resenı: K vypoctu pouzijeme gama funkci :

Γ(a) =∫ ∞

0xa−1e−xdx, a > 0, Γ(a + 1) = aΓ(a), Γ(1) = 1.

E(X) = λ

∫ ∞

0xe−λxdx =

∫ ∞

0ue−udu =

Γ(2)λ

=1λ

.

Rozptyl vypocıtame pomocı vzorce (4.11), tudız musıme spocıtat E(X2).

E(X2) = λ

∫ ∞

0x2e−λxdx =

1λ2

∫ ∞

0u2e−udu =

Γ(3)λ2

=2λ2

. D(X) = 2λ2 − ( 1

λ)2 = 1λ2 .

Median Q0.5 se nalezne resenım rovnice 1 − e−λQ0.5 = 0.5, z nız dostaneme Q0.5 = 1λ ln 2.

4.2.4 Kovariance a korelace

Kovariance a korelacnı koeficient (koeficient korelace) patrı mezi nejcasteji pouzıvane charak-teristiky sdruzeneho rozdelenı dvou nahodnych velicin. Kovariance je strednı hodnotasoucinu odchylek obou nahodnych velicin X a Y od jejich strednıch hodnot.

Definice 4.7 KOVARIANCE

Kovariance σxy dvou nahodnych velicin X a Y se strednımi hodnotami µx a µy je defi-novana vztahem

σxy = E(X − µx)(Y − µy).

K vypoctu kovariance velicin X a Y lze pouzıt strednı hodnotu E(XY ) nazyvanou smısenyobecny moment a definovou vztahem :

E(XY ) =

∑x,y

xyP (X = x, Y = y) pro diskretnı rozdelenı

∫ ∞

−∞

∫ ∞

−∞xyf(x, y) dxdy pro spojita rozdelenı.

(4.12)

54

Page 55: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

4.2 CHARAKTERISTIKY NAHODNYCH VELICIN

Z definice 4.7 a z (4.12) plyne, ze

σxy = E(XY )− µxµy. (4.13)

Z definice nezavislych nahodnych velicin a ze vztahu (4.12) plyne, ze pro nezavisle nahodneveliciny platı E(XY ) = E(X)E(Y ). Kovariance dvou nezavislych nahodnych velicin je tudızrovna nule.

Pomocı kovariance muzeme vyjadrit rozptyl souctu dvou nahodnych velicin X a Y . Jeroven souctu rozptylu obou nahodnych velicin a dvojnasobku kovariance obou velicin.

D(X + Y ) = E(X + Y − µx − µy)2 = E(X − µx)

2 + E(Y − µy)2 + 2E(X − µx)(Y − µy)

= D(X) + D(Y ) + 2σxy. (4.14)

Korelacnı koeficient dava urcitou informaci o stupni zavislosti dvou nahodnych velicin. Jedefinovan jako pomer kovariance k soucinu smerodatnych odchylek obou nahodnych velicin.

Definice 4.8 KORELACNI KOEFICIENT

Korelacnı koeficient ρxy dvou nahodnych velicin X a Y s rozptyly σ2x > 0 a σ2

y > 0 jedefinovan vztahem

ρxy =σxy

σxσy

.

Je-li σ2x = 0 nebo σ2

y = 0 pokladame ρxy = 0.

Pro korelacnı koeficient platı:

1. Hodnota korelacnıho koeficientu je cıslo z intervalu 〈−1, 1〉, tj. −1 ≤ ρxy ≤ 1.

2. Jsou-li X a Y nezavisle, je ρxy = 0.Poznamka: Opacne tvrzenı neplatı. Ze vztahu ρxy = 0 obecne nevyplyva, ze veliciny Xa Y jsou nezavisle. Je-li ρxy = 0, rıkame, ze nahodne veliciny X a Y jsou nekorelovane.

3. |ρxy| = 1 prave tehdy, kdyz s pravdepodobnostı 1 platı Y = a + bX, kde a, b, b 6= 0jsou realne konstanty. Pritom je ρxy = 1 nebo −1 podle toho, je-li b > 0 nebo b < 0.

S interpretacı a vypoctem korelacnıho koeficientu se podrobneji seznamıme v kapitoleo regresi a korelaci.

4.2.5 Vektor strednıch hodnot, kovariancnı matice

Z charakteristik n-rozmerneho nahodneho vektoru X = (X1, X2, · · · , Xn) jsou nejdulezitejsıstrednı hodnoty jednotlivych velicin Xi

µi = E(Xi), i = 1, 2, · · · , n,

dale jejich rozptyly

σ2i = D(Xi), i = 1, 2, · · · , n

a konecne kovariance dvojic velicin

σij = E(Xi − µi)(Xj − µj), i = 1, 2, · · · , n; i 6= j.

55

Page 56: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 4 NAHODNA VELICINA

Strednı hodnoty zapisujeme casto ve forme vektoru strednıch hodnot

µ = (µ1, µ2, · · · , µn)T

a kovariance spolu s rozptyly ve forme kovariancnı matice

Σ =

σ21 . . . σ1n...

. . ....

σn1 . . . σ2n

.

Kovariancnı matice je symetricka a positivne definitnı.

4.3 Nektera rozdelenı pravdepodobnostı

Rozdelenı jednorozmernych i vıcerozmernych nahodnych velicin se pouzıvajı jakopravdepodobnostnı modely pri popisu konkretnıch praktickych problemu. V teto casti seseznamıme s nejcasteji pouzıvanymi pravdepodobnostnımi rozdelenımi.

4.3.1 Diskretnı rozdelenı

Alternativnı rozdelenı A(p)

Rozdelenı pravdepodobnostı na Ω = 0, 1 s pravdepodobnostnı funkcı

P (x) = px(1− p)1−x, (4.15)

kde p ∈ (0, 1) se nazyva alternativnı rozdelenı s parametrem p.Strednı hodnota tohoto rozdelenı je E(X) = p a rozptyl D(X) = p(1− p).Interpretace: Uvazujme nahodny pokus. Nastane-li sledovany nahodny jev A, nabudenahodna velicina X hodnoty x = 1, nenastane-li tento jev A, nabude nahodna velicinaX hodnoty x = 0. Nahodna velicina X tedy vyjadruje, kolikrat jev A v pokusu nastane.

Binomicke rozdelenı B(n, p)

Rozdelenı pravdepodobnostı na Ω = 0, 1, ..., n s pravdepodobnostnı funkcı

P (x) =

(nx

)px(1− p)n−x (4.16)

pro p ∈ (0, 1) a n ∈ N+ se nazyva binomicke rozdelenı s parametry n a p.

Strednı hodnota je E(X) = np a rozptyl D(X) = np(1− p).

Binomicke rozdelenı je obecne nesymetricke. S rustem n (n → ∞) nebo priblizovanım pk hodnote 0.5 se stava postupne symetrictejsım. Pro p = 0.5 je symetricke. Pro n = 1dostaneme A(p)-rozdelenı.Interpretace: Predpokladejme, ze provadıme n nezavislych pokusu, pri nichz muze nastat jevA s pravdepodobnostı p a nenastat s pravdepodobnostı q = 1 − p. Pravdepodobnost, ze sev takove serii pokusu objevı jev A prave x-krat, je dana vyrazem (4.16).

56

Page 57: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

4.3 NEKTERA ROZDELENI PRAVDEPODOBNOSTI

Pravdepodobnosti jednotlivych hodnot nahodne veliciny s binomickym rozdelenım jsouobecnym clenem binomickeho rozvoje

(p + q)n =n∑

x=1

(nx

)px(1− p)n−x.

Hypergeometricke rozdelenı Hg(N,M, n)

Rozdelenı pravdepodobnostı s Ω = 0, 1, ..., minM, n a pravdepodobnostnı funkcı

P (x) =

(Mx

) (N −Mn− x

)

(Nn

) , max(n−N + M, 0) ≤ x ≤ min(M, n) (4.17)

se nazyva hypergeometricke rozdelenı s parametry N, M, n.Strednı hodnota je E(X) = nM

N, a rozptyl D(X) = nM

N

(1− M

N

) (N−nN−1

).

Interpretace: Uvazujme situaci, kdy v souboru N prvku je jich M (N ≥ M) s urcitouvlastnostı a zbylych N −M tuto vlastnost nema. Postupne vybereme ze souboru n prvku,z nichz zadny nevracıme zpet. Pocet prvku se sledovanou vlastnostı mezi n vybranymi prvkyje nahodna velicina X majıcı hypergeometricke rozdelenı.

Jestlize N je velke a n a MN

se nemenı, blızı se hypergeometricke rozdelenı binomickemu. Toznamena, ze muzeme pro velka N zanedbat rozdıl mezi vyberem bez vracenı a s vracenım.Prakticky postupujeme tak, ze vypocıtame pomer n

Na je-li tento pomer vetsı nez 0.05, lze

hypergeometricke rozdelenı nahradit rozdelenım binomickym s parametry n a MN

.Aplikace: Hypergeometricke rozdelenı se vyskytuje naprıklad ve statisticke kontrole jakostiv prıpadech, kdy zkoumame jakost maleho poctu vyrobku nebo kdyz kontrola ma charakterdestrukcnı zkousky, tj. vyrobek je pri zkousce znicen. Dale jako pravdepodobnostnı modelnekterych her jako Sportky.

Geometricke rozdelenı G(p)

Rozdelenı pravdepodobnostı na N+ s pravdepodobnostnı funkcı

P (x) = p(1− p)x−1 = pqx−1 (4.18)

pro p ∈ (0, 1) se nazyva geometricke rozdelenı s parametrem p.Strednı hodnotu vypocıtame:

E(X) =∞∑

x=1

xpqx−1 = p∞∑

x=1

xqx−1 = p∞∑

x=1

dqx

dq= p

d

dq

∞∑

x=0

qx = pd

dq

1

1− q=

p

(1− q)2=

p

p2=

1

p.

Rozptyl tohoto rozdelenı je D(X) = 1−pp

. Median lezı mezi 0 a 1 pro p < 0.5 a je roven nulepro p ≥ 0.5.Interpretace: Provadejme pokus se dvema moznymi vysledky, ktere nazveme

”uspech“

a”neuspech“. Pravdepodobnost uspechu necht’ je p. Pocet nezavislych opakovanı pokusu

do prvnıho uspechu je nahodna velicina, ktera ma geometricke rozdelenı. P (x) udavapravdepodobnost, ze prvnıch (x− 1) pokusu bude neuspesnych a ze k uspechu dojde teprvev x-tem pokusu.

57

Page 58: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 4 NAHODNA VELICINA

Prıklad 4.5 Geometricke rozdelenı

Mezi N vyrobky je M vadnych. Provadıme vyber s vracenım. Necht’ X znacı nahodnouvelicinu, ze prvnıch x vyrobku bude dobrych a v (x + 1)-nım tahu jsme vytahli vadnyvyrobek. Pak ma nahodna velicina X geometricke rozdelenı s parametrem p = M

N .

Poissonovo rozdelenı P(λ)

Rozdelenı pravdepodobnostı na N s pravdepodobnostnı funkcı

p(x) = e−λ λx

x!, (4.19)

kde λ > 0 je konstanta, se nazyva Poissonovo rozdelenı s parametrem λ.

Strednı hodnotu vypocıtame nasledujıcım zpusobem:

E(X) =∞∑

x=0

xe−λ λx

x!= λe−λ

∞∑

x=1

xλx−1

(x− 1)!= λe−λ d

dx

( ∞∑

x=1

λx

x!

)= λe−λ d

dxeλ = λe−λeλ = λ.

Podobne odvodıme, ze E(X2) = λ + λ2 a tudız rozptyl D(X) = E(X)− (E(X))2 = λ.

Jestlize je pocet pokusu n dosti velky (prakticky stacı n > 30) a p → 0 (prakticky p ≤ 0.01),pak lze binomicke rozdelenı aproximovat Poissonovym rozdelenım s parametrem λ = np.Aplikace: Toto rozdelenı pravdepodobnostı se casto uzıva k modelovanı cetnostı s jakouurcita udalost nastane behem urciteho casoveho useku. Na prıklad pocet telefonnıch volanıv urcitem casovem intervalu, pocet zakaznıku obslouzenych za jednotku casu u pokladnyv obchode, pocet poruch nejakeho zarızenı za casovou jednotku, pocet vad na vyrobku.

Prıklad 4.6 Poissonovo rozdelenı

Predpokladejte, ze pocet telefonickych hovoru doslych behem 1 hodiny na ustrednu v jedne malefirme, ma Poissonovo rozdelenı s parametrem λ = 5.2. Vypocıtejte pravdepodobnost, ze behemjedne hodiny prijdou na ustrednu a) prave dva hovory; b) nejvyse sest a nejmene 3 hovory;c) aspon jeden hovor. d) Jaky je prumerny pocet hovoru za jednu hodinu?

Resenı:a) Protoze λ = 5.2 je podle (4.19) P (X = 2) = e−5.2 (5.2)2

2! = 0.0746.b) P (4 < X ≤ 6) = P (X ≤ 6)− P (X ≤ 4) = 0.7323− 0.4060 = 0.3263.c) P (X ≥ 1) = 1− P (X = 0) = 1− e−5.2 = 0.994.d) Prumerny pocet hovoru za jednu hodinu je roven strednı hodnote Poissonova rozdelenı s para-metrem λ = 5.2, tudız je roven 5.2.

Diskretnı rovnomerne rozdelenı DU(m)

Rozdelenı pravdepodobnostı na Nm, kde m ∈ N+, s pravdepodobnostnı funkcı

p(x) =1

m, (4.20)

se nazyva diskretnı rovnomerne rozdelenı nebo DU(m)-rozdelenı.

Distribucnı funkce

F (x) =

0 pro x < 1xm

pro 1 ≤ x < m1 pro x ≥ m.

Strednı hodnota E(X) = m+12

, rozptyl D(X) = m2−112

, median Q0.5 = [m2] + 1 pro m liche

a Q0.5 = [m+12

] pro m sude.

58

Page 59: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

4.3 NEKTERA ROZDELENI PRAVDEPODOBNOSTI

4.3.2 Spojita rozdelenı

V dalsım vykladu se zamerıme na nektera spojita rozdelenı.

Rovnomerne rozdelenı U(a, b)

Rovnomerne rozdelenı na realnem intervalu (a, b) ma hustotu

f(x) =

0 pro x < a a pro b < x

1b−a

pro a < x < b.(4.21)

Pro prıslusnou distribucnı funkci platı

F (x) =

0 pro x < ax−ab−a

pro a ≤ x < b

1 pro x ≥ b.(4.22)

Zakladnı charakteristiky U(a, b)-rozdelenı jsou strednı hodnota E(X) = a+b2

, rozptylD(X) = 1

12(b− a)2 a median Q0.5 = b+a

2.

Obrazek 4.2 Hustota a distribucnı funkce U(a, b)-rozdelenı

x

f(x)

0 a b

1b−a

(a) hustota

x

F (x)

0 a b

1

(b) distribucnı funkce

Interpretace: Rovnomernym rozdelenım se rıdı takove nahodne veliciny, ktere majı ste-jnou moznost nabyt kterekoliv hodnoty z nejakeho intervalu. Jsou to napr. chyby prizaokrouhlovanı cısel, chyby pri odecıtanı udaju z linearnıch stupnic merıcıch prıstroju, dobycekanı na uskutecnenı jevu opakujıcıho se v pravidelnych casovych intervalech.

Prıklad 4.7 Rovnomerne rozdelenı

Urcitym mıstem vyrobnı linky prochazı kazdych 5 minut polotovar. Pracovnık technicke kontrolyodebıra nekolikrat za den jeden polotovar, aby ho vyzkousel. Pravdepodobnost prıchodu pra-covnıka k lince je pro kazdy casovy okamzik stejna. Jaka je pravdepodobnost, ze bude cekat napolotovar nejvyse jednu minutu?Resenı: Pozadovanou pravdepodobnost udava distribucnı funkce (4.22), pricemz a = 0, b = 5.P (X ≤ 1) = F (1) = 1

5 .

Normovane normalnı rozdelenı N (0, 1)

Rozdelenı pravdepodobnostı na R s hustotou

ϕ(z) =1√2π

exp(−1

2z2

), (4.23)

59

Page 60: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 4 NAHODNA VELICINA

se nazyva normovane normalnı (Gaussovo) rozdelenı nebo N (0, 1)-rozdelenı. Nahodnavelicina s N (0, 1)-rozdelenım se nazyva normovana normalnı nahodna velicina. HustotaN (0, 1)-rozdelenı ma tvar zvonovite krivky a nazyva se normovana normalnı (Gaussova,gaussovska) krivka.

Zakladnı vlastnosti N (0, 1)-rozdelenı

1. Platı limz→±∞ ϕ(z) = 0.To znamena, ze pro z → ±∞ se normovana normalnı krivka asymptoticky priblizujek nule.

2. Hustota ϕ(z) je suda funkce: ϕ(−z) = ϕ(z).Tudız normovana normalnı krivka je symetricka kolem 0. Hustota N (0, 1)-rozdelenınabyva sveho maxima pro z = 0.

3. E(Z) = 0, D(Z) = 1, Q0.5 = 0.Strednı hodnota tohoto rozdelenı charakterizujıcı polohu rozdelenı je rovna nule,a rozptyl charakterizujıcı rozptylenı hodnot kolem nuly je roven jedne.

4. P (−3 < Z ≤ 3) ≈ 0.997. To znamena, ze vetsina plochy pod normovanou normalnıkrivkou lezı mezi −3 a +3.

Distribucnı funkce N (0, 1)-rozdelenı se obvykle znacı Φ

Φ(z) =∫ z

−∞ϕ(u) du, z ∈ R (4.24)

a byva tabelovana pouze pro hodnoty z > 0. Protoze vsak hustota ϕ je suda, platı

Φ(−z) = 1− Φ(z). (4.25)

Obrazek 4.3 Hustota a distribucnı funkce N (0, 1)-rozdelenı

0 x

f(x)1√2π

(a) hustota-3 -2 -1 0 1 2 3 x

F (x)1

12

(b) distribucnı funkce

Zaroven lze dokazat, ze pro kvantily Qp normovaneho normalnıho rozdelenı platı:

Qp = −Q1−p (4.26)

Symbolem zα budeme znacit hodnotu pro kterou platı:

α =∫ ∞

ϕ(z) dz. (4.27)

60

Page 61: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

4.3 NEKTERA ROZDELENI PRAVDEPODOBNOSTI

Normalnı rozdelenı N (µ, σ2)

Rozdelenı pravdepodobnostı na R se nazyva normalnı (Gaussovo) rozdelenı se strednı hod-notou µ a rozptylem σ2 nebo N (µ, σ2)-rozdelenı, jestlize ma hustotu

f(x) =1√2πσ

exp

(−(x− µ)2

2σ2

), µ ∈ R, σ2 ∈ R+. (4.28)

Normalnı rozdelenı ma tvar zvonovite krivky, ktera nabyva maxima v bode x = µ a prin → ±∞ se priblizuje k ose x.

Vypocet distribucnı funkce tohoto rozdelenı je obtızny. Proto transformujeme nahodnouvelicinu X na normovanou normalnı velicinu Z, kde

Z =X − µ

σ. (4.29)

Velicina Z ma pak N (0, 1)-rozdelenı. Distribucnı funkci F (x) lze vyjadrit pomocı distribucnıfunkce N (0, 1)-rozdelenı

F (x) = Φ(

x− µ

σ

).

Obrazek 4.4 Hustota a distribucnı funkce N (µ, σ2)-rozdelenı

0 µ x

f(x)1√

2πσ2

(a) hustota0 µ x

F (x)1

12

(b) distribucnı funkce

Empiricke pravidlo pro normalne rozdelene nahodne velicinyPro kazdou normalne rozdelenou nahodnou velicinu X platı:

(a) P (µ− σ < X < µ + σ) = 0.6826,

(b) P (µ− 2σ < X < µ + 2σ) = 0.9544,

(c) P (µ− 3σ < X < µ + 3σ) = 0.9974.

Tyto vlastnosti jsou graficky znazorneny na obr. 4.5.

Obrazek 4.5 Empiricka pravidla pro normalne rozdelenou nahodnou velicinu

0.6826

µ− σ µ µ + σ

0.9544

µ− 2σ µ µ + 2σ

0.9974

µ− 3σ µ µ + 3σ

Aplikace: Normalnı rozdelenı ma v teorii pravdepodobnosti mimoradny vyznam. Slouzı jakopravdepodobnostnı model chovanı velkeho mnozstvı nahodnych jevu v technice, prırodnıch

61

Page 62: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 4 NAHODNA VELICINA

vedach a v ekonomii. Mnoho nahodnych velicin vyskytujıcıch se v praktickych aplikacıch maalespon priblizne normalnı rozdelenı. Normalnı rozdelenı byva nekdy nazyvano

”zakonem

chyb“. Pri opakovanem merenı teze veliciny za stejnych podmınek zpusobujı nahodne vlivyodchylky od skutecne hodnoty merene veliciny. Tyto nahodne chyby majı casto normalnırozdelenı. Velky vyznam normalnıho rozdelenı spocıva take v tom, ze za urcitych podmıneklze pomocı nej aproximovat radu diskretnıch i spojitych rozdelenı.

Prıklad 4.8 Normalnı rozdelenı

Doba potrebna na vypracovanı testu na vysoke skole ma normalnı rozdelenı se strednı hodnotou110 minut a smerodatnou odchylkou 20 minut.a) Kolik procent studentu dokoncı test do dvou hodin? b) Jak dlouho by mel test trvat, aby hodokoncilo prave 90% studentu?

Resenı: Necht’ X znacı dobu potrebnou na vypracovanı testu. Pak X ∼ N (110, 400).a) P (X ≤ 120) = F (120) = Φ( 120−110

20 ) = Φ( 1020 ) = Φ(0.5) = 0.6915. Pouze 69.15% studentu

dokoncı test do dvou hodin. b) P (X ≤ t) = F (t) = Φ( t−11020 ) = 0.90. V tabulkach najdeme,

ze pro z = 1.28 je P (X ≤ 1.28) = 0.90. Tudız t−11020 = 1.28 a z toho dostaneme t = 135.6.

Doba potrebna k tomu, aby test dokoncilo prave 90% studentu je 2hodiny a 15 minut.

Exponencialnı rozdelenı E(λ)

Rozdelenı pravdepodobnostı na R+ se nazyva exponencialnı rozdelenı s parametrem λ > 0nebo E(λ)-rozdelenı, jestlize ma hustotu

f(x) =

λe−λx pro x > 00 pro x ≤ 0.

(4.30)

Distribucnı funkce je

F (x) =

1− e−λx pro x > 00 pro x ≤ 0.

(4.31)

Strednı hodnota tohoto rozdelenı E(X) = 1/λ, rozptyl D(X) = 1/λ2 a median Q0.5 = ln 2/λ.

Obrazek 4.6 Hustota a distribucnı funkce E(λ)-rozdelenı

x

f(x)

λ

0

λe−λx

(a) hustota

x

F (x)

1

0(b) distribucnı funkce

Aplikace: Toto rozdelenı ma uplatnenı v teorii spolehlivosti a v teorii hromadne obsluhy,zejmena pri vypoctu pravdepodobnosti zivotnosti vyrobku a zarızenı. Typicky prıkladnahodne veliciny s E(λ)-rozdelenım je doba mezi vyskytem dvou po sobe nasledujıcıchnahodnych jevu. Ve fyzice je hodnota medianu Q0.5 = 1/λ ln 2 znama jako polocas rozpaduradioaktivnıho prvku.

62

Page 63: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

4.3 NEKTERA ROZDELENI PRAVDEPODOBNOSTI

Prıklad 4.9 Exponencialnı rozdelenı

Prumerna doba cekanı zakaznıka na obsluhu v urcite prodejne je 50 sekund, pricemz dobacekanı se rıdı exponencialnım rozdelenım. Jaka je pravdepodobnost, ze nahodny zakaznık budeobslouzen za dobu ne delsı nez 30 sekund?Resenı: Protoze λ = 1/50 = 0.02 je P (X ≤ 30) = 1− e−(0.02).30 = 1− e−0.6 ≈ 0.451.

S normalnım rozdelenım jsou spjata nektera dalsı dulezita rozdelenı, ktera budemepouzıvat v dalsıch kapitolach. Jejich hustotu zde nebudeme uvadet.

chı-kvadrat rozdelenı χ2(n)

Jestlize Z1, Z2, · · · , Zn je posloupnost nezavislych nahodnych velicin, z nichz kazda maN (0, 1)-rozdelenı, pak soucet ctvercu techto velicin, tj. velicina

χ2 =n∑

i=1

Z2i ,

ma chı–kvadrat rozdelenı s n stupni volnosti. Poctem stupnu volnosti se rozumı pocetnezavislych scıtancu. Je jedinym parametrem rozdelenı.Strednı hodnota tohoto rozdelenı je E(χ2) = n a rozptyl D(χ2) = 2n. Pro ruzne pocty stupnuvolnosti ν jsou tabelovany hodnoty χ2

α, splnujıcı vztah P (χ2 > χ2α) = α, 0 < α < 1. Se

vzrustajıcım poctem stupnu volnosti se χ2-rozdelenı blızı normalnımu rozdelenı.

Obrazek 4.7 Hustota χ2-rozdelenı a t-rozdelenı

χ2

ν = 5

ν = 10

ν = 19

(a) χ2-rozdelenı (b) t-rozdelenı

Studentovo t-rozdelenı t(n)

Jestlize Z a χ2 jsou dve nezavisle nahodne veliciny takove, ze Z ma N (0, 1)-rozdelenı a χ2

ma χ2(n)-rozdelenı, pak velicina

T =Z√χ2

√n

ma Studentovo t-rozdelenı s n stupni volnosti. Pocet stupnu volnosti je jediny parametrtohoto rozdelenı. Pro n → ∞ se t-rozdelenı blızı normovanemu normalnımu rozdelenı. Pripraktickych aplikacıch pro n > 30 povazujeme rozdelenı jiz za normalnı.

63

Page 64: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 4 NAHODNA VELICINA

Zakladnı vlastnosti t-rozdelenı s n stupni volnosti

1. Hustota gn(t) je suda funkce: gn(t) = gn(−t).

2. Distribucnı funkce splnuje podmınku Gn(t) = 1−Gn(−t).

3. Pro kvantily platı Qp(n) = −Q1−p(n), n = 1, 2, · · · , 0 < p < 1.

Dvourozmerne normalnı rozdelenı

Nahodny vektor (X, Y ) ma dvourozmerne normalnı rozdelenı s vektorem strednıch hodnotµ, a kovariancnı maticı Σ

µ = (µx, µy)T, Σ =

(σ2

x σxy

σxy σ2y

),

jestlize jeho hustota f(x, y) ma tvar

f(x, y) =1

2πσxσy

√1− ρ2

exp

− 1

2(1− ρ2)

((x− µx)

2

σ2x

− 2ρ(x− µx)(y − µy)

σxσy

+(y − µy)

2

σ2y

),

kde (x, y) ∈ R2, a ρ = σxy/σxσy je korelacnı koeficient slozek X a Y nahodneho vektoru(X,Y ). Pro |ρ| = 1 nenı hustota definovana. Jestlize ρ = 0, pak veliciny X a Y jsounekorelovane, ale v tomto prıpade take i nezavisle.

4.4 Nektere limitnı vety

Limitnı vety teorie pravdepodobnosti se zabyvajı chovanım posloupnostı nahodnych velicin.Jsou dulezite pro popis pravdepodobnostnıch modelu v prıpade rostoucıho poctu nahodnychpokusu.

V tomto odstavci zformulujeme zakon velkych cısel a centralnı limitnı vety jen v jejichnejjednodussı podobe bez formalnıho dukazu, pouze s ohledem na jejich vecny obsah.

4.4.1 Zakon velkych cısel

Obecne znenı zakona velkych cısel je mozne zformulovat takto: Jestlize zvetsujeme pocetnezavislych pokusu, priblizuje se empiricky zjistena charakteristika, popisujıcı vysledkytechto pokusu, charakteristice teoreticke. Podmınky pusobenı tohoto zakona specifikujıdılcı vety, z nichz nejdulezitejsı uvedeme. Dılcı vety se dokazujı pomocı tzv. Cebysevovynerovnosti.

Cebysevova nerovnost.

Necht’ X je nahodna velicina se strednı hodnotou E(X) a rozptylem D(X). Pak pro kazderealne cıslo ε > 0 platı

P (| X − E(X) |≥ ε) ≤ D(X)

ε2. (4.32)

Prıklad 4.10 Ilustrace Cebysevovy nerovnosti

Necht’ nahodna velicina X ma libovolne rozdelenı se strednı hodnotou µ = 2 a rozptylemσ2 = 1. Urcete pravdepodobnost, ze nahodna velicina nabude hodnoty, ktera se bude lisit od

64

Page 65: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

4.4 NEKTERE LIMITNI VETY

µ o mene nez ±2.

Resenı: V tomto prıpade je ε = 2. Pozadovana pravdepodobnost je

P (| X − 2 |< 2) = 1− P (| X − 2 |≥ 2) ≥ 1− 1/4 = 0.75.

Pristoupıme nynı k jedne z dılcıch vet zakona velkych cısel, a sice k Bernoulliho vete.

Bernoulliho veta (Bernoulliho zakon velkych cısel). Necht’ X1, X2, · · · je posloupnostnezavislych stejne rozdelenych nahodnych velicin s alternativnım rozdelenım A(p). OznacmeSn =

∑ni=1 Xi. Pak pro kazde ε > 0 platı:

limn→∞P

(| Sn

n− p |> ε

)= 0.

Bernoulliho veta je jednoduchym dusledkem Cebysevovy nerovnosti.Vyraz Sn/n v predchozı vete je relativnı cetnost jevu A = [Xi = 1] v n nezavislych

opakovanıch pokusu. Zakon velkych cısel potvrzuje, ze pro n → ∞ konverguje relativnıcetnost ke konstante a sice k pravdepodobnosti p jevu A. Pojem konvergence posloupnostinahodnych velicin lze definovat ruznym zpusobem, v Bernoulliho vete jde o konvergencipodle pravdepodobnosti.

Rekneme, ze posloupnost X1, X2, · · · nahodnych velicin konverguje podle pravde-podobnosti ke konstante c, jestlize pro kazde ε > 0 platı

limn→∞P (| Xn − c |> ε) = 0.

Bernoulliho vetu muzeme nynı pomocı pojmu konvergence podle pravdepodobnosti for-mulovat takto: Relativnı cetnost sledovaneho jevu v posloupnosti nezavislych pokusu konver-guje podle pravdepodobnosti k pravdepodobnosti sledovaneho jevu, roste-li pocet pokusu nadevsechny meze. Jinak receno, pri dostatecne velkem poctu nezavislych pokusu velke odchylkyrelativnı cetnosti od pravdepodobnosti jsou velmi nepravdepodobne.

Prakticky vyznam teto vety spocıva mimo jine v moznosti experimentalne odhadovatneznamou pravdepodobnost pomocı napozorovane relativnı cetnosti.

Prıklad 4.11 Ilustrace Bernoulliho vety

Z 2500 nezavisle vyrobenych vyrobku pri urcitem procesu vyroby jich bylo 100 vadnych. Podıl100/2500 = 0.04 je blızky cıslu p, ktere vyjadruje neznamou pravdepodobnost vyrobenı vadnehovyrobku pri danem procesu vyroby.

Nasledujıcı veta rıka, ze aritmeticky prumer konverguje pro n →∞ ke strednı hodnote.To je zobecnenı Bernoulliho vety, nebot’ relativnı cetnost je prumerem velicin s alternativnımrozdelenım a pravdepodobnost jevu A je jejich strednı hodnotou.

Chincinova veta

Necht’ X1, X2, · · · je posloupnost nezavislych stejne rozdelenych nahodnych velicin sestrednı hodnotou µ. Pak pro kazde ε > 0 platı

limn→∞P

(| 1

n

n∑

i=1

Xi − µ |> ε

)= 0.

65

Page 66: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 4 NAHODNA VELICINA

Podle zakona velkych cısel muzeme vypoctenım relativnı cetnosti respektive aritmetickehoprumeru (pokud se vztahujı k dostatecne velkemu poctu pozorovanı) zıskat velmi presnouinformaci o pravdepodobnosti nejakeho jevu respektive o strednı hodnote nejake nahodneveliciny.

Prıklad 4.12 Ilustrace Chincinovy vety

Necht’ doba zivotnosti X urciteho vyrobku ma E(λ)-rozdelenı. Potom prumerna doba zivotnostiX = 1

n

∑ni=1 Xi nezavisle vyrobenych vyrobku se jen velmi malo lisı od nezname doby

zivotnosti 1/λ.

4.4.2 Centralnı limitnı vety

Centralnı limitnı vety tvrdı, ze soucty a tedy i prumery velkeho poctu nezavislych nahodnychvelicin majı za velmi obecnych podmınek priblizne normalnı rozdelenı. Tyto vety vysvetlujı,proc se v ruznych oborech setkavame tak casto s normalnım nebo priblizne normalnımrozdelenım.

Typickym prıkladem jsou nepresnosti pri merenı; vysledna chyba merenı je slozenaz mnoha ruznych malych chyb. Centralnı limitnı vety nam umoznujı predpokladat, zerozdelenı chyb merenı je normalnı. Proto se normalnımu zakonu rozdelenı rıka zakon chyb.Zmınili jsme se o tom jiz v odstavci 4.3.2, kde jsme uvadeli definici a vlastnosti normalnıhorozdelenı.

Poznamka: O nahodnych velicinach, jejichz limitnım zakonem je normalnı rozdelenı rıkame,ze majı asymptoticky normalnı rozdelenı.

Nejjednodussı prıpad centralnı limitnı vety je tzv. Moivreova-Laplaceova veta, ktera vy-jadruje konvergenci binomickeho rozdelenı k rozdelenı normalnımu a dava tak moznostaproximovat binomicke rozdelenı rozdelenım normalnım.

Moivreova-Laplaceova veta. Necht’ X1, X2, · · · je posloupnost nezavislych stejne rozde-lenych nahodnych velicin s alternativnım rozdelenım A(p). Polozme Sn =

∑ni=1 Xi a Zn =

(Sn − np)/√

np(1− p). Potom platı

limn→∞P (Zn ≤ x) = Φ(x), x ∈ R.

Prıklad 4.13 Aproximace binomickeho rozdelenı normalnım rozdelenım

Student se podrobı zkousce ve forme testu s 10 otazkami, na ktere odpovıda ano nebo ne.Student hada odpovedi na vsechny otazky. Uzijte binomicke rozdelenı ke stanovenı presnepravdepodobnosti, ze student odpovı na 7 nebo 8 otazek spravne. Pak pouzijte aproximaci bi-nomickeho rozdelenı normalnım rozdelenım.Resenı: Necht’ S10 je pocet spravnych odpovedı na 10 otazek. Protoze student hada odpovedi,je pravdepodobnost spravne odpovedi p = 0.5, S10 ∼ B(10, 0.5). Z tabulky binomickeho rozdelenınebo prımym vypoctem dostaneme

P (S10 = 7 ∨ 8) = P (7) + P (8) = 0.1172 + 0.0439 = 0.1611.

(X = 7 ∨ 8 oznacuje vyrok X se rovna 7 nebo 8). E(S10) = np = 10 · 0.5 = 5 a D(Sn) =√

np(1− p) =1.58. Protoze n nenı prılis vysoke, je treba pri pouzitı normalnı aproximace provest korekci pro

66

Page 67: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

4.4 NEKTERE LIMITNI VETY

nahrazenı diskretnıho rozdelenı spojitym, tzv. korekci na spojitost. Ulohu lze totiz formulovat jakourcenı P (6.5 ≤ S10 ≤ 8.5), nebot’ platı

P (6.5 ≤ S10 ≤ 8.5) = P (S10 ≤ 8.5)− P (S10 < 6.5) = P (S10 ≤ 8)− P (S10 ≤ 6)= P (S10 = 8) + P (S10 = 7).

Pouzitım Moivreova-Laplaceovy vety dostaneme

P

(6.5− 51.58

≤ Z10 ≤ 8.5− 51.58

)= P (0.95 ≤ Z10 ≤ 2.22) = Φ(2.22)− Φ(0.95)

= 0.9868− 0.8289 = 0.1579.

Porovnanım teto hodnoty s hodnotou P (S10 = 7 ∨ 8) vidıme, ze normalnı aproximace je velicedobrou aproximacı binomickeho rozdelenı.

Centralnı limitnı vetu, ktera je prımym zobecnenım Moivreovy-Laplaceovy vety, lze vyslovittakto:

Linderbergova-Levyho veta

Necht’ X1, X2, · · · jsou nezavisle nahodne veliciny se stejnym rozdelenım, ktere majıkonecnou strednı hodnotu µ a rozptyl σ2. Polozme Yn =

∑ni=1 Xi a Zn = (Yn− nµ)/σ

√n.

Potom platılim

n→∞P (Zn ≤ x) = Φ(x), x ∈ R.

Podle teto vety konverguje distribucnı funkce normovanych souctu k distribucnı funkciN (0, 1)-rozdelenı pro libovolne vychozı rozdelenı s konecnou strednı hodnotou a konecnymrozptylem. Jinak receno soucet a tım i prumer n nezavislych nahodnych velicin, ktere majıstejne (libovolne) rozdelenı s konecnou strednı hodnotou a konecnym rozptylem ma pro dostivelke n priblizne normalnı rozdelenı.

Prıklad 4.14 Ilustrace Linderbergovy-Levyho vety

Necht’ doba zivotnosti X urciteho vyrobku ma E(λ)-rozdelenı. Potom normovany tvar prumeruX = 1

n

∑ni=1 Xi dob zivotnosti X1, X2, · · · , Xn nezavisle vyrabenych vyrobku je

Zn =X − 1/λ

1/λ√

n.

Zn se da pro dostatecne velke n aproximovat rozdelenım N (0, 1).

67

Page 68: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Kapitola 5

Nahodny vyber

V predchazejıcıch kapitolach jsme se zabyvali popisnou statistikou, pravdepodobnostı, na-hodnymi velicinami, nekterymi rozdelenımi pravdepodobnostı a limitnımi vetami. Nynı siukazeme, ze tyto zdanlive ruzne pojmy jsou zakladem inferencnı statistiky.

Zavedeme pojem nahodny vyber z rozdelenı, ktery ma v matematicke statistice ustrednıpostavenı a spojuje vetsinu teoretickych vysledku s praktickymi situacemi.

5.1 Pojem nahodneho vyberu

Uvazujme nahodny pokus, jehoz vysledkem je hodnota x jednorozmerne nahodne veliciny X,ktera ma distribucnı funkci F (x). Opakujeme-li nahodny pokus nezavisle n krat, dostanemehodnoty x1, x2, · · · , xn. Pritom xi, i = 1, 2, · · · , n lze povazovat za hodnotu nahodne velicinyXi. Protoze n uvazovanych pokusu je n nezavislych opakovanı tehoz pokusu, jsou nahodneveliciny X1, X2, · · · , Xn vzajemne nezavisle a vsechny majı stejne rozdelenı, jake ma nahodnavelicina X (tj. vsechny majı tutez distribucnı funkci F (x), jakou ma nahodna velicina X).

Posloupnost nezavislych a stejne rozdelenych nahodnych velicin X1, X2, · · · , Xn nazyvamenahodnym vyberem o rozsahu n z rozdelenı, ktere ma kazda uvazovana nahodna velicinaX1, X2, · · · , Xn (tj. z rozdelenı majıcıho distribucnı funkci F (x); mısto distribucnı funkcıF (x) muzeme ovsem diskretnı rozdelenı popsat pravdepodobnostmi P (x) a spojita rozdelenıhustotou pravdepodobnosti f(x)). Nahodny vyber budeme znacit X = (X1, X2, · · · , Xn).Posloupnost hodnot x1, x2, · · · , xn, ktere nabyvajı nahodne veliciny X1, X2, · · · , Xn nazvemevyberovymi hodnotami nebo realizacı nahodneho vyberu. Mnozina V hodnot, kterenabyvajı nahodne veliciny X1, X2, · · · , Xn, se nazyva vyberovym prostorem. Vyberovyprostor V je podmnozinou Rn.

Protoze nahodne veliciny X1, X2, · · · , Xn jsou vzajemne nezavisle a majı stejne rozdelenı,platı pro distribucnı funkci H(x) nahodneho vyberu

H(x) = F (x1)F (x2)...F (xn), xi ∈ R.

Prıklad 5.1 Distribucnı funkce nahodneho vyberu

Necht’ X = (X1, X2, · · · , Xn) je nahodny vyber ze spojiteho rovnomerneho rozdelenı na intervalu(0,1). Urcete distribucnı funkci H(x) nahodneho vyberu X.Resenı: Xi ∼ U(0, 1)

H(x) = H(x1, x2, · · · , xn) = x1 · x2 · · ·xn.

68

Page 69: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

5.2 VYBEROVE CHARAKTERISTIKY

Pravdepodobnostnı funkce q(x) nahodneho vyberu v prıpade diskretnıho rozdelenı nahodnychvelicin X1, X2, · · · , Xn je

q(x) = P (X1 = x1, X2 = x2, · · · , Xn = xn) = p(x1)p(x2) · · · p(xn)

Prıklad 5.2 Pravdepodobnostnı funkce nahodneho vyberu

Necht’ X = (X1, X2, · · · , Xn) je nahodny vyber z Poissonova rozdelenı s parametrem λ. Urcetepravdepodobnostnı funkci q(x).Resenı: Xi ∼ P(λ), f(xi) = λxi

xi!e−λ, xi = 0, 1 · · · , i = 1, 2, · · · , n

q(x) = λ∑n

i=1xie−nλ 1

x1!x2!...xn!.

Hustota rozdelenı h(x) nahodneho vyberu z rozdelenı s hustotou f(x) je

h(x) = h(x1, x2, · · · , xn) = f(x1)f(x2) · f(xn), xi ∈ R, i = 1, 2, · · · , n.

Prıklad 5.3 Hustota rozdelenı nahodneho vyberu

Necht’ X = (X1, X2, · · · , Xn) je nahodny vyber z normalnıho rozdelenı N (µ, σ2). Najdete hustotuh(x).Resenı: Xi ∼ N (µ, σ2)

h(x) =n∏

i=1

1√2πσ

exp−12(xi − µ

σ)2 =

1(2π)n/2σn

exp− 12σ2

n∑

i=1

(xi − µ)2, xi ∈ R.

5.2 Vyberove charakteristiky

Jak jiz vıme, statisticky soubor lze popsat pomocı ruznych popisnych charakteristik. Mezinejdulezitejsı charakteristiky patrı aritmeticky prumer, rozptyl a relativnı cetnost. U spocet-nych statistickych souboru bychom meli spıse hovorit o parametrech rozdelenı sledovanehoznaku. K temto charakteristikam a parametrum muzeme najıt ve vyberovem souboru prı-slusne protejsky, tj. vyberove charakteristiky neboli statistiky.

Zatımco charakteristiky zakladnıho souboru a parametry rozdelenı sledovaneho znakujsou pevne hodnoty, statistiky se menı od jednoho nahodneho vyberu ke druhemu. Z pravde-podobnostnıho hlediska majı charakter nahodnych velicin, nebot’ jsou vypocteny z hodnotnahodneho vyberu, ktere jsou samy hodnotami nahodnych velicin. Tyto nahodne velicinyneobsahujı parametry rozdelenı. Prıklady vyberovych charakteristik jsou: vyberovy prumer,vyberovy rozptyl a vyberovy podıl.

5.3 Rozdelenı vyberovych charakteristik

Chceme-li na zaklade vyberove charakteristiky delat zavery o charakteristice zakladnıhosouboru nebo o parametru rozdelenı, je nutne vzdy znat pravdepodobnostnı rozdelenı vybe-rove charakteristiky, ktere se nazyva vyberove rozdelenı.

Vyberova rozdelenı jsou teoretickym zakladem pro zpracovanı vysledku vyberovych se-trenı, jejich poznanı je rozhodujıcım krokem, ktery teprve umoznuje aplikovat zakonitostipoctu pravdepodobnosti na hodnocenı kvality usudku opırajıcıch se o nahodny vyber.

69

Page 70: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 5 NAHODNY VYBER

V teto casti uvedeme vyberova rozdelenı statistik, na jejichz zaklade budeme v kapitole 6odhadovat nezname parametry rozdelenı pravdepodobnostı a v kapitole 7 testovat hypotezyo techto parametrech.

5.3.1 Rozdelenı vyberoveho prumeru

Je-li (X1, X2, · · · , Xn) nahodny vyber o rozsahu n, pak vyberovy prumer (nebo takevyberovy 1. obecny moment) je statistika definovana jako

X =1

n

n∑

i=1

Xi. (5.1)

Obecne, vyberovy k-ty obecny moment je statistika

M′k =

1

n

n∑

i=1

Xki . (5.2)

Necht’ (X1, X2, · · · , Xn) je nahodny vyber o rozsahu n z rozdelenı se strednı hodnotou µa rozptylem σ2, pak pro strednı hodnotu µx a rozptyl σ2

x vyberoveho prumeru X platı

µx = E(1

n

n∑

i=1

Xi) =1

n

n∑

i=1

E(Xi) = µ (5.3)

σ2x = D(

1

n

n∑

i=1

Xi) =1

n2

n∑

i=1

D(Xi) =1

nσ2. (5.4)

Zname-li rozdelenı, z nehoz nahodny vyber pochazı, muzeme stanovit rozdelenı vybero-veho prumeru jako rozdelenı linearnı funkce nahodnych velicin. Je-li napr. (X1, X2, · · · , Xn)nahodny vyber z N (µ, σ2)-rozdelenı, pak X ∼ N (µ, σ2/n).

Pokud nahodny vyber nepochazı z normalnıho rozdelenı, pak z centralnı limitnı vety (vizodst. 4.4.2) vyplyva, ze nahodna velicina X ma priblizne normalnı rozdelenı za predpokladu,ze rozsah vyberu je relativne velky. Vseobecne vzato, cım vıce se rozdelenı, z nehoz vyberpochazı, lisı od normalnıho, tım vetsı rozsah vyberu potrebujeme pro adekvatnı aproximacirozdelenı vyberoveho prumeru. Na zaklade experimentalnıch vysledku se doporucuje, abyrozsah vyberu n byl alespon 30. Tudız mame nasledujıcı poznatek.

Tvrzenı 5.1 ROZDELENI VYBEROVEHO PRUMERU

Predpokladejme, ze mame nahodny vyber o rozsahu n ≥ 30 z rozdelenı se strednıhodnotou µ, a rozptylem σ2. Pak bez ohledu na rozdelenı, z nehoz vyber pochazı, manahodna velicina X priblizne normalnı rozdelenı se strednı hodnotou µx = µ a rozptylemσ2

x = σ2/n.

V kapitolach 6 a 7 budeme pouzıvat normovany tvar nahodne veliciny X, to je velicinu

Z =X − µx

σx

=X − µ

σ/√

n, (5.5)

ktera ma v dusledku centralnı limitnı vety rozdelenı specifikovane pri ruznych podmınkachv nasledujıcım tvrzenı.

70

Page 71: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

5.3 ROZDELENI VYBEROVYCH CHARAKTERISTIK

Tvrzenı 5.2 ROZDELENI NORMOVANEHO TVARU VYBEROVEHO PRUMERU

Predpokladejme, ze mame nahodny vyber o rozsahu n z rozdelenı se strednı hodnotouµ a smerodatnou odchylkou σ2. Pak normovany tvar vyberoveho prumeru X

Z =X − µ

σ/√

n

1. ma bez ohledu na rozsah vyberu normovane normalnı rozdelenı, pokud vyber pochazız normalnıho rozdelenı;

2. ma pro n ≥ 30 priblizne normovane normalnı rozdelenı bez ohledu na rozdelenı, z nehozvyber pochazı.

5.3.2 Rozdelenı vyberoveho rozptylu

Je-li (X1, X2, · · · , Xn) nahodny vyber o rozsahu n, pak vyberovy rozptyl je statistikadefinovana jako

S2 =1

n− 1

n∑

i=1

(Xi −X)2. (5.6)

Poznamka : Vyberovy k-ty centralnı moment je statistika

Mk =1

n

n∑

i=1

(Xi −X)k. (5.7)

Podobne jako v prıpade vyberoveho prumeru, chceme-li zıskat informaci o rozptylurozdelenı prostrednictvım vyberoveho rozptylu, musıme znat jeho rozdelenı.

Tvrzenı 5.3 ROZDELENI VYBEROVEHO ROZPTYLU

Predpokladejme, ze mame nahodny vyber o rozsahu n z normalnıho rozdelenı s rozptylemσ2. Pak nahodna velicina

χ2 =n− 1

σ2S2

ma χ2-rozdelenı s n− 1 stupni volnosti.

Nynı predpokladejme, ze mame nahodny vyber o rozsahu n z normalnıho rozdelenı se strednı

hodnotou µ a s neznamym rozptylem. Jelikoz nahodna velicina Z = X−µσ/√

n∼ N (0, 1) a velicina

χ2 = n−1σ2 S2 ∼ χ2(n−1), pak z definice t-rozdelenı vyplyva ze nahodna velicina Z/

√χ2/n− 1

ma t-rozdelenı s n− 1 stupni volnosti. Vzhledem k tomu, ze platı relace

Z√χ2/n− 1

=X − µ

σ/√

n·√

n− 1√n−1σ2 S2

=X − µ

σ/√

n· σ

S=

X − µ

S/√

n

dostavame pro statistiku

T =X − µ

S/√

n,

kterou budeme nazyvat t-statistikou, nasledujıcı tvrzenı.

71

Page 72: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 5 NAHODNY VYBER

Tvrzenı 5.4 ROZDELENI t-STATISTIKY

Mejme nahodny vyber o rozsahu n z normalnıho rozdelenı se strednı hodnotou µ. Pak manahodna velicina

T =X − µ

S/√

n

t-rozdelenı s n− 1 stupni volnosti.

5.3.3 Rozdelenı vyberoveho podılu

Uvazujme nahodny vyber ze zakladnıho souboru, v nemz sledovany statisticky znak nebosledovana nahodna velicina nabyva pouze hodnot nula a jedna. V tomto prıpade mluvımeo vyberu z alternativnıho rozdelenı. Tımto rozdelenım kvantifikujeme naprıklad takove situ-ace, kdy hodnote statistickeho znaku, ktery nas zajıma, priradıme cıselnou hodnotu 1 a vsemdalsım cıselnou hodnotu 0 a zajıma nas, jake procento statistickych jednotek ze zakladnıhosouboru ma urcitou sledovanou vlastnost. Jde o tzv. dvoukategorialnı zakladnı soubor.Naprıklad, jestlize zakladnı soubor o rozsahu N , ktery uvazujeme, tvorı vsechny domacnostiv CR, sledovana vlastnost je

”vlastnictvı osobnıho pocıtace“, (1 – domacnost ma osobnı

pocıtac, 0 – domacnost nema osobnı pocıtac), pocet domacnostı vlastnıcıch osobnı pocıtac jeNv, pak podıl zakladnıho souboru je podıl vsech domacnostı v CR, ktere vlastnı osobnıpocıtac, tj. Nv/N .

Predpokladejme, ze rozdelenı v zakladnım souboru je alternativnı a ze p znacı bud’ re-lativnı cetnost hodnoty 1 (podıl statistickych jednotek s hodnotou sledovaneho znaku 1)v konecnem zakladnım souboru, nebo pravdepodobnost hodnoty 1, uvazujeme-li nekonecnyzakladnı soubor. Muze-li sledovany znak nebo sledovana nahodna velicina nabyvat pouzehodnot 0 a 1, pak take vyberovymi hodnotami x1, x2, · · · , xn mohou byt bud’ jednicky nebonuly. Protoze vyber je nahodny, je pocet jednicek x ve vyberu hodnotou nahodne veliciny X,ktera se nazyva vyberovou absolutnı cetnostı. Podıl p = x/n, kde x znacı pocet jednotekvyberu majıcıch specifikovanou vlastnost (nazyvany casto

”pocet uspechu“ a n − x

”pocet

neuspechu“) a n je rozsah vyberu, je pak hodnotou nahodne veliciny

P =X

n,

ktera se nazyva vyberovou relativnı cetnostı nebo casteji vyberovym podılem. Z toho,co bylo receno je zrejme, ze vyberovy podıl je roven vyberovemu prumeru nahodneho vyberuz alternativnıho rozdelenı.Poznamka: V dalsım textu budeme pouzıvat stejne oznacenı p pro nahodnou velicinu P i jejıhodnotu p .

Podobne jako v prıpade strednı hodnoty, musıme znat vyberove rozdelenı podılu,(pravdepodobnostnı rozdelenı nahodne veliciny p) , abychom mohli delat zavery o podılu p.Z Moivreovy-Laplaceovy limitnı vety (viz odst. 4.4.1) vyplyva nasledujıcı tvrzenı.

Tvrzenı 5.5 ROZDELENI VYBEROVEHO PODILU

Predpokladejme, ze mame nahodny vyber velkeho rozsahu n z alternativnıho rozdelenıs podılem p. Pak nahodna velicina p ma priblizne normalnı rozdelenı se strednı hodnotou

µp = p a smerodatnou odchylkou σp =√

p(1− p)/n.

72

Page 73: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

5.4 NEZAVISLE NAHODNE VYBERY

Z tvrzenı 5.4 lze odvodit, ze normovana nahodna velicina

Z =p− p√

p(1− p)/n(5.8)

ma pro velka n priblizne normovane normalnı rozdelenı.Presnost normalnı aproximace zavisı na n a p. Pro p blızke 0.5 je aproximace dostatecne

presna pro rozumne n. Cım se p vıce lisı od 0.5, tım vetsı n potrebujeme k tomu, abyaproximace byla presna. Byva zvykem pouzıvat aproximaci normalnım rozdelenım, pokudnp ≥ 5 a zaroven n(1− p) ≥ 5, neboli min(np, n(1− p)) ≥ 5.

5.4 Nezavisle nahodne vybery

Nektere metody, kterymi se budeme v kapitole 7 zabyvat, nevyzadujı pouze, aby vybery bylynahodne, ale take aby byly nezavisle, zhruba receno, aby vyber z jednoho rozdelenı nemelzadny vliv na vyber z jineho rozdelenı.

Necht’ X1 = (X11, X12, · · · , X1n1) je nahodny vyber rozsahu n1 z rozdelenı s distribucnıfunkcı F1(x) a X2 = (X21, X22, · · · , X2n2) je nahodny vyber rozsahu n2 z rozdelenı s dis-tribucnı funkcı F2(x). Nahodne vybery X1 a X2 jsou nezavisle, jestlize nahodne velicinyX11, X12, · · · , X1n1 , X21, X22, · · · , X2n2 jsou nezavisle, pricemz veliciny X11, X12, · · · , X1n majıdistribucnı funkcı F1(x) a X21,X22,· · · , X2n majı distribucnı funkcı F2(x) (viz odst. 4.1.3).Jsou-li distribucnı funkce F1(x) a F2(x) identicke, jedna se o dva nezavisle vybery z tehozrozdelenı.

5.4.1 Dva nezavisle vybery z normalnıho rozdelenı nebo velkerozsahy vyberu

Mejme nahodny vyber X1 = (X11, X12, · · · , X1n1) rozsahu n1 z rozdelenıN (µ1, σ21) a nahodny

vyber X2 = (X21, X22, · · · , X2n2) rozsahu n2 z rozdelenı N (µ2, σ22). Necht’ vybery X1 a

X2 jsou nezavisle. Potom statistiky X1 a X2 jsou nezavisle (viz odstavec 4.1.3), X1 ∼N (µ1, σ

21/n1), X2 ∼ N (µ2, σ

22/n2) a statistika X1−X2 ma rozdelenıN (µ1−µ2, σ

21/n1+σ2

2/n2)(viz odstavec 5.3.1). Bezprostrednım dusledkem je nasledujıcı tvrzenı.

Tvrzenı 5.6 ROZDELENI ROZDILU VYBEROVYCH PRUMERU (NEZAVISLE VYBERY)Predpokladejme, ze mame dva nezavisle nahodne vybery o rozsazıch n1 a n2 z rozdelenı sestrednımi hodnotami µ1 a µ2 a smerodatnymi odchylkami σ1 a σ2. Dale predpokladejme,ze bud’ obe rozdelenı jsou normalnı nebo oba vybery majı velky rozsah. Pak nahodnavelicina X1 −X2 ma (priblizne) normalnı rozdelenı se strednı hodnotou µ(x1−x2) = µ1 − µ2

a smerodatnou odchylkou σ(x1−x2) =√

σ21/n1 + σ2

2/n2. Tudız normovana nahodna velicina

Z =(X1 −X2)− (µ1 − µ2)√

(σ21/n1) + (σ2

2/n2)(5.9)

ma alespon priblizne normovane normalnı rozdelenı.

Toto tvrzenı tvorı teoreticky zaklad pro odvozenı statistickych indukcnıch metod proporovnanı strednıch hodnot dvou zakladnıch souboru.

73

Page 74: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 5 NAHODNY VYBER

Dva nezavisle vybery z rozdelenı se shodnymi rozptyly

Nynı predpokladejme, ze σ21 = σ2

2 = σ2 a rozptyl σ2 nenı znam, coz je obvykle v praktickychprıpadech. Dosazenım hodnoty σ2 za σ2

1 a σ22 do definice nahodne veliciny Z ve vztahu (5.9)

dostaneme nahodnou velicinu

Z =(X1 −X2)− (µ1 − µ2)

σ√

(1/n1) + (1/n2). (5.10)

Vyberove rozptyly S21 a S2

2 pouzijeme k sestrojenı tzv. sdruzeneho vyberoveho rozptylu S2P

S2P =

(n1 − 1)S21 + (n2 − 1)S2

2

n1 + n2 − 2. (5.11)

Sdruzeny vyberovy rozptyl muzeme chapat jako vazeny rozptyl, ve kterem jednotlive vyberoverozptyly S2

1 a S22 jsou vazeny odpovıdajıcımi stupni volnosti. (Index

”P“ pochazı z anglickeho

termınu”pooled sample variance“, ktery znamena sdruzeny vyberovy rozptyl). Nahrazenım

neznameho rozptylu σ2 v rovnici (5.10) sdruzenym vyberovym rozptylem S2P , dostaneme

nahodnou velicinu

(X1 −X2)− (µ1 − µ2)

SP

√(1/n1) + (1/n2)

, (5.12)

ktera na rozdıl od nahodne veliciny definovane v (5.10), nema normovane normalnı rozdelenı,ale t-rozdelenı. Nahodnou velicinu definovanou v (5.12) budeme nazyvat sdruzena t-stati-stika. Jejı rozdelenı specifikuje nasledujıcı tvrzenı.

Tvrzenı 5.7 ROZDELENI SDRUZENE t-STATISTIKY

Predpokladejme, ze mame dva nezavisle nahodne vybery o rozsazıch n1 a n2 z rozdelenıse strednımi hodnotami µ1 a µ2. Dale predpokladejme, ze smerodatne odchylky obourozdelenı jsou shodne. Pak nahodna velicina

T =X1 −X2 − (µ1 − µ2)

SP

√1/n1 + 1/n2

,

kde SP je definovano v (5.11), ma t-rozdelenı s n1 + n2 − 2 stupni volnosti.

Dva nezavisle vybery z rozdelenı s ruznymi rozptyly

Podobne jako v prıpade diskutovanem vyse budeme predpokladat, ze standardnı odchylkyv obou vyberech jsou nezname. Nahradıme σ1 a σ2 vyberovymi smerodatnymi odchylkamiS1 a S2 a dostaneme nahodnou velicinu,

(X1 −X2)− (µ1 − µ2)√(S2

1/n1) + (S22/n2)

, (5.13)

ktera jiz nema normovane normalnı rozdelenı, ale ma priblizne t-rozdelenı. Tuto statistikubudeme nazyvat nesdruzena t-statistika .

74

Page 75: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

5.5 PAROVE NAHODNE VYBERY

Tvrzenı 5.8 ROZDELENI NESDRUZENE t-STATISTIKY

Predpokladejme, ze mame dva nezavisle vybery o rozsahu n1 a n2 z normalnıch rozdelenıse strednımi hodnotami µ1 a µ2. Pak ma nahodna velicina

T =(X1 −X2)− (µ1 − µ2)√

(S21/n1) + (S2

2/n2)

priblizne t-rozdelenı s poctem stupnu volnosti δ, kde

δ =[(s2

1/n1) + (s22/n2)]

2

(s21/n1)2

n1−1+

(s22/n2)2

n2−1

,

zaokrouhleno dolu na nejblizsı cele cıslo.

5.4.2 Dva nezavisle vybery z alternativnıho rozdelenı

Mame-li dva nezavisle nahodne vybery o rozsahu n1 a n2 z alternativnıch rozdelenı s para-metry (podıly) p1 a p2, pak je vyberovy podıl pi, i = 1, 2 roven vyberovemu prumeru Xi.Z tvrzenı 5.5 a 5.6 plyne nasledujıcı tvrzenı 5.9, ktere tvorı teoreticky zaklad nutny proodvozenı statistickych indukcnıch metod pro porovnanı dvou dvoukategorialnıch zakladnıchsouboru.

Tvrzenı 5.9 ROZDELENI ROZDILU DVOU VYBEROVYCH PODILU (NEZAVISLE VYBERY)

Predpokladejme, ze mame dva nezavisle nahodne vybery o rozsazıch n1 a n2 z alterna-tivnıch rozdelenı s podıly p1 a p2. Pak pro velke vybery ma nahodna velicina p1 − p2

priblizne normalnı rozdelenı se strednı hodnotou µ(p1−p2) = p1 − p2 a smerodatnou od-

chylkou σ(p1−p2) =√

p1(1− p1)/n1 + p2(1− p2)/n2, kde pi = xi/ni je vyberovy podıl i-tepopulace, xi je pocet uspechu v i-te populaci, i = 1, 2. Tudız normovana nahodna velicina

Z =(p1 − p2)− (p1 − p2)√

p1(1− p1)/n1 + p2(1− p2)/n2

ma priblizne normovane normalnı rozdelenı.

5.5 Parove nahodne vybery

Necht’ X1 = (X11, X12, · · · , X1n) je nahodny vyber rozsahu n z rozdelenı se strednı hodno-tou µ1 a rozptylem σ2

1, a X2 = (X21, X22, · · · , X2n) je nahodny vyber stejneho rozsahu nz rozdelenı se strednı hodnotou µ2 a rozptylem σ2

2. Z techto dvou vyberu utvorıme vybern dvojic (X11, X21), (X12, X22), ..., (X1n, X2n). Kazde dvojici velicin (X1j, X2j), j = 1, 2, · · · , npriradıme nahodnou velicinu Dj = X1j − X2j, j = 1, 2, · · · , n, tzv. parovou diferenci,kterou zıskame odectenım prıslusne parove hodnoty v druhem vyberu od parove hodnotyv prvnım vyberu. Na posloupnost parovych diferencı D1, D2, · · · , Dn nahodne vybranychn dvojic se muzeme dıvat jako na nahodny vyber z rozdelenı vsech moznych parovych dife-rencı. Oznacme strednı hodnotu takoveho rozdelenı parovych diferencı µd.

75

Page 76: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 5 NAHODNY VYBER

Pak lze ukazat, zeµd = µ1 − µ2. (5.14)

O vztahu rozptylu σ2d rozdelenı parovych diferencı k rozptylum σ2

1 a σ22 nemuzeme vzhledem

k mozne zavislosti velicin nic predpokladat. Oznacme D vyberovy prumer parovych diferencı,tudız D = X1−X2, kde X i je vyberovy prumer nahodneho vyberu z i-teho rozdelenı, i = 1, 2.Dale oznacme Sd vyberovou smerodatnou odchylku parovych diferencı pro kterou platı

Sd =

√√√√ 1

n− 1

n∑

j=1

(Dj −D)2. (5.15)

Je-li rozdelenı parovych diferencı normalnı, pak muzeme aplikovat tvrzenı 5.3, pouzıt rovnost(5.14) a dostaneme nasledujıcı vysledek.

Tvrzenı 5.10 ROZDELENI PAROVE t-STATISTIKY

Predpokladejme, ze mame nahodny vyber n dvojic z rozdelenı se strednımi hodnotami µ1

a µ2. Dale predpokladejme, ze rozdelenı vsech parovych dvojic je normalnı. Pak nahodnavelicina

T =D − (µ1 − µ2)

Sd/√

n

ma t-rozdelenı s n− 1 stupni volnosti.

76

Page 77: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Kapitola 6

Zaklady teorie odhadu parametru

Tato kapitola vychazı z vysledku kapitoly 5. Budeme se zabyvat problemem odhadovanıparametru rozdelenı. Vysvetlıme, jake vlastnosti by mely mıt odhady a jak je sestrojovat.

6.1 Bodove a intervalove odhady

Odhad neznameho parametru (charakteristiky) rozdelenı nebo zakladnıho souboru lze provestdvema zpusoby. Prvnı zpusob spocıva v tom, ze z hodnot vyberoveho souboru vypocıtamejedno cıslo - hodnotu statistiky a tu prohlasıme za odhad odpovıdajıcıho parametru (charak-teristiky). Tento odhad jednım cıslem se nazyva bodovy odhad.

Definice 6.1 BODOVY ODHAD

Bodovy odhad parametru je hodnota statistiky, kterou pouzijeme pro odhad parametru.

Jak jsme se jiz zmınili v kapitole 5, nebylo by rozumne ocekavat, ze vyberova charak-teristika bude presne rovna parametru rozdelenı nebo charakteristice zakladnıho souboru.Potrebujeme vedet, jak presny bude nas odhad. Toho docılıme tım, ze bodovy odhad para-metru pouzijeme k sestrojenı intervalu hodnot a stanovıme pravdepodobnost s jakou para-metr lezı v tomto intervalu.

Definice 6.2 INTERVALOVY ODHAD

Intervalovy odhad parametru je odhad pomocı intervalu, ktery zıskame z bodovehoodhadu parametru a zadanım pravdepodobnosti s jakou parametr lezı v tomto intervalu.

Predpokladejme, ze X = (X1, X2, ..., Xn) je nahodny vyber z rozdelenı, ktere zavisı naneznamem parametru θ =(θ1, ..., θk). Na zaklade pozorovanych hodnot vektoru X chcemeodhadnout parametr θ, o kterem je predem znamo pouze tolik, ze patrı do mnoziny Θ ⊆ Rk.Tuto mnozinu prıpustnych hodnot parametru θ budeme nazyvat parametricky prostor.Statistika T = T (X1, X2, · · · , Xn), kterou pouzijeme k odhadovanı parametru θ se nazyvaodhadova statistika. Jejı hodnota T (x) je pak bodovy odhad parametru θ zıskany nazaklade konkretnı realizace x = (x1, x2, ..., xn) nahodneho vyberu. Pro jednoduchost seomezıme na prıpad jednorozmerneho parametru θ.

77

Page 78: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 6 ZAKLADY TEORIE ODHADU PARAMETRU

6.2 Vlastnosti bodovych odhadu

Provedeme-li vyber rozsahu n ze zakladnıho souboru, lze z neho zpravidla zıskat nekolikruznych statistik, ktere je mozno pouzıt k odhadu charakteristiky zakladnıho souboru. Kdy-bychom naprıklad meli odhadnout strednı hodnotu symetrickeho rozdelenı, lze k odhadovanıpouzıt tri statistiky: median, aritmeticky prumer z vyberovych pozorovanı a polovicnı soucetnejmensı a nejvetsı vyberove hodnoty. Tyto tri statistiky nedavajı zrejme stejne kvalitnıodhady strednı hodnoty rozdelenı. K odhadu charakteristiky zakladnıho souboru nevolımetedy jakoukoliv statistiku, nybrz takovou statistiku, ktera splnuje urcita kriteria. Uvedemeta nejdulezitejsı.

6.2.1 Nestranne odhady

Dulezity pozadavek kladeny na zvolenou statistiku je, aby nevedla k systematickemu nadhod-nocovanı nebo podhodnocovanı odhadovane charakteristiky, tj. aby nevedla k systematickymchybam. Chceme tedy, aby strednı hodnota statistiky byla rovna odhadovanemu parametru.

Definice 6.3 NESTRANNY ODHAD

Statistika T je nestrannym (nevychylenym, nezkreslenym) odhadem parametru θ, platı-lipro kazde θ ∈ Θ

E(T ) = θ.

Poznamka: Ve vsech prıkladech v tomto odstavci budeme predpokladat, ze mame nahodnyvyber (X1, X2, · · · , Xn) z rozdelenı se strednı hodnotou µ a konecnym rozptylem σ2.

Prıklad 6.1 Nestranne odhady

Ukazte, ze vyberovy prumer X je nestrannym odhadem strednı hodnoty µ rozdelenı a ze vyberovyrozptyl S2 je nestrannym odhadem rozptylu σ2.Resenı: Z rovnice (5.1) plyne, ze E(X) = µ. K urcenı E(S2) vyuzijeme rovnosti S2 = n

n−1M2 a nejprveodvodıme E(M2).

E(M2) =1n

E(n∑

i=1

(Xi −X)2) =1n

E(n∑

i=1

(Xi − µ + µ−X)2)

=1n

n∑

i=1

[E(Xi − µ)2 − 2E(Xi − µ)E(X − µ) + E(X − µ)2

]

=1n

n∑

i=1

(σ2 − 1

nσ2

)=

n− 1n

σ2. (6.1)

Z rovnice (6.1) vyplyva E(S2) = nn−1E(M2) = σ2. Tudız S2 je nestranny odhad σ2. Zaroven jsme

ukazali, ze M2 je vychylenym odhadem rozptylu σ2.

RozdılB(θ) = E(T )− θ (6.2)

se nazyva vychylenı (zkreslenı) odhadu T .

78

Page 79: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

6.2 VLASTNOSTI BODOVYCH ODHADU

Prıklad 6.2 Vychylenı odhadu

Urcete vychylenı odhadu M2 rozptylu σ2 rozdelenı, z nehoz vyber pochazı.Resenı: B(σ2) = E(M2)− σ2 = n−1

n σ2 − σ2 = 1nσ2. Vychylenı odhadu M2 rozptylu σ2 je rovno σ2/n.

Jestlize se pri rostoucım rozsahu vyberu vychylenı zmensuje, tj. jestlize

limn→∞[E(T )− θ] = 0, (6.3)

pak T se nazyva asymptoticky nestranny odhad .

Prıklad 6.3 Asymptoticky nestranny odhad

Ukazte, ze druhy vyberovy centralnı moment je asymptoticky nestrannym odhadem rozptylu.Resenı: Toto tvrzenı vyplyva prımo z vysledku prıkladu 6.1. Platı

limn→∞

[E(M2)− σ2] = limn→∞

1n

σ2 = 0.

6.2.2 Konzistentnı odhady

V nekterych prıpadech jsme nuceni pracovat s vychylenymi odhady. Pak pozadujeme, abyodhad byl konzistentnı, tj. aby se pro rostoucı rozsah vyberu blızil odhadovanemu parametru.

Definice 6.4 KONZISTENTNI ODHAD

Statistika T je konzistentnım odhadem parametru θ, platı-li pro kazde ε > 0

limn→∞P (| T − θ |< ε) = 1.

Jinymi slovy, odhad T je konzistentnım odhadem parametru θ, jestlize konverguje podlepravdepodobnosti k θ. Podmınka konzistence tedy vyjadruje pozadavek, aby s rostoucımrozsahem vyberu rostla i pravdepodobnost, ze pouzita statistika T bude mıt hodnotu lisıcıse od hodnoty odhadovaneho parametru jen velmi malo (dokonce libovolne malo).

Tvrzenı 6.1 POSTACUJICI PODMINKA PRO KONZISTENCI

Necht’ pro T platılim

n→∞B(θ) = 0 a limn→∞D(T ) = 0, (6.4)

pak T je konzistentnı odhad θ.

Dukaz plyne z aplikace Cebysevovy nerovnosti (4.32) na P (| T − θ |) v definici 6.4.

Prıklad 6.4 Konzistentnı odhad

Ukazte, ze vyberovy prumer X je konzistentnım odhadem strednı hodnoty µ.

Resenı: Vzhledem k tomu, ze E(X) = µ a D(X) = σ2/n dostaneme

B(µ) = E(X)− µ = 0, limn→∞

D(X) = limn→∞

σ2

n= 0

a tedy predpoklady tvrzenı 6.1 jsou splneny.

79

Page 80: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 6 ZAKLADY TEORIE ODHADU PARAMETRU

6.2.3 Vydatnost odhadu

V nekterych prıpadech lze najıt vıce statistik, ktere jsou nestranne a konzistentnı. V takovemprıpade pouzijeme k odhadovanı parametru tu z nich, ktera ma nejmensı rozptyl. O statis-tice, ktera ma ze vsech nestrannych odhadu nejmensı rozptyl, rıkame, ze je vydatnym(nejlepsım nestrannym) odhadem parametru θ.

Necht’ T a U jsou dva nestranne odhady parametru θ, pak vydatnost odhadu T vzhledemk odhadu U je definovana vztahem

e(T, U) =D(U)

D(T ). (6.5)

I kdyz vyberova charakteristika bude splnovat vsechny vyse uvedene pozadavky, je zrejme,ze jejı hodnota vypoctena na zaklade udaju zıskanych nahodnym vyberem se bude praktickyvzdy urcitym zpusobem lisit od odhadovaneho parametru rozdelenı nebo charakteristikyzakladnıho souboru. Dusledkem teto odlisnosti je vznik tzv. vyberove chyby , tj. rozdıluθ − T .

Nynı predpokladejme, ze srovnavame vychylene i nestranne odhady parametru θ jako naobrazku 6.1. V takovem prıpade jiz nemusı byt vhodne vybrat odhad s nejmensım rozptylem.Odhad T ma sice nejmensı rozptyl, ale jako odhad se neda pouzıt, nebot’ ma velke vychylenı.Ani odhad s nejmensım vychylenım vsak nemusı byt nejvhodnejsı. Odhad U ma nulovevychylenı, ale jako odhad nenı prılis uspokojivy, nebot’ jeho rozptyl je prılis velky. Jakonejlepsı se jevı odhad V , ktery ma nejlepsı kombinaci maleho vychylenı a maleho rozptylu.

Obrazek 6.1 Odhad V s nejlepsı kombinacı maleho vychylenı a rozptylu

Θ

p(u)

skutecna hodnota

p(v)

p(t)

Presnost bodoveho odhadu lze merit pomocı strednı kvadraticke chyby MSE(T ) statis-tiky T .

Definice 6.5 STREDNI KVADRATICKA CHYBA

Strednı kvadraticka chyba statistiky T pro odhad parametru θ je definovana jako

MSE(T ) = E(T − θ)2 = D(T ) + B2(θ)

(MSEodhadu = (rozptyl odhadu + (jeho vychylenı)2).

Na rozdıl od vyberove chyby, strednı kvadraticka chyba neudava velikost vyberove chybypri odhadovanı na zaklade udaju jednoho konkretnıho vyberu, ale charakterizuje, jaka je

”prumerna“ vyberova chyba odhadu prichazejıcıch v uvahu pri vsech ruznych vyberech

80

Page 81: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

6.3 NEKTERE METODY BODOVYCH ODHADU

daneho rozsahu. Protoze jde o kombinaci dvou pozadovanych vlastnostı, totiz maleho vy-chylenı a maleho rozptylu, stava se pojem minimalnı strednı kvadraticke chyby (nebolimaximalnı vydatnosti) univerzalnım kriteriem pro posouzenı dvou odhadu. Vybırame odhad,ktery ma nejmensı strednı kvadratickou chybu. Toto potvrzuje dva predchozı zavery. Jestlizeporovnavame dva odhady se stejnym rozptylem, davame prednost odhadu s mensım vychy-lenım. A pokud srovnavame dva odhady se stejnym vychylenım, pak je vhodnejsı ten, kteryma mensı rozptyl.

Je-li statistika T nestrannym odhadem parametru θ, pak z (6.2) a z definice 6.5 plyne, zestrednı kvadraticka chyba odhadu je rovna rozptylu a tudız presnost nestranneho odhadu lze

merit pomocı smerodatne odchylky√

D(T ) =√

E(T − E(T ))2 statistiky T. Velicina√

D(T )se nazyva strednı chyba.

Prıklad 6.5 Strednı kvadraticka chyba

Spoctete strednı kvadratickou chybu statistiky S2 a statistiky M2.

Resenı: Uvazujme nejprve statistiku S2, ktera je nestrannym odhadem σ2. Platı, ze

MSE(S2) = D(S2) = E(S2 − σ2)2 = E(S4)− 2σ2E(σ2) + σ4 = E(S4)− σ4 =2σ4

n− 1.

Pro strednı kvadratickou chybu statistiky M2 dostaneme

MSE(M2) = E(M2 − σ2)2 = E(M22 )− 2

n− 1n

σ4 + σ4 = E(M22 ) +

2− n

nσ4 =

2n− 1n2

σ4,

to je mene nez MSE(S2), nebot’ 2n−1n2 < 2

n−1 . Kazdy z techto dvou odhadu rozptylu je lepsı v jinemsmyslu.

Pro kazde dva odhady T a U parametru θ, vychylene i nestranne, definujeme relativnıvydatnost odhadu T vzhledem k U jako

vydatnost odhadu T vzhledem k U =MSE(U)

MSE(T ). (6.6)

Prıklad 6.6 Relativnı vydatnost

Ekonomove provedli nahodny vyber 500 pozorovanı z rozdelenı s rozptylem σ2 a ztratili zaznamposlednıch 200 pozorovanı. Majı tedy k dispozici pouze 300 pozorovanı, ze kterych budou pocıtatvyberovy prumer X300. Jaka je vydatnost tohoto prumeru X300 vzhledem k prumeru X500, kterymohli zıskat z puvodnıho vyberu o rozsahu n = 500 ?Resenı: Oba odhady jsou nestranne. Tudız strednı kvadraticka chyba obou odhadu je rovna jejichrozptylu a vydatnost X300 vzhledem k X500 je

e(X300, X500) =D(X500)D(X300)

=σ2

500σ2

300

=35.

6.3 Nektere metody bodovych odhadu

Zatım jsme pojednavali o vlastnostech ruznych odhadu a nezabyvali jsme se otazkou, jakodhady odvozovat. Nynı popıseme dve z nejcasteji pouzıvanych metod pro hledanı odhadu,a to metodu momentu a metodu maximalnı verohodnosti.

81

Page 82: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 6 ZAKLADY TEORIE ODHADU PARAMETRU

6.3.1 Metoda momentu

Uvazujme rozdelenı, ktere zavisı na r ≥ 1 realnych parametrech θ1, θ2, · · · , θr a mejmenahodny vyber z tohoto rozdelenı. Odhady parametru θ1, θ2, · · · , θr metodou momentu senaleznou tak, ze se pro k = 1, 2, · · · , r vypocte na zaklade konkretnı realizace (x1, x2, · · · , xn)nahodneho vyberu hodnota m′

k vyberoveho k-teho obecneho momentu M′k a m

′k se polozı

rovno k-temu obecnemu momentu rozdelenı EXki = µ′k, tj.

µ′k =1

n

n∑

i=1

xki , k = 1, 2, · · · , r. (6.7)

Tım dostaneme r rovnic, jejichz resenım najdeme odhady θ1, θ2, · · · , θr parametru θ1, θ2, · · · , θr.Vyberovy moment M ′

k je aritmeticky prumer n nahodnych velicin, tedy existuje-li k-tyobecny moment EXk

i , pak M ′k konverguje podle pravdepodobnosti k E(Xk

i ) podle Chincinovyvety (viz odstavec 4.4.1), tudız M ′

k je konzistentnım a take nestrannym odhadem EXki .

Prıklad 6.7 Odhad parametru λ rozdelenı P(λ) metodou momentu

V prıpade nahodneho vyberu z Poissonova rozdelenı P(λ), dostaneme rovnici

λ = m′1,

takze odhadem λ parametru λ zıskanym metodou momentu je λ = x.

Prıklad 6.8 Odhad parametru µ a σ2 rozdelenı N (µ, σ2) metodou momentu

V prıpade nahodneho vyberu z normalnıho rozdelenı vede metoda momentu na rovnice

µ = m′1, σ2 + (µ)2 = m

′2,

odkud vyplyva, ze odhady parametru µ a σ2, zıskane metodou momentu jsou

µ = x, σ2 =1n

n∑

i=1

x2i − x2 =

1n

n∑

i=1

(xi − x)2 =n− 1

ns2. (6.8)

6.3.2 Metoda maximalnı verohodnosti

Necht’ (X1, X2, · · · , Xn) je nahodny vyber z rozdelenı s hustotou f(x, θ), respektive s pra-vdepodobnostnı funkcı P (Xi = xi) = p(xi, θ), obsahujıcı neznamy jednorozmerny parametrθ patrıcı do nejakeho neprazdneho otevreneho intervalu Θ ⊆ R. Pak nahodny vektor X =(X1, X2, · · · , Xn) ma sdruzenou hustotu rozdelenı respektive sdruzenou pravdepodobnostnıfunkci

g(x, θ) = g(x1, x2, · · · , xn, θ) = f(x1, θ)f(x2, θ) · · · f(xn, θ) (6.9)

resp.

g(x, θ) = g(x1, x2, · · · , xn, θ) = p(x1, θ)p(x2, θ) · · · p(xn, θ). (6.10)

Hustota g(x, θ) reprezentuje funkci promenne x pri pevne dane hodnote θ. Pri kazde pevnehodnote x lze g(x, θ) chapat jako funkci promenne θ. Pro tuto funkci budeme pouzıvat

82

Page 83: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

6.3 NEKTERE METODY BODOVYCH ODHADU

oznacenı L(θ,x) a nazyvat ji verohodnostnı funkce. Pro libovolnou dvojici (x, θ) samo-zrejme platı L(θ,x) = g(x, θ). Jde jen o to, ze uzitım symbolu L poukazujeme na tuto funkcijako na funkci promenne θ pri danem x.Existuje-li takove θ ∈ Θ, ze pro kazde θ ∈ Θ platı

L(θ,x) ≥ L(θ,x), (6.11)

pak θ nazyvame maximalne verohodnym odhadem parametru θ. Maximalne verohodnyodhad parametru θ je takova hodnota θ ∈ Θ, pri ktere hodnota verohodnostnı funkce jemaximalnı (tj. pri dane realizaci (x1, x2, · · · , xn) je θ

”nejverohodnejsı“).

Mısto verohodnostnı funkce je nekdy vyhodnejsı pracovat s jejım logaritmem a potombudeme mluvit o logaritmicke verohodnostnı funkci L(θ,x) = lnL(θ,x). Jelikoz funkcelnL je rostoucı funkcı L, platı pro maximalne verohodny odhad θ take

L(θ,x) ≥ L(θ,x) (6.12)

pro kazde θ ∈ Θ. Obecne nejsou maximalne verohodne odhady nestranne.Existuje-li pro kazde x derivace ∂L(θ,x)/∂θ, pak θ musı byt resenım rovnice

∂L(θ,x)

∂θ= 0 (6.13)

a vzhledem k (6.12) je take resenım rovnice

∂L(θ,x)

∂θ= 0. (6.14)

V matematicke statistice se rovnice (6.14) nazyva verohodnostnı rovnice.

Prıklad 6.9 Maximalne verohodny odhad parametru b rozdelenı U(0, b)

Necht’ (X1, X2, · · · , Xn) je nahodny vyber z U(0, b)-rozdelenı. Urcete maximalne verohodny odhadparametru b.

Resenı: Verohodnostnı funkce ma v tomto prıpade tvar

L(b,x) = L(b, x1, x2, · · · , xn) =1bn

.

Protoze b > xi, i = 1, 2, · · · , n, platı

L(x(n), x1, x2, · · · , xn) =1

xn(n)

>1bn

pro vsechna b > 0, takzeb = x(n)

je maximalne verohodnym odhadem parametru b.

Prıklad 6.10 Maximalne verohodny odhad parametru λ rozdelenı P(λ)

Necht’ (X1, X2, · · · , Xn) je nahodny vyber z P(λ)-rozdelenı. Urcete maximalne verohodny odhadparametru λ.Resenı: V prıpade vyberu z Poissonova rozdelenı ma verohodnostnı funkce tvar

L(λ,x) = λ∑n

i=1xie−nλ 1

x1!x2! · · ·xn!.

83

Page 84: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 6 ZAKLADY TEORIE ODHADU PARAMETRU

Logaritmicka verohodnostnı funkce je pak

L(λ,x) =n∑

i=1

xi ln λ− nλ−n∑

i=1

ln xi.

Maximalne verohodny odhad nalezneme resenım verohodnostnı rovnice (6.14)

−n +1λ

n∑

i=1

Xi = 0,

odkud vyplyva

λ =1n

n∑

i=1

xi = x.

Maximalne verohodne odhady pro k ≥ 2 parametru

Necht’ (X1, X2, · · · , Xn) je nahodny vyber z rozdelenı s r ≥ 2 neznamymi parametry θ1, · · · , θr.Maximalne verohodnymi odhady parametru θ1, θ2, · · · , θr nazveme statistiky θ1, θ2, · · · , θr,pro nez platı

L(θ1, θ2, · · · , θr,x) ≥ L(θ1, θ2, · · · , θr,x) (6.15)

resp.L(θ1, θ2, · · · , θr,x) ≥ L(θ1, θ2, · · · , θr,x) (6.16)

pro kazde (θ1, θ2, · · · , θr) ∈ ⊆ Rr.Maximalne verohodny odhad vektoru θ = (θ1, θ2, · · · , θr) je urcen resenım soustavy

verohodnostnıch rovnic

∂L(θ,x)

∂θi

= 0, i = 1, 2, · · · , r. (6.17)

Prıklad 6.11 Maximalne verohodny odhad vektoru parametru (µ, σ2) rozdelenı N (µ, σ2)

Necht’ (X1, X2, · · · , Xn) je nahodny vyber z N (µ, σ2)-rozdelenı. Urcete maximalne verohodny odhadparametru µ a σ2.Resenı: V tomto prıpade ma logaritmicka verohodnostnı funkce tvar

L(µ, σ2,x) = −n

2ln 2π − n

2ln σ2 − 1

2σ2

n∑

i=1

(xi − µ)2.

Maximalne verohodne odhady parametru µ a σ2 se naleznou resenım verohodnostnıch rovnic∂L(µ, σ2,x)/∂µ = 0 a ∂L(µ, σ2,x)/∂σ2 = 0, tj. resenım rovnic

1σ2

n∑

i=1

(xi − µ) = 0, − n

2σ2+

12(σ2)2

n∑

i=1

(xi − µ)2 = 0.

Dostavame tedy

µ = x, σ2 =1n

n∑

i=1

(xi − x)2 =n− 1

ns2.

Vidıme, ze odhady parametru µ a σ2 normalnıho rozdelenı metodou momentu a metodoumaximalnı verohodnosti jsou shodne.

84

Page 85: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

6.4 INTERVALY SPOLEHLIVOSTI

6.4 Intervaly spolehlivosti

V predchazejıcıch odstavcıch jsme se zabyvali vlastnostmi a metodami urcenı bodovychodhadu parametru θ. Pri praktickem pouzıvanı odhadu parametru rozdelenı je treba siuvedomit, ze se bodovy odhad parametru temer vzdy lisı od skutecne hodnoty parametru.Z toho duvodu potrebujeme zıskat informaci o presnosti odhadu. To muzeme udelat pomocıintervaloveho odhadu parametru. Nynı se temito odhady budeme zabyvat.

Definice 6.6 INTERVAL SPOLEHLIVOSTI, KOEFICIENT SPOLEHLIVOSTI

Interval (θD, θH) je 100(1 − α) procentnım intervalem spolehlivosti pro θ, 0 < α < 1,jestlize θD a θH jsou dve statistiky takove, ze platı:

P (θD < θ < θH) = 1− α

pro kazde θ ∈ Θ. Cıslo 1− α se nazyva koeficient spolehlivosti.

Interval spolehlivosti se take nazyva konfidencnı interval pro θ. Z definice 6.6 intervaluspolehlivosti vyplyva, ze pravdepodobnost toho, ze interval (θD, θH) pokryje spravnou hod-notu parametru θ, je rovna 1− α. Interval spolehlivosti pro parametr θ muzeme take zadatnerovnostı θ > θD prıp. θ < θH . Takto zadane intervaly spolehlivosti jsou jednostranne in-tervaly spolehlivosti, pricemz prvnı interval se nazyva levostranny a druhy pravostranny.Dvoustranne intervaly spolehlivosti, ktere splnujı podmınku

P (θH ≤ θ) = P (θ ≤ θD) = α/2,

se nazyvajı symetricke intervaly spolehlivosti. V dalsım vykladu se omezıme na dvoustrannesymetricke intervaly spolehlivosti.

6.4.1 Sestrojenı intervalu spolehlivosti

Interval spolehlivosti stanovıme zpravidla tak, ze vyjdeme z nejlepsıho nestranneho odhaduθ parametru θ a uvazujeme nahodnou velicinu U(θ, θ), ktera je takovou funkcı θ a θ, zerozdelenı veliciny U nezavisı na θ. Pomocı tohoto rozdelenı nalezneme uD a uH takove, ze

P (U ≤ uD) =α

2, P (U ≥ uH) =

α

2. (6.18)

Z (6.18) vyplyva, ze

P (uD < U < uH) = P (U < uH)− P (U ≤ uD) = 1− α. (6.19)

Nerovnost uD < U < uH prevedeme na ekvivalentnı nerovnost θD < θ < θH , takze platı

P (uD < U < uH) = P (θD < θ < θH) = 1− α

a tedy interval zadany nerovnostmi (θD < θ < θH) je 100(1 − α)% intervalem spolehlivostipro parametr θ.

Vztah mezi koeficientem spolehlivosti a delkou intervalu spolehlivosti

Koeficient spolehlivosti intervalu spolehlivosti udava spolehlivost odhadu, tj. vyjadruje, jakse muzeme spolehnout na to, ze hodnota odhadovaneho parametru skutecne lezı uvnitr

85

Page 86: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 6 ZAKLADY TEORIE ODHADU PARAMETRU

intervalu spolehlivosti. Tudız spolehlivost odhadu je dana zvolenou pravdepodobnostı. Delkaintervalu spolehlivosti udava presnost odhadu. Velke intervaly spolehlivosti znamenajımensı presnost odhadu, kdezto male intervaly spolehlivosti znamenajı dobrou presnost.Pri pevnem rozsahu vyberu platı, ze cım vetsı je koeficient spolehlivosti, tım vetsıje i delka intervalu spolehlivosti. To je logicke, nebot’ cım vıce si chceme byt jisti, zeodhadovany parametr lezı ve stanovenem intervalu spolehlivosti, tım musı byt tento intervalsirsı. Jinymi slovy, hodnota odhadovaneho parametru bude lezet s vysokou pravdepodobnostıuvnitr intervalu, ale odhad bude mene presny a jeho prakticka pouzitelnost bude mala. Tudızmezi spolehlivostı a presnostı odhadu pri dane realizaci nahodneho vyberu existuje neprımaumernost.

Koeficient spolehlivosti volıme blızky 1, doporucovane hodnoty jsou 0.99; 0.95, tj. kon-struujeme 99% resp. 95% interval spolehlivosti. Stanovıme-li 99% respektive 95% intervalspolehlivosti na zaklade dane realizace nahodneho vyberu, pokryje s pravdepodobnostı 0.99respektive 0.95 skutecnou hodnotu odhadovaneho parametru.

V dalsıch odstavcıch zamerıme pozornost na intervaly spolehlivosti nekterych dulezitychcharakteristik rozdelenı a to strednı hodnoty, rozptylu a podılu.

6.5 Intervaly spolehlivosti pro strednı hodnotu

V tomto odstavci budeme resit problem sestrojenı intervalu spolehlivosti pro strednı hodnoturozdelenı pri zadanem koeficientu spolehlivosti. Vyuzijeme vysledky uvedene v kapitole 5a sice klıcove vysledky 5.1 a 5.2 o asymptotickem rozdelenı vyberoveho prumeru.

6.5.1 Intervaly spolehlivosti pro strednı hodnotu pri znamemrozptylu

Predpokladejme, ze mame nahodny vyber z rozdelenı se strednı hodnotou µ a rozptylem σ2.Dale predpokladejme, ze rozdelenı je normalnı nebo rozsah vyberu n je velky. Pak podle

tvrzenı 5.2 ma nahodna velicina Z = X−µσ/√

n(priblizne) normovane normalnı rozdelenı. Tudız

pro Z platı

P (−zα/2 < Z < zα/2) = 1− α. (6.20)

Pripomenme, ze zα je takova hodnota nahodne veliciny Z, pro kterou platı:∫∞zα

φ(z)dz = α.

Ze vztahu (6.20) plyne, ze pro pozorovanou hodnotu x nahodne veliciny X platı

P (µ− zα/2σ√n

< x < µ + zα/2σ√n

) = 1− α. (6.21)

Prepıseme (6.21) pomocı algebraickych operacı na tvar

P (x− zα/2σ√n

< µ < x + zα/2σ√n

) = 1− α. (6.22)

Z rovnice (6.22) je videt, ze jakmile mame k dispozici pozorovane hodnoty nahodneho vyberu,interval (

x− zα/2σ√n

, x + zα/2σ√n

)(6.23)

86

Page 87: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

6.5 INTERVALY SPOLEHLIVOSTI PRO STREDNI HODNOTU

je 100(1 − α)% intervalem spolehlivosti pro µ. Postup sestrojenı intervalu spolehlivostipro strednı hodnotu µ pri znamem rozptylu σ2, nekdy take nazyvany jednovyberovyz-interval nebo kratce z-interval pro µ, je nasledujıcı.

Postup 6.1 Jednovyberovy z-interval pro µ

Predpoklady

a. Normalnı rozdelenı nebo velky rozsah vyberu n

b. Znamy rozptyl σ2

1. Pro koeficient spolehlivosti 1 − α, najdete hodnotu zα/2 v tabulce II.kritickych hodnotN (0, 1)-rozdelenı.

2. Krajnı body intervalu spolehlivosti jsou

x± zα/2σ√n

,

kde zα/2 je hodnota, urcena v 1. kroku, n je rozsah vyberu a x je vypocten ze zkoumanerealizace nahodneho vyberu.V prıpade vyberu z normalnıho rozdelenı je koeficient spolehlivosti presne roven 1−α,v prıpade vyberu o velkem rozsahu z jineho nez normalnıho rozdelenı je koeficientspolehlivosti priblizne roven 1− α.

Poznamky: Jednım z predpokladu pro pouzitı tohoto postupu je, ze vyber pochazı z normal-nıho rozdelenı nebo rozsah vyberu je velky. Tento postup je pouzitelny dokonce pri vyberuo malem nebo primerene malem rozsahu z jineho nez normalnıho rozdelenı za predpokladu,ze rozdelenı se nelisı prılis od normalnıho. Postupy, ktere nejsou citlive na odchylky odpredpokladu, na kterych jsou zalozene, se nazyvajı robustnı. Tudız postup pro sestrojenız-intervalu pro parametr µ je robustnı vuci malym odchylkam od predpokladu normality.

Pri uvahach o sestrojenı intervalu spolehlivosti pro parametr µ je take dulezite sledovattzv. odlehla (vybocujıcı) pozorovanı, o kterych jsme se jiz zmınili v kapitole 2. To znamenaty hodnoty, ktere byly chybne namereny nebo zaznamenany nebo indikujı nesrovnalostiv modelu normality. Dokonce pro velke rozsahy vyberu, mohou odlehla pozorovanı znacneovlivnit z-interval, nebot’ vyberovy prumer nenı resistentnı vuci odlehlym pozorovanım.

Prıklad 6.12 Ilustrace postupu 6.1

Urcete 90% interval spolehlivosti pro strednı hodnotu µ za predpokladu, ze mate nahodny vyber orozsahu n = 50 z normalnıho rozdelenı se znamou smerodatnou odchylkou σ = 12.1 a aritmetickyprumer je x = 36.38.

Resenı: Koeficient spolehlivosti je 0.90 = 1− 0.10. To znamena, ze α = 0.10. Z tabulky II.urcıme

zα/2 = z0.10/2 = z0.05 = 1.645.

Mame σ = 12.1, n = 50, x = 36.38 a zα/2 = 1.645. Tudız 90% interval spolehlivosti pro µ je(

36.38− 1.64512.1√

50, 36.38 + 1.645

12.1√50

),

neboli interval (33.6, 39.2).

87

Page 88: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 6 ZAKLADY TEORIE ODHADU PARAMETRU

Urcenı rozsahu vyberu pro odhad strednı hodnotyProblemem sestrojenı intervaloveho odhadu pro parametr µ jsme se jiz zabyvali. Nynı chcemeurcit, jak rozsah vyberu ovlivnuje presnost odhadu. Nejprve zavedeme pojmy a terminologiipouzıvane v problematice intervalovych odhadu.

Definice 6.7 PRIPUSTNA CHYBA ODHADU PRO µ

Prıpustna chyba odhadu pro µ je

∆ = zα/2σ√n

,

Prıpustna chyba je rovna polovine delky intervalu spolehlivosti.

Obecne, prıpustna chyba odhadu reprezentuje presnost, ktere chceme dosahnout pri odha-dovanı nejakeho parametru. Pro odhad strednı hodnoty µ je ilustrovana na obrazku 6.2.

Prıpustna chyba odhadu se take nazyvaObrazek 6.2 Prıpustna chyba odhadu pro µ

xx− zα/2σ√n

x + zα/2σ√n

∆ ∆

hornı mez chyby odhadu pro µ. Z defi-nice 6.7 a definice 6.6 intervalu spolehlivostipro µ vidıme, ze delka intervalu spolehlivostije urcena prıpustnou chybou ∆. Prıpustnachyba odhadu je tedy zα/2 nasobek strednıchyby odhadu µ, nebot’ σ2/n je rozptyl od-hadu X. Delka intervalu spolehlivosti prostrednı hodnotu µ a tudız presnost odhadu x parametru µ je urcena prıpustnou chybouodhadu ∆. Zmensenı delky intervalu spolehlivosti a tım zvetsenı presnosti odhadu µ vyzadujepouze snızenı prıpustne chyby odhadu. Vzhledem k tomu, ze se rozsah vyberu n vyskytujeve jmenovateli ve vzorci pro prıpustnou chybu ∆, muzeme chybu ∆ snızit zvetsenım rozsahuvyberu n. To dava smysl, nebot’ ocekavame, ze zıskame presnejsı informace z vyberu o vetsımrozsahu. Tudız dostavame nasledujıcı klıcovy poznatek.

Tvrzenı 6.2 PRIPUSTNA CHYBA A PRESNOST ODHADU µ

Delka intervalu spolehlivosti pro strednı hodnotu µ a tudız presnost odhadu x parametruµ je urcena prıpustnou chybou odhadu ∆. Pro dany koeficient spolehlivosti muzeme zvysitpresnost odhadu zvetsenım rozsahu vyberu n.

Prıpustna chyba ∆ a koeficient spolehlivosti 1−α byvajı casto zadany predem. Pak musımestanovit rozsah vyberu, aby predem stanovene pozadavky na presnost a spolehlivost odhadubyly splneny. Pro stanovenı minimalnıho rozsahu vyberu lze pouzıt vzorec pro prıpustnouchybu ∆ = zα/2σ/

√n. To vede ke vzorci 6.1.

Vzorec 6.1 Rozsah vyberu pro odhad µ

Rozsah vyberu pro 100(1−α)% interval spolehlivosti pro µ se zadanou prıpustnou chybou∆ je urcen vzorcem

n =(

zα/2σ

)2

,

kde n zaokrouhlujeme nahoru na nejblizsı cele cıslo.

88

Page 89: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

6.5 INTERVALY SPOLEHLIVOSTI PRO STREDNI HODNOTU

Prıklad 6.13 Ilustrace vzorce 6.1

U 30 nahodne vybranych domacnostı v CR byly sledovany vydaje za spotrebovane pohonne hmotypro dopravnı prostredky, ktere domacnost vlastnı. Byl vypocten prumerny vydaj x = 1756.80 Kc zamesıc. Predpokladejte, ze z predchozıch pruzkumu muzete udelat zaver, ze smerodatna odchylkaje σ = 413 Kc. Urcete rozsah vyberu nutny k tomu, abychom meli 95% spolehlivost, ze odhad µlezı v intervalu (x− 15, x + 15).Resenı: Ze zadanı prıkladu je zrejme, ze ∆ = 15 Kc. Protoze 1 − α = 0.95, je α = 0.05. V tabulceII.najdeme zα/2 = z0.025 = 1.96. Tudız pozadovany rozsah vyberu je

n =(zα/2 · σ

)2

=(

1.96 · 41315

)2

= 2912.26

Protoze rozsah vyberu musı byt kladne cele cıslo, dostaneme n = 2913. Jestlize vybereme nahodne2913 udaju o mesıcnıch vydajıch za pohonne hmoty pro automobily, pak se muzeme na 95%spolehnout, ze strednı hodnota µ vydaju za pohonne hmoty pro automobily ve vsech domacnostechlezı v intervalu (x − 15, x + 15), kde x je prumer vydaju za pohonne hmoty ve vybranych 2913domacnostech.

6.5.2 Intervaly spolehlivosti pro strednı hodnotu pri nezname sme-rodatne odchylce

V praxi vetsinou smerodatnou odchylku σ nezname. Pak ovsem postup pro sestrojenı inter-

valu spolehlivosti nemuze byt zalozen na statistice Z = X−µσ

√n. V tomto prıpade pouzijeme

k sestrojenı intervalu spolehlivosti t-statistiku T = X−µS

√n, ktera ma t-rozdelenı s n − 1

stupni volnosti za predpokladu, ze mame nahodny vyber z normalnıho rozdelenı se strednıhodnotou µ (viz. tvrzenı 5.4). Obdobnym zpusobem jako v prıpade znameho rozptylu bychomstanovili krajnı body intervalu spolehlivosti pro µ. Uvedeme pouze postup pro sestrojenı in-tervalu spolehlivosti pro strednı hodnotu µ pri neznamem rozptylu σ2, ktery budeme nazyvatjednovyberovy t-interval nebo kratce t-interval pro µ.

Postup 6.2 Jednovyberovy t-interval pro µ

Predpoklady

a. Normalnı rozdelenı nebo velky rozsah vyberu n;

b. Neznamy rozptyl σ2.

1. Pro koeficient spolehlivosti 1− α, najdete hodnotu tα/2 v tabulce III.

2. Interval spolehlivosti pro µ je

(x− tα/2

s√n

, x + tα/2s√n

),

kde tα/2 je hodnota, urcena v 1. kroku, n je rozsah vyberu a x a s jsou vypoctenyz uvazovane realizace nahodneho vyberu.V prıpade vyberu z normalnıho rozdelenı je koeficient spolehlivosti presne roven 1−α,v prıpade vyberu o velkem rozsahu z jineho nez normalnıho rozdelenı je koeficientspolehlivosti priblizne roven 1− α.

89

Page 90: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 6 ZAKLADY TEORIE ODHADU PARAMETRU

Ackoliv t-interval byl odvozen na zaklade predpokladu, ze jde o vyber z normalnıho rozdelenı,aplikuje se i v prıpade nahodnych vyberu velkeho rozsahu z rozdelenı jinych nez normalnıch.Podobne jako v prıpade z-intervalu i t-intervaly pracujı dobre pro male nebo stredne malevybery z jinych nez normalnıch rozdelenı. Jinymi slovy, postup pro sestrojenı t-intervaluje robustnı vuci malym odchylkam od predpokladu normality. Pri uvahach o sestrojenı t-intervalu pro parametr µ je take dulezite sledovat odlehla pozorovanı. Prıtomnost odlehlychpozorovanı se tyka predpokladu normality. Dokonce pro velke rozsahy vyberu, odlehla po-zorovanı mohou nekdy znacne ovlivnit t-interval, nebot’ vyberovy prumer a vyberova sme-rodatna odchylka nejsou rezistentnı vuci odlehlym pozorovanım.

Pripomenme, ze stejne jako pri sestrojovanı z-intervalu je treba udelat predbeznou ana-lyzu, abychom si byli jisti, ze muzeme postup pouzıt.

Prıklad 6.14 Ilustrace postupu 6.2

Ma byt zrızeno nove vlakove spojenı mezi Prahou a Ostravou. V prubehu jednoho roku bylv nahodne vybrane dny zjist’ovan pocet cestujıcıch na trase Praha - Ostrava. Ze 30 shromazdenychdat byly vypocteny aritmeticky prumer x = 450 a vyberova smerodatna odchylka s = 30. Urcete99% interval spolehlivosti pro strednı hodnotu poctu cestujıcıch.Resenı: Predpoklady pro pouzitı postupu 6.2 jsou splneny, nebot’ n = 30.1. Zadany koeficient spolehlivosti je 0.99 = 1 − 0.01, takze α = 0.01. Protoze n = 30, mameν = n− 1 = 30− 1 = 29. Z tabulky III.zjistıme, ze pro ν = 29 je tα/2 = t0.01/2 = t0.005 = 2.756.2. Je zadano x = 450, s = 30, n = 30 a v 1.kroku jsme urcili tα/2 = 2.756. Tudız 99% intervalspolehlivosti pro µ je (

450− 2.756.30√30

, 450 + 2.756.30√30

),

neboli interval (434.90, 465.09). Muzeme tedy s 99% spolehlivostı rıci, ze strednıho hodnota poctucestujıcıch na trati Praha - Ostrava je mezi 434 a 465.

6.6 Intervaly spolehlivosti pro rozptyl

Predpokladejme, ze mame nahodny vyber o rozsahu n z normalnıho rozdelenı s rozptylemσ2. Podle tvrzenı 5.3 ma nahodna velicina

χ2 =n− 1

σ2· S2 (6.24)

χ2-rozdelenı s n− 1 stupni volnosti. Vzhledem k tomu platı pro nahodnou velicinu χ2

P (χ21−α/2 < χ2 < χ2

α/2) = 1− α.

Z toho plyne, ze pro pozorovanou hodnotu s2 nahodne veliciny S2 platı

P (χ21−α/2 <

n− 1

σ2s2 < χ2

α/2) = 1− α. (6.25)

Pomocı algebraickych operacı prepıseme rovnici na tvar

P

n− 1

χ2α/2

· s2 < σ2 <n− 1

χ21−α/2

· s2

= 1− α. (6.26)

90

Page 91: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

6.6 INTERVALY SPOLEHLIVOSTI PRO ROZPTYL

Z rovnice (6.26) je videt, ze jakmile mame k dispozici pozorovane hodnoty nahodnehovyberu, interval

(n− 1)

χ2α/2

· s2,(n− 1)

χ21−α/2

· s2

(6.27)

je 100(1−α)% intervalem spolehlivosti pro σ2. Interval nenı symetricky. Interval spolehlivostipro rozptyl nazveme χ2-interval pro rozptyl σ2.

Postup 6.3 χ2-interval pro rozptyl σ2

Predpoklady

Normalnı rozdelenı

1. Pro koeficient spolehlivosti 1−α, najdete χ21−α/2 a χ2

α/2 pro n−1 stupnu volnosti v tabulce

IV. kritickych hodnot χ2-rozdelenı.

2. Interval spolehlivosti pro σ2 je

(n− 1)

χ2α/2

· s2,(n− 1)

χ21−α/2

· s2

,

kde χ21−α/2 a χ2

α/2 jsou urceny v kroku 1, n je rozsah vyberu a s2 je vypoctena zezkoumane realizace nahodneho vyberu.

Podobne jako postupy pro sestrojenı z-intervalu a t-intervalu, postup pro sestrojenı χ2-intervalu nenı obecne robustnı vuci odchylkam od predpokladu normality. Pouzitı pro jinanez normalnı data by mohlo vest k mylnym informacım. Predchozı analyza dat je rovneznutna.

Prıklad 6.15 Ilustrace postupu 6.3

V tovarne se vyrabı srouby o prumeru 10mm. Bylo nahodne vybrano 12 sroubu, peclive zjisteny je-jich prumery (prumer ve smyslu specifikace sroubu podle velikosti hlavicky) a vypoctena vyberovasmerodatna odchylka s = 0.047mm. Sestrojte 95% interval spolehlivosti pro smerodatnou od-chylku σ prumeru vsech 10mm sroubu vyrabenych v tovarne za predpokladu, ze rozdelenıprumeru sroubu je normalnı.Resenı: Predpoklady pro pouzitı postupu 6.3 jsou splneny.1. Koeficient spolehlivosti je 0.95 = 1−0.05. To znamena, ze α = 0.05. Jelikoz n = 12, ν = 12−1 = 11.Z tabulky IV.nalezneme hodnoty

χ21−α/2 = χ2

1−0.05/2 = χ20.975 = 3.816; χ2

α/2 = χ20.05/2 = χ2

0.025 = 21.920.

2. Ze zadanı prıkladu vıme, ze n = 12, s = 0.047 a z 1. kroku zjistene hodnoty χ21−α/2 = 3.816

a χ2α/2 = 21.920. Tudız 95% interval spolehlivosti pro σ je

(√(12− 1)21.920

0.047,

√(12− 1)3.816

0.047

)

nebo (0.033, 0.080). Takze 95% interval spolehlivosti pro smerodatnou odchylku σ vsech sroubu oprumeru 10mm vyrobenych v tovarne je (0.033, 0.080).

91

Page 92: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 6 ZAKLADY TEORIE ODHADU PARAMETRU

6.7 Intervaly spolehlivosti pro podıl

Predpokladejme, ze mame nahodny vyber o rozsahu n ze zakladnıho souboru s podılemp nebo ekvivalentne z alternativnıho rozdelenı s parametrem p. Nestranny odhad podılup, ze ktereho vyjdeme pri konstrukci intervalu spolehlivosti je vyberovy podıl p, diskuto-vany v odstavci 5.3.3. Jak bylo ve vyse zmınenem odstavci ukazano, z tvrzenı 5.4 plyne, ze

normovana nahodna velicina Z = (p − p)/√

p(1− p)/n ma priblizne normovane normalnırozdelenı. Tudız pro Z platı

P (−zα/2 < Z < zα/2) = 1− α. (6.28)

Z (6.28) plyne, ze pro pozorovanou hodnotu p platı

P(p− zα/2 ·

√p(1− p)/n < p < p + zα/2 ·

√p(1− p)/n

)= 1− α. (6.29)

Pomocı algebraickych operacı prepıseme rovnici na tvar

P(p− zα/2 ·

√p(1− p)/n < p < p + zα/2 ·

√p(1− p)/n

)= 1− α. (6.30)

Z rovnice (6.30) je videt, ze jakmile mame k dispozici pozorovane hodnoty nahodneho vyberu,interval (

p− zα/2 ·√

p(1− p)/n , p + zα/2 ·√

p(1− p)/n)

(6.31)

je 100(1− α)% intervalem spolehlivosti pro podıl p.

Interval spolehlivosti pro podıl p zakladnıho souboru nebo parametr p alternatvnıho rozdelenınazveme jednovyberovy z-interval nebo kratce z-interval pro p.

Postup 6.4 Jednovyberovy z-interval pro podıl p

Predpoklady

Pocet uspechu x a pocet neuspechu n− x je roven alespon 5 (min(x, n− x) ≥ 5.).

1. Pro koeficient spolehlivosti 1− α, najdete zα/2 v tabulce II.

2. Interval spolehlivosti pro p je

(p− zα/2

√p(1− p)/n, p + zα/2

√p(1− p)/n

),

kde n je rozsah vyberu a p = x/n je vyberovy podıl vypocteny ze zkoumane realizacenahodneho vyberu.

Prıklad 6.16 Ilustrace postupu 6.4

Mezi nahodne vybranymi 1000 domacnostmi CR bylo 50 tech, ktere jsou vybaveny osobnımpocıtacem. Sestrojte 99% interval spolehlivosti pro podıl poctu domacnostı vybavenych osobnımpocıtacem.Resenı: Nejprve se presvedcıme, zda je splnena podmınka pro pouzitı tohoto postupu. Rozsahvyberu je n = 1000, pocet PC je x = 50 a 1000− 50 = 950, tudız jak x a n− x jsou vetsı nez 5.

92

Page 93: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

6.7 INTERVALY SPOLEHLIVOSTI PRO PODIL

1. Koeficient spolehlivisti je 0.99, to znamena, ze α = 0.01 a odtud zα/2 = z0.01/2 = z0.005 = 2.58.2. Je zadano n = 1000, v 1. kroku byla zjistena hodnota z0.005 = 2.58. Dale p = x/n = 50/1000 = 0.05.Muzeme jiz stanovit 99% interval spolehlivosti pro p

(0.05− 2.58

√0.05(1− 0.05)/1000, 0.05 + 2.58

√0.05(1− 0.05)/1000

),

neboli (0.033, 0.067). S 99% spolehlivostı je podıl domacnostı vybavenych PC v CR mezi 3.3% a 6.7%.

Urcenı rozsahu vyberu pro odhad podılu p

Podobne jako v prıpade odhadu strednı hodnoty µ definujeme prıpustnou chybu odhadupodılu p.

Definice 6.8 PRIPUSTNA CHYBA ODHADU PODILU p

Prıpustna chyba odhadu podılu p je

∆ = zα/2

√p(1− p)/n.

Prıpustna chyba je rovna polovine delky intervalu spolehlivosti.

Prıpustna chyba reprezentuje presnost s jakou vyberovy podıl p odhaduje podıl p zakladnıhosouboru pri danem koeficientu spolehlivosti.

V prıkladu 6.16 je prıpustna chyba odhadu ∆ = 2.58√

0.05(1− 0.05)/1000 = 0.017,

kterou bychom take urcili z delky intervalu spolehlivosti (0.067 − 0.033)/2 = 0.017. Zeznalosti intervalu spolehlivosti muzeme urcit prıpustnou chybu vydelenım delky intervaludvema. Naopak, ze znalosti vyberoveho podılu p a prıpustne chyby odhadu muzeme stanovitinterval spolehlivosti, jeho krajnı body jsou p±∆.

Prıpustna chyba odhadu a koeficient spolehlivosti pro interval spolehlivosti byvajı zadanypredem. Musıme pak urcit rozsah vyberu nutny ke splnenı predepsanych pozadavku naodhad. Z definice 6.8 plyne pro rozsah vyberu

n = p(1− p)(

zα/2

)2

. (6.32)

Vzorec 6.32 nemuzeme pouzıt k urcenı pozadovaneho rozsahu vyberu, protoze vyberovypodıl p nezname dokud nemame k dispozici vyber. Vzhledem k tomu, ze nejvetsı moznahodnota p(1 − p) je rovna 0.25, nejcasteji pouzıvany prıstup k urcenı rozsahu vyberu jepouzıt tuto hodnotu v rovnici (6.32). Rozsah vyberu takto zıskany bude obecne vetsı nez jenutne a prıpustna chyba mensı nez pozadovana.

Na druhe strane, jelikoz naklady na zıskanı vyberu o vetsım rozsahu rostou, je vhodnejsınevolit rozsah vyberu vetsı, nez je nutne. Jestlize udelame hruby odhad podılu p na zakladepredchozıch zkusenostı nebo teoretickych uvah, muzeme tento hruby odhad pouzıt k zıskanırealistickeho rozsahu vyberu. Vzhledem k hodnotam, kterych muze nabyvat p, je zrejme,ze nas hruby odhad by mel byt blızko 0.5 V kazdem prıpade si musıme byt vedomi toho,ze kdyz pozorovana hodnota p se lisı od 0.5 o mene nez nas hruby odhad podılu p, pakprıpustna chyba bude vetsı nez pozadovana.

93

Page 94: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 6 ZAKLADY TEORIE ODHADU PARAMETRU

Vzorec 6.2 Rozsah vyberu pro odhad podılu p

100(1 − α)%-interval spolehlivosti pro podıl s prıpustnou chybou nejvyse rovnou ∆zıskame, zvolıme-li rozsah vyberu

n = 0.25(

zα/2

)2

,

zaokrouhleny nahoru na nejblizsı cele cıslo. Jestlize na zaklade predchozıch znalostızvolıme hodnotu pg za odhad podılu p, pak muzeme zvolit rozsah vyberu

n = pg(1− pg)(

zα/2

)2

,

zaokrouhleny nahoru na nejblizsı cele cıslo.

Prıklad 6.17 Ilustrace vzorce 6.2

Byl proveden pruzkum mezi zamestnanymi obcany CR, zda pouzıvajı osobnı automobil k cestedo zamestnanı.a) Urcete rozsah vyberu nutny k tomu, aby prıpustna chyba byla nejvyse 0.01 pro 95% intervalspolehlivosti.b) Urcete 95% interval spolehlivosti pro podıl p, jestlize pro rozsah vyberu urceny v casti a) jepodıl tech, kterı pouzıvajı osobnı automobil, roven 0.194.c) Urcete prıpustnou chybu odhadu urceneho v casti b) a porovnejte ji s prıpustnou chybouzadanou v casti a).Resenı:

a) Nejprve pouzijeme prvnı rovnici ve vzorci 6.2 K tomu musıme urcit zα/2. Je stanovenaprıpustna chyba ∆ = 0.01. Koeficient spolehlivosti je 0.95, tudız z0.025 = 1.96. Rozsah vyberunutny k tomu, aby prıpustna chyba byla 0.01 pro 95% interval spolehlivosti je

n = 0.25 ·(

1.960.01

)2

= 9604.

Vybereme-li nahodne 9604 zamestnanych obcanu CR, pak prıpustna chyba naseho odhadupodılu zamestnanych, kterı pouzıvajı osobnı automobil k ceste do zamestnanı, bude nejvyse0.01.

b) Aplikacı postupu 6.4 pro α = 0.05, n = 9604 a p = 0.194 nalezneme, ze 95% interval spolehlivostima krajnı body 0.194± 0.008.

c) Prıpustna chyba odhadu urcena v casti b) je 0.008. Neprekvapuje nas, ze je to mene, nezprıpustna chyba zadana v casti a).

94

Page 95: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Kapitola 7

Zaklady testovanı statistickychhypotez

V kapitole 6 jsme se zabyvali metodami bodovych a intervalovych odhadu parametru roz-delenı pravdepodobnostı, zalozenymi na vyberovych statistikach. V teto kapitole se budemezabyvat resenım otazky, jak pouzıt vyberovou statistiku k rozhodnutı, ze nas predpoklado hodnote parametru rozdelenı, je spravny. Naprıklad, chceme pouzıt prumernou delku trestunahodneho vyberu osob odsouzenych za prodej drog v lonskem roce k rozhodnutı, ze lonskaprumerna delka trestu vsech osob odsouzenych za uvedeny zlocin je vyssı nez prumerna delkatrestu v roce 1990. Statisticke zavery tohoto druhu se nazyvajı testy hypotez.

V teto kapitole se budeme zabyvat metodami testovanı hypotez o strednı hodnote,rozptylu a podılu a o tvaru rozdelenı zkoumaneho znaku. Budeme uvazovat klasicky prıstupa prıstup s pouzitım P -hodnoty k testovanı hypotez.

7.1 Podstata testovanı hypotez

Casto pouzıvame inferencnı statistiku k tomu, abychom udelali rozhodnutı o hodnote urcitehoparametru nebo tvaru rozdelenı zkoumaneho statistickeho znaku. Naprıklad mame rozhod-nout, zda prumerna spotreba benzinu na 100 ujetych kilometru vsech vozu znacky Skoda,se lisı od spotreby udavane vyrobcem.

Jednou z nejcasteji pouzıvanych metod pro stanovenı takovych rozhodnutı nebo zaveru,je test hypotezy. Hypotezou se pak rozumı tvrzenı, ze neco je spravne. Tvrzenı, ze

”prumerna spotreba benzinu na 100 ujetych kilometru vsech vozu znacky Skoda, se lisı

od spotreby udavane vyrobcem“ je hypoteza.Test hypotezy zahrnuje dve hypotezy. Jedna se nazyva nulova hypoteza (nekdy take

testovana hypoteza), druha alternativnı hypoteza.

Definice 7.1 NULOVA HYPOTEZA, ALTERNATIVNI HYPOTEZA

Nulova hypoteza H0 : Hypoteza, ktera je testovana.Alternativnı hypoteza HA : Hypoteza, ktera je uvazovana jako alternativa k nulove hy-poteze, nejakym zpusobem popıra vlastnost vyslovene nulove hypotezy.

V ilustracnım prıkladu s automobily Skoda nulovou hypotezou muze byt tvrzenı”prumerna

spotreba benzinu na 100 ujetych kilometru vsech vozu znacky Skoda, je shodna se spotrebou

95

Page 96: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 7 ZAKLADY TESTOVANI STATISTICKYCH HYPOTEZ

udavanou vyrobcem“ a alternativnı hypotezou tvrzenı”prumerna spotreba benzinu na 100

ujetych kilometru vsech vozu znacky Skoda, se lisı od spotreby udavane vyrobcem“.

Problem reseny pri testu hypotezy je rozhodnout, zda zamıtnout nebo nezamıtnoutnulovou hypotezu ve prospech alternativnı hypotezy.

7.1.1 Formulace hypotez

Budeme se zabyvat nejprve testem hypotezy, kdy nulova i alternativnı hypoteza se tykajıparametru θ rozdelenı sledovaneho statistickeho znaku.

Nulova hypoteza: Bezne pojetı testovanı hypotez tak, jak je zde vykladano, vyzaduje,aby nulova hypoteza byla jednoducha, to je jednoznacne specifikovala jedinou hodnotu protento parametr. Muzeme tedy nulovou hypotezu strucne vyjadrit jako

H0 : θ = θ0, (7.1)

kde θ0 je nejake cıslo.

Alternativnı hypoteza: Vymezenı alternativnı hypotezy by melo odrazet, jakym zpusobempopıra vlastnost vyslovene nulove hypotezy. Proti vyse uvedene nulove hypoteze muzemevymezit tri alternativnı hypotezy.

1. Jestlize alternativnı hypoteza popıra platnost nulove hypotezy H0 bez dalsı specifikaceoboru hodnot parametru, jinak receno stanovı, ze parametr θ je ruzny od θ0, paktakovou alternativnı hypotezu vyjadrıme jako

HA : θ 6= θ0. (7.2)

Test hypotezy, jehoz alternativnı hypoteza ma tento tvar se nazyva dvoustrannymtestem.

2. Jestlize alternativnı hypoteza stanovı, ze parametr θ je mensı nez θ0, pak takovoualternativnı hypotezu vyjadrıme jako

HA : θ < θ0. (7.3)

Test hypotezy s takto formulovanou alternativnı hypotezou se nazyva levostrannymtestem.

3. Jestlize alternativnı hypoteza stanovı, ze parametr θ je vetsı nez θ0, pak takovou alter-nativnı hypotezu vyjadrıme jako

HA : θ > θ0. (7.4)

Takto formulovana alternativnı hypoteza se nazyva pravostranna alternativa a testhypotezy s takto formulovanou alternativnı hypotezou se nazyva pravostrannymtestem.

Test hypotezy se nazyva jednostrannym testem , jestlize je bud’ levostranny nebo pravos-tranny, to je nenı-li dvoustranny.

96

Page 97: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

7.2 ZAKLADNI POJMY A TERMINOLOGIE

7.1.2 Volba testoveho kriteria

Seznamili jsme se s tım, jak vhodne vymezit nulovou a alternativnı hypotezu. Dalsı otazkouje, jak rozhodnout, ktera z obou hypotez je spravna, to znamena, jak rozhodnout, zda nulovouhypotezu zamıtneme nebo nezamıtneme ve prospech alternativnı hypotezy?

Pri resenı praktickych uloh musıme mıt presne kriterium, na jehoz zaklade udelamerozhodnutı, zda uvazovana nulova hypoteza je spravna. Testove kriterium je statistika, tedyfunkce vyberu. Vypocet jejı hodnoty je pri testovanı hypotez cılem zpracovanı vyberovehosouboru. Jak pozdeji uvidıme, musıme znat rozdelenı testove statistiky za platnosti nulovehypotezy, abychom mohli provest dalsı etapu testovanı a to sestrojenı oboru hodnot testovestatistiky, ktere nas opravnujı zamıtnout hypotezu.

7.2 Zakladnı pojmy a terminologie

Abychom zcela pochopili problematiku testovanı hypotez, potrebujeme se seznamit s dalsımipojmy a terminologiı. V tomto odstavci uvedeme definice dalsıch pojmu pouzıvanych pritestovanı hypotez, budeme diskutovat dva zakladnı typy chyb, kterych se muzeme dopustitpri testu hypotezy a budeme interpretovat mozne zavery testu hypotezy.

7.2.1 Testova statistika, obor prijetı, obor zamıtnutı, kriticke hod-noty

Jako zaklad pro rozhodnutı, zda zamıtneme nulovou hypotezu ve prospech alternativnı hy-potezy, pouzijeme statistiku, kterou nazyvame testovou statistikou pro test hypotezy.Obor hodnot, kterych statistika muze nabyt, rozdelıme na dva disjunktnı obory, na oborzamıtnutı neboli kriticky obor a na obor prijetı.

Hodnoty testove statistiky, ktere oddelujı obor prijetı od oboru zamıtnutı se nazyvajıkriticke hodnoty.

Jestlize hodnota testove statistiky vypoctena z vyberovych hodnot, padne do kritickehooboru, zamıtame testovanou hypotezu. Jestlize hodnota testove statistiky vypoctena z vy-berovych hodnot, nepadne do kritickeho oboru, testovanou hypotezu nezamıtame.

Terminologie zavedena v teto casti je shrnuta do nasledujıcı definice.

Definice 7.2 TESTOVA STATISTIKA, KRITICKY OBOR, KRITICKE HODNOTY

Testova statistika: Statistika pouzita jako zaklad pro rozhodnutı, zda nulova hypotezaby mela byt zamıtnuta.Obor zamıtnutı (kriticky obor): Mnozina hodnot testove statistiky, ktera vede k zamıtnutıhypotezy.Obor prijetı: Mnozina hodnot testove statistiky, ktera vede k prijetı hypotezy.Kriticke hodnoty: Hodnoty testove statistiky, ktere oddelujı obor prijetı od oboruzamıtnutı.

7.2.2 Chyba prvnıho a druheho druhu

Protoze pri testovanı hypotez jde o usudek provadeny na zaklade udaju zıskanych z vybero-veho souboru, muzeme se ve svych usudcıch dopustit i chybnych zaveru.

97

Page 98: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 7 ZAKLADY TESTOVANI STATISTICKYCH HYPOTEZ

Pri testovanı hypotezy jsou ctyri mozne vysledky, dva z nich vedou k nespravnemurozhodnutı. Nespravne rozhodnutı udelame, jestlize bud’ zamıtneme nulovou hypotezu H0,ackoliv ve skutecnosti je spravna, nebo nespravnou nulovou hypotezu nezamıtneme. Prvnınespravne rozhodnutı se nazyva chyba prvnıho druhu a druhe chyba druheho druhu.Nekdy budeme pouzıvat zkracene oznacenı chyba I. druhu a chyba II. druhu.

Definice 7.3 CHYBA PRVNIHO A DRUHEHO DRUHU

Chyba prvnıho druhu: Chyby prvnıho druhu se dopustıme zamıtnutım nulove hypotezy,kdyz je ve skutecnosti spravna.Chyba druheho druhu: Chyby druheho druhu se dopustıme prijetım nulove hypotezy,kdyz ve skutecnosti nenı pravdiva.

Pravdepodobnosti chyb prvnıho a druheho druhu

Pravdepodobnost, ze se dopustıme chyby prvnıho druhu je pravdepodobnost zamıtnutıspravne nulove hypotezy. Je to pravdepodobnost, ze testova statistika bude v oboru zamıtnutı,jestlize ve skutecnosti nulova hypoteza je spravna. Pravdepodobnost, ze se dopustıme chybyprvnıho druhu, se nazyva hladina vyznamnosti testu hypotezy a oznacujeme ji reckympısmenem α.

Definice 7.4 HLADINA VYZNAMNOSTI

Hladina vyznamnosti α testu hypotezy je definovana jako pravdepodobnost, ze se do-pustıme chyby prvnıho druhu.

Pravdepodobnost, ze se dopustıme chyby druheho druhu je pravdepodobnost nezamıtnutınespravne nulove hypotezy. Jinak receno, je to pravdepodobnost, ze testova statistika budev oboru prijetı, jestlize ve skutecnosti nulova hypoteza je nespravna. Pravdepodobnost chybyII. druhu znacıme pısmenem β.

Pravdepodobnost 1 − β se nazyva sıla testu. Sıla testu vlastne vyjadruje, s jakoupravdepodobnostı zamıtneme nulovou hypotezu H0, platı-li alternativnı hypoteza HA. Jinymislovy sıla testu udava pravdepodobnost, ze se nedopustıme chyby II. druhu.

Idealnı stav by nastal, kdyby obe chyby mely malou pravdepodobnost. Potom sance,ze udelame nespravne rozhodnutı by byla mala bez ohledu na to, zda nulova hypoteza jespravna nebo alternativnı hypoteza je spravna.

Je-li dulezite, abychom nezamıtli spravnou nulovou hypotezu, pak bychom meli zvolitmalou hladinu vyznamnosti α. Meli bychom vsak pri volbe hladiny vyznamnosti mıt napameti nasledujıcı klıcovy fakt.

Vztah mezi pravdepodobnostmi chyb prvnıho a druheho druhu

Pri pevnem rozsahu vyberoveho souboru platı, ze cım mensı je pravdepodobnost chybyprvnıho druhu, tım vetsı je pravdepodobnost chyby druheho druhu a naopak.

Volbu hladiny vyznamnosti muze v praktickych ulohach ovlivnit i predstava o nasledcıchchyb obou druhu. Chyby I. a II. druhu si muzeme ilustrovat na nasledujıcım prıkladu.

98

Page 99: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

7.2 ZAKLADNI POJMY A TERMINOLOGIE

Prıklad 7.1 Ilustrace chyb I. a II. druhu

Vzijte se do situace v jake je letovy dispecer na nejakem letisti. Objevı-li se na monitoru malynepravidelny obrazec, ktery krızı drahu velkemu dopravnımu letadlu, dispecer se musı rychlerozhodnout zda:H0 : Jde pouze o nepatrnou poruchu na obrazovce a jinak je vse v poradku.HA : Hrozı srazka dopravnıho letadla s malym soukromym sportovnım letadlem.Jestlize je H0 pravdiva, pak muze vzniknout falesny poplach, coz je chyba I.druhu s pravdepodob-nostı oznacovanou jako α.Jestlize je HA pravdiva, pak muze dojıt k nestestı vlivem chyby II.druhu s pravdepodobnostıoznacenou β.

7.2.3 Zavery pri testovanı hypotez a jejich interpretace

Mozne zavery pri testovanı hypotez

• Jestlize nulova hypoteza je zamıtnuta, delame zaver, ze alternativnı hypoteza je prav-diva.

• Jestlize nulova hypoteza nenı zamıtnuta, delame zaver, ze data nam neposkytla dostatekpodkladu k podpore alternativnı hypotezy.

Kdyz je nulova hypoteza zamıtnuta na hladine vyznamnosti α, pouzıvame casto k vyjadrenıteto skutecnosti frazi:

”Vysledky testu jsou statisticky vyznamne na hladine vyznamnosti

α.“ Podobne, kdyz nulova hypoteza nenı zamıtnuta na hladine vyznamnosti α, pouzıvamefrazi:

”Vysledky testu jsou statisticky nevyznamne na hladine vyznamnosti α.“

Tabulka 7.1 Vysledky testu hypotez

RozhodnutıSkutecnost H0 se nezamıta H0 se zamıta

H0 je pravdiva spravne rozhodnutı chyba I. druhupravdepodobnost= 1− α pravdepodobnost= α

H0 je nepravdiva chyba II. druhu spravne rozhodnutıpravdepodobnost= β pravdepodobnost= 1− β

7.2.4 Kriticky obor pro zadanou hladinu vyznamnosti

Nynı se budeme zabyvat problemem, jak stanovit kriticke hodnoty (kritickou hodnotu) protest hypotezy, kdyz hladina vyznamnosti α je predem zadana.

Pripomenme, ze hladina vyznamnosti α testu hypotezy je pravdepodobnost, ze se do-pustıme chyby I.druhu, to je, ze zamıtneme pravdivou nulovou hypotezu. Ekvivalentne,α je pravdepodobnost, ze hodnota testove statistiky bude v oboru zamıtnutı, jestlize veskutecnosti nulova hypoteza je spravna. Tudız pro kazdy test hypotezy platı nasledujıcıtvrzenı.

99

Page 100: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 7 ZAKLADY TESTOVANI STATISTICKYCH HYPOTEZ

Tvrzenı 7.1 KRITICKE HODNOTY PRO ZADANOU HLADINU VYZNAMNOSTI

Predpokladejme, ze testujeme hypotezu na zadane hladine vyznamnosti α. Pak kritickehodnoty musı byt vybrany tak, aby za platnosti nulove hypotezy, pravdepodobnost, zetestova statistika bude v oboru zamıtnutı, byla rovna α.

7.2.5 Formulace procesu testovanı hypotez

Zatım jsme se omezili na vysvetlenı podstaty testu hypotezy a jednotlivych pojmu. Nynımatematicky zformulujeme proces testovanı hypotez.

Mejme nahodny vyber X = (X1, X2, · · · , Xn) a testujme hypotezu H0 proti alternativeHA na hladine vyznamnosti α. K testovanı hypotezy pouzijeme statistiku T (X) zalozenouna nahodnem vyberu X. Necht’ T (x) je hodnota testove statistiky pri dane realizaci x =(x1, x2, · · · , xn) nahodneho vyberu. Mnozinu hodnot, kterych muze testova statistika nabyt,nazyvame vyberovy prostor a oznacujeme V (viz odstavec 5.1).

Obor zamıtnutı Wα nulove hypotezy H0 pro danou hladinu vyznamnosti α je urcen tak, aby

P (T (X) ∈ Wα | H0) = α, (7.5)

(tj. pravdepodobnost, ze testova statistika nabude hodnoty z kritickeho oboru za platnostinulove hypotezy, je rovna α). Pravdepodobnost chyby prvnıho druhu α je tedy definovanavztahem (7.5).Pravdepodobnost chyby druheho druhu β je pak

β = P (T (X) /∈ Wα | HA). (7.6)

Rozhodovacı pravidlo d(T (X)) pro test nulove hypotezy je nasledujıcı:

dW (T (x)) =

1 pokud T (x) ∈ Wα

0 pokud T (x) /∈ Wα.(7.7)

Je-li hodnota rozhodovacıho pravidla rovna 1, pak hypotezu H0 zamıtame, je-li hodnotarozhodovacıho pravidla rovna 0, pak rıkame, ze hypotezu H0 nelze zamıtnout.

Predpokladejme, ze zname rozdelenı F (t) testove statistiky T za platnosti H0. Pak kri-ticky obor Wα pro zadanou pravdepodobnost α vymezujı kriticke hodnoty tα rozdelenıtestove statistiky nasledujıcım zpusobem:

α = P (T > tα) = 1− F (tα). (7.8)

Oznacıme-li nejmensı moznou hodnotu testove statistiky tmin a nejvetsı moznou hodnotutmax, pak v prıpade pravostranneho testu bude kriticky obor

Wα = (tα, tmax),

v prıpade levostranneho testu

Wα = (tmin, t1−α)

100

Page 101: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

7.3 P -HODNOTY

a nakonec v prıpade dvoustranneho testu

Wα = (tmin, t1−α/2) ∪ (tα/2, tmax) = W1,α/2 ∪W2,α/2.

Obor prijetı Wα je ve vsech uvedenych prıpadech doplnekem kritickeho oboru (Wα∪Wα = V ).Pro jednoduchost budeme v dalsım textu pouzıvat oznacenı T = T (X) pro testovou statistikua tc = T (x) pro jejı hodnotu vypoctenou z konkretnı realizace nahodneho vyberu.

7.2.6 Klasicky prıstup k testovanı hypotez

Klasicky prıstup k testovanı hypotez spocıva v tom, ze predem zvolıme pevnou hladinuvyznamnosti. Testovacı postup je odvozen tak, aby pri dane hladine vyznamnosti zajist’ovalminimalnı pravdepodobnost chyby II. druhu a tım maximalnı sılu testu.

V dalsıch odstavcıch teto kapitoly se budeme zabyvat metodami testovanım hypotezo nekterych parametrech rozdelenı. Urcite zakladnı kroky pri testovanı hypotez o para-metrech rozdelenı jsou spolecne vsem metodam testovanı hypotez zalozenym na klasickemprıstupu. Tyto kroky jsou uvedeny v nasledujıcım postupu 7.1.

Postup 7.1 Test hypotezy pouzitım klasickeho prıstupu

1. Formulujte nulovou a alternativnı hypotezu.

2. Zvolte hladinu vyznamnosti α.

3. Urcete kritickou hodnotu (kriticke hodnoty).

4. Vypoctete hodnotu testove statistiky.

5. Jestlize hodnota testove statistiky padne do oboru zamıtnutı, zamıtnete H0; jinak neza-mıtejte H0.

6. Formulujte slovne zaver.

Vztah mezi testovanım hypotez a intervaly spolehlivosti

Vsimneme si souvislosti mezi testy hypotez o parametru θ a intervalem spolehlivosti pro tentoparametr. Z definice rozhodovacıho pravidla (7.7) pro test hypotezy a z definice 100(1 −α)% intervalu spolehlivosti (6.6 na strane 85) pro parametr vyplyva, ze nulova hypotezao urcitem parametru bude zamıtnuta tehdy a jen tehdy, jestlize hodnota parametru dananulovou hypotezou lezı vne 100(1− α)% intervalu spolehlivosti pro testovany parametr.

7.3 P -hodnoty

Pri klasickem prıstupu k testovanı hypotez (viz postup 7.1) je hladina vyznamnosti stanovenapredem a zavery jsou pak formulovany v pojmech zamıtnutı nebo nezamıtnutı nulove hy-potezy. Tento prıstup ma nektere nevyhody: nedovoluje uzivatelum, kterı majı k dispozicipouze zavery o testovane hypoteze, ucinit sve vlastnı ohodnocenı (tj. vybrat si svoji vlastnıhladinu vyznamnosti); ani jim neposkytuje informaci nutnou k zjistenı, jak silne jsou argu-menty proti nulove hypoteze. Z tohoto duvodu mnoho vyzkumnych pracovnıku a vetsinastatistickych programovych systemu udava tzv. P -hodnotu hypotezy. Vypocteme hodnotutestove statistiky a k nı nejmensı obor zamıtnutı, pri kterem bychom mohli na zakladeteto hodnoty zamıtnout nulovou hypotezu proti dane alternative. Hladina vyznamnostiodpovıdajıcı tomuto kritickemu oboru je P -hodnota.

101

Page 102: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 7 ZAKLADY TESTOVANI STATISTICKYCH HYPOTEZ

Definice 7.5 P -HODNOTA

Necht’ T je testova statistika, tc je pozorovana hodnota testove statistiky. Pak P -hodnotatestu hypotezy se rovna

• 2. minP (T ≤ tc), P (T ≥ tc) pro dvoustranny test,

• P (T ≤ tc) pro levostranny test,

• P (T ≥ tc) pro pravostranny test,

kde pravdepodobnosti jsou pocıtany za podmınky, ze nulova hypoteza je spravna.

Poznamka: Obvykle nemuzeme urcit presnou P -hodnotu pomocı odpovıdajıcı tabulky kri-tickych hodnot, muzeme ji pouze odhadnout. Ke stanovenı presne P -hodnoty pouzijemepocıtac.

Obrazek 7.1 P -hodnota

−tc

0

P -hodnota

tc

t

(a) dvoustranny test

0

P -hodnota

tc

t

(b) levostranny test

0

P -hodnota

tc

t

(c) pravostranny test

7.3.1 Prıstup k testovanı hypotez zalozeny na P -hodnote

P -hodnota muze byt interpretovana jako pozorovana hladina vyznamnosti testu hy-potezy. Ilustrujme si to na prıkladu. Uvazujme pravostranny test zalozeny na testove statis-tice, ktera ma normovane normalnı rozdelenı. Predpokladejme, ze hodnota testove statistikyje 1.88. Pak P -hodnota testu hypotezy je 0.0301, jak je znazorneno na nasledujıcım obrazku.

Obrazek 7.2 P -hodnota jako pozorovana hladina vyznamnosti

0 z

zc = 1.88z0.05 = 1.645 z0.01 = 2.33

P-hodnota=0.0301

Jak vidıme z obrazku 7.2, nulova hypoteza by mela byt zamıtnuta na hladine vyznamnostiα = 0.05, ale nemela by byt zamıtnuta na hladine α = 0.01. Ve skutecnosti, jak je zrejmez obrazku, P -hodnota je presne nejmensı hladina vyznamnosti, na ktere by nulova hypotezamela byt zamıtnuta.

102

Page 103: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

7.4 NEKTERE TESTY PARAMETRICKYCH HYPOTEZ

P -hodnota jako pozorovana hladina vyznamnosti

P -hodnota testu hypotezy je rovna nejmensı hladine vyznamnosti, na ktere nulova hy-poteza muze byt zamıtnuta, to je nejmensı hladine vyznamnosti, pri ktere vyberova datavedou k zamıtnutı nulove hypotezy.

S ohledem na predchazejıcı skutecnost muzeme formulovat nasledujıcı kriterium pro rozhod-nutı, zda nulova hypoteza by mela byt zamıtnuta ve prospech alternativnı hypotezy.

Rozhodovacı kriterium pro test hypotezy pomocı P -hodnoty

Jestlize P -hodnota je mensı nebo rovna zadane hladine vyznamnosti, pak zamıtnetenulovou hypotezu; jinak nezamıtejte nulovou hypotezu.

Obecna metoda testu hypotezy zalozena na P -hodnote je uvedena v nasledujıcım postupu,ktery budeme nazyvat prıstup k testovanı hypotezy zalozeny na P -hodnote.

Postup 7.2 Test hypotezy zalozeny na P -hodnote

1. Formulujte nulovou a alternativnı hypotezu.

2. Zvolte hladinu vyznamnosti α.

3. Vypoctete hodnotu testove statistiky.

4. Urcete P -hodnotu.

5. Jestlize P ≤ α zamıtnete H0; jinak nezamıtejte H0.

6. Formulujte slovne zaver.

7.4 Nektere testy parametrickych hypotez

V tomto odstavci se budeme zabyvat jednak jednovyberovymi testy o nekterych parame-trech rozdelenı (strednı hodnota, rozptyl, podıl), jednak testy o shode nekterych parametru,zalozenymi na nezavislych respektive parove zavislych vyberech. Pritom budeme vychazetz vysledku kapitoly 5 o nahodnem vyberu, zejmena o vyberovem rozdelenı statistik.

Vzhledem k tomu, ze jsme v predchazejıcı casti uvedli obecny postup pro test hypotezyzalozeny jak na klasickem prıstupu, tak na P -hodnote, uvedeme v dalsım textu u jednotlivychtestu pouze predpoklady, testovou statistiku a kriticky obor, a v nekterych prıpadech i P -hodnotu.

7.4.1 Test hypotezy o strednı hodnote µ

Na zaklade udaju o nahodnem vyberu z normalnıho rozdelenı nebo o nahodnem vyberuvelkeho rozsahu z libovolneho rozdelenı, chceme overit predpoklad, ze strednı hodnota naho-dne veliciny µ (prumer zakladnıho souboru) se rovna urcite hodnote µ0. Nulovou hypotezutedy formulujeme jako H0 : µ = µ0. Alternativnı hypoteza je v prıpade dvoustranneho testuHA : µ 6= µ0. V prıpade jednostrannych testu HA : µ > µ0 nebo HA : µ < µ0.

Budeme se zabyvat dvema metodami, jednu lze aplikovat v prıpade, kdy je rozptylrozdelenı znam, druhou v prıpade neznalosti rozptylu rozdelenı.

103

Page 104: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 7 ZAKLADY TESTOVANI STATISTICKYCH HYPOTEZ

Test hypotezy o strednı hodnote µ pri znamem rozptylu σ2

Za predpokladu, ze zname rozptyl rozdelenı, zvolıme testovou statistiku

Z =X − µ0

σ/√

n, (7.9)

ktera ma za platnosti nulove hypotezy (priblizne) normovane normalnı rozdelenı (viz tvrzenı 5.2).Postup 7.3 pro test hypotezy H0 : µ = µ0 pri znamem σ2 budeme nazyvat jednovyberovyz-test pro µ nebo strucneji z-test pro µ.

Postup 7.3 Jednovyberovy z-test pro strednı hodnotu µ s nulovou hypotezou H0 : µ = µ0

• Predpoklady

a. Normalnı rozdelenı nebo velky rozsah vyberu (n ≥ 30).

b. Znamy rozptyl σ2.

• Testova statistika: Z = X−µ0

σ/√

n∼ N (0, 1) nebo Z ≈ N (0, 1)

• Kriticke hodnoty H0: pro levostranny test: −zα

pro dvoustranny test: ±zα/2

pro pravostranny test: zα

α

−zα 0

Wα Wα

α2

α2

−zα2 0 zα

2

W1, α2

W2, α2Wα

α

zα0

WαWα

Skutecna hladina vyznamnosti je rovna α pro normalnı rozdelenı a je pouze pribliznerovna α pro vybery z jinych nez normalnıch rozdelenı.

Stejne jako metoda sestrojenı z-intervalu je i z-test robustnı vuci malym odchylkam odpredpokladu normality rozdelenı. Co se tyce odlehlych pozorovanı, mohou mıt znacny vlivna z-test dokonce pri velkem rozsahu vyberu, nebot’ vyberovy prumer nenı rezistentnı vuciodlehlym pozorovanım.

Prıklad 7.2 Ilustrace postupu 7.3

Odberatel s dodavatelem uzavreli smlouvu o dodavce pytlu obilı. Pri znamem rozptylu plnıcıhostroje σ2 = 0.1 musı byt strednı hodnota hmotnosti pytlu 10 kg. Pro overenı toho, ze plnicı strojpracuje dobre, bylo nahodne vybrano 40 pytlu a zıskan aritmeticky prumer jejich hmotnostix = 9.8 kg. Rozhodnete na 5% hladine vyznamnosti, zda hmotnost dodavanych pytlu je 10 kg.Resenı: Vzhledem k tomu, ze n = 40 je splnena podmınka n ≥ 30.1. H0 : µ = 10 kg (strednı hodnota dodavanych pytlu je presne 10 kg)

HA : µ 6= 10 kg (strednı hodnota dodavanych pytlu nenı presne 10 kg). Test hypotezy je dvous-tranny.2. Hladina vyznamnosti α = 0.053. Kriticke hodnoty ±zα/2 pro dvoustranny test najdeme v tabulce II.kritickych hodnot N (0, 1)-rozdelenı, ±z0.025 = ±1.96

104

Page 105: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

7.4 NEKTERE TESTY PARAMETRICKYCH HYPOTEZ

4. Mame zadano µ0 = 10, x = 9.8, σ2 = 0.1, n = 40 a z 3. kroku ±z0.025 = ±1.96. Vypocıtamehodnotu testove statistiky

zc =x− µ0

σ/√

n=

9.8− 10√0.1/40

= −4

5. Hodnota testove statistiky je zc = −4. To znamena, ze lezı v kritickem oboru nulove hypotezy,tudız nulovou hypotezu zamıtame na hladine vyznamnosti 0.05.6. Vysledky testu jsou statisticky vyznamne na 5% hladine vyznamnosti. Tudız data nam davajıdostatek argumentu k tomu, abychom udelali zaver, ze strednı hodnota hmotnosti dodavanychpytlu nenı presne 10 kg.

Test hypotezy o strednı hodnote µ pri neznamem rozptylu σ2

Rozptyl rozdelenı, z nehoz vyber pochazı obvykle nezname. Pri odvozenı metody pro testhypotezy o strednı hodnote µ pri neznamem rozptylu σ2, vyjdeme z tvrzenı 5.2, kterepripomeneme. Je-li k dispozici nahodny vyber o rozsahu n z normalnıho rozdelenı se strednı

hodnotou µ, pak nahodna velicina T = X−µS/√

nma t-rozdelenı s n− 1 stupni volnosti. Muzeme

tudız provest test hypotezy s nulovou hypotezou: H0 : µ = µ0 za pomoci testove statistiky

T =X − µ0

S/√

n

a s pouzitım tabulky III.urcit kriticke hodnoty. Nasledujıcı postup pro test hypotezy o strednıhodnote budeme nazyvat jednovyberovy t-test nebo zkracene t-test pro µ .

Postup 7.4 Jednovyberovy t-test o strednı hodnote µ s nulovou hypotezou H0 : µ = µ0

• Predpoklady

a. Normalnı rozdelenı nebo velky rozsah vyberu (n > 30).

b. Neznamy rozptyl σ2.

• Testova statistika: T = X−µ0

s/√

n∼ t(n− 1) nebo T ≈ t(n− 1)

• Kriticke hodnoty H0: pro dvoustranny test: ±tα/2

pro levostranny test: −tαpro pravostranny test: tα

Test hypotezy je presny pro normalnı rozdelenı a pouze priblizny pro vybery z jinychnez normalnıch rozdelenı.

Ackoliv t-test byl odvozen za predpokladu, ze mame vybery z normalnıho rozdelenı, pouzıvase i pro vybery o velkem rozsahu z jinych nez normalnıch rozdelenı. Test pracuje dobrei pri pomerne malych vyberech z jinych nez normalnıch rozdelenı, pokud se rozdelenı nelisıprılis od normalnıho. Jinymi slovy, t-test je robustnı vuci malym odchylkam od predpokladunormality rozdelenı. Co se tyce odlehlych pozorovanı, mohou mıt dokonce pri velkem rozsahuvyberu znacny vliv na t-test, nebot’ vyberovy prumer a vyberovy rozptyl nejsou vuci nimrezistentnı.

105

Page 106: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 7 ZAKLADY TESTOVANI STATISTICKYCH HYPOTEZ

Prıklad 7.3 Ilustrace postupu 7.4

U 30 nahodne vybranych obyvatel mesta Prahy byl testovan inteligencnı kvocient. Ze zıskanychudaju byly vypocıtany vyberovy prumer x = 101.8 a vyberova smerodatna odchylka s = 6.2. a) Tes-tujte na 5% hladine vyznamnosti, zda je strednı hodnota IQ obyvatel Prahy vetsı nez 100.b) Urcete P -hodnotu pro uvazovany test.Resenı:a) Predpoklady pro aplikaci postupu 7.4 jsou splneny, nebot’ n = 30.1. H0 : µ = 100 (µ0 = 100) (strednı hodnota IQ vsech obyvatel Prahy nenı vetsı nez 100)

HA : µ > 100 (strednı hodnota IQ vsech obyvatel Prahy je vetsı nez 100)Test hypotezy je pravostranny.2. Hladina vyznamnosti α = 0.053. Kriticka hodnota pro pravostranny test je tα s n − 1 stupni volnosti. V tabulce III.najdeme, zepro ν = n− 1 = 29 je t0.05 = 1.699 .= 1.74. Mame zadano µ0 = 100, x = 101.8, s = 6.2, n = 30 a z 3. kroku t0.05 = 1.7. Vypocıtame hodnotutestove statistiky

tc =x− µ0

s/√

n=

101.8− 1006.2/

√30

= 1.59

5. Hodnota testove statistiky je mensı nez kriticka hodnota 1.7, tudız tc nelezı v kritickem oborunulove hypotezy a proto nulovou hypotezu nezamıtame na 5% hladine vyznamnosti.6. Vysledky testu nejsou statisticky vyznamne na 5% hladine. V dusledku toho vyberova datanam nedavajı dostatek argumentu k tomu, abychom udelali zaver, ze strednı hodnota IQ obyvatelPrahy je vetsı nez 100.b) P -hodnota je pro pravostranny test P (T ≥ 1.59). Z tabulky III. nemuzeme urcit presnou P -hodnotu. Zjistıme pouze, ze pro pocet stupnu volnosti 29 platı 0.05 < P (T ≥ 1.59) < 0.1. Protoze P -hodnota je mensı nez pozadovana hladina vyznamnosti, muzeme H0 zamıtnout.

7.4.2 Test hypotezy o rozptylu

V tomto odstavci uvedeme postup pro test hypotezy H0 : σ2 = σ20. Alternativnı hypoteza je

v prıpade dvoustranneho testu HA : σ2 6= σ20. V prıpade jednostrannych testu HA : σ2 > σ2

0

nebo HA : σ2 < σ20.

Pripomenme, ze v prıpade testu hypotez o strednı hodnote normalnıho rozdelenı nepouzı-vame jako testovou statistiku vyberovy prumer X, ale normovany tvar vyberoveho prumeru.Podobne, nepouzijeme ani v prıpade testu hypotezy o rozptylu normalnıho rozdelenı nahod-nou velicinu S2 jako testovou statistiku, ale nahodnou velicinu

χ2 =n− 1

σ20

S2,

ktera vzhledem k tvrzenı 5.3 ma χ2-rozdelenı s n−1 stupni volnosti. Metodu testu hypotezyo rozptylu uvedenou nıze budeme nazyvat χ2-test o rozptylu.

Postup 7.5 χ2-test hypotezy o rozptylu σ2 s nulovou hypotezou H0 : σ2 = σ20

• Predpoklad

Normalnı rozdelenı.

• Testova statistika: χ2 = (n−1)σ20

S2 ∼ χ2(n− 1).

106

Page 107: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

7.4 NEKTERE TESTY PARAMETRICKYCH HYPOTEZ

• Obor zamıtnutı H0: pro levostranny test: (0; χ21−α),

pro dvoustranny test: (0; χ21−α/2) ∪ (χ2

α/2;∞),

pro pravostranny test: (χ2α;∞).

χ2

α

χ21−α

Wα Wα

χ2

α2 α

2

χ21−α/2 χ2

α/2

W1, α2

W2, α2Wα

χ2

α

χ2α

WαWα

• P -hodnota testu H0: pro levostranny test: P (χ2 ≤ χ2c),

pro dvoustranny test: 2 minP (χ2 ≤ χ2c), P (χ2 ≥ χ2

c),pro pravostranny test: P (χ2 ≥ χ2

c).

Na rozdıl od t-testu pro strednı hodnotu, χ2-test pro rozptyl nenı robustnı vuci odchylkamod predpokladu normality. Je dokonce tak nerobustnı, ze je doporucovan pouze v prıpadevyberu z normalnıho rozdelenı nebo z rozdelenı lisicıho se nepatrne od normalnıho. Drıvenez pouzijeme χ2-test je nutna predbezna analyza.

Prıklad 7.4 Ilustrace postupu 7.5

Presnost nastavenı automatickeho obrabecıho stroje se zjistı z rozptylu delky vyrabenych sou-castek. Je-li jeho hodnota vetsı nez 380 µm2, je treba stroj znovu nastavit. Vybrali jsme 15soucastek a jejich vyberovy rozptyl byl 680 µm2. Testujte tvrzenı stroj je dostatecne presny protitvrzenı stroj je treba znovu nastavit, a to na hladine α = 0.01 za predpokladu, ze vyberu z normalnıhorozdelenı.Resenı:1. H0 : σ2 = 380 (stroj je dostatecne presny),

HA : σ2 > 380 (stroj je treba znovu nastavit). Test je pravostranny.2. α = 0.01.3. Kriticka hodnota je χ2

α s ν = n − 1 stupni volnosti. Z tabulek pro ν = 15 − 1 = 14 dostanemeχ2

α = χ20.01 = 29.14. W0.01 = (29.14,∞).

4. s2 = 680 tudız χ2c = 14 · 680/380 = 25.05.

5. Vypoctena hodnota testove statistiky nelezı v kritickem oboru, tudız nezamıtame H0.6. Na 1% hladine vyznamnosti nam data nedavajı dostatek argumentu proto, abychom udelalizaver, ze stroj je treba znovu nastavit.

7.4.3 Testy hypotezy o podılu p

Tvrzenı 5.5 v kapitole 5 umoznuje pouzıt jako testovou statistku pro test nulove hypotezyH0 : p = p0 nahodnou velicinu

Z =p− p0√

p0(1− p0)/n,

ktera ma pro velka n priblizne normovane normalnı rozdelenı. Kriticke hodnoty najdemev tabulce II. Zakladnı udaje pro test zmınene nulove hypotezy pro podıl (parametr alterna-tivnıho rozdelenı) jsou uvedeny v postupu 7.6.

107

Page 108: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 7 ZAKLADY TESTOVANI STATISTICKYCH HYPOTEZ

Postup 7.6 Jednovyberovy z-test hypotezy o podılu p s nulovou hypotezou H0 : p = p0

• Predpoklady

Pro n a p0 platı, ze np0 a zaroven n(1− p0) jsou rovny alespon 5.

• Testova statistika: Z =p− p0√

p0(1− p0)/n≈ N (0, 1)

• Kriticke hodnoty H0: pro dvoustranny test: ±zα/2

pro levostranny test: −zα

pro pravostranny test: zα

Prıklad 7.5 Ilustrace postupu 7.6

Z 1250 dotazanych volicu CR se 650 vyslovilo pro prımou volbu prezidenta. Muzeme na zakladetechto udaju udelat zaver, ze vetsina volicu CR si preje prımou volbu prezidenta? Testujte na 5%hladine vyznamnosti.Resenı: Nejprve overıme podmınku pro pouzitı testu. Rozsah vyberu je n = 1250 a p0 = 0.50. Tudıznp0 = 1250 · 0.50 = 625 > 5 a n(1− p0) = 1250 · 0.50 = 625 > 5. Podmınka je splnena.1. H0 : p = 0.50 (nenı pravda, ze vetsina volicu chce prımou volbu prezidenta)

HA : p > 0.50 (vetsina volicu chce prımou volbu).Test hypotezy je pravostranny.2. α = 0.053. Kriticka hodnota pro pravostranny test je zα = z0.05 = 1.645.4. Vzhledem k tomu, ze pro prımou volbu je 650 volicu, je p = 650/1250 = 0.52. Takze hodnotatestove statistiky je

zc =0.52− 0.50√

0.50(1− 0.50)/1250= 1.41.

5. Vypoctena hodnota zc = 1.41 < 1.645, nelezı v kritickem oboru, a proto nezamıtame H0.6. Vysledky testu nejsou statisticky vyznamne na 5% hladine; to je na 5% hladine vyznamnostinam data nedavajı dostatek argumentu proto, abychom udelali zaver, ze vetsina obcanu chceprımou volbu prezidenta.P -hodnota pro test. Z tabulky II. najdeme P = 0.0793. Hypotezu nemuzeme sice zamıtnout na5% hladine vyznamnosti, ale muzeme ji zamıtnout na 8% hladine, presneji na kterekoliv hladinevetsı nebo rovne 7.93%.

7.5 Testy hypotez o shode dvou strednıch hodnot

Nynı se budeme zabyvat testem hypotezy pro dve strednı hodnoty. Tyto metody jsoujedny z nejcasteji pouzıvanych, at’ v prumyslovych aplikacıch, tak v ruznych marketingovychpruzkumech apod. Umoznujı totiz porovnavat ruzne situace ve vyrobe, ve financovanı,v prodeji. Jde o prıpady, kdy neprovadıme usudky pouze z jednoho nahodneho vyberu,ale porovnavame mezi sebou vybery dva. Na zaklade porovnanı techto vyberu provadımeusudky o dvou zakladnıch souborech, z nichz byly vybery porızeny.

V tomto odstavci se budeme zabyvat tremi metodami pro porovnanı dvou strednıchhodnot, dvema metodami pro nezavisle vybery (odstavec 7.5.1) a jednou metodou pro parovevybery (odstavec 7.5.2).

108

Page 109: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

7.5 TESTY HYPOTEZ O SHODE DVOU STREDNICH HODNOT

7.5.1 Testy hypotezy o shode dvou strednıch hodnot pro nezavislevybery

Metody, kterymi se budeme nejprve zabyvat vyzadujı, aby vybery byly nezavisle (viz odstavec5.4). Predpokladejme, ze mame dva nezavisle nahodne vybery o rozsahu n1 a n2 z rozdelenı sestrednımi hodnotami µ1 a µ2 a smerodatnymi odchylkami σ1 a σ2. Dale predpokladejme, zebud’ obe rozdelenı jsou normalnı nebo oba vybery jsou velke. Budeme uvazovat dva prıpadya sice prıpad, kdy rozptyly rozdelenı, z nichz vybery pochazı, jsou shodne a druhy prıpad,kdy rozptyly jsou ruzne.

Vzhledem k tomu, ze rozptyly rozdelenı obvykle nezname, nebudeme se zabyvat postupysestrojenymi za predpokladu znalosti rozptylu.

Test hypotezy µ1 = µ2 (nezavisle vybery, σ1 = σ2)

Se zretelem na tvrzenı 5.7 muzeme pro test hypotezy s nulovou hypotezou H0 : µ1 = µ2

(strednı hodnoty rozdelenı jsou shodne) pouzıt nahodnou velicinu

T =X1 −X2

SP

√1/n1 + 1/n2

, (7.10)

kde

S2P =

(n1 − 1)S21 + (n2 − 1)S2

2

n1 + n2 − 2, (7.11)

jako testovou statistiku a urcit kriticke hodnoty t-rozdelenı z tabulky III.Nasledujıcı postup pro test hypotezy pro dve strednı hodnoty budeme nazyvat sdruzenyt-test.

Postup 7.7 Sdruzeny t-test pro dve strednı hodnoty s nulovou hypotezou H0 : µ1 = µ2

• Predpoklady

a. Nezavisle vybery

b. Normalnı rozdelenı nebo velke rozsahy vyberu

c. Smerodatne odchylky v obou rozdelenıch shodne ale nezname

• Testova statistika: T =X1 −X2

SP

√1/n1 + 1/n2

∼ t(n1 + n2 − 2)

• Kriticke hodnoty H0: pro dvoustranny test: ±tα/2

pro levostranny test: −tαpro pravostranny test: tα

Poznamky:1. Ze vztahu (7.11) lze snadno odvodit, ze sdruzeny vyberovy rozptyl s2

P lezı vzdy mezidvema vyberovymi rozptyly s2

1 a s22. Tato skutecnost je uzitecna jako kontrola, zda jsme s2

P

spocıtali dobre.2. Sdruzeny t-test pracuje primerene dobre dokonce pri malych nebo stredne malych vyberechz jinych nez normalnıch rozdelenı za predpokladu, ze odchylky od normalnıho rozdelenınejsou prılis velke. Jinymi slovy sdruzeny t-test je robustnı vuci malym odchylkam odpredpokladu normality.

109

Page 110: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 7 ZAKLADY TESTOVANI STATISTICKYCH HYPOTEZ

3. Sdruzeny t-test je take robustnı vuci malym odchylkam od predpokladu shodnosti sme-rodatnych odchylek v obou rozdelenıch, pokud se rozsahy vyberu prılis nelisı.4. Jsou-li rozdelenı, z nichz porizujeme vyber, jen priblizne normalnı, pak shodnost smerodat-nych odchylek byt overena testem nazyvanym F -testem shodnosti smerodatnych odchyleknebo rozptylu. Mnoho statistiku tento test nedoporucuje z toho duvodu, ze ackoliv t-test jerobustnı vuci malym odchylkam od normality, F -test je extremne nerobustnı vuci takovymodchylkam: i kdyz se rozdelenı jen malo lisı od normalnıho, F -test muze davat nespolehlivevysledky. Statistik George E.P.Box rekl:

”Testovat predem hypotezu o rozptylech je ob-

dobne, jako kdybychom predtım, nez zaoceansky parnık vypluje z prıstavu na siry ocean,spustili na more clun, abychom si overili, ze jsou vhodne povetrnostnı podmınky pro vyplutıparnıku.“5. Pri uvahach o sdruzenem testu je treba take sledovat prıtomnost odlehlych pozorovanı,ktera souvisı s predpokladem normality. Dokonce pri velkych rozsazıch vyberu mohou mıtnekdy odlehla pozorovanı znacny vliv na sdruzeny t-test, nebot’ vyberovy prumer a vyberovasmerodatna odchylka nejsou resistentnı vuci temto odchylkam.

Prıklad 7.6 Ilustrace postupu 7.7

Profesora psychologie na jedne velke universite zajımalo, zda se lisı strednı hodnota IQ studenteka studentu zapsanych na universite. Nahodne a nezavisle vybral 20 studentek (1. vyber) a 20studentu (2. vyber) a podrobil je testu inteligence. Predbezna analyza ukazala, ze je rozumnepredpokladat, ze IQ studentek i studentu majı normalnı rozdelenı a priblizne stejne smerodatneodchylky. Z dat, ktera mel profesor k dispozici, vypocıtal nasledujıcı udaje: x1 = 118.45, s1 = 7.61pro 1. vyber a x2 = 115.40, s2 = 8.02 pro 2. vyber. Muzeme udelat zaver, ze strednı hodnota IQstudentek a studentu se lisı?a) Testujte na 5% hladine vyznamnosti. b) Urcete P -hodnotu. c) Urcete nejmensı hladinu vyzna-mnosti, na ktere H0 muze byt zamıtnuta.Resenı: Predpoklady a.-c. jsou splneny. a) 1. H0 : µ1 = µ2, HA : µ1 6= µ2; 2.α = 0.05; 3. n1 = n2 = 20,ν = 20+20−2 = 38, kriticke hodnoty ±tα/2 = ±t0.025 = ±2.025; 4. sP = 7.82, tc = 1.234; 5. tc = 1.234 <2.025; Nezamıtame H0; 6. Na 5% hladine vyznamnosti nam data nedavajı dostatek argumentu proto, abychom udelali zaver, ze se na univerzite lisı strednı hodnota IQ vsech studentu od strednıhodnoty IQ vsech studentek.b) P -hodnota: P (|T | ≥ 1.234) = 2.(0.11) = 0.22.c) 0.22.

Test hypotezy µ1 = µ2 (nezavisle vybery, σ1 6= σ2)

Jako v prıpade diskutovanem vyse budeme predpokladat, ze standardnı odchylky v obouvyberech nejsou zname, coz je obvykle v praktickych prıpadech.

Vzhledem k tvrzenı 5.8 muzeme k testu hypotezy s nulovou hypotezou H0 : µ1 = µ2 pouzıtjako testovou statistiku nahodnou velicinu

T =(X1 −X2)√

(s21/n1) + (s2

2/n2),

ktera ma priblizne t-rozdelenı s poctem stupnu volnosti δ (delta), kde

δ =[(s2

1/n1) + (s22/n2)]

2

(s21/n1)2

n1−1+

(s22/n2)2

n2−1

, (7.12)

110

Page 111: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

7.5 TESTY HYPOTEZ O SHODE DVOU STREDNICH HODNOT

zaokrouhleno dolu na nejblizsı cele cıslo. Dostavame tak nasledujıcı postup, ktery budemenazyvat nesdruzeny t-test.

Postup 7.8 Nesdruzeny t-test pro dve strednı hodnoty s nulovou hypotezou H0 : µ1 = µ2

• Predpoklady

a. Nezavisle vybery

b. Normalnı rozdelenı nebo velke vybery

• Testova statistika: T =X1 −X2√

(s21/n1) + (s2

2/n2)∼ t(δ) (δ definovano v (7.12))

• Kriticke hodnoty H0: pro dvoustranny test: ±tα/2

pro levostranny test: −tαpro pravostranny test: tα

Prıklad 7.7 Ilustrace postupu 7.8

Bylo vybrano 12 hotelu ve meste A a 15 hotelu ve meste B a zjisteny ceny noclehu pro jednuosobu za noc. Byly vypocteny nasledujıcı udaje: prumerna cena noclehu v hotelu ve meste A jex1 = 641 Kc a smerodatna odchylka s1 = 72.20 Kc; ve meste B byla vypoctena prumerna cenanoclehu x2 = 718.60 Kc a smerodatna odchylka s2 = 146.60 Kc. Muzeme na zaklade techto udajuudelat zaver, ze strednı hodnota ceny za nocleh ve vsech hotelech ve meste A je nizsı nez strednıhodnota v hotelech ve meste B? Testujte na 5% hladine vyznamnosti za predpokladu, ze jdeo vybery z normalnıho rozdelenı.Resenı: Vybery jsou nezavisle, takze podmınky pro pouzitı testu jsou splneny.

1. H0 : µ1 = µ2 (strednı hodnota cen noclehu ve meste A nenı mensı nez ve meste B )HA : µ1 < µ2 (strednı hodnota cen noclehu ve meste A je mensı nez ve meste B)Test hypotezy je levostranny.

2. α = 0.05

3. Z udaju, ktere jsou k dispozici vypocteme

δ =

[(72.22/12) + (146.62/15)

]2(72.22/12)2

12−1 + (146.62/15)2

15−1

= 21.

Kriticka hodnota −tα pro pocet stupnu volnosti 21 je −t0.05 = −1.721.

4. Vypocteme hodnotu testove statistiky

tc =641.0− 718.6√

(72.22/12)2 + (146.62/15)2= −1.796.

5. Hodnota testove statistiky spada do kritickeho oboru. Tudız zamıtame H0.

6. Vysledky jsou statisticky vyznamne na 5% hladine; na 5% hladine nam data davajı dostatekargumentu k tomu, abychom udelali zaver, ze strednı hodnota ceny noclehu za osobu anoc je ve meste A nizsı nez ve meste B.

111

Page 112: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 7 ZAKLADY TESTOVANI STATISTICKYCH HYPOTEZ

7.5.2 Testy hypotezy pro dve strednı hodnoty uzitım parovychvyberu

Az dosud jsme se zabyvali metodami porovnavajıcımi strednı hodnoty dvou vyberu zalozeny-mi na nezavislych vyberech. V tomto odstavci se budeme zabyvat metodami pro porovnanıstrednıch hodnot uzitım parovych vyberu.

Predpokladejme naprıklad, ze chceme rozhodnout, zda nove vyvinuta prısada”Super“ do

benzinu, zvysı pocet kilometru ujetych osobnım automobilem pri stejne spotrebe benzinu.Necht’ µ1 znacı strednı hodnotu poctu ujetych kilometru na 100 litru benzinu, kdyz pouzijemeprısadu a µ2 strednı hodnotu poctu ujetych kilometru na 100 litru bez pouzitı prısady.Chceme testovat nulovou hypotezu

H0 : µ1 = µ2 (strednı hodnotu poctu ujetych kilometru s prıpravkem nenı vetsı)HA : µ1 < µ2 (strednı hodnotu poctu ujetych kilometru bez pouzitı prısady je vetsı).

Jeden ze zpusobu, jak provest tento test, je nasledujıcı: Vybereme zcela nahodne a nezavisledve skupiny rekneme o 10 autech v kazde. Jedna skupina bude pouzıvat prısadu, druhanikoliv a pak budeme aplikovat test hypotezy na zıskane udaje o poctu ujetych kilometru.V tomto prıpade pouzijeme nezavisle vybery. Nasledujıcı metoda provedenı testu vsak muzebyt vhodnejsı: nahodne vybereme jednu skupinu o 10 autech, kazde auto pouzije benzinjak s prısadou tak bez prısady a pak provedeme test hypotezy, ktery bude popsan v tomtoodstavci na 10-ti parech udaju o poctu ujetych kilometru pri spotrebe 100 litru benzinu.Tato metoda pouzıva tzv. parove vybery, kterymi jsme se zabyvali v odstavci 5.5. Tım, zevybery parujeme, muzeme odstranit vlivy na pocet ujetych kilometru zpusobene pouzitymautem a ridicem. V dusledku toho pak chyby odhadu diference mezi strednımi hodnotamibudou obecne mensı.

S ohledem na tvrzenı 5.10 muzeme zformulovat postup pro porovnanı strednıch hodnotdvou rozdelenı s pouzitım parovych vyberu, za predpokladu normalnıho rozdelenı vsechparovych diferencı. Budeme pouzıvat termın normalnı diference pro prıpad, kdy rozdelenıparovych diferencı je normalnı.

Z tvrzenı 5.10 plyne, ze pro test hypotezy s nulovou hypotezou H0 : µ1 = µ2, muzemepouzıt nahodnou velicinu

T =D

Sd

√1/n

(7.13)

jako testovou statistiku a zıskat tak kriticke hodnoty z tabulky III. Tudız dostaneme nasle-dujıcı tzv. parovy t-test.

Postup 7.9 Parovy t-test pro dve strednı hodnoty s hypotezou H0 : µ1 = µ2

• Predpoklady

a. Parove vybery

b. Normalnı diference nebo velke vybery

• Testova statistika: T = D

Sd

√1/n

∼ t(n− 1)

• Kriticke hodnoty H0: pro dvoustranny test: ±tα/2

pro levostranny test: −tαpro pravostranny test: tα

112

Page 113: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

7.6 TEST HYPOTEZY O SHODE DVOU PODILU PRI NEZAVISLYCH VYBERECH

Test hypotezy je presny, jestlize rozdelenı parovych diferencı je normalnı a priblizny,jestlize rozdelenı diferencı nenı normalnı, ale rozsah vyberu je velky.

Poznamky:1. Stejne jako jednovyberovy t-test, parovy t-test pracuje rozumne pro male nebo primerenemale rozsahy vyberu pri malych odchylkach od predpokladu normality. Je tedy robustnı vucimalym odchylkam od predpokladu normality.2. Predpoklad normality se tyka pouze parovych diferencı. Jednotlive vybery nemusı pochazetz normalnıho rozdelenı.

Prıklad 7.8 Ilustrace postupu 7.9

Snazıme se posoudit, jaky vliv ma na spotrebu auta opotrebovanost motoru. U 4 aut byla zjistenaspotreba (v l/100 km) pred a po ujetı 30 000 km, a vypoctena prumerna diference d = −0.025.Testujte na 5% hladine vyznamnosti hypotezu, ze se spotreba aut vlivem vetsı opotrebovanostimotoru nemenı za predpokladu normalnıch diferencı.Resenı: Predpoklady pro pouzitı postupu jsou splneny.1. H0 : µ1 = µ2 (opotrebovanost motoru nema vliv na spotrebu benzinu)

HA : µ1 6= µ2 (opotrebovanost motoru ma vliv na spotrebu benzinu)Test hypotezy je dvoustranny.

2. α = 0.05.3. Kriticke hodnoty jsou ±tα/2 s poctem stupnu volnosti n− 1, tj. ±t0.025 = ±3.18.

4. Z danych udaju vypocteme

d =−140

, s2d =

2 · 0.00625 + 0.0306 + 0.0002553

a tudız

tc =−140

· 20.055825

= −0.21

5. Protoze −3.18 < tc < 3.18, nezamıtame H0.6. Na 5% hladine vyznamnosti nam data nedavajı dostatek argumentu pro to, abychom udelali

zaver, ze na spotrebu benzinu ma vliv opotrebovanost motoru.

7.6 Test hypotezy o shode dvou podılu pri nezavislych

vyberech

Tento odstavec pojednava o metode porovnanı podılu dvou zakladnıch souboru, ktera vyuzıvainformacı zıskanych ze dvou nezavislych vyberu. Pouzijeme vysledku kapitoly 5, zvlaste paktvrzenı 5.9, ktere stanovı rozdelenı rozdılu dvou vyberovych podılu pro nezavisle vyberyvelkych rozsahu. Toto tvrzenı je teoreticky zaklad nutny pro odvozenı statistickych in-dukcnıch metod pro porovnanı dvou dvoukategorialnıch rozdelenı.

Predpokladejme, ze mame nahodny vyber o rozsahu n1 z dvoukategorialnıho zakladnıhosouboru s podılem p1 a nahodny vyber o rozsahu n2 z dvoukategorialnıho zakladnıho souborus podılem p2. Dale predpokladejme, ze vybery jsou nezavisle a rozsahy vyberu jsou velke.Cılem je porovnat podıly obou zakladnıch souboru. Nejprve pouzijeme tvrzenı 5.9 ke stano-venı testove statistiky.

113

Page 114: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 7 ZAKLADY TESTOVANI STATISTICKYCH HYPOTEZ

Nulova hypoteza pro test umoznujıcı porovnanı podılu dvou dvoukategorialnıch zaklad-nıch souboru je

H0 : p1 = p2 (podıly zakladnıch souboru jsou shodne).

Je-li tato hypoteza spravna, pak p1 − p2 = 0 a tudız normovana nahodna velicina v tvrzenı5.9 je

Z =p1 − p2√

p(1− p)/n1 + p(1− p)/n2

,

kde p znacı spolecnou hodnotu p1 a p2. Jednoduchou upravou dostaneme nahodnou velicinu

Z =p1 − p2√

p(1− p)√

(1/n1) + (1/n2). (7.14)

Tuto statistiku vsak nemuzeme pouzıt jako testovou charakteristiku, nebot’ p nezname.Odhadneme p pomocı vyberove informace. Nejlepsı odhad p zıskame sdruzenım dat a zıskamepodıl pP , ktery budeme nazyvat sdruzeny vyberovy podıl

pP = (x1 + x2)/(n1 + n2).

Nahrazenım p v rovnici (7.14) jeho odhadem pP dostaneme nahodnou velicinu

(p1 − p2)√pP (1− pP )

√(1/n1) + (1/n2)

.

Tato velicina muze byt pouzıta jako testova statistika a stejne jako nahodna velicina v (7.14)ma za platnosti nulove hypotezy priblizne normovane normalnı rozdelenı pro velke vybery.Nasledujıcı postup pro test hypotezy o shode dvou podılu budeme nazyvat dvouvyberovyz-test pro dva podıly .

Postup 7.10 Dvouvyberovy z-test pro dva podıly s nulovou hypotezou H0 : p1 = p2

• Predpoklady

a. Nezavisle vybery

b. Vsechny vyberove hodnoty x1, n1 − x1, x2 a n2 − x2 alespon rovny 5.

• Testova statistika: Z =(p1 − p2)√

pP (1− pP )√

(1/n1) + (1/n2)≈ N (0, 1)

• Kriticke hodnoty H0: pro dvoustranny test: ±zα/2

pro levostranny test: −zα

pro pravostranny test: zα

Prıklad 7.9 Ilustrace postupu 7.10

Za ucelem porovnanı podılu muzu-kuraku a podılu zen-kuracek v populaci CR byly porızenynahodne vybery 2000 muzu a 2200 zen. Mezi vybranymi muzi bylo 500 kuraku a mezi vybranymizenami 440 kuracek. Poskytujı nam data dostatek informace pro to, abychom udelali zaver, zepodıl vsech muzu-kuraku v CR prevysuje podıl vsech zen-kuracek v CR? Testujte na 5% hladine

114

Page 115: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

7.7 CHI-KVADRAT TEST DOBRE SHODY

vyznamnosti.Resenı: Necht’ p1 respektive p2 oznacuje podıl vsech kuraku v CR respektive vsech kuracek v CR.1. H0 : p1 = p2 (podıl muzu-kuraku nenı vyssı)

HA : p1 > p2 (podıl muzu-kuraku je vyssı).Test hypotezy je pravostranny.

2. α = 0.053. Kriticka hodnota pro pravostranny test je z0.05 = 1.645.

4. Urcıme vyberove podıly a sdruzeny vyberovy podıl pP : p1 = 500/2000 = 0.25, p2 = 440/2200 = 0.20a

pP =500 + 440

2000 + 2200= 0.2238.

Tudız hodnota testove statistiky je

zc =0.25− 0.20√

0.224(1− 0.224)√

(1/2000) + (1/2200)= 3.8828.

5. Vypoctena hodnota testove statistiky je zc = 3.8828. Tedy je zc > 1.645 a tudız zamıtame H0.

6. Vysledky testu jsou statisticky vyznamne na 5% hladine vyznamnosti Na teto hladine poskytujıdata dostatek informace pro to, abychom udelali zaver, ze podıl vsech muzu-kuraku v CR je vetsınez podıl vsech zen-kuracek v CR.

7.7 Chı-kvadrat test dobre shody

Testy dobre shody je kategorie testu, ktere umoznujı na predem zvolene hladine vyznamnostiα testovat nulovou hypotezu H0, ze dany nahodny vyber byl proveden z rozdelenı stanovenehotypu, ale prıpadne s neznamymi parametry. Je tedy naprıklad mozne testovat hypotezu, zeprıslusne rozdelenı je N (µ, σ2) se znamymi nebo neznamymi parametry µ a σ2.

Chı-kvadrat test dobre shody se pouzıva k testovanı hypotezy o procentnım rozdelenıv zakladnım souboru nebo o pravdepodonostnım rozdelenı nahodne veliciny. Je to jednoduchytest zalozeny na rozdılu mezi pozorovanymi (empirickymi) a ocekavanymi (teoretickymi)cetnostmi.

Necht’ X je nahodna velicina z rozdelenı s distribucnı funkcı F0(x). Rozdelme obor hodnot〈a, b〉, kterych muze nahodna velicina nabyvat na k ≥ 2 disjunktnıch trıd Ii = (ai−1, ai〉, i =1, 2, ..., k, a = a0 < a1 < ... < ak = b, krajnı intervaly I1 a Ik jsou casto neohranicene.Predpokladejme, ze pi je pravdepodobnost toho, ze nahodna velicina, ktera ma testovanerozdelenı nabude hodnoty z i-te trıdy Ii, pi > 0,

∑ki=1 pi = 1. Dale necht’ (X1, · · · , Xn)

je nahodny vyber z rozdelenı s distribucnı funkcı F0(x) a (x1, · · · , xn) pozorovana hodnotatohoto vyberu. Oznacme ni pocet nahodnych velicin X1, · · · , Xn, ktere nabyly hodnoty z i-te trıdy, i = 1, · · · , k. Tyto trıdnı cetnosti odpovıdajıcı intervalum Ii (i = 1, · · · , k ) senazyvajı v ramci daneho testu pozorovane (empiricke) cetnosti . Platı

∑ki=1 ni = n.

Vyrazy npi se nazyvajı v ramci daneho testu ocekavane (teoreticke) cetnosti. Je zrejme,ze

∑ki=1 npi = n.

Na predem zvolene hladine vyznamnosti budeme testovat nulovou hypotezu H0, ze nahod-na velicina (zakladnı soubor) ma urcite rozdelenı pri alternativnı hypoteze HA, ze nahodnavelicina (zakladnı soubor) ma rozdelenı jine nez to, ktere je specifikovane nulovou hypotezou.

Chceme-li zjistit, jak dobre se pozorovane a ocekavane cetnosti shodujı, je logicke zkoumatrozdıly ni−npi. Secıst tyto rozdıly za ucelem zıskat

”celkovy rozdıl“ nenı uzitecne vzhledem

115

Page 116: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 7 ZAKLADY TESTOVANI STATISTICKYCH HYPOTEZ

k tomu, ze soucet je roven nule. Mısto toho ctverec kazde odchylky vydelıme prıslusnouocekavanou cetnostı. Dostaneme tak hodnoty (ni − npi)

2/npi. Soucet techto velicin

k∑

i=1

(ni − npi)2/npi (7.15)

je statistika, ktera je pouzita k tomu, abychom zjistili jak dobre nebo spatne se shodujıpozorovane a ocekavane cetnosti.

Je-li nulova hypoteza pravdiva, pak pozorovane a ocekavane cetnosti by mely byt zhrubastejne a tudız statistika

∑ki=1(ni − npi)

2/npi bude mıt malou hodnotu. Jinymi slovy velkehodnoty poskytujı argumenty proti nulove hypoteze.

Tvrzenı 7.2 TESTOVA STATISTIKA PRO TEST DOBRE SHODY

Uvazujme chı-kvadrat test dobre shody, ve kterem nulova hypoteza je specifikovanarozdelenım pravdepodobnostı nahodne veliciny. Predpokladejme, ze rozsah vyberu jevelky. Za platnosti nulove hypotezy ma nahodna velicina

χ2 =k∑

i=1

(ni − npi)2

npi

=k∑

i=1

n2i

npi

− n

priblizne χ2-rozdelenı s k − 1 stupni volnosti.

Jelikoz nulova hypoteza bude zamıtnuta pouze kdyz testova statistika bude velka, oborzamıtnutı je vzdy vpravo; to je test hypotezy je vzdy pravostranny.Chı-kvadrat test dobre shody probıha obecne v nasledujıcıch krocıch.

Postup 7.11 Chı-kvadrat test dobre shody

Predpoklady

a. Vsechny ocekavane cetnosti jsou alespon rovny 1.b. Nejvyse 20% ocekavanych cetnostı je mensı nez 5.

1. Formulujte nulovou a alternativnı hypotezu.

2. Vypoctete ocekavane cetnosti npi, kde n znacı rozsah vyberu a pravdepodobnost trıdypi je specifikovana nulovou hypotezou, i = 1, 2, · · · , k.

3. Overte, zda ocekavane cetnosti splnujı predpoklady a a b. Pokud nesplnujı, test hypotezyby nemel byt pouzit.

4. Zvolte hladinu vyznamnosti α.

5. Kriticka hodnota je χ2α, s k − 1 stupni volnosti. Obor zamıtnutı H0 je (χ2

α;∞).

6. Vypoctete hodnotu testove statistiky

χ2c =

k∑

i=1

(ni − npi)2

npi

=k∑

i=1

n2i

npi

− n,

kde ni jsou pozorovane cetnosti.

116

Page 117: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

7.7 CHI-KVADRAT TEST DOBRE SHODY

7. Jestlize hodnota testove statistiky χ2c padne do oboru zamıtnutı, zamıtnete H0; jinak

nezamıtejte H0.Test je pouze priblizny s tım, ze presna hladina vyznamnosti α je dosazena az prin →∞.

Test je pouze priblizny s tım, ze presna hladina vyznamnosti α je dosazena az pri n →∞.

Poznamka: Pokud jde o predpoklad b, v mnoha ucebnicıch se doporucuje, aby vsechnyocekavane cetnosti byly nejmene rovny 5. Vyzkumy ukazaly, jak poznamenal statistik W.G.Cochran, ze tento pozadavek je prılis omezujıcı.

Chı-kvadrat test dobre shody je metoda, ktera se take pouzıva pro test hypotezy o rozde-lenı zakladnıch souboru, v nichz kazda statisticka jednotka je klasifikovana do jedne z k dis-junktnıch trıd. Jestlize pocet trıd je 2, to je k = 2, pak zakladnı soubor je dvoukategorialnı.V tomto prıpade chı-kvadrat test dobre shody je ekvivalentnı s jednovyberovym z-testempro podıl zakladnıho souboru.

Prıklad 7.10 Ilustrace postupu 7.7

Predpokladejte, ze mate k dispozici udaje o nahodnem vyberu 88 porodu ve Svedsku, rozdelenepodle ruzne dlouhych sezon do 4 trıd. Muzete na zaklade danych i vypoctenych udaju uvedenychv nasledujıcı tabulce udelat zaver, ze se deti ve Svedsku rodı rovnomerne po cely rok?

Dane udaje Vypoctene udajeobdobı ni pi npi ni − npi (ni − npi)2/npi

jaro (4-6) 27 0.250 22.0 5.0 1.14leto (7-8) 20 0.170 15.0 5.0 1.67podzim (9-10) 8 0.167 14.7 -6.7 3.05zima (11-3) 33 0.413 36.3 -3.3 0.30

88 1.000 88 0.0 χ2c = 6.16

Resenı:1. H0 : Nenı zadny rozdıl v porodnosti mezi sezonami.

HA : Je rozdıl v porodnosti mezi sezonami.Nejprve uvazujme vyznam nulove hypotezy, ze se kazdy porod muze uskutecnit v kterouko-liv rocnı dobu s pravdepodobnostı odpovıdajıcı delce obdobı. Naprıklad z tabulky zjistıme, zepravdepodobnost narozenı dıtete na jare je 91/365 = 0.25 = p1 za predpokladu, ze pocet dnı v roceje 365. Podobne vypocteme i ostatnı pravdepodobnosti v tabulce.2. Teoreticke cetnosti narozenı za platnosti nulove hypotezy dostaneme vynasobenım rozsahuvyberu (n = 88) prıslusnou pravdepodobnostı pi. Napr. pro letnı obdobı dostaneme 88 · 0.17 =15.0 = np2.

3. Predpoklady a,b postupu 7.11 jsou splneny. Dokonce vsechny teoreticke cetnosti jsou vetsınez 5.4. α = 0.055. Protoze mame 4 kategorie, je pocet stupnu volnosti ν = 4 − 1 = 3. V tabulce IV. najdemeχ2

0.05 = 7.81.

6. Sectenım vsech hodnot v poslednım sloupci tabulky dostaneme hodnotu testove statistikyχ2

c = 6.16.

7. Vypoctena hodnota testove statistiky je mensı nez kriticka hodnota, tj. χ2c = 6.16 < 7.81 = χ2

0.05.Tudız H0 nezamıtame.8. Vysledky testu nejsou statisticky vyznamne na 5% hladine. To znamena, ze na 5% hladine

117

Page 118: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 7 ZAKLADY TESTOVANI STATISTICKYCH HYPOTEZ

vyznamnosti data nedavajı dostatek argumentu pro to, abychom udelali zaver, ze se deti veSvedsku nerodı rovnomerne po cely rok.

7.8 Chı-kvadrat test nezavislosti

Nezavislost dvou nahodnych velicin byla v kapitole 4 charakterizovana pomocı srovnanısdruzeneho rozdelenı s marginalnım rozdelenım obou velicin. Uvazujme dve nahodne velicinyX a Y a necht’ pij je sdruzene rozdelenı pravdepodobnostı (dvourozmerne) techto velicin a qi

a rj jsou prıslusna marginalnı rozdelenı. Pak veliciny X a Y jsou statisticky nezavisle, jestlizepij = qi · rj.

V praktickych situacıch mame k dispozici pouze nahodny vyber z dvourozmerneho roz-delenı a musıme pouzıt inferencnı metodu, abychom rozhodli zda sledovane nahodne velicinyjsou statisticky zavisle. Jednou z nejcasteji pouzıvanych metod je chı-kvadrat test nezavislosti.

Tvrzenı 7.3 TESTOVA STATISTIKA PRO TEST NEZAVISLOSTI

Uvazujme chı-kvadrat test nezavislosti, ve kterem nulova hypoteza stanovı, ze dve charak-teristiky X a Y zakladnıho souboru jsou statisticky nezavisle. Predpokladejme, ze rozsahvyberu n je velky. Je-li nulova hypoteza o statisticke nezavislosti pravdiva, pak nahodnavelicina

χ2 =k∑

i=1

c∑

j=1

(nij − noij)

2

noij

ma priblizne χ2-rozdelenı s (k−1)(c−1) stupni volnosti, kde k je pocet radku a c je sloupcuv kombinacnı (kontingencnı) tabulce. Pozorovane cetnosti jsou znaceny nij a ocekavanecetnosi no

ij.

Chı-kvadrat test nezavislosti probıha obecne v nasledujıcıch krocıch:

Postup 7.12 Chı-kvadrat test nezavislosti

Predpokladya. Vsechny ocekavane cetnosti jsou alespon rovny 1.b. Nejvyse 20% ocekavanych cetnostı je mensı nez 5.

1. Formulujte nulovou a alternativnı hypotezu.

2. Vypoctete ocekavane cetnosti

noij =

ni•n•jn

, i = 1, · · · , k, j = 1, · · · , c, (7.16)

kde n znacı rozsah vyberu a

ni• =c∑

j=1

nij, n•j =k∑

i=1

nij. (7.17)

3. Overte, zda ocekavane cetnosti splnujı predpoklady a a b Pokud nesplnujı, test hypotezyby nemel byt pouzit.

118

Page 119: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

7.8 CHI-KVADRAT TEST NEZAVISLOSTI

4. Zvolte hladinu vyznamnosti α.

5. Kriticka hodnota je χ2α s (k− 1)(c− 1) stupni volnosti, kde k je pocet radku a c je pocet

sloupcu v kombinacnı tabulce. Pouzijte tabulku IV.Obor zamıtnutı H0 je (χ2

α,∞).

6. Vypoctete hodnotu testove statistiky

χ2c =

k∑

i=1

c∑

j=1

(nij − noij)

2

noij

,

kde nij jsou pozorovane cetnosti a noij jsou ocekavane cetnosti.

7. Jestlize hodnota testove statistiky χ2c padne do oboru zamıtnutı, zamıtnete H0; jinak

nezamıtejte H0.

Prıklad 7.11 Ilustrace postupu 7.8

Mate k dispozici nahodny vyber 1367 absolventu vysokych skol, rozdeleny nasledujıcım zpusobem

Stupen vysokoskolskeho vzdelanıPohlavı Bc Mgr Dr CelkemMuz 534 144 22 700Zena 515 141 11 667Celkem 1049 285 33 1367

Rozhodnete, zda stupen vzdelanı zavisı na pohlavı. Testujte na 5% hladine vyznamnosti.Resenı:1. H0 : Stupen vzdelanı a pohlavı jsou statisticky nezavisle.

HA : Stupen vzdelanı a pohlavı jsou statisticky zavisle.2. Ocekavane cetnosti vypocteme podle vzorce (7.16). Dostaneme nasledujıcı hodnoty: n11 =537.16, n12 = 145.94, n13 = 16.90, n21 = 511.84, n13 = 139.06, n23 = 16.10.3. Vsechny ocekavane cetnosti jsou vetsı nez 1 a dokonce vsechny jsou vetsı nez 5, takzepodmınky pro pouzitı postupu jsou splneny.4. α = 0.055. Kriticka hodnota pro pocet stupnu volnosti ν = (3 − 1)(2 − 1) je χ2

0.05 = 5.99. Kriticky obor je(5.99,∞)6. Hodnota testove statistiky je χ2

c = 3.247.7. Vypoctena hodnota testove statistiky nepadne do kritickeho oboru.8. Hypotezu o nezavislosti stupne dosazeneho vysokoskolskeho vzdelanı na pohlavı nezamıtame.

119

Page 120: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Kapitola 8

Regresnı a korelacnı analyza

Casto potrebujeme vedet, zda dve nebo vıce velicin jsou spolu vazany a pokud ano, jakyje jejich vzajemny vztah. V teto kapitole se zamerıme na hledanı, zkoumanı a hodnocenısouvislostı, zavislostı mezi dvema statistickymi znaky.

Rozlisujeme tzv. pevne a volne zavislosti mezi velicinami. Pevnou zavislostı rozumımevztah, kdy kazde hodnote jedne veliciny odpovıda jedna a jen jedna hodnota jinych velicina podobne i naopak. S takovymi zavislostmi se vetsinou setkavame v teoreticke oblasti.Ruzne obory formulujı zakonitosti vztahu mezi promennymi na zaklade deduktivnıch uvaha v souladu s empirickymi zkusenostmi. Takovym zpusobem vznikly naprıklad fyzikalnızakony (Newtonuv gravitacnı zakon, Ohmuv zakon).

Volnou zavislostı rozumıme vztah, kdy hodnotam naprıklad jedne veliciny odpovıdajıruzne hodnoty jine veliciny, ale pri zmenach hodnot techto velicin se projevuje urcita obecnatendence. V prıpade, ze se jedna o volnou zavislost mezi kvantitavnımi statistickymi znaky,hovorıme o statisticke zavislosti. S volnymi zavislostmi se setkavame temer vyhradnev praktickych situacıch.

Zavislost muze byt jednostranna nebo vzajemna. K poznanı, matematickemu popisu sta-tistickych zavislostı a k hodnocenı zaveru o vztahu zkoumanych velicin slouzı metody re-gresnı a korelacnı analyzy. Jednostrannymi zavislostmi se zabyva regresnı analyza. Jednase o situaci, kdy proti sobe stojı nezavisla velicina a zavisla velicina nebo veliciny a obvyklese zkouma obecna tendence ve zmenach zavisle veliciny vzhledem ke zmenam nezavislychvelicin. Vzajemnymi, vetsinou linearnımi zavislostmi se zabyva korelacnı analyza. V ko-relacnı analyze se klade duraz vıce na sılu (intenzitu) vzajemneho vztahu mezi velicinami.Z vypocetnıch a interpretacnıch hledisek dochazı ke znacnemu prolınanı obou prıstupu.

V odstavcıch 8.1-8.4 se budeme zabyvat popisnymi metodami v linearnı regresi a korelaci.Ukazeme, jak urcit regresnı prımku pro mnozinu dvojic dat a jak ji pouzıt k predikci hodnotzavisle veliciny. Zavedeme pojmy koeficient determinace a linearnı korelacnı koeficient promnozinu dvojic dat a budeme diskutovat jejich interpretaci.

V zbyvajıcıch odstavcıch se budeme zabyvat inferencnımi metodami v linearnı regresia korelaci. Ukazeme, jak muzeme regresnı rovnici pouzıt k urcenı intervalu spolehlivostipro strednı hodnotu zavisle veliciny pro urcitou konkretnı hodnotu nezavisle veliciny a jaklinearnı korelacnı koeficient r muzeme pouzıt k stanovenı, zda existuje zaporna ci kladnalinearnı korelace mezi zavislou a nezavislou velicinou. Nakonec popıseme obecny regresnımodel a strucne se zmınıme o nekterych specialnıch prıpadech. Na zaver teto kapitolypopıseme aplikaci regresnıho modelu pri modelovanı dennı automobilove dopravy.

120

Page 121: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

8.1 LINEARNI ROVNICE S JEDNOU NEZAVISLOU PROMENNOU

8.1 Linearnı rovnice s jednou nezavislou promennou

K tomu, abychom pochopili linearnı regresi, je treba si pripomenout linearnı rovnice s jed-nou nezavislou promennou. Obecny tvar linearnı rovnice s jednou nezavislou promennoumuzeme vyjadrit ve tvaru

y = b0 + b1x, (8.1)

kde b0 a b1 jsou konstanty (pevna cısla), x je nezavisla velicina a y je zavisla velicina.

Grafem linearnı rovnice s jednou nezavislou promennou je prımka; kazda prımka, kteranenı kolma na osu x, muze byt urcena takovou rovnicı.

Cısla b0 a b1 v linearnı rovnici y = b0 + b1x majı Obrazek 8.1 Graf y = b0 + b1x

x

y

b0

(0, b0)

b1

y = b0 + b1x

dulezitou geometrickou interpretaci. Cıslo b0 je takovahodnota veliciny y, ve ktere prımka urcena rovnicı (8.1)protına osu y. Cıslo b0 budeme nazyvat y-usek. Cıslo b1

je mırou strmosti (sikmosti) prımky; presneji b1 udavajak vzroste (klesne) hodnota veliciny y na prımce, kdyzse hodnota veliciny x zvetsı (zmensı) o jednotku. Cıslob1 nazyva smernice (sklon) prımky y = b0 + b1x.

Linearnı rovnice s jednou nezavislou promennou secasto pouzıvajı pri aplikacıch matematiky v ruznych ob-lastech, vcetne managementu, v beznem zivote, v social-nıch a stejne tak i ve fyzikalnıch vedach.

Prıklad 8.1 Linearnı rovnice

Poradenska firma nabızı sve sluzby. Cena za poskytnute sluzby je 300 Kc za hodinu plus pevnasazba 350 Kc. Celkova cena, kterou zakaznık zaplatı, zavisı ovsem na poctu hodin, potrebnychk vykonanı teto sluzby.Urcete rovnici, ktera urcuje celkovou cenu za poskytnutou sluzbu v za-vislosti na poctu hodin nutnych k vykonanı pozadovane sluzby.Resenı: Necht’ x vyjadruje pocet hodin potrebnych k vykonanı pozadovane sluzby a y necht’ jecelkova cena, kterou zaplatı zakaznık. Rovnice, ktera vyjadruje celkovou cenu za vykonanoupraci v zavislosti na poctu hodin je pak y = 350 + 300x. Rovnice y = 350 + 300x je linearnı rovnice;b0 = 350 a b1 = 300. Pomocı teto rovnice muzeme urcit presnou cenu za praci, zname-li celkovypocet hodin nutny k vykonanı prace.

8.2 Regresnı rovnice

V prıkladu 8.1 jsme pro danou dobu nutnou k vykonanı urcite prace, mohli pouzıt rovniciy = 350+300x ke stanovenı presne ceny za praci. V praxi vsak nejsou obvykle tak jednoduchevztahy mezi velicinami, ve kterych je jedna velicina presne urcena jinou velicinou. Mno-hem casteji se setkavame se situacemi, kdy se musıme spokojit pouze s hrubymi odhady(predikcemi). Naprıklad nemuzeme presne stanovit presnou cenu y auta urcite znacky a typu,pokud nezname jeho starı x. Dokonce pri zvolenem starı auta, naprıklad 5 let, je cena autaruzna pro ruzna auta teze znacky a tehoz typu. Musıme se spokojit s hrubym odhademceny 3 roky stareho auta urcite znacky a typu nebo s odhadem prumerne ceny vsech 3 rokystarych aut zmınene znacky a typu.

V tabulce 8.1 jsou uvedeny udaje o starı a cene 11 vybranych automobilu znacky SkodaForman. Starı je vyjadreno poctem roku od roku vyroby a cena v tisıcıch Kc.

121

Page 122: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 8 REGRESNI A KORELACNI ANALYZA

Tabulka 8.1 Starı a cena pro vyber 11 aut znacky Skoda Forman

Auto 1 2 3 4 5 6 7 8 9 10 11

Starı x (roky) 5 4 6 5 5 5 6 6 2 7 7Cena y (v tisıcıch Kc) 85 103 70 82 89 98 66 95 169 70 48

Abychom zıskali urcitou predstavu o moznem vztahu mezi starım a cenou auta, zobrazımedvojice dat. Takove zobrazenı se nazyva bodovy diagram. Bodovy diagram pro datovebody (x, y) z predchazejıcı tabulky je zobrazen v obr. 8.2.

Ackoliv z bodoveho diagramu je zrejme, ze datove body nelezı na prımce, zda se, ze jsousoustredeny kolem prımky. Pokusıme se prolozit temito datovymi body prımku. Pak budemozne pouzıt tuto prımku k urcenı ceny auta Skoda Forman pro zvolene starı auta.

Vzhledem k tomu, ze shlukem datovych bodu bychom mohli prolozit mnoho ruznychprımek, potrebujeme metodu k urcenı

”nejlepsı“ prımky. Metoda, kterou pouzijeme, je

zalozena na kriteriu nazyvanem kriterium nejmensıch ctvercu. Podstatou tohoto kriteriaje analyza chyb, ktere udelame, kdyz datovymi body prolozıme prımku. S tımto kriteriemse seznamıme na numericky velice jednoduchem prıklade.

Prıklad 8.2 Kriterium nejmensıch ctvercu

Uvazujme dvojice dat zaznamenanych v nasledujıcı tabulce.

x 1 1 2 4y 1 2 2 6

Muzeme prolozit (nekonecne) mnoho prımek ctyrmi dvojicemi dat (x, y) z uvedene tabulky. Naprıkladprımku A : y = 0.50 + 1.25x nebo prımku B : y = −0.25 + 1.50x.

Oznacme y hodnotu veliciny y odpovıdajıcı hodnote veliciny x na prımce. Naprıklad hodnotaveliciny y urcena prımkou A pro x = 2 je y = 3 a hodnota veliciny y urcena prımkou B pro x = 2je y = 2.75.

Abychom mohli kvantitativne zmerit, jak dobre prımka vystihuje data, uvazujme chyby e,kterych se dopustıme, jestlize prımku pouzijeme k predikci hodnot y dvojic dat (x, y). Skutecnahodnota veliciny y pro x = 2 je y = 2. Tudız chyba, ktere se dopustıme, pouzijeme-li prımku A kpredikci hodnoty y datoveho bodu (2, 2) je

e = y − y = 2− 3 = 1.

Spocıtame chyby, kterych se dopustıme pouzitım prımky A a prımky B, pro vsechna datav tabulce. K tomu, abychom mohli rozhodnout, ktera z techto prımek lepe vystihuje data, spocıtamesoucet ctvercu chyb

∑e2. Prımka, ktera dava mensı soucet ctvercu chyb, v nasem prıpade prımka

B, lepe vystihuje data. Mezi vsemi prımkami je nejlepsı ta, pro kterou je soucet ctvercu chyb nej-mensı.

Kriterium nejmensıch ctvercu

Prımka, ktera nejlepe vystihuje vztah mezi dvojicemi dat je ta, pro kterou je soucetctvercu chyb S(b0, b1) =

∑ni=1[yi − (b0 + b1xi)]

2 nejmensı.

122

Page 123: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

8.2 REGRESNI ROVNICE

Definice 8.1 REGRESNI PRIMKA A REGRESNI ROVNICE

Regresnı prımka: Prımka, ktera ze vsech prımek nejlepe vystihuje danou zavislost mezizkoumanymi velicinami ve smyslu kriteria nejmensıch ctvercu.Regresnı rovnice: Rovnice regresnı prımky.

Kriterium nejmensıch ctvercu nam rıka, jakou vlastnost musı mıt regresnı prımka, kterouprokladame daty, ale nerıka nam, jak najıt takovou prımku. Drıve nez odvodıme vzorce prourcenı regresnı rovnice (rovnice regresnı prımky), zavedeme oznacenı, ktere budeme v dalsımpouzıvat.

Definice 8.2 OZNACENI POUZIVANE V REGRESI A KORELACI

Definujme veliciny Sxx, Sxy a Syy: Sxx =∑n

i=1(xi − x)2, Sxy =∑n

i=1(xi − x)(yi − y)a Syy =

∑ni=1(yi − y)2. Tyto tri veliciny se snadneji pocıtajı uzitım nasledujıcıch vzorcu.

Sxx =∑n

i=1 x2i − (

∑ni=1 xi)

2/n,

Sxy =∑n

i=1 xiyi − (∑n

i=1 xi)(∑n

i=1 yi)/n,

Syy =∑n

i=1 y2i − (

∑ni=1 yi)

2/n.

Nynı uvedeme vzorce, ktere nam umoznı urcit regresnı prımku pro mnozinu dvojic dat.

Vzorec 8.1 Regresnı rovnice

Regresnı rovnice pro mnozinu n dvojic dat, neboli rovnice regresnı prımky nejlepsı vesmyslu minimalizace kriteria nejmensıch ctvercu S(b0, b1) =

∑ni=1[yi − (b0 + b1xi)]

2, jey = b0 + b1x, kde

b1 =Sxy

Sxx

a b0 =1

n(

n∑

i=1

yi − b1

n∑

i=1

xi) = y − b1x.

Nutna podmınka pro extrem funkce S(b0, b1) dvou promennych b0 a b1 je, aby se obe parcialnıderivace rovnaly nule

∂S

∂b0

= −2n∑

i=1

(yi − b0 − b1xi) = 0 ,∂S

∂b1

= −2n∑

i=1

(yi − b0 − b1xi)xi = 0,

coz vede k tak zvane soustave normalnıch rovnic

nb0 + b1

n∑

i=1

xi =n∑

i=1

yi, b0

n∑

i=1

xi + b1

n∑

i=1

x2i =

n∑

i=1

xiyi,

jejımz resenım dostaneme

b1 =

∑ni=1(xi − x)yi∑ni=1(xi − x)2

, b0 = y −∑n

i=1(xi − x)yi∑ni=1(xi − x)2

x.

Odtud vzhledem k definici 8.2 dostaneme vzorce pro urcenı b1 a b0 ve tvaru uvedenemvyse. Postacujıcı podmınku pro extrem nenı treba vysetrovat, nebot’ funkce S(b0, b1) je ryzekonvexnı.

123

Page 124: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 8 REGRESNI A KORELACNI ANALYZA

Prıklad 8.3 Ilustrace vzorce 8.1

Tabulka 8.1 zobrazuje data tykajıcı se starı a ceny aut znacky Skoda Forman.a) Urcete regresnı prımku pro data z tabulky.b) Nakreslete regresnı prımku a jednotlive dvojice dat.

c) Co reprezentuje smernice regresnı prımky cen aut Skoda Forman.d) Pouzijte regresnı rovnici pro predikci ceny 3 a 4 roky stareho auta.

Resenı:a) K urcenı regresnı prımky pouzijeme vzorce (8.1) pro vypocet b0 a b1.Smernice regresnı prımky je tudız

b1 =∑n

i=1 xiyi − (∑n

i=1 xi)(∑n

i=1 yi)/n∑ni=1 x2

i − (∑n

i=1 xi)2/n

=4732− (58)(975)/11

326− (58)2/11= −20.26.

Usek, ktery vytına prımka na ose y je

b0 =1n

(n∑

i=1

yi − b1

n∑

i=1

xi) =111

[975− (−20.26) · 58] = 195.47.

Tudız regresnı rovnice je y = 195.47− 20.26x.b) K tomu, abychom sestrojili graf regresnı rovnice, musıme dosadit dve ruzne hodnoty x doregresnı rovnice, abychom dostali dva ruzne body. Pouzijeme hodnoty x = 2 a x = 8. Odpovıdajıcıhodnoty y jsou

y = 195.47− 20.26 · 2 = 154.95 a y = 195.47− 20.26 · 8 = 33.39.

Tudız regresnı prımka prochazı dvema body (2, 154.95) a (8, 33.39) a jejı graf je na obr. 8.2 (b).c) Smernice −20.26, nebo −20260 Kc znamena, ze pokles ceny auta Skoda Forman je priblizne20260 Kc za rok, alespon pro auta v rozpetı dvou az sedmi let starı.

Obrazek 8.2 Bodovy diagram a regresnı prımka pro starı a cenu aut znacky Skoda Forman

xStarı (pocet roku)

y

Cen

a(v

1000

Kc)

1 2 3 4 5 6 7 8

102030405060708090

100110120130140150160170180

(a) bodovy diagram

xStarı (pocet roku)

y

Cen

a(v

1000

Kc)

1 2 3 4 5 6 7 8

102030405060708090

100110120130140150160170180

y = b0 + b1x = 195.47− 20.26x

(b) regresnı prımka

124

Page 125: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

8.2 REGRESNI ROVNICE

d) Nakonec mame pouzıt regresnı rovnici y = 195.47− 20.26x k odhadu (predikci) ceny 3 roky a 4roky stareho auta znacky Skoda Forman. Pro 3 roky stare auto, mame x = 3 a tudız predikovanacena je

y = 195.47− 20.26 · 3 = 134.69,

neboli 134690 Kc. Podobne cena predikovana pomocı regresnı rovnice pro 4 roky stare autoSkoda Forman je

y = 195.47− 20.26 · 4 = 114.43,

neboli 114430 Kc.

Otazky tykajıcı se presnosti a vhodnosti takovych predikcı budou diskutovany pozdeji.

8.2.1 Extrapolace

Jestlize bodovy diagram naznacuje linearnı zavislost mezi dvema velicinami, je rozumnepouzıt regresnı rovnici k odhadovanı zavisle veliciny y pri zvolene hodnote nezavisle velicinyx, ktera lezı uvnitr oboru pozorovanych hodnot x, ale ne nutne pro hodnotu x, ktera lezıvne tohoto oboru, nebot’ linearnı vztah mezi velicinami tam nemusı platit. Regresnı rovniceodpovıda udajum, ze kterych byla urcena. Zvolıme-li hodnoty nezavisle veliciny jine, nez ty,ktere jsme pouzıvali pri urcenı regresnı rovnice, nemusı byt nase predikce hodnot veliciny ydobre. Riziko je tım vetsı, cım je zvolena hodnota veliciny x vzdalenejsı od aritmetickehoprumeru x. Pouzitı regresnı rovnice k urcenı hodnot y odpovıdajıcıch hodnotam x vne oborupozorovanych hodnot x, se nazyva extrapolace. Extrapolacı muzeme zıskat zcela nespravnehodnoty pro y.

Prıklad zavislosti ceny ojeteho auta na jeho starı muze byt prıkladem toho, ze extrapolacemuze dat nesmyslne vysledky. Regresnı rovnice je y = 195.47− 20.26x a obor pozorovanychhodnot veliciny x je od 2 do 7 let. Predpokladejme, ze udelame extrapolaci pouzitım regresnırovnice, abychom odhadli cenu 11 let stareho auta Skoda Forman. Predikovana cena jey = −27.39, neboli −27390 Kc. Nikdo nam zrejme nezaplatı 27390 Kc, abychom si vzali jeho11let stare auto.

Tudız, ackoliv vztah mezi starım a cenou auta se zda byt linearnı v oboru od x = 2 dox = 7, nenı rozhodne takovy mimo tento obor hodnot.

8.2.2 Odlehla a vlivna pozorovanı

Pojem odlehle pozorovanı jsme vysvetlili jiz v kapitole 1. V souvislosti s regresı je odlehlepozorovanı datovy bod lezıcı relativne daleko od regresnı prımky vzhledem k ostatnımbodum. Obrazek 8.2 ukazuje, ze v prıkladu 8.3 nenı zadny odlehly bod.

Odlehle pozorovanı muze mıt vyznamny vliv na regresnı analyzu. Tudız je dulezite iden-tifikovat odlehla pozorovanı a odstranit je, pokud je to mozne (naprıklad, jsou-li to chybymerenı nebo zaznamu dat).

Musıme take davat pozor na vlivna pozorovanı. V regresnı analyze je vlivne pozorovanıdatovy bod, jehoz odstranenı zpusobı, ze se regresnı rovnice (a prımka) znacne zmenı. Datovybod, ktery ve smeru osy x lezı daleko od ostatnıch datovych bodu je casto vlivne pozorovanı,nebot’

”tahne“ regresnı prımku k sobe a ostatnı datove body nepusobı proti nemu.

Jako v prıpade odlehlych pozorovanı bychom se meli pokusit zjistit duvod vlivnych po-zorovanı. Jestlize zjistıme, ze vlivna pozorovanı jsou v datovem souboru z duvodu merıcıch

125

Page 126: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 8 REGRESNI A KORELACNI ANALYZA

nebo zaznamovych chyb nebo z nejakeho jineho duvodu, je zrejme, ze nepatrı do datovehosouboru, pak je muzeme bez dalsıho odstranit. Avsak, nenı-li zadne zrejme vysvetlenı provlivna pozorovanı, pak rozhodnutı o tom, zda odstranit ci neodstranit toto pozorovanı z da-toveho souboru je obtızne a vyzaduje vyjadrenı pracovnıka, ktery datovy soubor porıdil.

Pro data v prıkladu 8.3 ukazuje obr. 8.3(b), ze datovy bod (2, 169) je potencialnı vlivnepozorovanı, jelikoz hodnota x = 2 lezı daleko od hodnot veliciny x ostatnıch datovych bodu.Odstranıme-li tento bod z datoveho souboru a znovu urcıme regresnı rovnici, dostanemey = 160.33− 14.24x. Z obr. 8.3(b) je videt, ze tato rovnice se znacne lisı od regresnı rovnicey = 195.47− 20.26x, kterou jsme vypocıtali z puvodnıch dat. Takze bod (2, 169) je skutecnevlivne pozorovanı.

Vlivne pozorovanı (2, 169) nenı chyba zaznamu, ale legitimnı datovy bod. Nicmene, muzebyt vhodne bud’ tento bod odstranit a tudız omezit analyzu na auta stara 4 az 7 let, nebozıskat dodatecne udaje o autech starych 2 nebo 3 roky tak, aby regresnı analyza nebyla takzavisla na jednom datovem bodu.

Odlehle pozorovanı muze nebo nemusı byt vlivne pozorovanı; a vlivne pozorovanı muzenebo nemusı byt odlehle pozorovanı. Mnoho statistickych softwaru identifikuje potencionalnıodlehla i vlivna pozorovanı.

Obrazek 8.3 Extrapolace a vlivne pozorovanı v prıkladu s auty Skoda Forman

xStarı (pocet roku)

y

Cen

a(v

1000

Kc)

1 2 3 4 5 6 7 8 9 10 11

-30-20-10

0102030405060708090

100110120130140150160170180 oblast extrapolace

(a) extrapolace

xStarı (pocet roku)

y

Cen

a(v

1000

Kc)

1 2 3 4 5 6 7 8

102030405060708090

100110120130140150160170180

y = 195.47− 20.26x

(vsechna data)

y = 160.33− 14.24x

(bez vlivneho pozorovanı)

vlivne pozorovanı

(b) vlivne pozorovanı

Prediktor a vysvetlujıcı velicina

Uvazujeme-li linearnı rovnici y = b0 + b1x, pak x je nezavisla velicina a y je zavisla velicina.V regresnı analyze se y nazyva vysvetlovana velicina a x prediktor nebo vysvetlujıcıvelicina, nebot’ ji pouzıvame k predikovanı nebo vysvetlovanı veliciny y. V prıkladu 8.3 je

”starı“ auta prediktor a

”cena“ je vysvetlovana velicina.

Nektera uskalı pri pouzitı linearnı regrese

Myslenka nalezenı regresnı prımky je zalozena na predpokladu, ze datove body jsou malorozptylene kolem pomyslne prımky (jsou soustredeny kolem pomyslne prımky). V nekterych

126

Page 127: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

8.3 KOEFICIENT DETERMINACE

prıpadech mohou byt datove body soustredeny kolem krivky mısto prımky. Bohuzel vzorcepro urcenı b0 a b1 budou dobre pracovat i pro takove datove soubory a tudız muzeme prolozittakovymi body nevhodnou prımku. Z toho co bylo receno, muzeme vyslovit kriterium pronalezenı regresnı prımky.

Kriterium pro urcenı regresnı prımky

Drıve nez pristoupıte k urcenı regresnı prımky pro mnozinu dvojic dat, udelejte bodovydiagram. Pokud body nejsou soustredeny kolem prımky, nepouzıvejte regresnı prımku.

8.3 Koeficient determinace

Jednım z ukolu regresnı a korelacnı analyzy je posouzenı kvality regresnı rovnice a zjistenıintenzity (sıly, tesnosti) zavislosti. Posuzovany vztah je tım silnejsı a regresnı rovnice tımlepsı, cım vıce jsou napozorovane hodnoty vysvetlovane veliciny y soustredene kolem regresnıprımky urcene z dat a naopak tım slabsı, cım vıce jsou pozorovane hodnoty vysvetlovaneveliciny y vzdaleny od hodnot y vypoctenych pomocı regresnı rovnice.

V prıkladu 8.3 muzeme regresnı rovnici pouzıt k predikci ceny auta pri zvolenem starıauta. Na prıklad muzeme predikovat, ze cena 4 roky stareho auta bude zhruba y = 195.47−20.26 · 4 = 114.43, neboli 114430 Kc. Jak hodnotna je takova predikce? Je regresnı rovniceuzitecna pro predikovanı ceny, nebo muzeme predikovat cenu stejne dobre bez ohledu nastarı auta?

Uvazujme opet prıklad 8.3. Jeden zpusob, jak vyuzıt informaci obsazenou v datovemsouboru k predikci ceny auta, je ignorovat starı a jednoduse pouzıt prumernou cenu y vsech11 vybranych aut. Jinymi slovy pouzıt

y =

∑11i=1 yi

11= 88.64 (88640 Kc)

jako predikovanou hodnotu pro cenu auta bez ohledu na starı.K tomu, abychom zıskali kvantitativnı mıru celkove chyby, ktere jsme se tım dopustili,

vypocıtame celkovy soucet ctvercu odchylek pozorovanych hodnot y od prumerne hodnoty.Tento celkovy soucet ctvercu chyb nazyvame celkovy soucet ctvercu Sy. V nasem prıpadeje celkovy soucet ctvercu chyb roven 9708.50, prumerna cena y = 88.64 je pouzita jakopredikovana cena kazdeho z 11 vybranych aut

Sy =11∑

i=1

(yi − y)2 = 9708.50.

Jestlize starı auta je uzitecne pro predikovanı ceny auta, pak by melo dojıt ke snızenıv celkovem souctu ctvercu pri pouzitı regresnı rovnice y = 195.47− 20.26x mısto prumerneceny k predikci ceny auta.

Vypocıtejme nynı celkovy soucet ctvercu chyb, kterych se dopustıme, jestlize regresnırovnici pouzijeme k predikci ceny kazdeho z 11 vybranych aut. Tento soucet ctvercu chyb senazyva rezidualnı soucet S(y−y). Pro auta v nasem prıkladu dostaneme

S(y−y) =11∑

i=1

(yi − yi)2 = 1423.50.

Tudız pouzitım regresnı rovnice k predikci ceny auta mısto prumerne ceny y jsme vyraznesnızili celkovy soucet ctvercu chyb. Charakteristika vyjadrujıcı pomerne snızenı celkoveho

127

Page 128: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 8 REGRESNI A KORELACNI ANALYZA

souctu ctvercu chyb se nazyva koeficient determinace. Dostavame

r2 =Sy − S(y−y)

Sy

= 1− S(y−y)

Sy

= 1− 1423.5

9708.5= 0.853.

Pouzitım regresnı rovnice mısto prumerne ceny y jsme tudız dosahli 85.3% snızenı celkovehosouctu ctvercu chyb predikce cen vsech 11 vybranych aut. To znamena, ze starı auta jeuzitecna charakteristika pro stanovenı ceny ojeteho auta.Pojmy definovane vyse shrneme do definice 8.3.

Definice 8.3 SOUCTY CTVERCU

Celkovy soucet ctvercu: Sy =∑n

i=1(yi − y)2

Rezidualnı soucet ctvercu: S(y−y) =∑n

i=1(yi − yi)2

Koeficient determinace: r2 = 1− S(y−y)/Sy

Koeficient determinace je popisna mıra uzitecnosti regresnı rovnice pro predikovanı. Ko-eficient determinace udava pomerne snızenı celkoveho souctu ctvercu chyb, ktereho docılımepouzitım regresnı rovnice pro predikci pozorovanych hodnot veliciny y mısto prumeru y.

Koeficient determinace muzeme take interpretovat jako cast celkovych zmen v pozoro-vanych hodnotach veliciny y, ktere jsou vysvetleny regresnı prımkou, tzv. vysvetlitelnezmeny.

Definice 8.4 REGRESNI SOUCET CTVERCU

Regresnı soucet ctvercu Sy je definovan Sy =∑n

i=1(yi − y)2 a vyjadruje mnozstvızmen pozorovane veliciny y, ktere je vysvetleno regresı.

Regresnı identita

Pro data tykajıcı se automobilu Skoda Forman mame Sy = 9708.5, Sy = 8285.0 a S(y−y) =1423.5. Protoze 9708.5 = 8285.0 + 1423.5, dostavame Sy = Sy + S(y−y). Tato rovnice je vzdysplnena a nazyva se regresnı identita.

Tvrzenı 8.1 REGRESNI IDENTITA

Celkovy soucet ctvercu Sy je roven souctu regresnıho souctu ctvercu Sy a rezidualnımu souctuctvercu S(y−y); to je Sy = Sy + S(y−y).

Interpretace koeficientu determinaceKoeficient determinace r2 je definovan vztahem

r2 = 1− S(y−y)

Sy

a je roven procentnımu snızenı celkoveho souctu ctvercu v dusledku pouzitı regresnı rovnicek predikci hodnoty y mısto vyberoveho prumeru y.Koeficient determinace muze byt take pocıtan podle vzorce

r2 =Sy

Sy

.

128

Page 129: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

8.4 LINEARNI KORELACE

Tudız je take roven procentnımu snızenı celkove zmeny v pozorovane velicine y, ktera jevysvetlena regresı.

V kazdem prıpade r2 lezı mezi 0 a 1 a je to popisna mıra vhodnosti pouzitı regresnırovnice pro predikovanı. Hodnoty r2 blızke 0 naznacujı, ze regresnı rovnice nenı prılis uzitecnapro predikovanı. Naproti tomu, hodnoty r2 blızke 1 naznacujı, ze regresnı rovnice je veliceuzitecna pro predikovanı.

Dulezite ! Pri hodnocenı intenzity zavislosti na zaklade koeficientu determinace r2 jetreba mıt na zreteli, ze jeho velikost je ovlivnena tım, zda se nam podarilo najıt vhodnytyp regresnı funkce pro popis dane zavislosti. To znamena, ze mala hodnota r2 nemusı jesteznamenat nızky stupen zavislosti mezi promennymi, ale muze to signalizovat chybnou volburegresnı funkce.

Na zaver tohoto odstavce jeste uvedeme zjednodusene vzorce pro tri definovane souctyctvercu.

Vzorec 8.2 Vypocetnı vzorce pro soucty ctvercu

Tri soucty ctvercu Sy, Sy a S(y−y) mohou byt vypocıtany uzitım nasledujıcıch vzorcu:

Celkovy soucet ctvercu: Sy = Syy

Regresnı soucet ctvercu: Sy = S2xy/Sxx

Rezidualnı soucet ctvercu: S(y−y) = Syy − S2xy/Sxx

Vzorce pro vypocet Syy, Sxy a Sxx jsou uvedeny v definici 8.2.

8.4 Linearnı korelace

Casto slychavame vyroky tykajıcı se korelace nebo nedostatku korelace mezi dvema velicinami:

”Existuje pozitivnı korelace mezi vydaji za reklamu a prodejem“ nebo

”IQ a spotreba alkoholu

nejsou korelovane“.

Ruzne statistiky mohou byt pouzity jako popisne mıry korelace mezi dvema velicinami.Nejvıce se pouzıva vyberovy linearnı korelacnı koeficient r, ktery je popisnou mırousıly linearnıho (prımkoveho) vztahu mezi dvema velicinami.

Definice 8.5 VYBEROVY LINEARNI KORELACNI KOEFICIENT

Vyberovy linearnı korelacnı koeficient r je definovan vztahem

r =sxy

sxsy

,

kde sx a sy jsou vyberove smerodatne odchylky velicin x respektive y a sxy je vyberovakovariance vyberu n dvojic dat velicin x a y

sxy =

∑ni=1(xi − x)(yi − y)

n− 1.

Nıze je uveden vzorec pro vypocet vyberoveho linearnıho korelacnıho koeficientu.

129

Page 130: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 8 REGRESNI A KORELACNI ANALYZA

Vzorec 8.3 Vyberovy linearnı korelacnı koeficient r

Linearnı korelacnı koeficient r pro n dvojic dat muze byt pocıtan podle nasledujıcıhovzorce

r =Sxy√SxxSyy

.

Vzorce pro Sxx, Sxy a Syy jsou uvedeny v definici 8.2.

Vyberovy linearnı korelacnı koeficient r lezı mezi −1 a 1. Hodnoty r blızke −1 nebo 1naznacujı silnou linearnı zavislost mezi velicinami a to, ze velicina x je dobrym linearnımprediktorem pro velicinu y (tj. regresnı rovnice je velice vhodna pro predikovanı). Na druhestrane, hodnoty r blızke nule naznacujı slabou linearnı zavislost mezi velicinami a to, zevelicina x je spatnym linearnım prediktorem pro velicinu y ( tj. regresnı rovnice nenı prılisvhodna pro predikovanı)

Kladne hodnoty r naznacujı, ze veliciny jsou kladne linearne korelovane v tom smyslu,ze y ma tendenci linearne klesat s klesajıcım x. Zaporne hodnoty r naznacujı, ze veliciny jsouzaporne linearne korelovane v tom smyslu, ze y ma tendenci linearne klesat s rostoucımx. Znamenko r je shodne jako znamenko smernice regresnı prımky.

Predchazejıcı diskusi muzeme shrnout do nasledujıcıho zaveru:

• Jestlize vyberovy linearnı korelacnı koeficient r ma hodnotu blızkou ±1, pak dvojicedat jsou soustredeny kolem regresnı prımky.

• Jestlize vyberovy linearnı korelacnı koeficient r ma hodnotu dost odlisnou od ±1, pakdvojice dat jsou znacne roztrouseny kolem regresnı prımky.

• Jestlize vyberovy linearnı korelacnı koeficient r ma hodnotu blızkou 0, pak smerniceregresnı prımky ma take hodnotu blızkou nule, coz naznacuje, ze pravdepodobne nenılinearnı vztah mezi velicinami.

Vztah mezi vyberovym korelacnım koeficientem a koeficientem determinace

V odstavci 8.3 byl diskutovan koeficient determinace r2 jako popisna mıra uzitecnosti regresnırovnice pro predikovanı. Nynı jsme zavedli vyberovy korelacnı koeficient r jako popisnou mırusıly linearnıho vztahu mezi dvema velicinami.

Ocekavame, ze sıla linearnı zavislosti take naznacuje pouzitelnost regresnı rovnice propredikovanı. Koeficient determinace je roven ctverci vyberoveho korelacnıho koeficientu.

Vyberovy linearnı korelacnı koeficient r, ktery se vyuzıva k popisu sıly linearnı zavislostimezi dvema velicinami, by mel byt pouzit pouze tehdy, kdyz bodovy diagram naznacuje, zedata jsou soustredena kolem prımky.

Korelace nenı prıcinnost

Veliciny mohou byt silne korelovane, to vsak neznamena, ze je mezi nimi vztah prıcinny.Naprıklad v tabulce 8.2 jsou uvedena data tykajıcı se poctu hodin, ktere kazdy z osminahodne vybranych studentu (velicina x) venoval prıprave na test z matematiky, ktery semel uskutecnit za 14 dnı a pocet bodu zıskanych pri testu (velicina y).

130

Page 131: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

8.5 LINEARNI REGRESNI MODEL

Tabulka 8.2 Cas venovany studiu a bodove vysledky testu 8 vybranych studentu

x 10 15 12 20 8 16 14 22y 92 81 84 74 85 80 84 80

I kdyz jsou obe sledovane veliciny silne zaporne korelovane (r = −0.779 ), neznamena to, zevetsı pocet hodin venovany prıprave na test je prıcinou horsıho vysledku testu.

Dve veliciny mohou byt silne korelovane z toho duvodu, ze obe jsou vazany s jinymivelicinami, nazyvanymi skryte veliciny, ktere jsou prıcinou zmen velicin, ktere zkoumame.Naprıklad vyse platu ucitelu a vyse vydaju za alkohol mohou byt kladne linearne korelovane.Mozne vysvetlenı teto kurioznı skutecnosti muze byt, ze obe veliciny, jak vyse ucitelskychplatu tak prodej alkoholu jsou tesne svazane s jinymi velicinami jako je stupen inflace, kteryovlivnuje obe veliciny.

8.5 Linearnı regresnı model

K tomu, abychom mohli delat zavery v regresi a korelaci, musı veliciny, ktere uvazujeme,splnovat urcite podmınky. Uvazujme dve veliciny X a Y . Pritom necht’ Y je nahodna velicina,zatımco o X predpokladame, ze je nenahodna.

Uvazujme opet prıklad 8.3 o vztahu ceny a starı ojeteho auta. Regresnı rovnici muzemepouzıt k predikci ceny auta pro zvolene starı auta. Nemuzeme vsak ocekavat, ze nase predikcebudou presne, jelikoz ceny auta se od sebe lisı dokonce pri stejnem starı ojeteho auta.Naprıklad v tabulce 8.1 jsou uvedeny celkem 4 ruzne ceny pro 5 let stare auto Skoda Forman.Tuto variabilitu v cene auta stejneho starı bychom meli ocekavat, nebot’ auta budou mıt na-jety ruzny pocet kilometru, ruzne udrzovany interier, ruznou kvalitu laku a tak podobne.Tudız kazdemu starı auta (hodnote veliciny X) odpovıda cely soubor cen (hodnot velicinyY) a sice ceny vsech aut tehoz starı. Dva roky starym autum prıslusı urcite rozdelenı cen,jine rozdelenı cen dostaneme pro auta stara tri roky, atd. Na zaklade teto diskuse je moznezformulovat podmınky nutne k tomu, abychom mohli aplikovat inferencnı metody v regresnıanalyze.

Predpoklady uvazovane pri klasicke linearnı regresi

1. Teoreticka (skutecna) regresnı prımka: Existuje prımka y = β0 + β1x takova, zepro kazdou hodnotu x veliciny X, strednı hodnota veliciny Y lezı na prımce y = β0 +β1x. Tuto prımku nazyvame teoretickou regresnı prımkou a jejı rovnici teoretickouregresnı rovnicı.

2. Shodne smerodatne odchylky: Smerodatna odchylka rozdelenı veliciny Y odpovı-dajıcı urcite hodnote x veliciny X je stejna bez ohledu na hodnotu x.

3. Normalnı rozdelenı: Pro kazdou hodnotu x, prıslusne rozdelenı veliciny Y je normalnı.

Aby predpoklady 1. 2. a 3. byly splneny, musı existovat konstanty β0, β1 a σ takove, ze prokazdou hodnotu x odpovıdajıcı rozdelenı veliciny Y je normalnı se strednı hodnotou β0 +β1xa rozptylem σ2. Tyto predpoklady jsou oznacovany jako linearnı regresnı model. Z duvodustrucnosti budeme pouzıvat nazev regresnı model.

131

Page 132: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 8 REGRESNI A KORELACNI ANALYZA

Poznamka: V literature se nekdy vyse uvedeny model oznacuje jako klasicky linearnı regresnımodel a jsou-li splneny predpoklady 1. a 2. pak mluvıme o linearnım regresnım modelu.

Symbolicky muzeme regresnı model vyjadrit nasledovne:

Y = β0 + β1X + ε, (8.2)

kde ε reprezentuje normalne rozdelenou nahodnou velicinu s nulovou strednı hodnotoua smerodatnou odchylkou σ. Parametry β0, β1 nazyvame parametry regrese nebo re-gresnı parametry. Pozorovane hodnoty y1, y2, · · · , yn lze povazovat za hodnoty nezavislychnahodnych velicin Y1, Y2, · · · , Yn, pricemz kazde Yi ma normalnı rozdelenı N (β0 + β1xi, σ

2).Parametry β0, β1 a konstanta σ jsou obecne nezname a proto musı byt odhadnuty

z vyberovych dat, ktera jsou k dispozici. Bodovym odhadem σ se budeme zabyvat v prıstımodstavci. Bodove odhady b0 a b1 parametru β0 a β1 teoreticke regresnı prımky zıskamemetodou nejmensıch ctvercu ve tvaru uvedenem ve vzorci 8.1. Z tohoto hlediska jsou b0

a b1 statistiky. Prımku y = b0 + b1x budeme nazyvat vyberovou (empirickou) re-gresnı prımkou. Vyberovou regresnı prımku muzeme povazovat za odhad teoreticke re-gresnı prımky zıskany na zaklade vyberovych pozorovanı.

Rozdıly mezi pozorovanou hodnotou yi a predikovanou hodnotou yi veliciny Yi, tj. hod-noty

ei = yi − yi

pro i = 1, 2, · · · , n se nazyvajı rezidua. Rezidua ei je mozne povazovat za odhad nahodneveliciny ε v regresnım modelu (8.2). Na obrazku 8.4 je graficka reprezentace reziduı pro jednudvojici dat.

Obrazek 8.4 Reziduum dvojice dat

e = y − y

(x, y)pozorovana hodnota y

predikovana hodnota y

x

vyberova regresnı prımkay = b0 + b1x

Snadno lze dokazat, ze soucet reziduı∑n

i=1 ei = 0, tudız e = 0. Dale soucet∑n

i=1 e2i =∑n

i=1(yi − yi)2 je identicky s rezidualnım souctem ctvercu v definici 8.3.

Prıklad 8.4 Linearnı regresnı model

Uvazujte opet prıklad 8.3, starı a cena auta Skoda Favorit (SF).a) Vysvetlete, co znamenajı predpoklady regresnıho modelu.b) Znazornete predpoklady graficky.Resenı:a) Aby predpoklady regresnıho modelu byly splneny, musı existovat konstanty β0, β1 a σ takove,ze pro kazde starı x ceny vsech aut SF tohoto starı, jsou normalne rozdelene se strednı hodnotouβ0 + β1x a rozptylem σ2. To znamena, ze naprıklad ceny vsech dva roky starych aut SF majıN (β0 + β1 · 2, σ2)-rozdelenı.

132

Page 133: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

8.5 LINEARNI REGRESNI MODEL

b) Predpoklad 1 pozaduje, aby pro kazde starı x, strednı hodnota vsech aut SF tohoto starı lezelana prımce y = β0 + β1x, jak ukazuje obrazek 8.5(a).

Protoze regresnı prımku obvykle nezname, musıme ji odhadnout pomocı vyberove regresnıprımky, ktera v tomto prıpade je y = 195.47 − 20.26x a obvykle nebude shodna s teoretickou re-gresnı prımkou. Tato situace je znazornena na obr. 8.5(b). Tretı predpoklad regresnıho modelupozaduje, aby rozdelenı ceny aut SF pro ruzna starı byla normalnı se stejnou smerodatnou od-chylkou.

Obrazek 8.5 Teoreticka a vyberova regresnı prımka

xStarı (pocet roku)

y

Cen

a(v

1000

Kc)

1 2 3 4 5 6 7 8 9

102030405060708090

100110120130140150160170180 y = β0 + β1 · 3

strednı hodnota ceny vsech3 roky starych aut

y = β0 + β1 · 6strednı hodnota cenyvsech 6 let starych aut

y = β0 + β1x

(a)

xStarı (pocet roku)

y

Cen

a(v

1000

Kc)

1 2 3 4 5 6 7 8

102030405060708090

100110120130140150160170180 y = b0 + b1x = 195.47− 20.26x

vyberova regresnı prımka

y = β0 + β1x

teoreticka regresnı prımka

(b)

8.5.1 Bodovy odhad rozptylu σ2

Predpokladejme, ze veliciny X a Y splnujı predpoklady 1, 2 a 3 klasickeho regresnıho modelu.Jak jsme se jiz zmınili, rozptyl obvykle nezname a musı byt odhadnut z dat, ktera jsouk dispozici. Statistika, ktera se pouzıva k sestrojenı bodoveho odhadu pro σ2, se nazyvarezidualnı rozptyl a je definovana nasledovne.

Definice 8.6 REZIDUALNI ROZPTYL

Rezidualnı rozptyl S2e je definovan vztahem

S2e =

S(y−y)

n− 2,

kde S(y−y) =∑n

i=1(yi − yi)2.

Pripomenme, ze S(y−y) je rezidualnı soucet ctvercu a reprezentuje celkovou kvadratickouchybu, ktere se dopustıme, jestlize vyberovou regresnı rovnici pouzijeme k predikci po-zorovane hodnoty veliciny Y . Zhruba receno, rezidualnı rozptyl vyjadruje, jak moc se v pru-meru predikovana hodnota y veliciny Y lisı od pozorovane hodnoty y.

133

Page 134: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 8 REGRESNI A KORELACNI ANALYZA

Prıklad 8.5 Ilustrace definice 8.6

Vypoctete rezidualnı rozptyl pro data z tabulky 8.1.Resenı: V odstavci 8.3 na strane 127 jsme zjistili, ze S(y−y) = 1423.5. Tudız rezidualnı rozptyl je

s2e =

1423.511− 2

.= 158.17

a rezidualnı smerodatna odchylka se = 12.58. Muzeme rıci, ze v prumeru se predikovana cena autSF predikovana na zaklade vyberu, lisı od zjistene (pozorovane) ceny o 12580 Kc.

8.5.2 Testy hypotez a intervaly spolehlivosti pro parametr β1

V tomto odstavci se budeme se zabyvat nekterymi inferencnımi metodami pouzıvanymiv regresnı analyze. Tyto metody vyzadujı, aby zkoumane veliciny splnovaly predpokladyregresnıho modelu. V praxi tyto metody pracujı dobre i pri malych odchylkach od techtopredpokladu, tj. jsou robustnı vuci malym odchylkam od predpokladu.

Prvnı inferencnı metody, kterymi se budeme zabyvat, jsou testy hypotez o parametru β1

teoreticke regresnı prımky.

Testy hypotez o parametru β1 linearnıho regresnıho modelu

Predpokladejme, ze veliciny X a Y splnujı predpoklady regresnıho modelu. Pak pro kazdouhodnotu x veliciny X ma velicina Y normalnı rozdelenı se strednı hodnotou β0 + β1xa smerodatnou odchylku σ. Zajıma nas hlavne prıpad, kdy β1 = 0, nebot’ potom strednıhodnota veliciny Y je β0 a smerodatna odchylka σ. Zadny z techto parametru nezavisı na x.To ale znamena, ze kdyz β1 = 0, pak velicina X neposkytuje zadnou informaci o rozdelenıveliciny Y. Z toho vyplyva, ze neexistuje linearnı vztah mezi X a Y a tudız velicina Xnemuze byt pouzita jako prediktor hodnoty y veliciny Y.

O tom, zda je mezi velicinami X a Y linearnı vztah a nasledne zda velicina X je uzitecnajako prediktor hodnoty y veliciny Y , muzeme rozhodnout na zaklade testu hypotezy

H0 : β1 = 0 (X nenı vhodna pro predikci Y )

HA : β1 6= 0 (X je vhodna pro predikci Y ).

K testu hypotezy o parametru β1 teoreticke regresnı prımky pouzijeme statistiku b1

vyberove regresnı prımky. Jsou-li splneny predpoklady regresnıho modelu, muzeme urcitvyberove rozdelenı smernice regresnı prımky β1

Nahodna velicina b1 ma normalnı rozdelenı se strednı hodnotou µb1 = β1 a rozptylemσ2

b1= σ2/Sxx, tudız normovana nahodna velicina

Z =b1 − β1

σ/√

Sxx

ma normovane normalnı rozdelenı.

Vzhledem k tomu, ze rozptyl σ2 je neznamy, nahradıme σ2 jeho odhadem s2e a dostaneme

nasledujıcı vysledek.

134

Page 135: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

8.5 LINEARNI REGRESNI MODEL

Tvrzenı 8.2 t-ROZDELENI PARAMETRU β1 LINEARNIHO REGRESNIHO MODELU

Predpokladejme, ze veliciny X a Y splnujı predpoklady regresnıho modelu. Pak

T =b1 − β1

Se/√

Sxx

ma t-rozdelenı s n− 2 stupni volnosti.

Tvrzenı 8.2 umoznuje pouzıt pro test hypotezy H0 : β1 = 0 nahodnou velicinu

T =b1

Se/√

Sxx

jako testovou statistiku a najıt kriticke hodnoty v tabulce III. Proces testovanı hypotezyo nulovosti koeficientu β1 regresnıho modelu lze provest podle obecneho schematu na zakladespecifickych udaju uvedenych nıze.

Postup 8.1 Test nulovosti parametru β1

• Predpoklady: 1− 3 pro regresnı model

• Testova statistika: T =b1

Se/√

Sxx

∼ t(n− 2)

• Kriticke hodnoty: ±tα/2. Pouzijte tabulku III.

Prıklad 8.6 Ilustrace postupu 8.1

Udaje o starı a cene 11 ojetych aut Skoda Forman jsou uvedeny v tabulce 8.1. Na zakladeanalyzy reziduı lze usoudit, ze predpoklady 1-3 regresnıho modelu jsou splneny. Poskytujı namudaje dostatek argumentu pro to, abychom udelali na 5% hladine vyznamnosti zaver, ze starıauta je vhodnym prediktorem ceny auta znacky Skoda Forman?

Resenı:1. H0 : β1 = 0 (starı auta nenı vhodne pro predikci ceny)

HA : β1 6= 0 (starı auta je vhodne pro predikci ceny).2. α = 0.053. Kriticke hodnoty jsou ±t0.025 s ν = n − 2. Tedy n = 11, ν = 11 − 2 = 9. Z tabulky III. najdemet0.025 = 2.262.4. Z prıkladu 8.3 mame

∑x2

i = 326,∑

xi = 58 a b1 = −20.26. Dale v prıkladu 8.5 jsme urcilise = 12.58. Jelikoz n = 11, je hodnota testove statistiky

tc =−20.26

12.58/√

326− (58)2/11= −7.235 .

5. Protoze hodnota tc je mensı nez −t0.025 = −2.262, padne do kritickeho oboru hypotezy H0 a tudızH0 zamıtame.

6. Vysledky testu jsou statisticky vyznamne na 5% hladine. To znamena, ze na 5% hladinevyznamnosti nam data davajı dostatek argumentu proto, abychom udelali zaver, ze parametrregrese β1 nenı roven nule a nasledkem toho je starı auta vhodne jako prediktor ceny auta SkodaForman.

135

Page 136: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 8 REGRESNI A KORELACNI ANALYZA

Pomocı prıstupu k testovanı hypotez zalozenem na P -hodnote bychom take zıskali argu-menty pro zamıtnutı nulove hypotezy. Jelikoz tc = −7.235 a ν = 9, najdeme v tabulce III.,ze P -hodnota je mensı nez 0.01. Protoze je mensı nez pozadovana hladina vyznamnosti 0.05,muzeme zamıtnout H0.

V odstavci 8.3 jsme zavedli koeficient determinace r2 jako mıru vhodnosti pouzitı regresnırovnice pro predikovanı. Statistiku r2 muzeme take pouzıt jako zaklad pro test hypotezy,zda regresnı prımka je vhodna pro predikce. Test zalozeny na r2 je ekvivalentnı s testemzalozenym na b1.

Intervaly spolehlivosti pro regresnı parametr β1

Pripomenme, ze smernice β1 teoreticke regresnı prımky reprezentuje zmenu veliciny Y v du-sledku zvetsenı x o jednotku. Dale pripomenme, ze teoreticka regresnı prımka se smernicıβ1 je strednı hodnotou rozdelenı veliciny Y odpovıdajıcı ruznym hodnotam x. Tudız β1

reprezentuje zmenu strednı hodnoty rozdelenı veliciny Y , kdyz se hodnota veliciny x zvetsıo jednotku. Uvazujeme-li naprıklad starı (X) a cenu (Y ) auta znacky Skoda Forman, β1 jestrednı hodnota rocnıho poklesu ceny auta Skoda Forman.

Tudız je videt, ze ma smysl odhadnout smernici β1 teoreticke regresnı prımky. Jiz vıme, zebodovym odhadem smernice β1 je smernice b1 vyberove regresnı prımky. Intervalovy odhadparametru β1 dostaneme aplikacı tvrzenı 8.2.

Postup 8.2 Interval spolehlivosti pro parametr β1 regresnıho modelu

Predpoklady: 1− 3 pro regresnı model

1. Pro koeficient spolehlivosti 1− α, najdete v tabulce III. tα/2 s ν = n− 2.

2. Krajnı body intervalu spolehlivosti pro β1 jsou

b1 ± tα/2 · se√Sxx

.

Prıklad 8.7 Ilustrace postupu 8.2

Pouzijte udaje z tabulky 8.1 a sestrojte 95% interval spolehlivosti pro β1 teoreticke regresnıprımky, ktera vyjadruje vztah mezi cenou a starım auta Skoda Favorit.Resenı:1. Pro 95% interval spolehlivosti je α = 0.05. Jelikoz n = 11, ν = 11− 2 = 9. V tabulce III. najdemet0.05/2 = t0.025 = 2.262.2. Z prıkladu 8.3 mame b1 = −20.26,

∑x2

i = 326,∑

xi = 58. Dale z prıkladu 8.5 mame se = 12.58.Z toho urcıme krajnı body intervalu spolehlivosti pro β1

−20.26± 2.262 · 12.58√326− (58)2/11

= −20.26± 6.33,

neboli 95% interval spolehlivosti je (−26.59,−13.93). S 95% spolehlivostı si muzeme byt jisti, zeparametr β1 teoreticke regresnı prımky lezı mezi −26.59 a −13.93. Jinymi slovy, s 95% spolehlivostısi muzeme byt jisti, ze rocnı snızenı strednı hodnoty ceny auta Skoda Forman je mezi 13930 Kca 26590 Kc.

136

Page 137: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

8.5 LINEARNI REGRESNI MODEL

8.5.3 Odhad a predikce

V teto casti si ukazeme, jak vyberova regresnı prımka muze byt pouzita jednak pro odhadstrednı hodnoty rozdelenı nahodne veliciny Y pri urcite hodnote x nezavisle veliciny a jednakpro predikci hodnoty veliciny Y pro urcitou hodnotu x nezavisle veliciny.

Pouzijeme prıklad 8.3 k ilustraci zakladnı myslenky. Abychom to mohli udelat, predpo-kladejme, ze veliciny starı a cena auta Skoda Forman splnujı predpoklady 1− 3 pro regresi.

Prıklad 8.8 Odhad strednı hodnoty v regresi

Pouzijte data z prıkladu 8.3 pro odhad strednı hodnoty ceny vsech 3 roky starych aut SkodaForman.Resenı: Vzhledem k predpokladu 1 pro regresnı model, teoreticka regresnı rovnice urcuje strednıhodnotu cen pro ruzna starı aut Skoda Forman. Tudız strednı hodnota ceny vsech 3 roky starychaut Skoda Forman je presne rovna β0 + β1 · 3. Protoze β0 a β1 nezname, odhadneme strednıhodnotu ceny vsech 3 roky starych aut Skoda Forman β0 + β1 · 3 pomocı prıslusne hodnotyb0 + b1 · 3 na vyberove regresnı prımce. Protoze vyberova regresnı rovnice pro uvazovana data jey = −195.47− 20.26x, je odhad strednı ceny pro vsechna 3 roky stara auta

y = −195.47− 20.26 · 3 = 134.69,

nebo 134690 Kc.

Poznamka: Odhad strednı hodnoty ceny vsech 3 roky starych aut Skoda Forman je rovnapredikovane cene 3 roky stareho auta Skoda Forman. Obe hodnoty zıskame dosazenım x = 3do vyberove regresnı rovnice. Odhad strednı hodnoty vsech 3 roky starych aut je bodovyodhad. Jak vıme, mohl by poskytnout vıce informacı, pokud bychom meli nejakou predstavu,jak presny je tento bodovy odhad. Jinymi slovy, bylo by vhodne stanovit interval spolehlivostipro odhad strednı hodnoty vsech 3 roky starych aut Skoda Forman.

Intervaly spolehlivosti pro strednı hodnoty v regresi

Sestrojenı intervalu spolehlivosti pro strednı hodnotu rozdelenı veliciny Y odpovıdajıcı urcitehodnote xp veliciny Y se opıra o nasledujıcı poznatek.

Tvrzenı 8.3 t-ROZDELENI PRO INTERVALY SPOLEHLIVOSTI V REGRESI

Necht’ veliciny X a Y splnujı predpoklady 1−3 pro regresnı model. Dale necht’ xp oznacujeurcitou hodnotu prediktoru X a yp = b0 + b1xp. Pak ma nahodna velicina

T =Yp − (β0 + β1xp)

Se

√1n

+ (xp−x)2

Sxx

t-rozdelenı s n− 2 stupni volnosti.

Vzhledem k tomu, ze β0 + β1xp je strednı hodnota rozdelenı veliciny Yp odpovıdajıcı zadanehodnote xp, muzeme aplikacı tvrzenı 8.3 odvodit nasledujıcı postup pro interval spolehlivostipro strednı hodnotu v regresi.

137

Page 138: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 8 REGRESNI A KORELACNI ANALYZA

Postup 8.3 Interval spolehlivosti pro strednı hodnotu Y odpovıdajıcı hodnote xp

Predpoklady: 1− 3 pro regresnı model

1. Pro koeficient spolehlivosti 1− α, pouzijte tabulku III.k stanovenı tα2

s ν = n− 2.

2. Urcete bodovy odhad yp = b0 + b1xp, pro strednı hodnotu rozdelenı hodnot veliciny Yodpovıdajıcıch hodnote xp.

3. Krajnı body intervalu spolehlivosti pro strednı hodnotu jsou

yp ± tα2· se

√1

n+

(xp − x)2

Sxx

.

Prıklad 8.9 Ilustrace postupu 8.3

Sestrojte 95% interval spolehlivosti pro strednı hodnotu ceny vsech 3 roky starych aut SkodaForman na zaklade dat z prıkladu 8.3.Resenı:1. Pro koeficient spolehlivosti 0.95 je α = 0.05. Protoze n = 11 je ν = 9. V tabulce III. nalezneme,ze t0.025 = 2.262.

2. Nynı potrebujeme spocıtat hodnotu yp pro xp = 3. Z prıkladu 8.3 vıme, ze vyberova regresnırovnice je y = 195.47− 20.26x, takze

yp = 195.47− 20.26 · 3 = 134.69.

3. V prıkladu 8.3 jsme vypocıtali∑n

i=1 xi = 58 a∑n

i=1 x2i = 326; v prıkladu 8.5 jsme urcili se = 12.58.

Z 1. kroku mame t0.025 = 2.262a z 2. kroku yp = 134.69. Z toho dostaneme, ze krajnı body intervaluspolehlivosti pro strednı hodnotu jsou

134.69± 2.262 · 12.58

√111

+(3− 58/11)2

326− (58)2/11= 134.69± 16.76

neboli interval spolehlivosti je (117.93, 151.45). Muzeme se na 95% spolehnout, ze strednı hodnotaceny vsech 3 roky starych aut Skoda Forman bude mezi 117930 Kc a 151450 Kc.

Intervaly predikce

Vyberova regresnı rovnice se predevsım pouzıva pro predikci. Regresnı rovnice pro data starıa cena auta Skoda Forman je y = 195.47− 20.26x. Tudız naprıklad predikovana cena pro 3roky stare auto uvazovane znacky je 134690 Kc. Vzhledem k tomu, ze se ceny takovych autmenı, ma vetsı vyznam urcit interval predikce pro cenu 3 roky starych aut Skoda Formannez stanovit pouze jednu predikovanou hodnotu.

Nazev interval spolehlivosti je obvykle vyhrazen pro intervalovy odhad parametru, tako-vych jako naprıklad strednı hodnota ceny vsech 3 roky starych aut znacky Skoda Forman.Nazev interval predikce je pouzit pro intervalovy odhad nahodne veliciny, takove jako jenaprıklad cena nahodne vybraneho 3 roky stareho auta Skoda Forman.

Postup pro sestrojenı intervalu predikce je podobny jako postup sestrojneı intervaluspolehlivosti. Interval predikce je zalozen na nasledujıcı skutecnosti.

138

Page 139: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

8.5 LINEARNI REGRESNI MODEL

Tvrzenı 8.4 t-ROZDELENI PRO INTERVALY PREDIKCE V REGRESI

Predpokladejme, ze veliciny X a Y splnujı predpoklady 1− 3 pro regresnı model. Necht’

xp oznacuje urcitou hodnotu prediktoru X, a necht’ yp = b0 + b1xp. Pak nahodna velicina

T =yp − (β0 + β1xp)

Se

√1 + 1

n+ (xp−x)2

Sxx

ma t-rozdelenı s n− 2 stupni volnosti.

Pomocı tvrzenı 8.4 muzeme odvodit nasledujıcı postup sestrojenı intervalu predikce provelicinu Y odpovıdajıcı urcite hodnote veliciny X.

Postup 8.4 Interval predikce pro hodnotu veliciny Y odpovıdajıcı urcite hodnote xp

Predpoklady: 1− 3 pro regresnı model

1. Pro koeficient spolehlivosti 1− α pouzijte tabulku III.k urcenı tα/2 s ν = n− 2.

2. Vypocıtejte predikovanou hodnotu yp = b0 + b1xp nahodne veliciny Y .

3. Krajnı body intervalu predikce pro hodnotu y veliciny Y jsou

yp ± tα2.se

√1 +

1

n+

(xp − x)2

Sxx

.

Prıklad 8.10 Ilustrace postupu 8.4

Sestrojte 95% interval predikce ceny nahodne vybraneho 3 roky stareho auta Skoda Forman nazaklade dat z prıkladu 8.3.Resenı:1. Koeficient spolehlivosti je 0.95, tudız α = 0.05. Protoze n = 11 je ν = 9. V tabulce III. nalezneme,ze t0.025 = 2.262.

2. Hodnotu yp pro xp = 3 jsme vypocıtali v predchaxejıcım prıkladu yp = 134.69. Z prıkladu 8.3vıme, ze vyberova regresnı rovnice je y = 195.47− 20.26x, takze

yp = 195.47− 20.26 · 3 = 134.69.

3. V prıkladu 8.3 jsme vypocıtali∑n

i=1 xi = 58 a∑n

i=1 x2i = 326; v prıkladu 8.5 jsme urcili se =

12.58.Z 1. kroku mame t0.025 = 2.262 a z 2. kroku yp = 134.69. Z toho dostaneme, ze krajnı bodyintervalu predikce jsou

134.69± 2.262 · 12.58

√1 +

111

+(3− 58/11)2

326− (58)2/11= 134.69± 33.02,

neboli interval predikce je (101.67, 167.71). Muzeme se na 95% spolehnout, ze cena nahodne vy-braneho 3 roky stareho auta Skoda Forman bude mezi 101670 Kc a 167710 Kc.

Interval predikce je sirsı nez interval spolehlivosti. To je pochopitelne z nasledujıcıhoduvodu: Chyba v odhadu strednı hodnoty ceny vsech 3 roky starych aut Skoda Forman

139

Page 140: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 8 REGRESNI A KORELACNI ANALYZA

je zpusobena tım, ze teoreticka regresnı prımka je odhadnuta pomocı vyberove regresnıprımky. Na druhe strane, chyba v predikci ceny nahodne vybraneho 3 roky stareho autaSkoda Forman je zpusobena vyse zmınenou chybou v odhadu strednı hodnoty ceny plusvariabilita v cenach vsech 3 roky starych aut Skoda Forman.

8.6 Testy hypotez o korelacnım koeficientu

Casto potrebujeme rozhodnout, zda dve veliciny jsou linearne korelovane, tj. zda existujelinearnı vztah mezi dvema velicinami. V odstavci 8.5.2 jsme ukazali, ze toto rozhodnutımuzeme udelat na zaklade testu hypotezy o smernici β1 teoreticke regresnı prımky.

Stejne tak muzeme testovat hypotezu o korelacnım koeficientu ρ. Korelacnı koeficientjsme definovali v kapitole 4, def. 4.8 jako mıru linearnı korelace mezi nahodnymi velicinamia v odstavci 8.4, jsme zavedli vyberovy linearnı korelacnı koeficient r (viz. def. 8.5), kterylze spocıtat na zaklade dvojic pozorovanych hodnot velicin X a Y jako mıru linearnı ko-relace mezi vybranymi dvojicemi dat. Zatımco ρ popisuje sılu linearnıho vztahu mezi dvemavelicinami; r je pouze odhad ρ.

Pripomenme, ze linearnı korelacnı koeficient ρ lezı mezi −1 a 1. Hodnoty ρ blızke −1 nebo1 naznacujı silny linearnı vztah mezi velicinami, zatımco hodnoty ρ blızke nule naznacujıslaby linearnı vztah mezi velicinami.

Jestlize ρ > 0 veliciny jsou kladne (pozitivne) linearne korelovane ve smyslu, ze yma tendenci linearne rust s rustem x a to tım vıce, cım je ρ blıze k 1. Je-li ρ < 0, velicinyjsou zaporne (negativne) linearne korelovane v tom smyslu, ze y ma tendenci linearneklesat s rustem x a to tım vıce, cım je ρ blıze k −1. Je-li ρ = 0, pak veliciny jsou linearnenekorelovane v tom smyslu, ze mezi nimi nenı zadny linearnı vztah.

Protoze vyberovy korelacnı koeficient r je odhadem korelacnıho koeficientu ρ, muze bytvyuzit jako zaklad pro test hypotezy o ρ. Pro test s nulovou hypotezou H0 : ρ = 0 (to je dveveliciny jsou linearne nekorelovane), pouzijeme nasledujıcı poznatek.

Tvrzenı 8.5 t-ROZDELENI PRO TEST HYPOTEZY O KOEFICIENTU KORELACE

Predpokladejme, ze veliciny X a Y splnujı predpoklady 1− 3 pro regresnı model. Jestlizeρ = 0, pak ma nahodna velicina

T =r√1−r2

n−2

t-rozdelenı s n− 2 stupni volnosti.

S ohledem na tvrzenı 8.5 lze pro test hypotezy s nulovou hypotezou H0 : ρ = 0 pouzıt

nahodnou velicinu T = r/√

1−r2

n−2jako testovou statistiku a urcit kriticke hodnoty z ta-

bulky III.

Postup 8.5 Test hypotezy pro linearnı korelacnı koeficient s H0 : ρ = 0

• Predpoklady: 1− 3 pro regresnı model

• Testova statistika: T = r√1−r2

n−2

∼ t(n− 2)

• Kriticke hodnoty H0: pro oboustranny test: ±tα/2

pro levostranny test: −tαpro pravostranny test: tα

140

Page 141: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

8.7 OBECNY REGRESNI MODEL

Prıklad 8.11 Ilustrace postupu 8.5

Uvazujme opet udaje o starı a cene 11 ojetych aut Skoda Forman z tabulky 8.1. Poskytujı namudaje dostatek argumentu pro to, abychom udelali na 5% hladine vyznamnosti zaver, ze starıa cena auta znacky Skoda Forman jsou zaporne linearne korelovane, jestlize vyberovy korelacnıkoeficient je roven −0.924?Resenı:1. Necht’ ρ je linearnı korelacnı koeficient pro veliciny starı a cena auta Skoda Forman. Paknulova a alternativnı hypotezy jsouH0 : ρ = 0 (starı a cena auta jsou linearne nekorelovane)HA : ρ < 0 (starı a cena auta jsou zaporne linearne korelovane). Test je levostranny.2. α = 0.05 .3. Kriticka hodnota pro levostranny test je −t0.05 s ν = 11− 2 = 9. Z tabulky III. najdeme −t0.05 =−1.833.

4. Vyberovy korelacnı koeficient r = −0.924. Tudız hodnota vyberove statistiky je

tc =−0.924√1−(−0.924)2

11−2

= −7.249 .

5. Protoze hodnota tc je mensı nez −t0.05 = −1.833, padne do kritickeho oboru hypotezy H0 a tudızH0 zamıtame.6. Vysledky testu jsou statisticky vyznamne na 5% hladine. To znamena, ze na 5% hladinevyznamnosti nam data davajı dostatek argumentu k tomu, abychom udelali zaver, ze starı acena auta Skoda Forman jsou zaporne linearne korelovane.

8.7 Obecny regresnı model

Doposud jsme se zabyvali metodami, jak popisovat a delat zavery o prubehu a tesnostizavislosti v prıpade, ze zkoumame linearnı vztah dvou kvantitavnıch statistickych znaku.Zkoumali jsme linearnı zavislost zavisle, vysvetlovane veliciny Y na jedine nezavisle, vysvetlu-jıcı velicine X. V rade prıpadu se nam nepodarı vysvetlit zmeny vysvetlovane veliciny pouzejedinou vysvetlujıcı velicinou. Pak musıme rozsırit pocet vysvetlujıcıch velicin, jimiz je moznevysvetlit chovanı zavisle veliciny. V tomto prıpade tedy zkoumame, jak zavisı velicina Y navysvetlujıcıch velicinach X1, X2, · · · , Xr.

Metody zkoumanı zavislostı tohoto typu se nazyvajı vıcenasobnou (velmi casto pouzı-vame termın mnohonasobnou) regresı a korelacı.

Predpokladejme, ze zkoumana nahodna velicina Y zavisı na velicinach X1, X2, · · · , Xr

tak, ze jejı strednı hodnota E(Y ) je funkcı techto velicin a neznamych parametru θ1, θ2, · · · , θs

E(Y ) = f(x1, x2, · · · , xr; θ1, θ2, · · · , θs), (8.3)

kde x1, x2, · · · , xr jsou namerene hodnoty velicin X1, X2, · · · , Xr a θ1, θ2, · · · , θs jsou parame-try. Funkce f se nazyva regresnı funkce a θ1, θ2, · · · , θs se nazyvajı parametry regrese neboregresnı parametry.Uvedeny model (8.3) muzeme take vyjadrit ve tvaru

Y = f(x1, x2, · · · , xr; θ1, θ2, · · · , θs) + ε, (8.4)

141

Page 142: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 8 REGRESNI A KORELACNI ANALYZA

kde ε je nahodna velicina, (tzv. rusiva slozka) se strednı hodnotou E(ε) = 0.Pri vysetrovanı regresnı zavislosti je regresnı funkce zpravidla znama (z teoretickych

uvah) nebo se jejı tvar predpoklada. Potom se muzeme omezit na odhad regresnıch para-metru. K tomu nejcasteji pouzıvame metodu nejmensıch ctvercu.

Metoda nejmensıch ctvercu pro obecny regresnı model

Necht’ y1, y2, · · · , yn je n nezavislych pozorovanı nahodne veliciny Y a x1j, x2j, · · ·xnj jsoudane hodnoty veliciny Xj, j = 1, 2, · · · , r. Parametry θ1, θ2, · · · , θs regresnıho modelu (8.3)

odhadneme metodou nejmensıch ctvercu, tj. urcıme parametry θ1, θ2, · · · , θs pri nichz funkce

S(θ1, θ2, · · · , θs) =n∑

i=1

[yi − f(x1, x2, · · · , xr; θ1, θ2, · · · , θs)]2 (8.5)

nabyva sveho minima.

Podle tvaru regresnı funkce mluvıme o linearnı, exponencialnı, kvadraticke, polynomickea jinych regresıch. Uvedeme ty, ktere majı nejcastejsı prakticke pouzitı [7].

Jednoducha regrese

V prıpade, ze uvazujeme jednu nezavislou velicinu, mluvıme o jednoduche regresi a tentotyp muzeme zapsat ve tvaru

E(Y ) = f(x, β0, β1, · · · , βk) (8.6)

Nejcastejsı pouzıvane jsou ty jednoduche regresnı funkce, ktere jsou linearnı z hlediska para-metru. Nazyvajı se linearnı regresnı funkce a majı tvar

E(Y ) = β0 + β1f1(x) + · · ·+ βkfk(x), (8.7)

kde β0, β1, · · · , βk jsou nezname parametry a f1, f2, · · · , fk jsou zname funkce nezavisle velicinyX. Dale uvedeme nekolik prıpadu linearnı regresnı funkce:

a) Dosadıme-li do (8.7) k = 1 a f1(x) = x, dostaneme prımkovou regresi, kterou jsmese podrobne zabyvali v odstavci 8.1

E(Y ) = β0 + β1x. (8.8)

b) Dosadıme-li do (8.7) f1(x) = x a f2(x) = x2, dostaneme parabolickou regresi

E(Y ) = β0 + β1x + β2x2. (8.9)

c) Obecne, dosadıme-li do (8.7) fi(x) = xi, pro kazde i = 1, 2, · · · , k, dostaneme poly-nomickou regresi k-teho stupne

E(Y ) = β0 + β1x + β2x2 + · · ·+ βkx

k. (8.10)

d) V prıpade, ze dosadıme do (8.7) f1(x) = x−1 dostaneme hyperbolickou regresiprvnıho stupne

E(Y ) = β0 +β1

x. (8.11)

142

Page 143: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

8.7 OBECNY REGRESNI MODEL

e) Obecne, dosadıme-li do (8.7) fi(x) = x−i, pro kazde i = 1, 2, · · · , k, dostaneme hyper-bolickou regresi k-teho stupne

E(Y ) = β0 +β1

x+

β2

x2+ · · ·+ βk

xk. (8.12)

f) Dosazenım k = 1 a f1(x) = log x do (8.7), dostaneme logaritmickou regresi

E(Y ) = β0 + β1 log x. (8.13)

Vedle jednoduchych regresnıch funkcı typu (8.7), ktere jsou linearnımi funkcemi paramet-ru, se setkavame s jednoduchymi regresnımi funkcemi, ktere nejsou linearnı z hlediska para-metru. Mezi nejcasteji pouzıvane funkce tohoto typu patrı exponencialnı regresnı funkce

E(Y ) = β0βf1(x)1 β

f2(x)2 · · · βfk(x)

k . (8.14)

Pro k = 1 a f1(x) = x dostaneme exponencialnı regresi prvnıho stupne

E(Y ) = β0βx1 . (8.15)

Parametry funkce (8.14) a jinych funkcı, ktere nejsou linearnımi funkcemi parametru,nelze odhadovat prımo metodou nejmensıch ctvercu, nebot’ jejı pouzitı vede k soustavenelinearnıch rovnic, z nichz zpravidla nedokazeme odhadnout prımo parametry ve formevhodnych vypocetnıch vzorcu. V prıpade nekterych regresnıch funkcı muzeme pouzıt vhod-nou transformaci a prevest je do tvaru (8.7).

Podrobneji o regresnı a korelacnı analyze z hlediska praktickeho pouzitı pojednava pub-likace [7].

Linearnı regresnı model dennı automobilove dopravy

Prakticke vyuzitı jednoducheho linearnıho modelu si ukazeme na statistickem prıstupu k mo-delovanı dennı automobilove dopravy, jaky byl pouzit v roce 1991 v Oslo. Cılem bylo odhad-nout ucinnost zavedenı poplatku na vybranych frekventovanych silnicıch v Oslo [1].

Poplatky za uzıvanı nekterych silnic byly v Oslo zavedeny od 1.2.1990. Jeden rok predzavedenım poplatku byly instalovany merıcı stanice na 16 mıstech, kde mely byt poplatkyvybırany. Necely rok po zavedenı poplatku bylo v Oslo rozmısteno 50 merıcıch stanic na30 silnıcıch a zjist’ovan pocet projızdejıcıch automobilu v obdobı od 1.1.1991 do 31.1.1992,celkove 762 dnı. Na nejdulezitejsıch silnicıch byl pocet projızdejıcıch automobilu sledovannepretrzite az na kratka obdobı, kdy selhalo automaticke zarızenı. Na nekterych silnicıch seprovadela merenı pouze po nekolik tydnu v kazdem roce. Kazda merıcı stanice zaznamenavalapocet aut projızdejıcıch v jednom smeru. Protoze vetsina silnic byla dvousmernnych, bylystanice casto instalovany na stejnych mıstech v obou smerech, ale byly povazovany za dveruzne stanice. Pocet merenı v kazde stanici se pohyboval od 15 do 640.Zvoleny matematicky model popisuje dennı dopravu pomocı sesti komponent:

– Obecna uroven

– Trend, dlouhodobe tato slozka vykazuje pokles nebo rust

– Sezonnı efekt (variabilita opakujıcı se kazdy rok)

– Vliv zpusobeny dnem v tydnu

143

Page 144: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

KAPITOLA 8 REGRESNI A KORELACNI ANALYZA

– Zvlastnı dny (velikonoce, vanoce a ostatnı volne dny)

– Chyba merenı

Tyto komponenty charakterizujı dennı dopravu prostrednictvım nasledujıcıho multiplika-tivnıho modelu:

Dennı doprava = uroven · trend · sezona · den v tydnu · zvlastnı dny · chyba.

Model pro (prirozeny) logaritmus dennı dopravy je pak aditivnı a je to model typu vyjadrenyvztahem (8.7) .

Pro kazdou merıcı stanici je model dennı dopravy formulovan jako linearnı regresnı model

log(dennı doprava v den t) = yt = β0 +46∑

i=1

βiXit + εt,

kde yt je logaritmus dennı dopravy v den t, Xit, (i = 1, 2, · · · , 46) je vysvetlujıcı velicinav den t reprezentujıcı systematicke zmeny (trend, sezonnı vlivy, vliv dne v tydnu a specialnıdny), a ε je chyba v den t. Parametr β0 je konstantnı clen reprezentujıcı uroven, zatımco βi

(i = 1, 2, · · · , 46) urcujı vliv vysvetlujıcıch velicin.Merenı byla provadena prostrednictvım 50 merıcıch stanic se 47 neznamymi regresnımi

parametry pro kazdou stanici. Tudız bylo celkem 2 350 parametru, ktere bylo treba odhad-nout na zaklade namerenych udaju. To samozrejme nebylo jednoduche, protoze na nekterychstanicıch bylo k dispozici jen 15 merenı. Byla pouzita metoda odhadu neznamych parametru,ktera simultanne odhaduje parametry pro vsechny merıcı stanice.

Na zaklade udaju o dennı doprave bylo zjisteno, ze se provoz snızil na vsech silnicıch,kde se zacali vybırat poplatky (az na jednu, ktera byla po zavedenı poplatku uzavrena).

8.7.1 Maticove vyjadrenı modelu linearnı regrese

Maticovy zpusob zapisu regresnıho modelu je vhodne pouzıvat v prıpade velkeho poctupozorovanı a pri vetsım poctu nezavislych velicin.

Uvazujme regresnı model linearnı v parametrech i v nezavisle promennych. Mejme na-hodne veliciny Y1, Y2, · · · , Yn a matici danych cısel X typu (n× (k + 1)), k + 1 < n tvaru

X =

1 x11 . . . x1k...

.... . .

...1 xn1 . . . xnk

.

Predpokladejme, ze pro nahodny vektor Y = (Y1, Y2, · · · , Yn)T platı

Y = Xβ + ε, (8.16)

kde β = (β0, β2, · · · , βk)T je vektor neznamych parametru a ε = (ε1, ε2, · · · , εn)T je vektor

nahodnych velicin splnujıcı podmınky

E(ε) = 0, Σε = σ2I. (8.17)

Predpokladejme, ze hodnost matice X je rovna k + 1, z toho pak vyplyva, ze matice X jeregularnı. Vektor Xβ nenı nahodny vektor. Z (8.16) a (8.17) plyne

E(Y) = Xβ, ΣY = σ2I. (8.18)

144

Page 145: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

8.7 OBECNY REGRESNI MODEL

Parametry β0, β2, · · · , βk se odhadujı na zaklade pozorovanı y = (y1, y2, · · · , yn)T metodounejmensıch ctvercu tj. z podmınky, ze vyraz S(β) = (y−Xβ)T(y−Xβ) ma byt minimalnı.Oznacme tyto odhady b = (b0, b1, · · · , bk)

T.Platı, ze odhady b = (b0, b1, · · · , bk)

T parametru β = (β0, β2, · · · , βk)T metodou nejmensıch

ctvercu jsou dany vzorcemb = (XTX)−1XTy. (8.19)

Odhad b je nestranny a ma kovariancnı matici Σb = σ2(XTX)−1.

145

Page 146: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Tabulka I: Distribucnı funkce normovaneho normalnıho rozdelenı N (0, 1)

0 z

Pro z < 0.0 poul’ijte vztah Φ(z) = 1− Φ(−z).

z 0.000 0.010 0.020 0.030 0.040 0.050 0.060 0.070 0.080 0.090 z0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536 0.00.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575 0.10.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614 0.20.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652 0.30.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688 0.40.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722 0.50.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755 0.60.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785 0.70.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813 0.80.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839 0.9

1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862 1.01.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883 1.11.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901 1.21.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918 1.31.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932 1.41.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944 1.51.6 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954 1.61.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963 1.71.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971 1.81.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977 1.9

2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982 2.02.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986 2.12.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989 2.22.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992 2.32.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994 2.42.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995 2.52.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996 2.62.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 2.72.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 2.82.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999 2.9

Tabulka II: Kriticke hodnoty normovaneho normalnıho rozdelenı N (0, 1)

α 0.2 0.1 0.05 0.025 0.01 0.005 0.0025 0.001zα 0.842 1.282 1.645 1.960 2.326 2.576 2.807 3.090

146

Page 147: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Tabulka III: Kriticke hodnoty t-rozdelenı

α

0 tα

ν t0.2 t0.1 t0.05 t0.025 t0.01 t0.005 t0.0025 t0.001 ν1 1.376 3.078 6.314 12.706 31.821 63.656 127.321 318.289 12 1.061 1.886 2.920 4.303 6.965 9.925 14.089 22.328 23 0.978 1.638 2.353 3.182 4.541 5.841 7.453 10.214 34 0.941 1.533 2.132 2.776 3.747 4.604 5.598 7.173 4

5 0.920 1.476 2.015 2.571 3.365 4.032 4.773 5.894 56 0.906 1.440 1.943 2.447 3.143 3.707 4.317 5.208 67 0.896 1.415 1.895 2.365 2.998 3.499 4.029 4.785 78 0.889 1.397 1.860 2.306 2.896 3.355 3.833 4.501 89 0.883 1.383 1.833 2.262 2.821 3.250 3.690 4.297 9

10 0.879 1.372 1.812 2.228 2.764 3.169 3.581 4.144 1011 0.876 1.363 1.796 2.201 2.718 3.106 3.497 4.025 1112 0.873 1.356 1.782 2.179 2.681 3.055 3.428 3.930 1213 0.870 1.350 1.771 2.160 2.650 3.012 3.372 3.852 1314 0.868 1.345 1.761 2.145 2.624 2.977 3.326 3.787 14

15 0.866 1.341 1.753 2.131 2.602 2.947 3.286 3.733 1516 0.865 1.337 1.746 2.120 2.583 2.921 3.252 3.686 1617 0.863 1.333 1.740 2.110 2.567 2.898 3.222 3.646 1718 0.862 1.330 1.734 2.101 2.552 2.878 3.197 3.610 1819 0.861 1.328 1.729 2.093 2.539 2.861 3.174 3.579 19

20 0.860 1.325 1.725 2.086 2.528 2.845 3.153 3.552 2021 0.859 1.323 1.721 2.080 2.518 2.831 3.135 3.527 2122 0.858 1.321 1.717 2.074 2.508 2.819 3.119 3.505 2223 0.858 1.319 1.714 2.069 2.500 2.807 3.104 3.485 2324 0.857 1.318 1.711 2.064 2.492 2.797 3.091 3.467 24

25 0.856 1.316 1.708 2.060 2.485 2.787 3.078 3.450 2526 0.856 1.315 1.706 2.056 2.479 2.779 3.067 3.435 2627 0.855 1.314 1.703 2.052 2.473 2.771 3.057 3.421 2728 0.855 1.313 1.701 2.048 2.467 2.763 3.047 3.408 2829 0.854 1.311 1.699 2.045 2.462 2.756 3.038 3.396 29

30 0.854 1.310 1.697 2.042 2.457 2.750 3.030 3.385 3040 0.851 1.303 1.684 2.021 2.423 2.704 2.971 3.307 4050 0.849 1.299 1.676 2.009 2.403 2.678 2.937 3.261 5060 0.848 1.296 1.671 2.000 2.390 2.660 2.915 3.232 6070 0.847 1.294 1.667 1.994 2.381 2.648 2.899 3.211 70

80 0.846 1.292 1.664 1.990 2.374 2.639 2.887 3.195 8090 0.846 1.291 1.662 1.987 2.368 2.632 2.878 3.183 90

100 0.845 1.290 1.660 1.984 2.364 2.626 2.871 3.174 100

147

Page 148: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Tabulka IV: Kriticke hodnoty χ2-rozdelenı

χ2α

0

α

ν χ20.995 χ2

0.99 χ20.975 χ2

0.95 χ20.9 ν

1 0.000 0.000 0.001 0.004 0.016 12 0.010 0.020 0.051 0.103 0.211 23 0.072 0.115 0.216 0.352 0.584 34 0.207 0.297 0.484 0.711 1.064 45 0.412 0.554 0.831 1.145 1.610 56 0.676 0.872 1.237 1.635 2.204 67 0.989 1.239 1.690 2.167 2.833 78 1.344 1.647 2.180 2.733 3.490 89 1.735 2.088 2.700 3.325 4.168 9

10 2.156 2.558 3.247 3.940 4.865 1011 2.603 3.053 3.816 4.575 5.578 1112 3.074 3.571 4.404 5.226 6.304 1213 3.565 4.107 5.009 5.892 7.041 1314 4.075 4.660 5.629 6.571 7.790 1415 4.601 5.229 6.262 7.261 8.547 1516 5.142 5.812 6.908 7.962 9.312 1617 5.697 6.408 7.564 8.672 10.085 1718 6.265 7.015 8.231 9.390 10.865 1819 6.844 7.633 8.907 10.117 11.651 1920 7.434 8.260 9.591 10.851 12.443 2021 8.034 8.897 10.283 11.591 13.240 2122 8.643 9.542 10.982 12.338 14.041 2223 9.260 10.196 11.689 13.091 14.848 2324 9.886 10.856 12.401 13.848 15.659 2425 10.520 11.524 13.120 14.611 16.473 2526 11.160 12.198 13.844 15.379 17.292 2627 11.808 12.878 14.573 16.151 18.114 2728 12.461 13.565 15.308 16.928 18.939 2829 13.121 14.256 16.047 17.708 19.768 2930 13.787 14.953 16.791 18.493 20.599 3040 20.707 22.164 24.433 26.509 29.051 4050 27.991 29.707 32.357 34.764 37.689 5060 35.534 37.485 40.482 43.188 46.459 6070 43.275 45.442 48.758 51.739 55.329 7080 51.172 53.540 57.153 60.391 64.278 8090 59.196 61.754 65.647 69.126 73.291 90

100 67.328 70.065 74.222 77.929 82.358 100

148

Page 149: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Tabulka IV: Kriticke hodnoty χ2-rozdelenı (pokracovanı)

ν χ20.1 χ2

0.05 χ20.025 χ2

0.01 χ20.005 ν

1 2.706 3.841 5.024 6.635 7.879 12 4.605 5.991 7.378 9.210 10.597 23 6.251 7.815 9.348 11.345 12.838 34 7.779 9.488 11.143 13.277 14.860 4

5 9.236 11.070 12.832 15.086 16.750 56 10.645 12.592 14.449 16.812 18.548 67 12.017 14.067 16.013 18.475 20.278 78 13.362 15.507 17.535 20.090 21.955 89 14.684 16.919 19.023 21.666 23.589 9

10 15.987 18.307 20.483 23.209 25.188 1011 17.275 19.675 21.920 24.725 26.757 1112 18.549 21.026 23.337 26.217 28.300 1213 19.812 22.362 24.736 27.688 29.819 1314 21.064 23.685 26.119 29.141 31.319 14

15 22.307 24.996 27.488 30.578 32.801 1516 23.542 26.296 28.845 32.000 34.267 1617 24.769 27.587 30.191 33.409 35.718 1718 25.989 28.869 31.526 34.805 37.156 1819 27.204 30.144 32.852 36.191 38.582 19

20 28.412 31.410 34.170 37.566 39.997 2021 29.615 32.671 35.479 38.932 41.401 2122 30.813 33.924 36.781 40.289 42.796 2223 32.007 35.172 38.076 41.638 44.181 2324 33.196 36.415 39.364 42.980 45.558 24

25 34.382 37.652 40.646 44.314 46.928 2526 35.563 38.885 41.923 45.642 48.290 2627 36.741 40.113 43.195 46.963 49.645 2728 37.916 41.337 44.461 48.278 50.994 2829 39.087 42.557 45.722 49.588 52.335 29

30 40.256 43.773 46.979 50.892 53.672 3040 51.805 55.758 59.342 63.691 66.766 4060 74.397 79.082 83.298 88.379 91.952 6050 63.167 67.505 71.420 76.154 79.490 5070 85.527 90.531 95.023 100.425 104.215 70

80 96.578 101.879 106.629 112.329 116.321 8090 107.565 113.145 118.136 124.116 128.299 90

100 118.498 124.342 129.561 135.807 140.170 100

149

Page 150: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Literatura

[1] M. Aldrin (1995). A statistical approach to the modelling of daily car traffic. TrafficEngineering and Control, Vol. 36, Nb. 3, pp. 489–493.

[2] J.Andel (1985). Matematicka statistika. SNTL, Alfa.

[3] V. Benes, G. Dohnal (1993). Pravdepodobnost a matematicka statistika. VydavatelstvıCVUT.

[4] P. Bremaud (1994). An Introduction to Probabilistic Modeling. Springer Verlag, NewYork.

[5] J.Hatle, J. Likes (1972). Zaklady poctu pravdepodobnosti a matematicke statistiky.SNTL/Alfa, Praha

[6] A.Renyi (1972). Teorie pravdepodobnosti. Academia, Praha.

[7] J. Seger, R. Hindls (1995). Statisticke metody v trznım hospodarstvı. Victoria Publish-ing, Praha.

[8] J.Stepan (1987). Teorie pravdepodobnosti. Matematicke zaklady. Akademia, Praha.

[9] N.A. Weiss (1996). Elementary Statistics, Addison-Wesley Publishing Company.

[10] T.H. Wonnacott, R.J. Wonnacott (1995). Statistika pro obchod a hospodarstvı. (prekladz americkeho originalu Introductory Statistics for Business and Economics), J. Wiley &Sons, New York.

150

Page 151: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Rejstrık

P -hodnota, 101

chybaI. druhu, 98II. druhu, 98strednı kvadraticka, 80vyberova, 80

chı-kvadrat testdobre shody, 115nezavislosti, 118

decil, 23diagram

kruhovy, 20Stem-and-Leaf, 20

extrapolace, 125

funkcedistribucnı, 45

diskretnı, 46marginalnı, 50sdruzena (simultannı), 49spojita, 48

gama, 54logaritmicke verohodnostnı, 83pravdepodobnostnı, 46regresnı, 141

linearnı, 142verohodnostnı, 83

grafbodovy, 19krabicovy, 30sloupkovy, 20

histogram cetnostı, 18hladina vyznamnosti, 98

pozorovana, 102hodnota

kriticka, 97strednı, 51

hustota, 48marginalnı, 50sdruzena, 50

hypoteza, 95alternativnı, 95jednoducha, 96nulova, 95

inferencnı statistika, 10interval predikce, 138interval spolehlivosti, 85

χ2-interval pro rozptyl, 91t-interval pro srednı hodnotu, 89z-interval pro podıl, 92z-interval pro strednı hodnotu, 87dvoustranny, 85levostranny, 85pravostranny, 85

jednotka statisticka, 9jevy

elementarnı, 33jevove pole, 33nezavisle, 40nahodne, 31vzajemne neslucitelne, 35uplny system, 42

koeficientdeterminace, 128korelacnı, 55

vyberovy, 129spolehlivosti, 85variacnı, 29

konvergence podle pravdepodobnosti, 65kovariance, 54kriterium nejmensıch ctvercu, 122

151

Page 152: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

REJSTRIK

kvantil, 23, 53kvartil

dolnı, 23hornı, 23prostrednı, 23

matice kovariancnı, 56median, 54

vyberovy, 23, 25metoda

maximalnı verohodnosti, 82momentu, 82nejmensıch ctvercu, 142

model regresnı linearnı, 131modus, 25moment

centralnı, 53vyberovy, 71

obecny, 52smıseny, 54vyberovy, 70

mıra popisna, 22polohy, 24rezistentnı, 26rozptylenosti

absolutnı, 27relativnı, 29

sikmosti, 30spicatosti, 30

nerovnost Cebysevova, 64

oborkriticky (zamıtnutı), 97prijetı, 97

odchylka smerodatna, 53vyberova, 29

odhadbodovy, 77

asymptoticky nestranny, 79konzistentnı, 79nestranny, 78vydatny (nejlepsı nestranny), 80

intervalovy, 77

parametr regrese, 132, 141percentil, 23podıl

vyberovy, 72sdruzeny, 114

zakladnıho souboru, 72pokus nahodny, 31polygon cetnostı, 19popisna statistika, 9pozorovanı

odlehle, 26, 125vlivne, 125

pravdepodobnostaposteriornı, 43apriornı, 42axiomaticka definice, 36klasicka, 32marginalnı, 50podmınena, 38sdruzena, 49subjektivnı, 43

pravidloo podmınene pravdepodobnosti, 38o scıtanı pravdepodobnostı, 37pro nasobenı pravdepodobnostı, 39pro pravdepodobnost opacneho jevu, 37

prediktor, 126prostor

elementarnıch jevu, 33parametricky, 77pravdepodobnostnı, 36

prumer, 24useknuty, 26vyberovy, 70

peti–cıselna charakteristika, 29prıpustna chyba odhadu

podılu, 93strednı hodnoty, 88

regresejednoducha, 142linearnı, 126

regresnı prımka, 122teoreticka, 131vyberova, 132

reziduum, 132robustnost, 87rovnice

normalnı, 123regresnı, 121, 123

152

Page 153: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

REJSTRIK

verohodnostnı, 83rozdelenı

diskretnı, 56alternativnı, 56binomicke, 56geometricke, 57hypergeometricke, 57Poissonovo, 58rovnomerne diskretnı, 58

spojite, 59χ2, 63exponencialnı, 62normalnı (Gaussovo), 61normalnı dvourozmerne, 64normalnı normovane, 59rovnomerne, 59Studentovo, 63

rozptyl, 53rezidualnı, 133vyberovy, 28, 71

sdruzeny, 74rozpetı

mezikvartilove, 29variacnı, 27

rozsahvyberoveho souboru, 10zakladnıho souboru, 10

souborstatisticky, 10zakladnı, 10

soucet ctvercucelkovy, 127regresnı, 129rezidualnı, 127

statistika, 69t-statistika, 71

nesdruzena, 74sdruzena, 74

odhadova, 77testova, 97

symetrie, 21sıla testu, 98

tabulka kombinacnı, 50test hypotezy, 95

χ2-test, 106t-test

jednovyberovy, 105nesdruzeny, 111parovy, 112sdruzeny, 109

z-testdvouvyberovy, 114jednovyberovy, 104, 108

dvoustranny, 96jednostranny, 96levostranny, 96o korelacnım koeficientu, 140pravostranny, 96

trıdadolnı hranice, 16hornı hranice, 16stred, 16sırka, 16

trıdenıintervalove, 15jednoduche, 17jednostupnove, 14vıcestupnove, 14

vektornahodny, 49strednıch hodnot, 56

velicina, 13kvalitativnı, 13kvantitativnı, 13

diskretnı, 13spojita, 13

vysvetlovana, 126vysvetlujıcı, 126

velicina nahodnadiskretnı, 44spojita, 44

velicinynekorelovane, 55nezavisle, 50

vychylenı (zkreslenı) odhadu, 78vydatnost odhadu, 80vzorec

Bayesuv, 42uplne pravdepodobnosti, 42

vetaBernoulliho, 65centralnı limitnı, 66

153

Page 154: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

REJSTRIK

Chincinova, 65Linderbergova-Levyho, 67Moivreova-Laplaceova, 66

vybernahodny

prosty, 11stratifikovany, 12systematicky, 12vıcestupnovy, 12

vybery nahodnenezavisle, 73parove, 75

znak statisticky, 13zakon

rozdelenı, 45velkych cısel, 64

cetnostabsolutnı, 16

kumulativnı, 16ocekavana (teoreticka), 115pozorovana (empiricka), 115relativnı, 16

kumulativnı, 16

154

Page 155: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

Prıloha

1) Inference pro strednı hodnotu µ

• Strednı hodnota prumeru x : µx = µ

• Smerodatna odchylka prumeru x :σx = σ/

√n

• Normovany tvar x : z = x−µσ/√

n

• z-interval pro µ (σ zname, normalnırozdelenı nebo velky rozsah vyberu n):

x± zα/2σ√n

• Prıpustna chyba odhadu pro µ:

∆ = zα/2σ√n

• t−interval pro µ (σ nezname, normalnırozdelenı nebo velky rozsah vyberu n):

x± tα/2s√n

s ν = n− 1.

• z-testova statistika pro H0 : µ = µ0 (σzname, normalnı rozdelenı nebo velkyrozsah vyberu n):

z =x− µ0

σ

√n

• t-testova statistika pro H0 : µ = µ0

(σ nezname, normalnı rozdelenı nebovelky rozsah vyberu n):

t =x− µ0

s

√n

s ν = n− 1.

2) Inference pro dve strednı hodnoty

• Sdruzena vyberova smerodatna od-chylka:

sP =

√(n1 − 1)s2

1 + (n2 − 1)s22

n1 + n2 − 2

• Sdruzena t-testova statistika pro hy-potezu H0: µ1 = µ2 (nezavisle vybery,normalnı rozdelenı nebo velke rozsahyvyberu, a shodne smerodatne od-chylky):

t =x1 − x2

sP

√(1/n1) + (1/n2)

s ν = n1 + n2 − 2

• Sdruzeny t-interval pro µ1 − µ2

(nezavisle vybery, normalnı rozdelenınebo velke rozsahy vyberu, a shodnesmerodatne odchylky):

x1 − x2 ± tα/2sP

√(1/n1) + (1/n2)

s ν = n1 + n2 − 2.

• Stupne volnosti pro nesdruzenet-postupy:

δ =[(s2

1/n1) + (s22/n2)]

2

(s21/n1)

2

n1 − 1+

(s22/n2)

2

n2 − 1

zaokrouhleno dolu na nejblizsı celecıslo.

• Nesdruzena t-testova statistika pro hy-potezu H0: µ1 = µ2 (nezavisle vybery anormalnı rozdelenı nebo velke rozsahyvyberu):

t =(x1 − x2)√

(s21/n1) + (s2

2/n2)

s ν = δ.

• Nesdruzeny t-interval pro µ1 − µ2

(nezavisle vybery a normalnı rozdelenınebo velke rozsahy vyberu):

x1 − x2 ± tα/2

√(s2

1/n1) + (s22/n2)

s ν = δ.

i

Page 156: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

• Parova t-testova statistika pro hy-potezu H0 : µ1 = µ2 (parove vybery anormalnı diference nebo velke rozsahyvyberu):

t =d

sd/√

n

s ν = n− 1.

• Parovy t-interval pro µ1 − µ2 (parovevybery a normalnı diference nebo velkerozsahy vyberu):

d± tα/2sd√n

.

s ν = n− 1.

3) Inference pro podıly

• Vyberovy podıl: p = xn

• Jednovyberovy z-interval pro p :

p± zα/2

√p(1− p)

n

(Predpoklad: x ≥ 5 ∧ n− x ≥ 5)

• Prıpustna chyba odhadu pro p:

∆ = zα/2

√p(1− p)

n

• Rozsah vyberu n pro odhadovanı p :

n = pg(1−pg)(

zα/2

)2

∨ n = 0.25(

zα/2

)2

,

zaokrouhleno nahoru na nejblizsı celecıslo (pg znacı odhad podılu zıskanyna zaklade predchozıch znalostı nebodosadıme pg(1 − pg) = 0.25 =maxp∈(0,1) p(1− p)).

• Jednovyberova z-testova statistika proH0 : p = p0:

z =p− p0√

p0(1− p0)/n

(Predpoklad: np0 ≥ 5 ∧ n(1−p0) ≥ 5)

• Sdruzeny vyberovy podıl: pP = x1+x2

n1+n2

• Dvouvyberova z-testova statistika proH0 : p1 = p2 :

z =p1 − p2√

pP (1− pP )√

(1/n1) + (1/n2)

(Predpoklady: nezavisle vybery; x1 ≥5∧ n1 − x1 ≥ 5∧ x2 ≥ 5∧ n2 − x2 ≥ 5)

• Dvouvyberovy z-interval pro p1 − p2 :

(p1−p2)±zα/2

√p1(1− p1)

n1

+p2(1− p2)

n2

(Predpoklady: nezavisle vybery; x1 ≥5∧ n1 − x1 ≥ 5∧ x2 ≥ 5∧ n2 − x2 ≥ 5)

• Prıpustna chyba odhadu pro p1 − p2 :

∆ = zα/2

√p1(1− p1)/n1 + p2(1− p2)/n2

4) χ2-postupy

• χ2-testova statistika pro H0 : σ2 = σ20

(normalnı rozdelenı):

χ2 =(n− 1)

σ20

s2

s ν = n− 1.

• χ2-interval pro σ2 (normalnı rozdelenı):

(n− 1)s2

χ2α/2

,(n− 1)s2

χ21−α/2

s ν = n− 1.

• Ocekavane cetnosti pro χ2 test dobreshody: npi

• testova statistika pro χ2 test dobreshody:

χ2 =k∑

i=1

(ni − npi)2

npi

=k∑

i=1

n2i

npi

− n

s ν = k − 1.

ii

Page 157: PRAVDEPODOBNOST• A MATEMATICKA …physics.ujep.cz/~jskvor/KVM/Statistika/...CESK• E VYSOK E U CEN• I TECHNICKE V PRAZE Fakulta dopravn ‡ PRAVDEPODOBNOST• A MATEMATICKA STATISTIKA

• Ocekavane cetnosti pro χ2 testnezavislosti:

noij =

ni•n•jn

, i = 1, · · · , k, j = 1, · · · , ckde n znacı rozsah vyberu a

ni• =c∑

j=1

nij, n•j =c∑

i=1

nij

• Testova statistika pro χ2 testnezavislosti:

χ2 =k∑

i=1

c∑

j=1

(nij − noij)

2

noij

s ν = (k−1)(c−1), kde k je pocet radkua c je pocet sloupcu v kontingencnı tab-ulce.

5) Popisne metody v regresi a korelaci

• Sxx, Sxy a Syy:

Sxx =n∑

i=1

(xi− x)2 =n∑

i=1

x2i − (

n∑

i=1

xi)2/n

Sxy =n∑

i=1

(xi − x)(yi − y)

=n∑

i=1

xiyi − (n∑

i=1

xi)(n∑

i=1

yi)/n

Syy =n∑

i=1

(yi − y)2 =n∑

i=1

y2i − (

n∑

i=1

yi)2/n

• Regresnı rovnice: y = b0 + b1x, kde

b1 =Sxy

Sxx

b0 =1

n(

n∑

i=1

yi − b1

n∑

i=1

xi) = y − b1x

• Celkovy soucet ctvercu:

Sy =n∑

i=1

(yi − y)2 = Syy

• Regresnı soucet ctvercu:

Sy =n∑

i=1

(yi − y)2 = S2xy/Sxx

• Residualnı soucet ctvercu:

S(y−y) =n∑

i=1

(yi − yi)2 = Syy − S2

xy/Sxx

• Regresnı identita:

Sy = Sy + S(y−y)

• Koeficient determinace:

r2 = 1− S(y−y)

Sy

=Sy

Sy

• Linearnı korelacnı koeficient:

r =Sxy√SxxSyy

6) Inferencnı metody v regresi a korelaci

• Teoreticka regresnı rovnice:y = β0 + β1x

• Reziudalnı rozptyl: s2e =

S(y−y)

n−2

• Testova statistika pro H0 : β1 = 0 :

t =b1

se/√

Sxx

s ν = n− 2.

• Interval spolehlivosti pro β1 :

b1 ± tα/2se√Sxx

s ν = n− 2.

• Interval spolehlivosti pro strednı hod-notu rozdelenı nahodne veliciny Yodpovıdajıcı urcite hodnote xp :

yp ± tα2.se

√1

n+

(xp − x)2

Sxx

s ν = n− 2.

• Predikcnı interval pro hodnotunahodne veliciny Y odpovıdajıcı urcitehodnote xp :

yp ± tα2.se

√1 +

1

n+

(xp − x)2

Sxx

s ν = n− 2.

• Testova statistika pro H0 : ρ = 0 :

t =r√1−r2

n−2

s ν = n− 2.

iii