176
UNIVERZITA OBRANY KATEDRA EKONOMETRIE UČEBNÍ TEXT PRO DISTANČNÍ STUDIUM PREPRINT POPISNÁ STATISTIKA A VÝBĚROVÁ ŠETŘENÍ RNDr. Oldřich KŘÍŽ Mgr. Jiří NEUBAUER, Ph.D. Mgr. Marek SEDLAČÍK, Ph.D. Brno 2009

PREPRINT POPISNÁ STATISTIKA A VÝBĚROVÁ ŠETŘENÍk101.unob.cz/~neubauer/pdf/popisstat_vybersetreni_preprint.pdf · Seznam literatury 161 Statistické tabulky 163. PREPRINT O

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • UNIVERZITA OBRANY • KATEDRA EKONOMETRIE

    UČEBNÍ TEXT PRO DISTANČNÍ STUDIUM

    PREPRINT

    POPISNÁ STATISTIKA

    A VÝBĚROVÁ ŠETŘENÍ

    RNDr. Oldřich KŘÍŽMgr. Jiří NEUBAUER, Ph.D.Mgr. Marek SEDLAČÍK, Ph.D.

    B r n o2 0 0 9

  • 3

    Obsah

    1 ÚVOD DO STATISTIKY 51.1 Historický přehled . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Význam a pojetí moderní statistiky . . . . . . . . . . . . . . . . . . . . 131.3 Statistická jednotka a statistický soubor . . . . . . . . . . . . . . . . . 171.4 Statistický znak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.5 Shrnutí 1. kapitoly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271.6 Test ke kapitole 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    2 POPISNÁ STATISTIKA 292.1 Vyjadřovací prostředky statistiky . . . . . . . . . . . . . . . . . . . . . 292.2 Základní zpracování dat . . . . . . . . . . . . . . . . . . . . . . . . . . 322.3 Charakteristiky polohy . . . . . . . . . . . . . . . . . . . . . . . . . . . 402.4 Charakteristiky variability . . . . . . . . . . . . . . . . . . . . . . . . . 482.5 Charakteristiky koncentrace . . . . . . . . . . . . . . . . . . . . . . . . 542.6 Kompletní zpracování dat pomocí aplikace STAT1 . . . . . . . . . . . . 572.7 Shrnutí 2. kapitoly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 622.8 Test ke kapitole 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

    3 VÝBĚROVÁ ŠETŘENÍ 653.1 Druhy výběrového šetření . . . . . . . . . . . . . . . . . . . . . . . . . 653.2 Náhodný výběr a výběrové charakteristiky . . . . . . . . . . . . . . . . 683.3 Výběrová rozdělení . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 713.4 Populace, výběr a statistické usuzování . . . . . . . . . . . . . . . . . . 74

    4 ODHADY CHARAKTERISTIK ZÁKLADNÍHO SOUBORU 774.1 Bodové odhady parametrů . . . . . . . . . . . . . . . . . . . . . . . . . 774.2 Intervalové odhady parametrů . . . . . . . . . . . . . . . . . . . . . . . 834.3 Intervalové odhady parametrů normálního rozdělení . . . . . . . . . . . 854.4 Intervalový odhad střední hodnoty pro výběry velkého rozsahu . . . . . 994.5 Intervalový odhad parametru alternativního rozdělení . . . . . . . . . . 1054.6 Shrnutí 4. kapitoly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1104.7 Test ke kapitole 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

    5 TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ 1135.1 Pojem hypotézy a podstata testování hypotéz . . . . . . . . . . . . . . 1135.2 Test o nulové šikmosti a nulové špičatosti náhodné veličiny . . . . . . . 1235.3 Jednovýběrové testy hypotéz . . . . . . . . . . . . . . . . . . . . . . . . 1255.4 Dvouvýběrové testy hypotéz . . . . . . . . . . . . . . . . . . . . . . . . 1345.5 Testy hypotéz o rozdělení základního souboru . . . . . . . . . . . . . . 1485.6 Shrnutí 5. kapitoly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1575.7 Test ke kapitole 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

  • 4

    Seznam literatury 161

    Statistické tabulky 163

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 5

    1 ÚVOD DO STATISTIKY

    První kapitolu této učební pomůcky budeme věnovat úvodnímu seznámení se sta-tistikou. Představíme si statistiku jako vědní disciplínu, která se vyvinula z původníchstarověkých sčítání obyvatel a majetku až k současnosti. Dozvíme se, co si vlastně mámepředstavit pod pojmem statistika a jakou roli hraje statistika v moderní ekonomii. Nášodborný slovník si rozšíříme o další velmi důležité pojmy, abychom se v odbornémprostředí domluvili a také rozuměli tomu, co se kde ve „statistickém jazykuÿ píše čimluví.

    Cílem kapitoly je:

    • seznámit se s historií statistiky a nejvýznamnějšími osobnostmi jejího vývoje,• vysvětlit podstatu a roli hromadného pozorování ve statistice,• zavést pojmy statistický soubor a statistický znak.

    1.1 Historický přehled

    Slovo statistika pochází z italského stato, původně s významem stav, od koncestředověku také státní území resp. stát. Jako první jej patrně použil Girolamo Ghilini(1589–1669) v práci Ristretto della civile, politica, statistica e militare scienza Shrnutícivilní, politické, statistické a vojenské vědy), ve které shromáždil různé znalosti tédoby o státu, o jeho obyvatelích, životě, právu, obchodu i výrobě, náboženství i armádě.Především v tomto smyslu se potom slovo stato rozšířilo i do jiných jazyků, např. state,Staat, état, estato.

    Podněty pro vznik statistiky

    První historické zmínky o činnostech, které z dnešního pohledu připomínají statis-tiku, pocházejí už ze starověku. Záznamy o sčítání obyvatel a majetku můžeme najítuž v písemnostech starých Babyloňanů z období před rokem 3800 př. n. l. Historickynejstarším směrem ovlivňujícím také vznik statistiky byla existence prvních městskýchstátů v období 3–2 tisíce let př. n. l. ve starověkých civilizacích, jakými byly Egypt,Čína, Mezopotámie, Palestina, Řecko nebo Řím. Se vznikem městských států vznikátaké potřeba jejich správy, se kterou jsou spojené nemalé náklady, proto se zvyšujevýběr daní. K určení jejich výše je ale nezbytné mít číselné údaje o území, obyvatel-stvu, zemědělství, obchodu, řemeslech apod. Tyto informace se získávají zejména nazákladě soupisu obyvatelstva a dalších šetření, která mají z dnešního pohledu charakterstatistických šetření.Jednu z prvních zmínek o statistickém šetření nalezneme také v Bibli, kde je ve

    Starém Zákoně ve 4. knize Mojžíšově informace o sčítání provedeném Mojžíšem po

  • 6 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    odchodu izraelského národa z Egypta a obsahuje konkrétní počty bojovníků, oddílů,velitelů, ale i darů Ježíšovi.Velké sčítání lidu zavedli také ve starověkém Římě v 5. století př. n. l. Sčítání měli

    na starosti vysocí úředníci, nazývaní cenzoři. Sčítání (cenzy) se konala každých 5 let azjišťovaly se nejen počty obyvatel a jejich majetek, ale také např. počet otroků.Podobné průzkumy se postupně rozšiřovaly i na další evropské země, a to až do

    období středověku. Od 16. století byly zřizovány církevní matriky, které se na dlouhoudobu staly základním zdrojem informací o obyvatelích.

    Tři kořeny statistiky

    Vlastní termín statistika se začal používat až v 18. století v Německu pro označenínauky o státu. Tato vědecká disciplína se začala rozvíjet v 16. století na univerzitáchv Itálii a později také právě v Německu, proto se jí říká univerzitní statistika. Tehdejšístatistické studie obsahovaly především údaje o evropských státech – geografické, po-litické, ekonomické a další. Na rozdíl od dnešní statistiky neobsahovaly mnoho čísel,většina zaznamenaných údajů měla charakter slovní.Jedno z prvních státovědných děl Del governo et administratione di diversi regni

    (O vládě a správě v různých královstvích a republikách) vyšlo v roce 1562 v Benátkách anapsal je Francesco Sansovina. Přesně o sto let později uveřejnil Ludwig von Seckendorffsvou státovědnou knihu Německý knížecí stát. Na jejich práce navazuje nejvýznamnějšíteoretik statistiky v německé jazykové oblasti Gottfried Achenwall (1719–1772). Bylprofesorem statistiky na univerzitě v Göttingenu, autorem populární učebnice statis-tiky, která byla předepsána pro přednášky statistiky i na Karlově univerzitě v Praze.V Anglii mezitím vznikl zcela jiný okruh statistiky, a to takzvaná politická aritme-

    tika, která vycházela z údajů o narozeních a úmrtích, a na tomto základě se pokoušelapozorovat a srovnávat informace o obyvatelstvu za delší časové úseky. Tyto průzkumyvycházely z údajů tehdejších církevních matrik a na jejich základě se snažily odvoditněkteré obecně platné zákonitosti (např. že se rodí obecně více chlapců než děvčat).

    Gottfried Achenwall (1719–1772) William Petty (1623–1687)

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 7

    Její nejvýznamnější představitelé jsou William Petty (1623–1687) a John Graunt(1620–1674). Petty je považován za předchůdce moderní statistiky i klasické politickéekonomie. Jeho nejvýznamnější dílo Pět esejí o politické aritmetice bylo vydáno po-smrtně (1960). Graunt byl obchodník a zabýval se především demografií. Napsal prvníucelenou demografickou studii s poněkud pochmurným názvem Přirozená a politickápozorování založená na seznamech zemřelých (1662).V 18. století se toto zaměření statistiky začalo prosazovat i v Německu a obě sta-

    tistické školy se začaly vzájemně ovlivňovat a postupně sbližovat. Statistika začala vevětší míře používat čísla a přestala se zabývat pouze popisem státních pozoruhodností.Postupně začala pronikat i do jiných vědeckých disciplín, aby se nakonec prosadila jakosamostatná věda.Nezávisle na statistice se od 17. století začala rozvíjet ještě jiná teoretická dis-

    ciplína, která vznikla jako součást matematiky – teorie pravděpodobnosti. Zatím costatistika zkoumá hromadné jevy, teorie pravděpodobnosti se naopak zabývá jevy in-dividuálními, jedinečnými. Pravděpodobnost je chápána jako šance – naděje, že sledo-vaný konkrétní jev nastane. Ve skutečnosti však statistika a teorie pravděpodobnostipředstavují dva pohledy na stejný problém. Každý hromadný jev je totiž tvořen jed-notlivými jevy individuálními, a naopak opakováním individuálního jevu získáme jevhromadný. V současné době nelze teorii pravděpodobnosti a statistiku od sebe oddělit– teorie pravděpodobnosti je považována za teoretický základ statistiky.

    Siméon Denis Poisson (1781–1840) Carl Friedrich Gauss (1777–1855)

    Rozvoj teorie pravděpodobnosti probíhal zpočátku inspirován hlavně hazardnímihrami. Za její počátek se považuje slavná výměna dopisů mezi matematiky Blaisem Pas-calem [paskal] (1623–1662) a Pierrem de Fermatem (1601–1665) zahájená roku 1654.Šlo jim tehdy o otázku, jak spravedlivě rozdělit bank mezi hráče, jestliže série hazard-ních her musela být předčasně přerušena. Tehdy rozvíjené teorii pravděpodobnosti dnesříkáme klasická pravděpodobnost. Mezi další osobnosti, které se věnovali teorii pravdě-podobnosti, patří švýcarští matematici (bratři) Jacob Bernoulli [bernuli] (1656–1705)a Johann Bernoulli (1667–1748), francouzští matematici Abraham de Moivre [moávr](1667–1754), Pierre Simon de Laplace [laplas] (1749–1827), a také Siméon Denis Po-

  • 8 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    isson [poason] (1781–1840), po němž bylo pojmenované rozdělení, které je vhodné propopis jevů s nízkou pravděpodobností jevu při značném rozsahu výběrového souboru.Významným přínosem pro teorii chyb byl dále vynikající německý matematik CarlFriedrich Gauss (1777–1855), který přispěl k formulování tzv. normálního rozdělenípravděpodobnosti.

    Statistika jako nová věda

    Postupným splýváním nauky o státu, politické aritmetiky a teorie pravděpodobnostiv 18. a 19. století vznikla statistika jako samostatná vědní disciplína, která popisovalahromadné jevy v nově vznikajících vědách – přírodních, technických i ekonomických.Statistika tohoto období se zabývala především popisem zkoumaných hromadných jevů,proto se také nazývá popisná – deskriptivní statistika. Metodou statistických průzkumůbyla vyčerpávající šetření podle zásady: čím více údajů získáme, tím přesnější budouzávěry. Toto pravidlo ve statistice převládalo až do konce 19. století.Významnou osobností nové statistiky byl belgický matematik Adolphe Jacques

    Quételet [kételet] (1796–1874), který je zakladatelem prvního národního statistickéhoúřadu (1841) v Evropě. Mimo jiné se věnoval rozsáhlému sběru dat o lidské populaci aprezentoval svůj pojem „průměrného člověkaÿ jako centrální hodnoty, kolem které seměřené tělesné míry shlukují podle normální křivky. V té souvislosti zavedl také po-jem index tělesné hmotnosti používaný dodnes pro stanovení míry obezity a známý podzkratkou BMI (body mass index). Naznačil tak budoucí směřování statistiky k normál-nímu rozdělení, střední hodnotě a rozptylu. Pomohl také zavést statistické techniky dokriminalistiky, pomocí statistické analýzy porozuměl Quételet vztahu mezi zločinem aostatními sociologickými faktory.

    Adolphe Jacques Quételet (1796–1874) Ronald Aylmer Fisher (1890–1962)

    Na přelomu 19. a 20. století však dochází ve vývoji statistiky k zásadní změně.Začala éra matematické – induktivní statistiky, která na základě teorie pravděpodob-nosti umožňuje získat kvalifikované závěry – odhady o sledovaném jevu i z maléhodostupného vzorku údajů. Nové statistické postupy otevřely možnosti pro nejrůznější

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 9

    typy průzkumů, ve kterých se z vlastností části usuzuje na chování celku. Na bázi in-duktivní statistiky vznikly také extrapolační – prognostické metody, které na základěznalosti dat z minulosti umožní vytvořit kvalifikovaný odhad chování v budoucnosti.

    Těžiště rozvoje induktivní statistiky se do značné míry přesunulo do anglo-americkéoblasti a je spojeno především se jménem anglického statistika sira Ronalda AylmeraFishera (1890–1962), který stál u vzniku mnoha dnes obvyklých metod statistickéanalýzy. Je považován za zakladatele teorie plánování experimentů v biologickém azemědělském výzkumu. Významné výsledky dosáhl i další anglický statistik WilliamSealy Gosset (1876–1937), který pracoval jako chemik v irském pivovaru Guinness atam vymyslel postup, který umožnil provádět z malých výběrů použitelné závěry, při-nejmenším však poznat, jak posuzovat vypovídací hodnotu takových výběrů. Gossetse pod svá průkopnická díla podepisoval pseudonymem „Studentÿ, protože jeho firmamu publikování výsledků pod vlastním jménem zakázala.

    Další významní představitelé anglické statistické školy byli Francis Galton (1822–1911) a Charles Pearson (1857–1936), kteří položili základy zkoumání závislostí mezihromadnými jevy. K rozvoji matematické statistiky přispěli také ruští matematici:Pafnutij Lvovič Čebyšev (1821–1894), Andrej Andrejevič Markov (1856–1922) a AndrejNikolajevič Kolmogorov (1903–1987), ten je považován za zakladatele moderní teoriepravděpodobnosti.

    Charles Pearson (1857–1936) William Gosset (1876–1937) alias Student

    U nás dosáhli pozoruhodných výsledků dvě osobnosti. Profesor Jaroslav Janko(1893–1965). Svou celoživotní činností velmi úspěšně přispěl k rozvoji matematicko-statistických metod, k jejich nanejvýš užitečnému uplatnění ve výzkumu a praxi a za-psal se tak do historie matematické statistiky u nás. Známá jsou jeho díla Jak vytvářístatistika obrazy světa a života, Základy statistické indukce a Statistické tabulky. Dru-hým je profesor Jaroslav Hájek (1926–1974), kterého lze považovat za nejvýznamnějšíhočeského statistika v historii české matematiky. Jeho odborné aktivity byly zaměřené naneparametrické statistické metody.

  • 10 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    Současná statistika

    Statistika dnes představuje vědní disciplínu se širokým praktickým uplatněním. Po-užívá se zejména jako důležitý nástroj získávání informací ve veřejných sférách našehoživota, ale i jako důležitý nástroj řešení nejrůznějších odborných problémů, zejménatechnických, přírodovědných, ekonomických, vojenských, sociálních. Je tomu tak proto,že moderní statistika využívá všech postupů a metod, které během svého dlouhého vý-voje vytvořila nebo osvojila. Používá jak prvky klasické popisné statistiky, založené naanalýze hromadných dat, tak i prvky moderní matematické statistiky, postavené nateorii pravděpodobnosti. Proto statistiku vnímáme nejen jako nástroj poznání (velkýnepřehledný soubor dat dokáže nahradit několika výstižnými charakteristikami), aletaké jako nástroj rozhodování v neurčitosti (na základě vlastnosti vzorku usuzuje navlastnosti celého souboru, popř. z informací o minulosti předvídá vývoj v budoucnosti).

    Velký význam pro rozvoj a využití statistických metod měl nástup výpočetníchtechnologií, zejména osobních počítačů. Počítač vítězí nad člověkem především v těchúkonech, které jsou pro člověka tradičně nejzdlouhavější - třídění, vyhledávání a výpo-čty s velkým množstvím dat. Také možnosti tabulkového zpracování a grafického vy-jadřování jsou počítačům vlastní. Mezi nejznámější profesionální statistické programyse širokým portfoliem metod a technik patří STATISTICA, SPSS, SAS, UNISTAT,STATGRAPHICS a další, z českých produktů QCExpert. Pro potřebu výuky statis-tiky využívá řada škol i tabulkový kalkulátor MS EXCEL, který patří k základní výbavěosobního počítače. Náš kurz statistiky bude podporovaný jednoduchou aplikací STAT1,vytvořenou právě v excelovském prostředí.

    Statistika byla zpočátku využívána spíše ve vědách přírodních (fyzika, chemie)a technických, v posledních letech však zaznamenává úspěch také v disciplínách huma-nitního charakteru, například v psychologii, sociologii, pedagogice, ale také v ekonomii,která původně vznikla jako věda sociální, během času se svými metodami přiblížilaspíše vědám přírodním. K výraznějšímu rozvoji statistických metod došlo na přelomu19. a 20. století, a to zejména díky novým objevům ve statistice (zejména nástupumetod matematické statistiky). To vedlo k dalšímu přibližování statistiky reálnémuživotu a prudkému rozvoji aplikací statistiky v nejrůznějších oborech lidské činnosti.Vznikaly tak postupně speciální statistické metody, které tvořily základ speciálníchvědních disciplín. Pod názvem biostatistika resp. biometrika se např. rozumí aplikacestatistiky na biologické problémy, zatímco pro analýzu chemických dat se spíše užívátermín chemometrie. Hlavním cílem aplikací statistických metod v biomedicínském vý-zkumu je zajistit správnost a odbornost statistického vyhodnocování dat a interpretacezískaných výsledků. Používání počítačů k těmto účelům je v dnešní době samozřejmé.

    Aplikací statistických metod na ekonomická a sociálně-ekonomická data vzniklasamostatná statistická disciplína, ekonomická statistika. Předmětem ekonomické sta-tistiky je analýza stavu a vývoje jevů v hospodářské oblasti jako východiska k hos-podářskému rozhodování či stanovení hospodářské politiky. Na využití statistickýchmetod je založený průzkum trhu, plánování výroby, prognostika, kontrola kvality vý-roby, personální politika, výroční zprávy (určené akcionářům). Ještě k vyšší kvalitě

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 11

    ekonomické analýzy vede disciplína označovaná jako ekonometrie. Ta představuje syn-tézu ekonomické teorie, informatiky, matematiky a statistiky. Tato syntéza není všakmechanickým spojením ekonomické analýzy s metodickým aparátem matematiky a sta-tistiky resp. elektronickými prostředky, ale jde o propojení vzájemně se podmiňujícíchvědních disciplín.

    Statistika v Českých zemích

    Statistika je s historií našeho území spjata již od nepaměti. Důvody jsou zcela prak-tické a zřejmé. Každý vládce chtěl mít přehled, jaký má majetek, kolik má k dispozicimužů do vojska, či od kolika poddaných může vymáhat daně. Ale důvody pro statis-tické zjišťování byly mnohdy i zcela jiného, humánnějšího rázu. Například za vládycísaře Rudolfa II. v roce 1583 vypukla v českých zemích epidemie moru. V jejím dů-sledku bylo zahájeno šetření o „zdraví populaceÿ, které mělo zmapovat vznik a rozvojzhoubných epidemií a umožnit přijímání včasných protiopatření.Jako významný mezník lze označit datum 13. října 1753, kdy byl vydán patent

    císařovny Marie Terezie o každoročním sčítání lidu. Zdokonalení evidence obyvatelsouviselo s rozsáhlou reformní činností Marie Terezie (1717–1780), neboť k provedeníčetných reforem bylo nutné získat objektivní informace o obyvatelstvu. Za vlády MarieTerezie došlo také k reformě evidence narozených a zemřelých. V této souvislosti bylazavedena i první jednoduchá statistická klasifikace příčin úmrtí.Jak už víme, první statistický úřad v Evropě byl založen v roce 1841 v Belgii. Řada

    evropských zemí Quételetův úřad následovala. V roce 1897 byl zřízen Zemský statistickýúřad Království českého, který se stal prvním skutečně statistickým úřadem na územídnešní České republiky. Poprvé byla soustředěna všechna statistická pracoviště, kteráaž do té doby působila v rámci různých ministerstev a dalších institucí.Brzy po vzniku samostatného Československa, už v roce 1919, byl založen Státní

    úřad statistický (SÚS) jako nový orgán pověřený celostátními statistickými šetřeními,mezi něž patřilo i sčítání lidu jako jedno z nejdůležitějších. Úřad se v období mezisvětovými válkami rozvíjel, zdokonaloval a rozšiřoval svoji činnost. K tomu přispěloi úzké sepětí se statistickou teorií. Ve 20. a 30. letech 20. století byla téměř polovinakapacity statistického úřadu věnována vědecké a teoretické činnosti.V období 2. světové války se činnost statistiky v Čechách a na Moravě omezila

    a odpovídala válečným podmínkám i postavení našeho území. Perzekuována byla řadapracovníků SÚS, někteří z nich byli popraveni (např. předseda úřadu Dr. Jan Auerhanbyl 6. 6. 1942 zatčen gestapem a 9. 6. 1942 zastřelen), jiní zemřeli v nacistických věz-nicích a koncentračních táborech. Bezprostředně po skončení 2. světové války byla ob-novena činnost Státního úřadu statistického, s cílem vrátit jej na předválečnou úroveň.Po roce 1948 se československá statistika (zejména v ekonomické oblasti) zaměřovalazejména na úkoly národohospodářské evidence a kontrolu plnění plánu.Po pádu komunistického režimu v roce 1989 se obnovily předpoklady pro budování

    objektivní, nestranné a nestranické státní statistické služby. K 1. 1. 1993 se vznikemČR převzal Český statistický úřad (ČSÚ) všechny kompetence národního statistického

  • 12 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    úřadu. Jeho úkoly a postavení, stejně jako zásady a úkoly fungování státní statistickéslužby v ČR, upravil zákon č. 89/1995 Sb., o státní statistické službě, který byl ještěnovelizován k 1. 1. 2001. Jeho hlavním úkolem je shromažďovat a zveřejňovat sta-tistické informace o sociálním a ekonomickém rozvoji České republiky a obstarávatstatistické informace pro potřeby dalších orgánů státní správy a územní samosprávy.Vedle centrálního pracoviště ČSÚ v Praze existují krajské reprezentace ve všech 14krajských městech. Prvním předsedou ČSÚ byl čechokanaďan Edvard Outrata (*1936Brno). Mimo oficiální soustavu státní statistiky stojí řada specializovaných komerčníchagentur, které se především zabývají statistickými průzkumy (např. marketingovými)pro podnikatelské subjekty, ale jsou také pověřovány úkoly pro státní statistiku.V současné době existují orgány statistické služby prakticky ve všech zemích Evropy.

    Jejich konkrétní podoba a struktura se však může stát od státu lišit, i když v poslednídobě dochází ke koordinace státních statistik v rámci všech členských i přidruženýchzemí EU. Centrálním statistickým orgánem Evropské unie je EUROSTAT, který másídlo v Lucemburku a současným generálním ředitelem je Walter Rademacher (*1952Waldheim). Shromažďuje statistické informace o členských zemích Evropské unie, aletaké o dalších evropských zemích. Šest středoevropských zemí (ČR, Maďarsko, Polsko,Rumunsko, Slovinsko a Slovensko) spolupracuje na výměně statistických informací taképrostřednictvím společné nadnárodní instituce CESTAT.

    1.1.1 Úkoly a problémy k modulu 1.1

    1. Pokuste se zjistit na stránkách ČSÚ www.czso.cz, jaký je v ČR aktuální početobyvatel.

    2. Jaká instituce zabezpečuje v ČR sčítání lidu?

    3. Je možné souhlasit s následujícím výrokem?a) Začátky statistiky spadají do 18. století.b) Za prvopočátky statistiky lze považovat záznamy o sčítání lidu a majetku vestarověku.

    c) Pravděpodobnost dnes představuje neoddělitelnou součást statistiky.d) Označení deskriptivní a induktivní statistika představuje z praktického pohledujedno a totéž.

    e) Stav a vývoj v ekonomické oblasti sleduje disciplína označovaná jako ekonome-trie.

    f) Vrcholný statistický úřad EU je Eurostat.

    Řešení.

    2. Český statistický úřad;3. a) ne; b) ano; c) ano; d) ne e) ne; f) ano.

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 13

    1.2 Význam a pojetí moderní statistiky

    V současné době se pojem statistika používá v různých významech, v různých sou-vislostech a také s ohledem na různé praktické situace. V praktickém životě se můžemesetkat se čtyřmi různými významy, které spolu souvisí. Statistikou se rozumí:a) vědní disciplína, která se zabývá sběrem, zpracováním a vyhodnocováním statistic-kých údajů,

    b) číselné i nečíselné údaje nebo souhrn údajů o hromadných jevech,c) praktická činnost, která vede k získání informací – údajů o zkoumaných jevech,d) instituce, která provádí praktickou statistickou činnost nebo tuto činnost řídí.Abychom si udělali korektní obrázek o tom, co budeme pod pojmem statistika

    rozumět, a v jakých souvislostech či situacích budeme tento pojem používat, podívejmese na následující odstavce.

    Hromadná pozorování a hromadné jevy

    Při studiu pravděpodobnosti jsme vycházeli z toho, že ve statistice jsou studoványnáhodné pokusy , tj. takové pokusy, jejichž výsledky nelze předem stanovit. Pro výsledkyjednotlivých náhodných pokusů jsme zavedli označení náhodné jevy . Pro statistické po-zorování – někdy se také hovoří o statistickém šetření – jsou typické hromadné jevy.Přívlastkem hromadný zdůrazňujeme, že se statistika zabývá pouze takovými náhod-nými jevy, které se v prostoru a čase mohou mnohokrát opakovat nebo se vyskytují vevelkém počtu případů. To tedy znamená, že jevy jedinečné (neopakovatelné) statistikado svého zkoumání nezahrnuje.Hromadné jevy jsou tedy výsledky hromadných pozorování, která se uskutečňují

    v podstatě dvěma způsoby:a) jako výsledky opakovaných pokusů – tj. za stálých podmínek opakujeme náhodnýpokus a po každém pokusu zaznamenáme jeho výsledek; např. 35× opakovaně mě-říme koncentraci určité látky v roztoku, 60× opakovaně měříme velikost prouduv obvodu, 14× opakovaně měříme vzdálenost dvou bodů v terénu, . . . ,

    b) jako výsledky pozorované na velkém počtu jednotek – tj. na všech (mnoha) jednot-kách, které máme k dispozici, provedeme měření nebo zjištění hodnoty, a všechnytakto získané hodnoty si poznamenáme; např. změříme dobu reakce na jistý podnětu 15 řidičů, změříme výkon 23 atletů ve skoku do dálky z místa, zjistíme měsíčnípříjem u 80 zaměstnanců, zjistíme názor 150 vysokoškoláků na bulvární deník, . . . .

    Pokud jde o vyjadřování výsledků pokusů, hovoříme často o obměnách (variantách).Pro statistiku je obvyklé dvojí vyjadřování obměn – číselné a slovní. Např. při váženírohlíku vyjádříme výsledek, tj. hmotnost rohlíku, ve tvaru 47,8 g (vyjádření číselné:47,8), při zjišťování výsledku zkoušky z ekonomie vyjádříme výsledek ve tvaru „dobřeÿ(vyjádření slovní: dobře). Způsobům vyjadřování výsledků náhodných pokusů se alebudeme ještě dále věnovat podrobněji (viz modul 1.4).Při popisu výsledků hromadných pozorování stojí za povšimnutí dvě jejich formy

    – měření a zjišťování. Při měření zpravidla získáváme výsledky v číselné podobě jako

  • 14 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    hodnoty z měřicího přístroje. Hodnoty jsou vyjádřené v určitých jednotkách – fyzikál-ních, chemických či jiných. V souladu s matematickými a odbornými pravidly je možnéje vzájemně převádět. Např. při měření rychlosti auta dostaneme 83,7 km/hod., při mě-ření výšky postavy novorozence dostaneme 39 cm, při měření tvrdosti vody dostaneme1,8mmol/l, při měření velikosti proudu dostaneme 12,5mA, při měření obsahu tukuv mléku dostaneme 1,48 g/l, atd. Vlastní zpracování celých množin takovýchto čísel-ných informací – dat – už provádíme bez jednotek (viz kapitola 2 Popisná statistika).Při zjišťování získáváme výsledky v číselné podobě nebo slovní podobě jako hod-

    noty získané z předem definované množiny obměn. Někdy také hovoříme o popisusledovaných objektů. Např. při průzkumu v obchodu zjistíme počet zákazníků u jednépokladny: 6, při prověřování školních výsledků zjistíme počet bodů z písemného testuu jednoho studenta: 28, při průzkumu kvality pracího prášku zjistíme názor jedné zá-kaznice: velmi dobrý, při předvolebním průzkumu zjistíme preferenci jednoho voliče:strana B, atd.

    Zdroje statistických dat

    Při řešení konkrétního problému reálného světa se setkáme často s potřebou pro-vést statistické šetření, jehož výsledkem jsou statistická data. Podle typu konkrétníhoproblému bude zdrojem takových dat• experiment,• dotazování,• výkaznictví,• pozorování,• sekundární data.Experimentem budeme rozumět cíleně prováděnou činnost zpravidla za účelem ově-

    ření vlivu určitého faktoru na zkoumaný ukazatel. Např. budeme experimentem ověřo-vat vliv nové technologie výroby na jistou vlastnost výrobku, vliv použitého hnojiva navelikost rostlinné produkce, můžeme testovat výrobek na nové podmínky užití, v rámciexperimentu můžeme sledovat chování zkoumaných osob v různých modelových situa-cích apod.Dotazování je jednoduchý způsob získávání statistických dat, který se provádí pí-

    semně (dotazníky, internetové dotazníky) nebo ústně (osobně, telefonicky, ve skupi-nách). Takto je možné získat informace hromadného charakteru od tzv. respondentů,tj. osob náhodně určených k dotazování. Např. vedení střední školy může prostřednic-tvím dotazníku získat informace o názorech na výuku toho či onoho předmětu, vedenípodniku může získat informace o jazykových schopnostech svých pracovníků apod.V některých případech bývá účelné dotazování organizovat anonymně. Na principu do-tazování jsou založené také tzv. ankety, které však nelze považovat za reprezentativníšetření. Vyplnění anketního dotazníku je totiž naprosto dobrovolné, proto získaný ob-raz o řešeném problému může být pouze orientační. Např. vydavatel časopisů se taktobude zajímat o zájem čtenářů o jednotlivé rubriky, výrobce nápojů si takto může zjistitnázory na kvalitu jeho limonád apod.

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 15

    Výkaznictví je možné vnímat jako specifickou formu dotazování. Výkazy slouží kesledování ekonomické činnosti různých subjektů. Jejich odevzdávání a vyhodnocovánířídí ČSÚ na základě zákona č. 89/1995 Sb., podle kterého mají ekonomické subjektytzv. zpravodajskou povinnost. Na této formě statistického šetření se podílí také jednot-livá ministerstva a jejich odborné orgány.Při pozorování se obvykle sleduje chování lidských subjektů v různých situacích

    prostřednictvím jeho smyslů – sledování, ochutnávání, poslouchání, čichání apod. Vý-sledek pozorování je zpravidla subjektivní a závisí na osobě pozorovatele a na okamžiku,kdy je pozorování prováděno. Např. se formou pozorování provádí tzv. senzorické ana-lýzy, kdy se prostřednictvím ochutnávek hodnotí nápoje a potraviny. Nebo lze taktohodnotit vůni sledovaného parfému.Všechny výše uvedené formy statistického šetření využívaly tzv. primární data.

    V některých případech je možné využít i sekundární data, tj. data, která byla získánaza jiným účelem v minulosti (například v rámci jiného průzkumu). Sekundární datalze získat z různých tištěných i elektronických materiálů (statistické ročenky, firemnímateriály, novinové zdroje, počítačové databáze, datové nosiče, apod.).

    Vztah pravděpodobnosti a matematické statistiky

    Ještě jednou se vraťme k pravděpodobnosti. I když počátky pravděpodobnosti jsouspojené s řešením často zajímavých problémů z oblasti hazardních her, v současné doběnejčastější aplikace počtu pravděpodobnosti směřují do oblasti statistiky. Okolo násexistuje mnoho věcí, jevů, událostí, které nelze předvídat – jsou důsledkem náhody.Otázkami náhody a náhodných dějů se zabývají dvě matematické disciplíny: teoriepravděpodobnosti a matematická statistika.Teorie pravděpodobnosti je matematická disciplína, jejímž východiskem je zkou-

    mání náhodných pokusů. Při náhodném pokusu není výsledek jednoznačně určen jehopočátečními podmínkami. Náhodnost určitého pokusu je teoreticky spojena s nedo-statečnou znalostí těchto počátečních podmínek. Náhoda však neznamená subjektivnínevědomost, nastoupení každého náhodného jevu lze prostřednictvím matematickéhoaparátu1 číselně „ocenitÿ, tedy přiřadit mu pravděpodobnost. Teorie pravděpodobnostije tedy tou částí matematiky, která přináší do života matematický aparát pro počítánís náhodnými událostmi. Je tak teoretickým základem pro další disciplíny, které s ná-hodou pracují, jako je teorie náhodných veličin a matematická statistika. Proto jsouužitečné také modely různých rozdělení pravděpodobností (např. binomický, normální,exponenciální, . . . ), kterým jsme se věnovali v 1. díle naší pomůcky (viz [Kříž 3]).Matematická statistika je naproti tomu věda, která zahrnuje studium dat vykazují-

    cích náhodná kolísání, ať už jde o data získaná pečlivě připraveným pokusem provede-ným pod stálou kontrolou experimentálních podmínek v laboratoři, či o data pocháze-

    1Axiomatická teorie pravděpodobnosti publikovaná v roce 1933 A. N. Kolmogorovem je založenána teorii míry nebo alternativní bayesovská teorie publikovaná v roce 1955 E. T. Jaynesem je založenána klasické logice pro případ výroků, jejichž pravdivostní hodnota není jen 0 nebo 1, ale leží mezitěmito hodnotami.

  • 16 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    jící přímo z terénu. Statistika se tedy zabývá získáváním informací z empirických dat,jejím principem je učinit ze vzorku závěr o celku. Předpokládá, že data obsahují ne-přesnosti a nejistoty, které jsou způsobeny náhodnými vlivy. Matematickou statistikutvoří soubor metod pro zpracování hromadných dat, v nichž se závěry vyvozují právěna základě teorie pravděpodobnosti. Právě těmto úkolům statistiky, a také v těchtosouvislostech, se budeme věnovat v dalších částech této pomůcky.

    Součásti matematické statistiky

    Jak jsme už naznačili, v rámci hromadných pozorování provádíme měření nebo zjiš-ťování sledované veličiny u velkého počtu jistých objektů. Výsledkem pozorování jsoupotom hromadná empirická data, která v sobě zahrnují (spíše skrývají) řadu infor-mací o sledované veličině. Tyto informace však „na první pohledÿ nejsou zřejmé, datatotiž představují neuspořádanou, až chaotickou „horuÿ údajů, a nelze z nich prak-ticky žádné informace vyčíst. Proto je třeba data nejprve zpracovat a informace v nichobsažené získat. Zpracováním empirických dat se zabývá popisná statistika. Využívák tomu různé tabulky a grafy, které pomáhají objevit významné vlastnosti sledovanéveličiny. Hovoříme často o tabulkovém či grafickém vyjádření rozdělení četností. Ně-které tabulky poskytují zdrojová data pro tvorbu grafů. Dalším prostředkem popisuhromadných empirických dat jsou tzv. číselné charakteristiky, které vyjadřují určitévlastnosti sledované veličiny jediným číslem. K určení takových čísel použijeme jen ele-mentární matematické operace. Cílem popisné statistiky je tedy zpřehlednění informacíobsažených v datovém souboru. Popisné statistice se budeme věnovat ve 2. kapitole tétopomůcky.Další součástí matematické statistiky jakožto vědního oboru je tzv. matematická

    statistika v užším slova smyslu, která se systematicky zabývá zejména pomocí teoriepravděpodobnosti matematickými metodami vhodnými pro analýzu statistických dat.Obecně má deduktivní povahu, předmětem našeho zájmu je vždy určitý celek, tzv.základní soubor (viz modul 1.3), ale cesta, kterou se k němu dostaneme, má naopakmá výhradně induktivní2 charakter. Důležitými součástmi matematické statistiky jsoua) teorie odhadu – zabývá se určováním odhadů neznámých parametrů základníhosouboru pomocí hromadných empirických dat získaných náhodným výběrem (vizmodul 3.1) a studuje různé přístupy k získání bodových a intervalových odhadů(viz moduly 4.1 a 4.2).

    b) testování statistických hypotéz – zabývá se statistickými procedurami pro ověřováníhypotéz o základním souboru a o srovnávání více souborů z různých hledisek pomocíhromadných dat získaných náhodným výběrem (viz kapitola 5 Testování hypotéz).

    c) statistická predikce – zabývá se statisticky kvalifikovanými odhady budoucího vý-voje sledované veličiny na základě její současné dynamiky.

    2Při induktivním způsobu myšlení nalézáme při zkoumání jednodušších konkrétních případů po-mocí abstrakce jejich společnou obecnou zákonitost – v induktivní statistice to probíhá tak, že z vlast-ností výběrového souboru budeme usuzovat na vlastnosti základního souboru.

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 17

    Na závěr modulu o významu a pojetí moderní statistiky ještě připojme jednu zá-sadní myšlenku. V minulosti se statistika často ztotožňovala s pouhým zjišťováním,sumarizací a publikováním zjištěných údajů. V současné době lze předpokládat, že mo-derní statistika má všechny atributy vědní disciplíny schopné v podstatně větším mě-řítku respektovat potřeby kvalifikovaných rozhodovacích procesů. Proto nezapomeňme:Statistiku nelze ztotožňovat s pouhým elementárním zpracováním údajů! Statistikumusíme spojovat s ohledem na její výrazně praktický charakter s širokou škálou metoda technik, které umožňují kvalifikované rozhodování na bázi kvantitativních informacío praktickém problému.

    1.2.1 Úkoly a problémy k modulu 1.2

    1. Rozhodněte, zda je možné definované jevy považovat za jevy hromadné:a) hrubý měsíční příjem učitelů na středních školách v ČR,b) počet dětí v českých rodinách,c) počet nezaměstnaných v okresech Jihomoravského kraje v září 2009,d) denní tržba v prodejně,e) počet dosažených gólů konkrétním hráčem za zápas v hokejové lize 2009/2010,f) rychlost připojení k internetu u vlastního počítače.

    2. Posuďte, jakým způsobem je možné u popsaného věcného problému získat statis-tická data:a) vliv použitého krmiva na živé přírůstky sledovaných prasat,b) denní spotřeba vody v domácnosti,c) měsíční tržba v soukromém obchodu,d) názor na úroveň základních služeb mobilního operátora,e) hodnocení světlého výčepního piva z českých pivovarů,f) vliv druhu benzínu na výkon motoru,g) porovnání cenové hladiny v několika supermarketech.

    3. Vyjmenujte některé hromadné jevya) z oblasti vaší profesní činnosti,b) z oblasti vaší zájmové činnosti,c) z oblasti veřejného zájmu (zdroje: noviny, rozhlas, televize, internet).

    Řešení.1. a) ano; b) ano; c) ne; d) ano; e) ne; f) ano.2. a) experiment; b) pozorování; c) výkaznictví; d) dotazování; e) pozorování; f) ex-periment; g) pozorování.

    1.3 Statistická jednotka a statistický soubor

    V modulu 1.2 jsme uvedli, že úkolem statistiky je provádět hromadná pozorovánía sledovat hromadné náhodné jevy. Protože statistika je věda velmi praktická, budeme

  • 18 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    hromadná pozorování provádět na reálných objektech nebo subjektech, které jsou z ur-čitého konkrétního důvodu předmětem našeho zájmu. Pozornost proto budeme věnovatnejprve statistickým jednotkám a jejich jednoznačnému vymezení, potom si vysvětlímepojmy základní soubor a výběrový soubor.

    1.3.1 Definice. Jednotlivé objekty nebo subjekty, které jsou při statistickém zkou-mání sledované, se nazývají statistické jednotky. Každá statistická jednotka musíbýt jednoznačně vymezena, aby nemohlo dojít k dvojímu nebo jinak zkreslenémuvýkladu zjištěných údajů. Statistické jednotky se vymezují z hlediska• věcného,• prostorového,• časového.

    1.3.2 Příklad. Statistickými jednotkami mohou být:– osoby, lépe řečeno jisté kategorie osob – novorozenci, žáci, voliči, zaměstnanci pod-niku, důchodci, pacienti, . . . ,– věci a předměty – výrobky, stroje, budovy, . . . ,– organizace – podniky, úřady, školy, obce, . . . ,– zvířata – psi, ryby, sloni, . . . ,– rostliny nebo plody – pšenice, růže, břízy, jablka, . . . ,– události, jevy – sportovní výkony, poruchy, meteorologické jevy, . . . .

    1.3.3 Příklad. Proveďte věcné, prostorové a časové vymezení těchto statistickýchjednotek:a) všechna osobní auta projíždějících v úterý mezi 14. a 16. hodinou 110. km dálniceD1 směrem na Brno;

    b) všechna děvčata ze 6. tříd znojemských základních škol v červnu roku 2007;c) všichni kapři v jihočeském rybníku Bezdrev v listopadu 2008;d) všechny 50gramové rohlíky z týdenní produkce pekaře Ječmínka v týdnu od 12. do17. 10. 2009; uvažujme dále, že výroba těchto rohlíků bude za nezměněných podmí-nek (stejná mouka, stejná voda, stejná teplota pecí, stejná směna, . . . ) pokračovati v dalším období;

    e) všechny hypotetické výsledky výkonového testu u jednoho volejbalisty – výskoks dohmatem odrazem snožmo z rozběhu – v období letní tréninkové přípravy 2009.

    Řešení. Vymezení statistických jednotek v jednotlivých případech:a) věcné: osobní vozy, prostorové: 110. km dálnice D1 směr Brno, časové: konkrétníúterý v daném 2hodinovém intervalu,

    b) věcné: žákyně 6. tříd, prostorové: ZŠ ve Znojmě, časové: červen 2007,c) věcné: kapři, prostorové: rybník Bezdrev, časové: listopad 2008,d) věcné: 50gramové rohlíky, prostorové: pekařství Ječmínek, časové: období týdne od12. do 17. 10. 2009, resp. období od 12. 10. 2009 dále,

    e) věcné: výskok s dohmatem odrazem snožmo z rozběhu, prostorové: tréninková hala,časové: léto 2009.

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 19

    1.3.4 Definice. Množina statistických jednotek stejného typu a shodného vyme-zení tvoří statistický soubor. V rámci statistického šetření budeme rozlišovat dvatypy souborů:• základní soubor (populace) – množina všech shodně vymezených statistickýchjednotek,• výběrový soubor (výběr, vzorek) – podmnožina základního souboru, tj. vybranáčást populace.

    1.3.5 Poznámky.1. O základním souboru se také hovoří jako o statistickém souboru, který je předmě-tem našeho zájmu a o jehož vlastnostech se mají činit závěry. Může být buď reálný,pokud všechny jeho statistické jednotky reálně existují, nebo hypotetický, který je siceobecně definován, ale při statistickém zkoumání reálně jeho statistické jednotky neexis-tují nebo jich existuje pouze část – viz příklad 1.3.6. Z charakteru základního souborubezprostředně vyplývá, že může mít konečný rozsah nebo může být nekonečný.2. Při přípravě statistického šetření je jedním z nejdůležitějších požadavků na kvalitníanalýzu homogenita základního souboru. Ta je z valné části zabezpečená pomocí shod-ného vymezení všech jednotek v základním souboru. Je třeba mít na paměti, že chybyve vymezení základního souboru se potom přenáší na výběrový soubor, se kterým sedále pracuje. To však vede k nespolehlivým až chybným závěrům – viz příklad 1.3.7.3. Počet jednotek základního souboru je vesměs velký. Připomeňme si, že v začátcíchstatistiky bylo cílem vyčerpávající šetření, neboli celý základní soubor. Až teprve ma-tematická statistika přinesla možnost provádět pouze výběrová šetření a namísto celépopulace pracovat se vzorkem. To, že se dává dnes přednost výběrovému šetření předvyčerpávajícím šetřením, to má hned několik důvodů:• důvody ekonomické – výběrové šetření šetří čas i peníze; zejména u rozsáhlýchsouborů by měření nebo zjišťování na všech statistických jednotkách nebylo časověmožné nebo by bylo velmi drahé (např. vážení 85 000 kusů rohlíků),

    • důvody technické – při prováděném měření se statistická jednotka může znehodnotit(např. při degustaci masové konzervy se musí konzerva otevřít, a tím se znehodnotí),

    • důvody praktické – v situacích, kdy je základní soubor zcela nebo z části hypotetický,je potom měření prakticky nemožné (např. sportovní výkony není možné nekonečněmnohokrát opakovat).

    S metodami pořizování výběrových souborů se seznámíme později (viz modul 3.1).

    1.3.6 Příklad. V příkladu 1.3.3 jsme provedli věcné, prostorové a časové vymezenípopsaných statistických jednotek. Definujte ve stejných situacích základní a výběrovýsoubor.

    Řešení.a) základní soubor: hypotetický – množina všech osobních vozů, které daným místemv dané době projíždí (jejich počet však konkrétně stanovit před měřením nelze,teoreticky budeme základní soubor považovat za nekonečný, výběrový soubor: např.80 náhodně vybraných vozů;

  • 20 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    b) základní soubor: reálný – množina všech žákyň 6. tříd na všech ZŠ ve Znojměv červnu 2007 (jejich počet je 345, základní soubor má tedy rozsah konečný), výbě-rový soubor: např. 25 náhodně vybraných žákyň;

    c) základní soubor: reálný – množina všech kaprů v rybníku Bezdrev v listopadu 2008(jejich počet reálně stanovit nelze, z praktických důvodů lze však předpokládat, žepočet je konečný!), výběrový soubor: např. 50 náhodně vybraných kaprů;

    d) základní soubor: kombinace reálný a hypotetický – množina všech rohlíků vyrobe-ných v pekařství Ječmínek v týdnu od 12. do 17. 10. 2009 (85 000 kusů) a množinadalších rohlíků, jejichž výroba bude dále pokračovat (základní soubor je tedy neko-nečný), výběrový soubor: např. 120 náhodně vybraných kusů;

    e) základní soubor: hypotetický – fiktivní množina všech možných výskoků s dohma-tem odrazem snožmo z rozběhu (jejich počet je možné si pouze teoreticky předsta-vit, reálně neexistuje), výběrový soubor: např. 10 konkrétních provedených výskokůs dohmatem během jednoho tréninku.

    1.3.7 Příklad. Rozhodněte, zda konstruované základní soubory jsou s ohledem nasledovanou veličinu homogenní a rozhodnutí zdůvodněte:a) všechna osobní auta projíždějící 110. km dálnice D1 v úterý odpoledne ve směru naBrno i na Prahu – sledovat budeme rychlost,

    b) všichni žáci z 6. tříd znojemských základních škol v červnu roku 2007 – sledovatbudeme výsledky testu z fyziky a výkony v běhu na 60 m,

    c) všichni kapři v jihočeském rybníku Bezdrev v listopadu 2007 a 2009 – sledovatbudeme hmotnost kapra,

    d) všechny 50gramové rohlíky z produkce pekaře Ječmínka v období od 12. do 31. 10.2009 – sledovat budeme hmotnost rohlíku.

    Řešení.a) provoz na dálnici v obou směrech je obecně odlišný – za tohoto předpokladu: chybnéprostorové vymezení, základní soubor nehomogenní,

    b) při sledování vědomostí žáků ZŠ se u chlapců a děvčat obecně neočekávají různévýsledky – za tohoto předpokladu: správné věcné vymezení, základní soubor homo-genní, při sledování sportovních výkonů u chlapců a děvčat (obecně u mužů a žen)existují biochemické, anatomické, fyziologické a jiné odlišnosti zdůvodňující různésportovní výkony – za tohoto předpokladu: chybné věcné vymezení, základní soubornehomogenní,

    c) podmínky chovu ryb ve dvou různých letech obecně shodné být nemohou – za tohotopředpokladu: chybné časové vymezení, základní soubor nehomogenní,

    d) uvažujme, že výroba probíhá v celém období za zcela shodných podmínek – zatohoto předpokladu: správné časové vymezení, základní soubor homogenní.

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 21

    1.3.8 Úkoly a problémy k modulu 1.3

    1. Proveďte věcné, prostorové a časové vymezení následujících statistických jednotekse sledovanou vlastností a posuďte, zda je základní soubor homogenní:a) rychlost aut jedoucích denně po 15. hodině v Brně, ulice Provazníkova;b) výška smrků v oblasti Březník NP Šumava v roce 2008;c) napětí v elektrické síti v domácnostech sídliště Jižní Svahy ve Zlíně v září 2009;d) výkon v běhu na 12 minut absolventů Střední policejní školy v Praze v roce2006.

    2. Pro statistické zjišťování prováděné prostřednictvím formuláře určete, s jakýmistatistickými jednotkami toto zjišťování pracuje a vymezte je věcně, prostorově ačasově:a) v případě daňového přiznání,b) v případě povinného ručení motorového vozidla.

    Řešení.1. a) všechna auta jedoucí daným místem, Provazníkova ulice Brno, každý den po 15.

    hodině, nehomogenní (protože hustota provozu se obecně každý den liší);b) všechny smrky v dané oblasti, Březník, 2008, homogenní;c) všechna hypotetická měření v síti, panelové domy na sídlišti, září 2009, homo-genní (ale za předpokladu shodné použité technologie);

    d) všechny hypotetické výsledky běhu na 12 minut absolventů SPŠ Praha, 2006,homogenní.

    2. Formulář vyhledejte na internetu.

    1.4 Statistický znak

    Už bylo řečeno, že statistiku budeme využívat při řešení konkrétních a praktickýchproblémů z reálného života. Z formulace problému nám musí být jasné, jaké výrobky,osoby, zvířata, rostliny, události, organizace jsou předmětem našeho zájmu, ale takéo jaké jejich vlastnosti se budeme zajímat. V dalším modulu se tedy zaměříme právěna tyto vlastnosti, tzv. statistické znaky, a to jak z pohledu jejich vyjádření, tzv. hodnota obměn, tak také z pohledu statistických operací s nimi.

    1.4.1 Definice. Vlastnosti, které u statistických jednotek budeme v rámci sta-tistického šetření sledovat, nazýváme statistické znaky neboli statistické proměnné.Různé hodnoty, kterých může statistický znak nabývat, nazýváme obměny neboli va-rianty. Podle způsobu vyjadřování hodnot dělíme statistické znaky na kvantitativní– číselné a kvalitativní – slovní.

  • 22 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    Podle typu vztahů mezi hodnotami a obměnami budeme rozlišovat statistické znaky• metrické – měřitelné,• ordinální – pořadové,• nominální – jmenovité.

    V rámci statistického šetření (měření, pozorování) vyjádříme míru sledované vlast-nosti u každé jednotky statistického souboru prostřednictvím tzv. hodnoty statistickéhoznaku. Aktuální – naměřené hodnoty proměnné jsou data. Počet naměřených hodnotodpovídá rozsahu výběrového souboru. Hodnotu znaku ve smyslu vyjádření různéhostupně dané vlastnosti označíme jako obměnu – variantu statistického znaku. Početobměn je zpravidla menší, nejvýše roven rozsahu souboru. Např. k otázce zavedeníškolného na VŠ se vyjádřilo 73 studentů 1. ročníků ze 2 fakult jedné VŠ: souhlasím– 25 studentů, nesouhlasím – 34 studentů a je mi to jedno – 14 studentů; výsledkyprůzkumu jsou vyjádřené 3 obměnami, celkový počet naměřených (zjištěných) hodnotje 73.Statistické znaky lze klasifikovat podle několika hledisek. Především se nabízí hle-

    disko vyjádření hodnot znaku číselně nebo slovně. Lze-li hodnoty znaku vyjádřit číselně,jde o znak kvantitativní (např. počet žáků ve třídě, spotřeba vody v domácnosti za rok).Pokud se hodnoty znaku vyjadřují slovně, hovoříme o znaku kvalitativním (např. barvaočí člověka, druh vlastnictví bytu). Takové členění statistických znaků není samoúčelné,protože pro číselné a slovní znaky budou konkrétní statistické postupy a metody vesměsrozdílné. Při zpracování dat hraje roli také to, zda data představují hodnoty znakunespojitého (diskrétního) nebo spojitého. Nespojité znaky nabývají pouze konkrétníčíselné nebo slovní hodnoty (např. počet dvojchyb tenisty v zápase, počet vadnýchvýrobků v sérii, státní příslušnost studenta VŠ). Spojité statistické znaky mohou na-bývat libovolných hodnot v rámci určitého intervalu (např. doba čekání na obsluhuv restauraci, obsah tuku v mléku, sladká chuť limonády). Více o vztahu mezi spojitýmia nespojitými znaky ještě dále.Na tuto základní klasifikaci statistických znaků (proměnných) úzce navazuje třídění

    podle typu vztahů mezi hodnotami a obměnami znaků. Podle tohoto kritéria dělímeproměnné na metrické, ordinální a nominální.Metrické neboli měřitelné proměnné jsou takové proměnné, které nabývají vý-

    hradně číselných hodnot a vyjadřují tedy velikost měřené vlastnosti. Jejich další dě-lení se provádí podle oboru jejich hodnot. Pokud jsou tyto hodnoty vyjádřené pouzekladnými čísly (např. rychlost auta na dálnici, výkon ve skoku do výšky), proměn-nou označíme jako kardinální. Její každé dvě hodnoty lze porovnávat jak rozdílem,tak i podílem. Je tedy možné stanovit, o kolik jednotek je jedna hodnota větší (event.menší), než druhá, a také kolikrát je jedna hodnota větší (event. menší), než druhá.Druhou skupinu metrických proměnných tvoří takové proměnné, které nabývají kladnéi nekladné číselné hodnoty (např. teplota vzduchu ve ◦C, počet dětí v rodině). Tyto pro-měnné jsou nekardinální, zpravidla se označují jako intervalové. U těchto proměnnýchlze každé dvě hodnoty porovnávat jen rozdílem, lze tedy stanovit, o kolik jednotek jejedna hodnota větší (event. menší), než druhá. Porovnání podílem není možné zpravidla

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 23

    proto, že množina obměn obsahuje nulu. Je ovšem zřejmé, že každou nekardinální me-trickou proměnnou lze vhodnou (a jednoduchou) transformací převést na proměnnoukardinální. To se prakticky odráží v tom, že pro obě kategorie metrických proměnnýchse vesměs používají shodné metody statistických analýz, a rozdíl mezi nimi se týká ažpraktické interpretace získaných výsledků.Při zpracování metrických dat považujeme většinou odpovídající proměnné za spo-

    jité, jako kdyby mohly nabývat kteroukoli hodnotu z číselného intervalu, i když připraktickém měření tomu tak není. Dokonce i u veličin, které principiálně spojité jsou,jako rozměr nebo čas, musíme při praktickém měření volit konečnou jednotku rozli-šení, takže i tyto proměnné se chovají navenek jako diskrétní (nespojité). Přesto všakpři statistickém zpracování většinou budeme užívat pro metrické proměnné postupymatematicky odvozené pro veličiny spojité.

    1.4.2 Příklad. Kardinální znaky jsou např. cena benzinu Natural 95, výška dospě-lého muže, obvod kmene javoru, délka kapra, hmotnost jablka dané odrůdy, početzaměstnanců podniku, počet členů domácnosti, . . . . Poznámka: všimněte si, že u všechuvedených znaků představuje obor hodnot množinu pouze kladných čísel!

    1.4.3 Příklad. Intervalové znaky jsou např. počet chyb v diktátu, chyba při zaokrouh-lení ceny nákupu (na celé Kč), počet prodaných televizorů za den, výše kapesného žáka4. třídy ZŠ, rok narození, . . . . Poznámka: u všech uvedených znaků obsahuje množinahodnot znaku nulu!Ordinální neboli pořadové proměnné jsou slovní proměnné, u jejichž obměn má

    smysl jejich uspořádání, lze je tedy jednoznačně seřadit od varianty vyjadřující nej-nižší úroveň sledované vlastnosti až do varianty s úrovní nejvyšší, nebo naopak (např.dosažené vzdělání: základní, střední, vysoké). Toho se často využívá k tomu, že slovněvyjádřeným obměnám ordinální proměnné se podle jejich pořadí přiřazují pořadovánebo jiná čísla (stupně, body, procenta apod.), která vyjadřují pořadí slovních variant(např. školní klasifikace: výborně – 1, chvalitebně – 2, dobře – 3, dostatečně – 4 a nedo-statečně – 5). Rozdíl dvou hodnot ordinální proměnné potom vyjadřuje rozdíl v jejichpořadí! Proto je důležité pracovat s pořadovými čísly jako s určitou formou kvantifi-kace těchto obměn, a zohledňovat skutečnost, že nelze nikdy stejnou hodnotu u dvourůzných statistických jednotek považovat za zcela totožnou (např. dva studenti byliu zkoušky hodnoceni stupněm dobře – z toho však nelze usoudit, že oba studenti majízcela shodné vědomosti). To je zásadní rozdíl mezi pořadovým a měřitelným znakem,který vyvolává potřebu poněkud odlišných metod zpracování.

    1.4.4 Příklad. Ordinální znaky s možným oborem hodnot:– rychlost chemické reakce (+, ++, +++),– odpověď na konkrétní otázku v sociologickém průzkumu (naprosto souhlasím, spíšesouhlasím, mám neutrální postoj, spíše nesouhlasím, naprosto nesouhlasím),– kategorie vojenských hodností v AČR (mužstvo, poddůstojníci, rotmistři, prapor-číci, nižší důstojníci, vyšší důstojníci, generálové),– pořadí v soutěži výcviku psích plemen (1. pořadí, 2. pořadí, pracovní, nehodnocený),– kategorie kuřáků (počet vykouřených cigaret za den: do 5, do 10, do 20, nad 20).

  • 24 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    Nominální neboli jmenovité proměnné jsou slovní proměnné, které nelze vzájemněporovnávat, tedy, u jejichž obměn nelze stanovit žádné pořadí. Lze pouze stanovit shodunebo neshodu v hodnotě znaku u každých dvou statistických jednotek (např. druhymasa: vepřové, hovězí, telecí, kuřecí, jiné). Někdy se hodnoty nominálního znaku mohouvyjádřit také čísly, nemají však žádný kvantitativní význam (např. čísla tramvají: 1,6, 7 a 12). Data odpovídající hodnotám nominálního znaku vždy vyžadují zpracováníspecifickými metodami.

    1.4.5 Příklad. Nominální znaky s možným oborem hodnot:– dominance ruky (pravák, levák),– barva výrobku (červený, modrý, jiný),– rodinný stav muže (svobodný, ženatý, rozvedený, vdovec),– cizí státní občanství (Slovensko, Polsko, Rakousko, Německo, jiné),– kategorie jakostního vína (odrůdové, známkové).

    Třetím kritériem třídění proměnných je hledisko počtu obměn. Smysluplné je toprakticky jen pro kvalitativní proměnnou: pokud nabývá pouze dvou obměn, mluvímeo alternativním znaku (např. pohlaví: muž, žena; odpověď na otázku v referendu: ano,ne), je-li počet obměn větší než dvě, jedná se o znak množný např. fakulty UO v Brně:FEM, FVT a FVZ), dosažené vzdělání: Z, S, V-Bc, V-Mgr, V-Dr). Z čistě praktickýchdůvodů, bez matematického pozadí, se alternativní proměnná často vyjadřuje jako nu-merická proměnná s obměnami 0 a 1. Jedna její obměna se označí číslicí 1 (zpravidla ta,která nás v dané souvislosti více zajímá) a druhá potom číslicí 0, a hovoří se o nulajed-ničkové proměnné. Pro tyto proměnné je vyvinutá řada metod, které využívají právějistého zjednodušení prostřednictvím dvojice obměn. Proto se také množné proměnnéněkdy převádějí na alternativní proměnné, a to tak, že se více obměn spojí do jednévarianty, která s ohledem na účel zkoumaného problému nás více zajímá, a zbývajícíobměny se spojí do druhé obměny (např. dosažené vzdělání: nižší = ZŠ + SŠ a vyšší= VŠ + DR).

    Na alternativní proměnnou lze, pokud je to s ohledem na zkoumaný problém uži-tečné, převést i jakoukoli metrickou proměnnou. Při takovém „předefinováníÿ měřitelnéproměnné na kvalitativní proměnnou musíme však počítat s určitou ztrátou informaceobsažené v původních datech (např. hrubý měsíční příjem lékařů: všechny hodnotypřevedeme do dvou kategorií, příjem pod průměrem a nad průměrem příjmu lékařů).

    Statistický znak nabývá vždy slovních nebo číselných hodnot a je zjišťován u každéstatistické jednotky statistického souboru. Jestliže ve statistickém souboru pracujemejen s jedním znakem (s jednou proměnnou), říkáme, že se jedná o jednorozměrný sou-bor. Zkoumáme-li současně více znaků, jde o dvourozměrný resp. obecně vícerozměrnýsoubor (např. při výrobě dutinových cihel se sledovalo následujících pět výrobních pa-rametrů: typ, skutečná délka, objemová hmotnost, výskyt „květůÿ a pevnost v tlakuza sucha). Klasifikaci statistických znaků vyjadřuje obrázek č. 1.1.

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 25

    Obr. 1.1 Klasifikace statistických znaků

    1.4.6 Poznámka. Na závěr modulu o statistickém znaku připojme ještě jednu po-známku o souvislosti statistického znaku a náhodné veličiny. V minulém díle našichskript (viz [Kříž 3]) jsme v kapitolách 2, 3 a 4 zavedli pojem náhodné veličiny a po-psali jsme několik teoretických modelů diskrétní a spojité náhodné veličiny. Náhodnouveličinu jsme zavedli jako veličinu, která nabývá svých hodnot vlivem náhody. Statis-tickým znakem jsme v této kapitole nazvali vlastnost, kterou sledujeme u statistickýchjednotek. S ohledem na deklarované fungování statistiky je třeba upřesnit, že vlast-ností sledovanou u vybraných statistických jednotek rozumíme náhodnou veličinu seshodným věcným, prostorovým a časovým vymezením. Jinak řečeno: to co představujenáhodná veličina v teoretickém modelu, to představuje statistický znak v tzv. modeluempirickém. Jeho konstrukcí a praktickým významem ve statistice se budeme zabývatv následujících dvou kapitolách o popisné statistice a výběrových šetřeních.

    1.4.7 Úkoly a problémy k modulu 1.4

    1. Určete typ následujících statistických znaků:a) tepová frekvence plavce po závodě,b) počet práce neschopných v podniku za měsíc,c) průtok vody v daném místě řeky a v daném čase,d) vzdálenost posledního golfového drivu od jamky,e) zisk podniku za týden,f) pH zubní pasty.

    2. Určete typ následujících statistických znaků a uveďte k nim možný obor hodnot:a) intenzita bolesti,b) národnost uváděná v žádosti o práci,c) stupeň povodňového ohrožení,d) plavecká dovednost,e) velikost oděvu.

    3. Definujte konkrétní statistické znaky z oblasti vaší profesní činnosti a stanovtejejich typ a odpovídající obor hodnot:

  • 26 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    a) kvalitativní,b) kvantitativní.

    Řešení.1. a) kardinální; b) intervalový; c) kardinální; d) kardinální; e) intervalový; f) kardi-nální;

    2. a) ordinální (mírná, výraznější, silná, velmi silná zvladatelná, velmi silná nezvlada-telná); b) nominální (česká, slovenská, polská, německá, maďarská, jiná); c) ordi-nální (1. stupeň - bdělost, 2. stupeň - pohotovost, 3. stupeň - ohrožení); d) nominální(plavec, neplavec); e) ordinální (S, M, L, XL, XXL, XXXL).

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 27

    1.5 Shrnutí 1. kapitoly

    Klíčová slova:

    historický přehled, Český statistický úřad, deskriptivní statistika, induktivní sta-tistika, hromadné pozorování, teorie pravděpodobnosti, matematická statistika, statis-tická jednotka, statistický znak, statistický soubor, základní soubor, výběrový soubor

    Základní úlohy:

    • Pochopení úlohy popisné statistiky a matematické statistiky.• Poznání homogenního základního souboru v kontextu s věcným, prostorovým ačasovým vymezením sledovaných statistických jednotek.

    • Rozpoznání správného typu statistického znaku.

    Doporučená literatura pro hlubší studium:

    [Kříž 2]: str. 36–39,[Cyhelský]: str. 13–23[Hindls]: str. 13–18.

    1.6 Test ke kapitole 1

    A. Teoretická část

    1. Rozhodněte, která tvrzení jsou pravdivá:a) Prvním statistickým úřadem založeným v roce 1897 na území dnešní Českérepubliky byl Zemský statistický úřad Království českého.

    b) Anketa je reprezentativní statistické šetření.c) Statistický znak, jehož obměny nelze uspořádat, se nazývá nominální znak.d) Metrické znaky dělíme na kardinální a intervalové.e) Alternativní znak nabývá pouze jednu obměnu.

    2. Určete typ následujících statistických znaků:a) provozovaný sport studentů na VŠ,b) celkový počet vyhraných gemů v tenisovém zápase,c) senzorické hodnocení salámu Vysočina,d) tvrdost vody (mmol/l > 0),e) registrační značka auta,f) obvod hrudníku dospělého muže,g) počet obdržených gólů v zápase ledního hokeje.

    3. Řešte následující úkoly, odpovězte na otázky:

  • 28 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    a) Posuďte, zda předmětem našeho zájmu je základní soubor nebo výběrový sou-bor.

    b) Vysvětlete rozdíl mezi kardinálním a intervalovým znakem.c) Jak lze charakterizovat statistiku?d) Jaké historické kořeny má statistika?e) Jak musí být vymezené statistické jednotky v základním souboru?

    Řešení.1. a) pravda; b) nepravda; c) pravda; d) pravda; e) nepravda.2. a) nominální; b) intervalový; c) ordinální; d) kardinální; e) nominální; f) kardinální;g) intervalový.

    3. a) základní soubor; b) v oboru hodnot znaku; c) jako nástroj poznání a rozhodo-vání v neurčitosti; d) německou státovědu, anglickou politickou aritmetiku a teoriipravděpodobnosti; e) věcně, prostorově a časově shodně.

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 29

    2 POPISNÁ STATISTIKA

    Následující kapitola je věnována otázce, jak vhodně zpracovat některé typy statis-tických dat, jak je uspořádat, setřídit, případně graficky znázornit. Kromě toho budepozornost věnována vybraným číselným charakteristikám, pomocí nichž je možné da-tové soubory popisovat. Na příkladech bude ukázáno, jak tyto charakteristiky počítat(ručně či pomocí počítače - EXCELu), jak je vhodně interpretovat. Půjde o to získatz dat co možná nejvíce užitečných informací o sledovaném statistickém znaku.

    Cílem kapitoly je:

    • seznámit se základy zpracování dat, tvorbou tabulek a grafů,• definovat číselné charakteristiky (aritmetický průměr, kvantil, rozptyl,. . . ) aprakticky je umět interpretovat,

    • ukázat zpracování dat pomocí počítače.

    2.1 Vyjadřovací prostředky statistiky

    Je-li našim úkolem statisticky zpracovat data, musíme si nejprve uvědomit, o jakýtyp dat se jedná, a podle toho vybrat vhodné prostředky. Data se nejprve obvyklesetřídí, případně (pokud je to možné a vhodné) uspořádají podle velikosti, a poté sezpracují do tabulek a graficky zobrazí pomocí grafů. K dispozici je celá škála grafů,každý se však hodí ke znázornění jistého typu dat. V následujících příkladech uvedemeněkolik nejpoužívanějších grafů. Vhodné grafické zobrazení dat je pro statistické zpraco-vání velice důležité, podává rychlou a názornou informaci o rozdělení dat, o přítomnostiodlehlých pozorování a o celé řadě dalších vlastností dat.

    2.1.1 Příklad. Redakce studentského časopisu se rozhodla udělal průzkum týkající seplánovaných změn v řádu pro ubytování na kolejích. Náhodně bylo osloveno 280 stu-dentů. Každý student vyjádřil svůj názor pomocí tří nabízených odpovědí: souhlasím,nesouhlasím, nevím. Byly získány tyto výsledky: 152 souhlasí, 51 nesouhlasí, 77 neví.

    Jedná se o kategoriální data, názor studentů lze považovat za nominální množnýznak. Četnosti odpovídající jeho třem obměnám lze uspořádat do tabulky. Absolutníčetnosti ni vyjadřují, kolik studentů odpovědělo na položenou otázku jednou z nabíd-nutých variant (souhlasím – nesouhlasím – nevím). Relativní četnosti pi určují podíldaného typu odpovědi ku celkovému počtu odpovědí. Například pro odpověď „Sou-hlasímÿ získáme relativní četnost jako podíl 152/280

    .= 0,543, tedy z celkového počtu

    odpovědí 54,3% studentů souhlasí s plánovanými změnami.

  • 30 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    Odpovědi Absolutní četnost ni Relativní četnost pi

    Souhlasím 152 152280.= 0,543

    Nesouhlasím 51 51280.= 0,182

    Nevím 77 77280 = 0,275

    Celkem 280 1

    Tab. 2.1 Výsledky průzkumu

    Tato data je možné graficky zobrazit pomocí tzv. koláčového grafu.

    Obr. 2.1 Koláčový graf

    2.1.2 Příklad. Studenti posledního ročníku byli požádáni, aby vybrali jednu ze svýchkaždodenních činností, kterou by rádi omezili. Na základě jejich odpovědí byla sesta-vena následující tabulka.

    Činnost Absolutní četnostSledování televize 58Čtení denního tisku 21Telefonování 14Řízení auta 7Nakupování 3Jiné 12

    Tab. 2.2 Odpovědi studentů

    Data je možné znázornit pomocí sloupcového diagramu. Sloupce v grafu znázorňujíabsolutní četnosti jednotlivých činností – viz obr. 2.2

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 31

    Obr. 2.2 Sloupcový diagram

    Doposud jsme se zabývali pouze kvalitativními daty, další grafy a tabulky používanépro zpracování především kvantitativních (metrických) dat budou uvedeny v následu-jícím odstavci.

    2.1.3 Úkoly a problémy k modulu 2.1

    1. Podle údajů Českého statistického úřadu bylo v roce 2006 v České republice vypro-dukováno celkem 29 435 tisíc tun odpadu. Tabulka uvádí procentuální zastoupeníjednotlivých druhů odpadu.

    Druh odpadu Procenta

    odpad ze zemědělství a lesnictví 4,43%odpad z dolování a těžby 1,56%odpad z úpravy a rozvodu vody 22,34%průmyslový odpad 1,40%stavební a demoliční odpad 29,50%odpad z energetiky (mimo radioaktivního) 6,95%odpad z čištění města 4,65%komunální odpad 13,52%jiný odpad ?%

    Určete, kolik procent připadá na jiný odpad. Na základě údajů v tabulce sestrojtepareto graf.

    2. Následující tabulka zachycuje, jakým způsobem se pracovníci jedné firmy dopravujído práce.

  • 32 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    Způsob dopravy Četnost

    Autem sám 25Autem společně s někým jiným 15Autobusem 10Vlakem 5Jinak 4

    Vypočtěte relativní četnosti jednotlivých způsobů dopravy a zkonstruujte koláčovýgraf.

    3. Na transfúzní stanici přišlo během dne celkem 40 dobrovolných dárců krve s těmitokrevními skupinami:

    0 0 A B A 0 A A A 0B 0 B 0 0 A 0 0 A AA A AB A B A A 0 0 A0 0 A A A 0 A 0 0 AB

    Sestrojte tabulku četností jednotlivých krevních skupin, určete relativní četnosti adata znázorněte pomocí koláčového grafu.

    Řešení.1. 15,65;2. 0,42; 0,25; 0,17; 0,08; 0,07;3. 0: 16(0,40); A: 18(0,45); B: 4(0,10); AB: 2(0,05).

    2.2 Základní zpracování dat

    V následující části se budeme věnovat zpracování číselných dat, tedy předevšímkardinálními znaky, rozlišovat budeme nespojitý a spojitý znak. Rozsah souboru –počet dat ve statistickém souboru – budeme označovat n.

    Neroztříděná data

    Máme-li zpracovat datový soubor, jehož rozsah je malý (n < 30), můžeme datauspořádat podle velikosti a poté zobrazit pomocí diagramu rozptýlení (viz obr. 2.3).Tento diagram získáme tak, že na vodorovnou osu postupně vynášíme hodnoty znakux.

    2.2.1 Příklad. Na 15 vzorcích mléka byl naměřen obsah tuku s těmito výsledky(v g/l):

    14,85 14,68 15,27 14,77 14,83 14,95 15,08 15,0215,07 14,98 15,15 15,49 14,83 14,95 14,78

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 33

    Sestavte diagram rozptýlení.

    Řešení.

    Obr. 2.3 Diagram rozptýlení

    Z grafu je možné vyčíst, že naměřené hodnoty leží přibližně v intervalu od 14,7 do15,5. I když je počet měření 15, počet bodů je 13 – to je důsledek 2 dvojic totožnýchhodnot. Z rozložení bodů na ose je zřejmá zvýšená „hustotaÿ v levé polovině celéhografu. To je důležitá vlastnost dat, které se budeme ještě věnovat.

    Bodové rozdělení četností

    V případě, že datový soubor x1, x2 . . . , xn (xi, i = 1, . . . , n), který máme zpracovat,má větší rozsah (zpravidla n > 30), data mají charakter nespojitého statistickéhoznaku a počet variant (obměn) tohoto znaku obvykle nepřekračuje hodnotu 15, určímečetnosti nj jednotlivých variant xj (j = 1, . . . , k) a výsledky shrneme do tabulky,případně vyjádříme graficky.

    2.2.2 Definice. Mějme uspořádaný datový soubor o rozsahu n prvků.

    • Absolutní četnost nj představuje počet výskytů varianty xj v souboru. Pro abso-lutní četnosti platí

    ∑kj=1 nj = n, kde k je počet variant.

    • Relativní četnost pj je dána vztahem

    pj =njn

    a představuje podíl výskytů varianty xj v souboru. Pro relativní četnosti platí∑kj=1 pj = 1.

  • 34 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    • Absolutní kumulativní četnost Nj je dána vztahem

    Nj = n1 + · · ·+ nj

    a udává součet četností všech pozorování, která nepřekračují hodnotu xj.

    • Relativní kumulativní četnost Fj je určena vztahem

    Fj =Njn= p1 + · · ·+ pj

    a udává podíl četností všech pozorování, která nepřekračují hodnotu xj.

    2.2.3 Příklad. V rámci antropometrického průzkumu bylo podle metodiky lékařskékomory provedeno měření tělesné výšky u 15měsíčních dětí. U 50 vybraných chlapcůbyly naměřeny tyto hodnoty (v cm):

    83 85 81 82 84 82 79 84 80 8182 82 80 82 80 82 83 84 82 7983 82 83 82 82 82 81 80 82 8283 80 82 85 81 83 81 81 83 8281 85 83 79 81 81 81 84 81 82

    Sestavte tabulku rozdělení četností a graficky jej znázorněte.

    Řešení.

    Hodnota znaku Abs. četnost Rel. četnost Abs. kum. Rel. kum.xj nj pj četnost Nj četnost Fj79 3 0,06 3 0,0680 5 0,10 8 0,1681 11 0,22 19 0,3882 16 0,32 35 0,7083 8 0,16 43 0,8684 4 0,08 47 0,9485 3 0,06 50 1,00Σ 50 1,00 — —

    Tab. 2.3 Tabulka bodového rozdělení četností výšky 15měsíčních chlapců

    Vyjdeme-li z tabulky 2.3, můžeme snadno sestrojit grafy: polygon rozdělení četností,který zachycuje rozdělení četností, a součtovou křivku zobrazující kumulativní četnosti.

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 35

    Obr. 2.4 Polygon četností a součtová křivka

    Zejména z polygonu četností je možné vyčíst některé zajímavé vlastnosti sledova-ného znaku výška 15měsíčních chlapců. Tak např. naměřené výšky se pohybují od 79do 85 cm. Nejčastější výška u daných 50 chlapců – 82 cm – je naměřena celkem 16krát.Také je zcela zřetelné, že rozdělení četností je symetrické. Těmto vlastnostem se dáleještě budeme věnovat.Mimo grafy na obr. 2.4 je možné sestrojit např. krabicový graf , který zobrazuje

    nejmenší a největší hodnotu znaku, dále medián (případně aritmetický průměr), horní adolní kvartil. S těmito charakteristikami se podrobněji seznámíme v dalších kapitolách.

    Obr. 2.5 Krabicový graf

    Rozdělení četností je také možné znázornit pomocí empirické distribuční funkce,kterou můžeme definovat následovně

    Fn(x) =N(xi ≤ x)

    n,

    kde výraz ve čitateli značí počet prvků náhodného výběru, jejichž hodnota je menšínebo rovna x. Tato funkce udává pro hodnotu znaku x součet četností všech pozorování,

  • 36 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    která mají hodnotu xi menší nebo rovnu x, dělený celkovým rozsahem souboru n. Jeto neklesající funkce s hodnotami mezi 0 a 1. Všimněte si souvislosti mezi touto funkcía relativní kumulativní četností a součtovou křivkou.

    Obr. 2.6 Empirická distribuční funkce

    Intervalové rozdělení četností

    Pokud datový soubor, který máme zpracovat, má rozsah větší než 30 (n > 30) adata reprezentující spojitý znak nebo diskrétní znak s velkým počtem variant, je vhodnénejprve data uspořádat podle velikosti, zjistit nejmenší a největší hodnotu znaku xmina xmax a určit variační rozpětí R = xmax − xmin udávající šířku intervalu, ve kterémse data nacházejí. S ohledem na rozsah datového souboru a na hodnoty xmin a xmaxsestrojíme na sebe navazující intervaly zahrnující všechny hodnoty zkoumaného znakua poté určíme, kolik hodnot leží v námi zkonstruovaných intervalech (intervaly budouzleva otevřené a zprava uzavřené).Pro určení optimálního počtu intervalů existuje několik pravidel, např.:

    • Sturgesovo pravidlo k ≈ 1 + 3,32 log n,

    • Yuleovo pravidlo k ≈ 2,5 4√

    n,

    • jiná pravidla k ≈√

    n, k ≈ 5 log n.

    Intervaly budeme volit stejně široké, jejich šířku získáme snadno ze vztahu. Počátekprvního intervalu (ozn. a), počet a šířku intervalů budeme volit tak, aby nejmenší anejvětší hodnota padly do prvního a posledního intervalu. Doporučuje se, aby středyintervalů byly hodnoty s stejnou přesností (řád nejmenších jednotek) jako naměřenádata. Jak počet intervalů, tak i šířka intervalů není dána jednoznačně, vždy záleží naosobě, která data zpracovává, má tedy subjektivní charakter. Snahou by však měla býttaková konstrukce intervalů, aby odpovídající rozdělení četností dokázalo vypovídataspoň o základních vlastnostech sledovaného znaku.

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 37

    2.2.4 Příklad. Při kontrole dodržování hygienických norem v kuchyni se provádělodběr vzduchu a pomocí filtru Pallflex se měřilo množství prachových částic. Ze 60vzorků vzduchu jsme dostali následující výsledky (v µg/m3):

    1,23 1,10 1,54 1,34 1,06 1,09 1,41 1,48 1,52 1,37 1,37 1,631,51 1,53 1,31 1,23 1,31 1,27 1,17 1,27 1,34 1,27 1,09 1,011,41 1,22 1,27 1,37 1,14 1,22 1,43 1,40 1,41 1,51 1,51 1,471,14 1,34 1,16 1,51 1,58 1,33 1,31 1,04 1,58 1,12 1,19 1,171,47 1,24 1,45 1,29 1,17 1,63 1,39 1,02 1,38 1,39 1,43 1,28

    Sestavte tabulku intervalového rozdělení četností a graficky jej znázorněte.

    Řešení. Množství prachových částic je spojitý statistický znak, pro sestavení tabulkyrozdělení četností musíme určit počet intervalů a jejich šířku. Celkový rozsah souboruje n = 60, nejmenší hodnota xmin = 1,01, největší hodnota je xmax = 1,63. Variačnírozpětí R = xmax − xmin = 0,62. Určíme si optimální počet intervalů podle zmíněnýchpravidel:• Sturgesovo pravidlo k ≈ 1 + 3,32 log n .= 7,• Yuleovo pravidlo k ≈ 2,5 4

    √n

    .= 7,

    • k ≈√

    n.= 8, k ≈ 5 log n .= 9.

    Na základě uvedených pravidel zvolíme např. počet intervalů k = 7, šířku intervaluh = 0,1 a počátek prvního intervalu a = 1. Této konstrukci intervalů odpovídá rozděleníčetností uvedené v tabulce 2.4 a na obrázku 2.7 a 2.8.

    Interval Střed int. Abs. četnost Rel. četnost Abs. kum. Rel. kum.x∗j nj pj četnost Nj četnost Fj

    (1,00; 1,10〉 1,05 7 0,177 7 0,117(1,10; 1,20〉 1,15 8 0,133 15 0,250(1,20; 1,30〉 1,25 11 0,183 26 0,433(1,30; 1,40〉 1,35 14 0,233 40 0,667(1,40; 1,50〉 1,45 9 0,150 49 0,817(1,50; 1,60〉 1,55 9 0,150 58 0,967(1,60; 1,70〉 1,65 2 0,033 60 1,000Σ — 60 1 — —

    Tab. 2.4 Tabulka intervalového rozdělení četností – množství prachových částic v µg/m3

    Z tabulky rozdělení četností i z grafů je možné vyčíst alespoň základní vlastnostisledovaného znaku množství prachových částic v µg/m3 (koncentrace prachu). Zejménaje zřejmé, že naměřené množství prachu se pohybuje mezi hodnotami 1,1 a 1,7. Nej-větší část výsledků leží v intervalu 1,3 – 1,4. Rozdělení četností je poměrně symetrické,v histogram je možné vidět, že rozdělení není výrazně špičaté – je spíše plošší. Smyslu-plné je také „srovnáníÿ s normálním rozdělením, tj. srovnání histogramu s Gaussovoukřivkou. To bude sloužit k posouzení, zda získaná data je možné považovat za realizacináhodného výběru z normálního rozdělení. Tomu všemu se však budeme ještě věnovatpozději.

  • 38 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    Obr. 2.7 Histogram a součtový histogram

    Obr. 2.8 Krabicový graf a empirická distribuční funkce koncentrace prachu

    2.2.5 Úkoly a problémy k modulu 2.2

    1. Při výrobní kontrole bylo provedeno měření délky 15 kusů půlmetrových laťovek(v cm):

    49,8 50,2 50,3 49,5 50,0 49,3 50,0 50,950,4 50,0 49,7 50,6 50,2 49,9 50,1

    Uspořádejte data podle velikosti a stanovte hodnoty x(5) x(10) a x(11) (Najdětepátou, desátou a jedenáctou hodnotu v uspořádaném datovém souboru.) Sestrojtediagram rozptýlení. Co vypovídá tento diagram o koncentraci a souměrnosti dat?

    2. Bylo provedeno 50 chemických analýz na ověření koncentrace určité chemické látkypři práci s jedním typem roztoku s těmito výsledky (v %):

  • PREPRINT O. Kříž, J. Neubauer, M. Sedlačík 39

    41 42 41 44 41 41 39 43 45 4142 43 41 41 43 41 42 45 42 4043 42 42 40 41 42 42 43 42 4339 44 43 42 40 42 42 40 42 4241 40 44 39 42 44 42 41 45 43

    Sestavte tabulku rozdělení četností a stanovte absolutní, relativní, kumulované a re-lativní kumulované četnosti. Sestrojte polygon četností a součtovou křivku. Jakévlastnosti našeho znaku koncentrace látky lze z rozdělení vyčíst?

    3. Test z matematiky obsahuje 10 otázek z oblasti středoškolské matematiky. Na kaž-dou otázku je nabídnuto 5 odpovědí, přičemž jen jedna je správná. U 60 studentůbyly získány následující výsledky (počet správných odpovědí):

    5 3 6 7 4 8 8 6 7 6 6 75 10 6 6 8 6 6 4 7 3 7 95 8 9 3 3 7 5 7 8 7 9 78 4 6 6 3 7 4 9 4 7 6 42 6 4 7 7 9 7 5 7 4 6 6

    Sestavte tabulku rozdělení četností a stanovte absolutní, relativní, kumulované a re-lativní kumulované četnosti. Sestrojte polygon četností, součtovou křivku a empi-rickou distribuční funkci. Jaké vlastnosti našeho znaku počet správných odpovědílze z rozdělení vyčíst?

    4. Máme k dispozici údaje o významných zemětřeseních v Kalifornii (uvedeno ve stup-ních Richterovy stupnice):

    6,8 6,6 7,5 6,2 6,5 7,1 6,1 5,8 5,5 6,96,6 6,2 5,3 5,9 6,0 5,3 5,9 6,2 6,4 7,06,2 6,1 6,0 6,1 5,5 6,4 5,9 5,7 5,9 5,96,1 5,3 6,6 5,8 7,7 5,9 7,1 6,3 7,0 6,38,3 8,0 6,8 6,3 8,3 7,0 7,0 7,0 6,5

    Sestrojte intervalové rozdělení četností, určete absolutní, relativní, kumulovanéa relativní kumulované četnosti. Rozdělení četností zobrazte pomocí histogramu,součtového histogramu. Sestrojte empirickou distribuční funkci. Co lze z vašehorozdělení četností usoudit o sledovaném znaku síla zemětřesení?

    5. Na jistém úseku dálnice byla měřena rychlost projíždějící osobních aut (v km/h):

    147 125 127 134 126 143 134 129 151 143138 116 122 142 115 132 125 128 129 163120 134 131 126 142 104 120 141 114 130155 130 145 133 121 137 116 146 140 118139 122 122 128 136 159 139 167 158 132157 142 117 134 126 150 129 115 146 153152 157 133 158 143 111 136 120 164 118

  • 40 PREPRINT O. Kříž, J. Neubauer, M. Sedlačík

    Sestrojte intervalové rozdělení četností, určete absolutní, relativní, kumulovanéa relativní kumulované četnosti. Rozdělení četností zobrazte pomocí histogramu,součtového histogramu. Sestrojte empirickou distribuční funkci. Má náš sledovanýznak rychlost auta symetrické rozdělení? Jaké vlastnosti tohoto znaku lze ještě zrozdělení četností vyčíst?

    6. Pro data z příkladu 2.2.4 (množství prachových částic) proveďte jiné intervalovérozdělení četností, např. pro volbu k = 8, případně i k = 9. Porovnejte vaše řešenís uvedeným řešením příkladu a posuďte, jaký to má vliv na sledovaná vlastnostiznaku.

    Řešení.1. 49,9; 50,2; 50,2;2. 39: 3; 40: 5; 41: 11; 42: 16; 43: 8; 44: 4; 45: 3;3. 2: 1; 3: 5; 4: 8; 5: 5; 6: 14; 7: 15; 8: 6; 9: 5; 10: 1;4. např. pro k = 7, h = 0,5, a = 5,1: (5,1; 5,6〉: 5; (5,6; 6, 1〉: 15; (6,1; 6,6〉: 14; (6,6; 7,1〉:10; (7,1; 7,6〉: 1; (7,6; 8,1〉: 2; (8,1; 8,6〉: 2;

    5. např. pro k = 7, h = 10, a = 100: (100, 110〉: 1; (110, 120〉: 12; (120, 130〉: 17;(130, 140〉: 16; (140, 150〉: 12; (150, 160〉: 9; (160, 170〉: 3.

    Další úlohy na procvičování:

    [Kříž 1]: str. 9–11.

    2.3 Charakteristiky polohy

    Jak je ukázáno v předchozím výkladu, poskytují tabulky a grafy užitečnou infor-maci a přehled o základní struktuře zkoumaného statistického souboru (datové mno-žiny). Prostřednictvím tohoto souboru sledujeme určitý statistický znak, jehož vlast-nosti je vhodné nějakým způsobem vyjádřit v koncentrované formě v podobě určitých