26
Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, [email protected] 8. pˇ rednáška z ESMAT Michal Fusek ([email protected]) 1 / 26

Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Základy popisné statistiky

Michal Fusek

Ústav matematiky FEKT VUT, [email protected]

8. prednáška z ESMAT

Michal Fusek ([email protected]) 1 / 26

Page 2: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Obsah

1 Základy statistického zpracování dat

2 Rozdelení cetností

3 Charakteristiky souboru

Michal Fusek ([email protected]) 2 / 26

Page 3: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Základy statistického zpracování dat

Popisná statistika

Popisná statistika se zabývá shromažd’ováním, trídením apopisem souboru dat.

Predmetem statistiky je také hledání zákonitostí v techto datecha predpoved’ budoucího vývoje.

Pri statistickém šetrení zkoumáme vlastnosti (statistické znaky)urcité skupiny objektu:

zamestnanci (výkonnost, plat, znalost anglictiny)pokusné myši (reakce na podanou látku)výrobky (kvalita)

Statistická jednotka - zkoumaný objekt

Statistický soubor - množina všech statistických jednotek

Michal Fusek ([email protected]) 3 / 26

Page 4: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Základy statistického zpracování dat

Cíl statistického zkoumání - získat poznatky o vlastnostech celéhostatistického souboru.

PríkladStatistický soubor:

množina všech obcanu CR.množina všech studentu na VUT.

Chci zjistit, jaká cást obyvatel (studentu VUT) sleduje seriál Ulice.

Prakticky nemožné - omezíme se pouze na vybranou podmnožinusouboru.

Podle rozsahu rozlišujeme dva typy statistických souboru:Základní soubor (populace) - obsahuje všechny vymezenéjednotky.Výberový soubor (výber) - obsahuje pouze nekteré jednotky.

Michal Fusek ([email protected]) 4 / 26

Page 5: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Základy statistického zpracování dat

Príklad

Provádíme volební pruzkum v CR:Základní soubor - množina všech oprávnených volicu v CR (>8,3milionu, 2018).Výberový soubor - vybraná skupina volicu v pruzkumu (napr. 1000volicu).

Vlastnosti výberového souboru se snažíme zobecnit pro celýzákladní soubor.

Výber musí být reprezentativní! (tzv. náhodný výber)

Pokud se budeme ptát pouze bohatých lidí, volební modelnedopadne dobre pro levicové strany se sociálním programem= nereprezentativní vzorek.

Michal Fusek ([email protected]) 5 / 26

Page 6: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Základy statistického zpracování dat

Statistické znaky delíme na:Kvantitativní - jsou popsané císelnou hodnotou:

Spojité - mohou nabývat hodnot z urcitého intervalu (spotrebaelektriny).

Diskrétní - mohou nabývat pouze hodnot z urcité konecné nebospocetné množiny (pocet detí v rodine).

Kvalitativní - jsou popsány slovne.

Podle poctu sledovaných statistických znaku získáme soubor:jednorozmerný (plat zamestnance)dvourozmerný (výška a váha dítete)vícerozmerný (obyvatel CR: bydlište, datum a místo narození,zamestnání, vzdelání, pohlaví, náboženství,...)

Michal Fusek ([email protected]) 6 / 26

Page 7: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Rozdelení cetností

Rozdelení cetností - diskrétní znaky

Predpokládejme, že v souboru o rozsahu n muže sledovaný znak xnabývat k ruzných hodnot (variant) x1, x2, . . . , xk .Cetnost varianty xi je pocet výskytu této hodnoty ve sledovanémsouboru a oznacíme ji ni , i = 1, . . . , k . Pak platí

n1 + n2 + · · ·+ nk = n.

PríkladVe tríde je 10 žáku, jejichž známky z matematiky na vysvedcení jsou

2,5,3,2,1,1,2,4,1,3.

ni ...cetnost výskytu známky i , i = 1,2,3,4,5

n1 = 3, n2 = 3, n3 = 2, n4 = 1, n5 = 1

Michal Fusek ([email protected]) 7 / 26

Page 8: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Rozdelení cetností

Co když chceme porovnat rozdelení cetností znaku dvou souboru oruzném rozsahu?

Relativní cetnost varianty xi oznacíme jako

fi =ni

n.

Pro relativní cetnosti platí

f1 + · · ·+ fk =n1

n+ · · · nk

n=

n1 + · · ·+ nk

n= 1.

PríkladVe tríde je 10 žáku, jejichž známky z matematiky na vysvedcení jsou

2,5,3,2,1,1,2,4,1,3.

fi ...relativní cetnost výskytu známky i , i = 1,2,3,4,5

f1 = 0,3, n2 = 0,3, n3 = 0,2, n4 = 0,1, n5 = 0,1Michal Fusek ([email protected]) 8 / 26

Page 9: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Rozdelení cetností

Kumulativní cetnosti (absolutní nebo relativní) - udávají, kolikjednotek má hodnotu znaku menší nebo rovnou vybrané variante xi .

Varianta znakuCetnost Kumulativní cetnost

absolutní relativní absolutní relativní

x1 n1 f1 n1 f1x2 n2 f2 n1 + n2 f1 + f2...

......

......

xk nk fk n1 + · · ·+ nk = n f1 + · · ·+ fk = 1

Michal Fusek ([email protected]) 9 / 26

Page 10: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Rozdelení cetností

PríkladVe tríde je 10 žáku, jejichž známky z matematiky na vysvedcení jsou

2,5,3,2,1,1,2,4,1,3.

Varianta znakuCetnost Kumulativní cetnost

absolutní relativní absolutní relativní

x1 n1 = 3 f1 = 0,3 3 0,3x2 n2 = 3 f2 = 0,3 6 0,6x3 n3 = 2 f3 = 0,2 8 0,8x4 n4 = 1 f4 = 0,1 9 0,9x5 n5 = 1 f5 = 0,1 10 1

Michal Fusek ([email protected]) 10 / 26

Page 11: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Rozdelení cetností

PríkladZkoumáme vek 70 studentu nastupujících do 1. rocníku vysoké školy.Vek nabývá hodnot z množiny {18,19,20,21,22,23}.

Vek Pocet Relativní Kumulativní Kumulativnístudenta studentu cetnost absolutní relativní

xi ni fi cetnost cetnost

18 1 0,014 1 0,01419 44 0,629 45 0,64320 19 0,271 64 0,91421 3 0,043 67 0,95722 2 0,029 69 0,98623 1 0,014 70 1,000

Michal Fusek ([email protected]) 11 / 26

Page 12: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Rozdelení cetností

Jak data zobrazit?

Spojnicový graf Sloupcový graf

Co když diskrétní znak nabývá príliš mnoha ruzných hodnot?

⇒ Hodnoty seskupíme do intervalu (viz spojité znaky).

Michal Fusek ([email protected]) 12 / 26

Page 13: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Rozdelení cetností

Rozdelení cetností - spojité znaky

Spojité znaky mohou nabývat jakékoli hodnoty z urcitého intervalu.

Hodnoty roztrídíme do intervalu - sestavíme intervalové rozdelenícetností.

Kolik intervalu mám zvolit?

Sturgesovo pravidlo

k .= 1 + log2 n .

= 1 + 3,3 log n.

PríkladZkoumáním prumerné spotreby benzinu u 80 automobilu urcité znackyjsme získali hodnoty (v litrech na 100 km) v rozmezí 6,23 až 10,49.

k = 1 + 3,3 log 80 .= 7

Michal Fusek ([email protected]) 13 / 26

Page 14: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Rozdelení cetností

Príklad

Pocet Relativní Kumulativní KumulativníInterval aut cetnost absolutní relativní

ni fi cetnost cetnost

〈6; 6,5) 3 0,0375 3 0,0375〈6,5; 7) 12 0,1500 15 0,1875〈7; 7,5) 19 0,2375 34 0,4250〈7,5; 8) 15 0,1875 49 0,6125〈8; 8,5) 19 0,2375 68 0,8500〈8,5; 9) 7 0,0875 75 0,9375〈9; 9,5) 3 0,0375 78 0,9750〈9,5; 10) 1 0,0125 79 0,9875〈10; 10,5) 1 0,0125 80 1,0000

Michal Fusek ([email protected]) 14 / 26

Page 15: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Rozdelení cetností

Jak data zobrazit?

Histogram cetností Normovaný histogram

Normovaný histogram vznikne tak, že se relativní cetnosti vydelídélkou dílcího intervalu.

Michal Fusek ([email protected]) 15 / 26

Page 16: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Charakteristiky souboru

Charakteristiky polohyPopisují, kolem jakých hodnot se zkoumaný znak zhruba pohybuje.

Máme-li soubor rozsahu n a zjištené hodnoty znaku jsou x1, . . . , xn,pak jejich aritmetický prumer je

x =x1 + · · ·+ xn

n=

1n

n∑i=1

xi .

Aritmetický prumer znaku, který nabývá hodnot x1, x2, . . . , xk scetnostmi ni a relativními cetnostmi fi , i = 1, . . . , k , lze vypocítat jako

x =1n

k∑i=1

xi · ni =k∑

i=1

xi · fi .

Michal Fusek ([email protected]) 16 / 26

Page 17: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Charakteristiky souboru

Co když zkoumáme spojitý znak a známe pouze rozloženíintervalových cetností?

Mužeme spocítat aritmetický prumer a za hodnoty znaku vzít stredyintervalu (aritmetický prumer však nedostaneme úplne presne).

PríkladVypocítáme prumernou spotrebu benzínu pro hodnoty z predchozíhopríkladu.

Využijeme-li intervalové rozložení cetností a jako reprezentantakaždého intervalu vezmeme jeho stred:

x .=

180

(6,25 · 3 + 6,75 · 12 + · · ·+ 9,75 · 1 + 10,25 · 1) .= 7,74.

Použijeme-li puvodní hodnoty:

x =180

(6,23 + 6,38 + 6,48 + · · · ) .= 7,78.

Michal Fusek ([email protected]) 17 / 26

Page 18: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Charakteristiky souboru

Aritmetický prumer není vždy ideálníObcas nemusí dát dobrou predstavu o typické úrovni hodnot souboru.

PríkladVe firme pracuje 10 radových pracovníku s platem 15 000 Kc, zatímcoreditel má 100 000 Kc. Prumerný plat je pak približne 22 727 Kc.

...zkuste to ríct tem „dole“.

Modus statistického znaku znacíme x a je to hodnota, která se vsouboru vyskytuje nejcasteji.

U spojitých znaku (známe-li intervalové rozdelení cetností)stanovujeme tzv. modální interval.

Michal Fusek ([email protected]) 18 / 26

Page 19: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Charakteristiky souboru

Medián

Medián statistického znaku znacíme x nebo též x0,5. Je to prostredníhodnota ze souboru usporádaného podle velikosti.

Oznacíme-li prvky usporádané podle velikosti jako x(1), x(2), . . . , x(n) apocet prvku n je liché císlo, pak je medián prímo prostrední hodnota, tj.

x = x( n+12 ) .

Je-li rozsah souboru n sudé císlo, je medián prumer ze dvouprostredních prvku, tj.

x =12

(x( n

2)+ x( n

2+1)

).

Michal Fusek ([email protected]) 19 / 26

Page 20: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Charakteristiky souboru

PríkladUrcete medián, jestliže zjištené hodnoty zkoumaného znaku jsou

4,7,3,5,2,4,8,6,3,4,7,2,4,5,5.

Rešení:

Setrídením podle velikosti dostaneme

2,2,3,3,4,4,4,4,5,5,5,6,7,7,8.

Hodnot je celkem 15, medián tedy bude osmá (prostrední) z nich, tj.x = 4.

Michal Fusek ([email protected]) 20 / 26

Page 21: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Charakteristiky souboru

Kvantily

Pro p ∈ (0,1) je p-kvantil xp takové císlo, které oddeluje nejmenšíchp · 100 % hodnot statistického znaku od nejvetších (1− p) · 100 %hodnot.

Speciální prípady kvantilu:Medián x0,5 – delí soubor serazený podle velikosti zkoumanéhoznaku na poloviny.Kvartily x0,25, x0,5, x0,75 – delí soubor na ctvrtiny. Hodnotu x0,25nazýváme první kvartil, druhý kvartil splývá s mediánem ahodnotu x0,75 nazýváme tretí kvartil.Decily x0,1, . . . , x0,9 – delí soubor na desetiny. Mluvíme o prvním,druhém, až devátém decilu.Percentily x0,01, . . . , x0,99 – delí soubor na setiny.

Michal Fusek ([email protected]) 21 / 26

Page 22: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Charakteristiky souboru

Charakteristiky variabilityPopisují rozptýlenost hodnot.

Variacní rozpetí je rozdíl nejvetší a nejmenší hodnoty znaku, tedy

R = xmax − xmin.

Nejjednodušší, ale i nejhrubší míra variability.

Nevýhodou je vliv extrémních hodnot (naprostá vetšina hodnotmuže ležet v intervalu daleko užším).

Mezikvartilové rozpetí je rozdíl tretího a prvního kvartilu:

x0,75 − x0,25.

Michal Fusek ([email protected]) 22 / 26

Page 23: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Charakteristiky souboru

Rozptyl

Rozptyl (populacní, empirický) statistického znaku oznacíme s2n a

definujeme jej jako

s2n =

1n

n∑i=1

(xi − x)2 =

(1n

n∑i=1

x2i

)− x2,

prípadne

s2n =

k∑i=1

(xi − x)2 · fi =

(k∑

i=1

x2i · fi

)− x2,

když znak nabývá hodnot x1, . . . , xk s relativními cetnostmi fi ,i = 1, . . . , k .

Aritmetický prumer ctvercu odchylek jednotlivých hodnot znaku odaritmetického prumeru.Výsledek je ve ctvercích použité merné jednotky (ztežujeinterpretaci).

Michal Fusek ([email protected]) 23 / 26

Page 24: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Charakteristiky souboru

Dva statistické znaky se stejným prumerem a ruznými rozptyly:

Relativní cetnosti pro znaks prumerem x .

= 9 a rozptylems2

n.= 1

Relativní cetnosti pro znaks prumerem x .

= 9 a rozptylems2

n.= 7

Michal Fusek ([email protected]) 24 / 26

Page 25: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Charakteristiky souboru

Dríve predstavený (populacní) rozptyl podhodnocuje skutecný rozptylcelé populace - vychýlený odhad.

Proto se zavádí výberový rozptyl (duležitejší než populacní rozptyl) s2n.

Výberový rozptyl znacíme s2 a je definován jako

s2 =1

n − 1

n∑i=1

(xi − x)2 =

(1

n − 1

n∑i=1

x2i

)− n

n − 1x2,

tedy mezi populacním a výberovým rozptylem je vztah

s2 =n

n − 1s2

n,

Michal Fusek ([email protected]) 25 / 26

Page 26: Základy popisné statistikyfusekmi/esmat/Prednaska08.pdf · 2018. 9. 10. · Základy statistického zpracování dat Popisná statistika Popisná statistika se zabývá shromažd’ováním,

Charakteristiky souboru

Smerodatná odchylka

Smerodatná odchylka sn je odmocnina z rozptylu, tedy

sn =

√s2

n =

√√√√1n

n∑i=1

(xi − x)2.

Výberová smerodatná odchylka s je odmocnina z výberovéhorozptylu, tedy

s =√

s2 =

√√√√ 1n − 1

n∑i=1

(xi − x)2.

Je ve stejných jednotkách jako sledovaný znak (lepší interpretacenež rozpyl).

Michal Fusek ([email protected]) 26 / 26