38
Základy popisné statistiky aneb známe tři druhy lži: – úmyslná – neúmyslná – statistika

Základy popisné statistiky

  • Upload
    louis

  • View
    33

  • Download
    5

Embed Size (px)

DESCRIPTION

Základy popisné statistiky. aneb známe tři druhy lži: úmyslná neúmyslná statistika. popisn á statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací! charakteristiky polohy a variability. - PowerPoint PPT Presentation

Citation preview

Page 1: Základy popisné statistiky

Základy popisné statistiky

aneb známe tři druhy lži:– úmyslná– neúmyslná– statistika

Page 2: Základy popisné statistiky

popisná statistika

• cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali

• důsledkem je ztráta informací!

• charakteristiky polohy a variability

Statistika je jako bikini. Co odhaluje je zajímavé, co skrývá je podstatné.

Aaron Levenstein

Page 3: Základy popisné statistiky

průměrná teplota: 9.2°C

minimum: 4°C

maximum: 15°C

rozsah: 11°C

modus: 9°C

medián: 9°C

rozptyl: 5.1°C

směrodatná odchylka: 2.3°C

den teplota

1.4.2008 11

2.4.2008 10

3.4.2008 10

4.4.2008 9

5.4.2008 8

6.4.2008 7

7.4.2008 8

8.4.2008 9

9.4.2008 4

10.4.2008 9

11.4.2008 8

12.4.2008 7

13.4.2008 8

14.4.2008 9

15.4.2008 12

16.4.2008 13

17.4.2008 15

18.4.2008 11

19.4.2008 12

20.4.2008 10

21.4.2008 9

22.4.2008 8

23.4.2008 9

24.4.2008 11

25.4.2008 10

26.4.2008 9

27.4.2008 6

28.4.2008 6

29.4.2008 7

30.4.2008 12

samotná data (11; 10; 10; 9; 8;……) = základní soubor

N = počet prvků základního souboru = 30

(prvek = pozorování)

Xi = hodnota i-tého prvku (X1=11; X16=13;…)

Page 4: Základy popisné statistiky

Histogram

0

2

4

6

8

10

12

Třídy

četn

ost

četnost

teplota

0.0

2.0

4.0

6.0

8.0

10.0

12.0

14.0

16.0

teplota

histogram četností

zajímá nás rozložení dané proměnné v celém souboru

vývoj proměnné

zajímá nás vývojový trend proměnné

Page 5: Základy popisné statistiky

Různé typy dat• data na stupnici

– nominální (kategoriální, klasifikační)• dané třídy (kategorie)• barva očí, typ podloží,….

– ordinální (pořadová)• mohu seřadit• známky ve škole, stupnice tvrdosti,…

– intervalové• dané intervaly mezi jednotkami• nemají podíly (nemají jednoznačně danou nulu)• teplota• čas

– cirkulární (pozor na průměry!)

– podílové (poměrné)• jednoznačně daná nula• měření,…..

Když má hlavu v sauně a nohy v ledničce, hovoří statistik o příjemné průměrné teplotě. Franz Josef Strauß

Page 6: Základy popisné statistiky

základní popisné statistiky

• průměr– aritmetický

– geometrický

– harmonický

N

XN

i

i 1

NN

iiX1

N

i iXN 1

111

základní soubor:

4,5,6,8,12

7535

5128654

49,61286545

06,6

121

81

61

51

41

51

1

Page 7: Základy popisné statistiky

vážený průměr• zobecnění

aritmetického• zohledňuje důležitost

některých pozorování

• potřebuji hodnoty (x1, x2, x3,…) a jejich váhy (w1, w2, w3,….)

n

ii

n

iii

w

wxX

1

1

30 samic má průměr hmotnosti 60 kg, 20 samců má průměr 80 kg. Celkový průměr není 70 kg, ale

682030

20803060

Page 8: Základy popisné statistiky

základní popisné statistiky• modus

– nejčastěji se vyskytující hodnota– min. modus = 1, max. modus = N– může jich být víc– odpovídá vrcholu histogramu četností

• medián – polovina pozorování menší než medián, polovina větší– střed uspořádaného základního souboru– další kvantily – kvartily, percentily apod. (86% percentil říká, že 86%

prvků leží pod touto hodnotou a 14% nad ní)– i pro pouze „seřazená“ data (na ordinální stupnici) – např. jídlo je

vynikající (1), dobré (2), ucházející (3), bez chuti (4), nic moc (5), hnusné (6), vyvolávající zvracení (7)

– Beaufortova stupnice síly větru, Mohsova stupnice tvrdosti apod.– v případě „ulítlé“ hodnoty lepší vypovídající hodnota než průměr

Page 9: Základy popisné statistiky

základní popisné statistiky

• pokud mám platy v podniku: • 14 520; 11 350; 12 645; 14 520; 13 562; 14 520;

32 458; 38 452; 10 235; 11 548;• „průměrný plat“ = 16 824• medián = 13 562

Histogram

02468

10

1100

0

1500

0

1900

0

2400

0

2800

0

3200

0Dalš

í

Třídy

Čet

no

st

Četnost

Page 10: Základy popisné statistiky

základní popisné statistiky

• rozptyl (variance)– průměrná hodnota

druhé mocniny odchylky od průměru

• směrodatná odchylka– odmocnina z rozptylu– čím menší, tím nižší

variabilita dat

N

XN

ii

1

2

2

základní soubor:

4,5,6,8,12

průměr = 7

85

2511495

)712()78()76()75()74( 222222

2

83,28

Page 11: Základy popisné statistiky

histogram četnostíHistogram of hind femur

340 360 380 400 420 440 460 480 500 520

velikostní třídy

0

2

4

6

8

10

12

14

16

18

20

22

24

26

28

poče

t poz

orov

ání

hind femur: SW-W = 0,9935; p = 0,9417

Page 12: Základy popisné statistiky

normální rozdělení

Page 13: Základy popisné statistiky

náhodný výběr

• většinou nemáme k dispozici celý základní soubor (všechny mihule, klešťanky, brambory, deváťáky apod.)

• provedeme tedy náhodný výběr, ten zkoumáme a na základě výběrového šetření se snažíme hypotetický základní soubor popsat

• charakteristiky tedy (sofistikovaně) odhadujeme!!!

• není snadné provést náhodný výběr

Page 14: Základy popisné statistiky

charakteristiky výběru

• počet prvků n• průměr se počítá stejně

• rozptyl (variance) výběru jinak!

• směrodatná odchylka výběru

• variační koeficient – porovnává variabilitu nestejně velkých objektů (myš a slon) – bezrozměrné číslo

n

XX

n

íi

1

1

)( 2

12

n

XXs

n

íi

2ss

Xs

CV

Page 15: Základy popisné statistiky

• směrodatná odchylka výběru– empirické pravidlo: většina hodnot se neodlišuje od

průměru o více než jednu směrodatnou odchylku a skoro všechny hodnoty jsou v pásmu do dvou směrodatných odchylek od průměru.

normální rozdělení:

Page 16: Základy popisné statistiky

přesnost odhadu průměru

• výběrový průměr = náhodná veličina! (náhodné výběry z jednoho základního souboru se liší) má také svůj rozptyl

• z rozptylu průměru lze spočítat směrodatnou odchylku průměru = střední chyba průměru

• nepopisuje variabilitu dat, ale přesnost odhadu

ns

sx

X

22

n

ss xX

Page 17: Základy popisné statistiky

  8 4 8

  7 2 7

  8 2 8

  8 4 8

  7 2  

  8 4  

  8 4  

  9 3  

  8 4  

  6 6  

  9 15  

  8 14  

  7 16  

  8 12  

  6 16  

  9 16  

       

průměr 7.75 7.75 7.75

sm. odchylka 0.90 5.64 0.43

modus 8 4 8

medián 8 4 8

sm. odchylka výběru 0.93 5.83 0.50

střední chyba průměru 0.23 1.45 0.25

n 16 16 4

náhodné výběry:

vždy musím uvádět n, průměr, sm. odchylku

ostatní podle potřeby

Histogram

0

5

10

15

4 8 12 16 Další

Třídy

Čet

nost

Četnost

Histogram

05

10

4 8 12 16 Další

Třídy

Četno

st Četnost

Histogram

05

4 8 12 16 Další

Třídy

Četno

st

Četnost

Page 18: Základy popisné statistiky

grafy

• vynikající prostředek pro zpřehlednění dat

• také pro klamání čtenáře

Page 19: Základy popisné statistiky

Produkce škodlivin

0

20

40

60

80

100

120

1990 2000

Pro

du

kc

e /

os

ob

u

ČR

UK

podle Biostatistika, Lepš, PřF

Page 20: Základy popisné statistiky

Produkce škodlivin

0

20

40

60

80

100

120

1990 2000

Pro

du

kc

e (

% r

ok

u 1

99

0)

ČR

UK

podle Biostatistika, Lepš, PřF

Page 21: Základy popisné statistiky

Produkce škodlivin

88

90

92

94

96

98

100

102

1990 2000

Pro

du

kc

e (

% r

ok

u 1

99

0)

ČR

UK

podle Biostatistika, Lepš, PřF

Page 22: Základy popisné statistiky

http://www.coolschool.ca/lor/AMA11/unit1/U01L02.htm

http://alex.state.al.us/lesson_view.php?&print=friendly&id=26406

Page 23: Základy popisné statistiky

• vždy je třeba vědět z jakého základu se počítají procenta!

• pozor na tvrzení typu: hodnota klesla o 10% (např. ze 40% na 30% tedy ve skutečnosti o 25%!!!, ale o 10 procentních bodů)

Page 24: Základy popisné statistiky

jak na to v excelu?

• statistické funkce– PRŮMĚR, SMODCH, MODE, MEDIAN, VAR,

ČETNOSTI,… (pozor – maticové vzorce – zaklínadlo Ctrl+Shift+Enter)

– =SMODCH.VÝBĚR(F1:F16)/ODMOCNINA(POČET(F1:F16))

• grafy – spojnicové, sloupcové, koláčové– podle typu dat, záměru

Page 25: Základy popisné statistiky

jak na to v excelu?

• pro pokročilé funkce musíme aktivovat doplněk „analýza dat“

Page 26: Základy popisné statistiky
Page 27: Základy popisné statistiky

histogram četnosti• velmi užitečný, zobrazuje přibližné rozdělení

sledované proměnné• vizualizace frekvence dat

Histogram

0

2

4

6

8

10

12

Třídy

četn

ost

četnost

Page 28: Základy popisné statistiky
Page 29: Základy popisné statistiky

program Statistica

sledovaná proměnná

jednotlivé případy

Page 30: Základy popisné statistiky

Program Statistica (data viz cvic1.xls)

Data zadávám jinak než v excelu!

Page 31: Základy popisné statistiky

Program Statistica (data viz cvic1.xls)

• Statistica mi deskriptivní statistiky vypíše při provádění statistických testů

• nicméně mohu volat Statistika – Základní statistika/tabulky – Popisná statistika

• zde mohu dát jen jednu kategorii – pokud jich mám více, zadám „select cases“

Page 32: Základy popisné statistiky

Program Statistica (data viz cvic1.xls)

• Statistica mi deskriptivní statistiky vypíše při provádění statistických testů

• nicméně mohu volat Statistika – Základní statistika/tabulky – Popisná statistika

• zde mohu dát jen jednu kategorii – pokud jich mám více, zadám „select cases“

Page 33: Základy popisné statistiky

Program Statistica (data viz cvic1.xls)

• v záložce rozšířené (advanced) vyberu, které charakteristiky chci zobrazit

Page 34: Základy popisné statistiky
Page 35: Základy popisné statistiky

Program Statistica (data viz cvic1.xls)

• Histogram – volám Grafy-histogramy

Page 36: Základy popisné statistiky

Excel (data viz cvic1.xls)

• Histogram – buď Analýza dat….• anebo fce Četnosti + sloupcový graf (pozor na

zaklínadlo Shift+Ctrl+Enter)počet

0

5

10

15

20

25

30

340 360 380 400 420 440 460 480 500 520 více

Page 37: Základy popisné statistiky

Kontingenční tabulka• vizualizace kategoriálních dat

Page 38: Základy popisné statistiky

zdroje a materiály

• Lepš J.: Biostatistika• http://botanika.bf.jcu.cz/suspa/vyuka/statistika.php

• Papáček M., Slipka J., 1997: Úvod do odborné práce (pro posluchače studia učitelství biologie). PF JČU, České Budějovice, 88 s.