49
Matematick´ a statistika ´ Uvod do statistiky Odhady charakteristik rozdˇ elen´ ı Grafick´ e metody pr˚ uzkumov´ e statistiky Matematick´ a statistika ˇ arka Hudecov´ a Katedra pravdˇ epodobnosti a matematick´ e statistiky Matematicko-fyzik´ aln´ ı fakulta Univerzity Karlovy letn´ ı semestr 2012 1 1 Zaloˇ zeno na materi´ alech doc. Michala Kulicha

statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Matematicka statistika

Sarka Hudecova

Katedra pravdepodobnosti a matematicke statistikyMatematicko-fyzikalnı fakulta Univerzity Karlovy

letnı semestr 20121

1Zalozeno na materialech doc. Michala Kulicha

Page 2: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Opakovanı

populace a vyber z populace

nahodny vyber! nezavisle nahodne veliciny X1, . . . ,Xn

se stejnym rozdelenım

vyberovy prumer X n a jeho vlastnosti

strednı hodnotarozptylchovanı pro n → ∞rozdelenı, asymptoticke rozdelenı

Page 3: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Pravdepodobnost vs. statistika

Teorie pravdepodobnosti

pracuje s jednou nebo vıce teoretickymi nahodnymivelicinami, jejichz rozdelenı je znamo

odvozovali jsme charakteristiky techto rozdelenı atd.

Statistika

pracuje s pozorovanımi (daty)! nahodny vyber znejakeho neznameho rozdelenı

na zaklade dat se snazıme neco rıci o rozdelenı, z nehozpochazejı (napr. o strednı hodnote apod.)

nekdy pozorujeme vıce nahodnych velicin (vıce nahodnychvyberu) a chceme neco usoudit o jejich vzajemnem vztahu

Page 4: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Statististicky prıstup k resenı problemu

1 co nejpresnejsı stanovenı problemu, otazky apod.

2 plan experimentu

3 sber pozorovanı datovy soubor

4 vyber vhodneho pravdepodobnostnıho modelu popisujıcıhorozdelenı pozorovanych dat

5 formulace reseneho problemu v reci matematiky(matematicke statistiky)

6 analyza dat pomocı statisticke metody

7 spravna interpretace resenı odpoved’ na puvodnı otazku

Page 5: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Data

pozorovanı (merenı), ktera provadıme kvuli zodpovezenıpolozene otazky

upravujeme do formatu datove tabulky a uchovavame velektronicke podobe jako pocıtacovy soubor

pozorovanı tykajıcı se nezavislych subjektu nahodnehovyberu (osob, experimentu,. . . ) vetsinou v radcıch,jednotlive merene veliciny ve sloupcıch

k zaznamenavanı dat a manipulacım s nimi se pouzıvajıruzne druhy pocıtacoveho softwaru (databazove systemy,Excel, R, SAS,. . . )

statisticka analyza pomocı statistickych softwaru (R,SAS,. . . )

Page 6: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Prıklad datoveho souboru

Tabulka: Cast datove tabulky predstavujıcı nahodny vyber z populacestudentu 1. rocnıku

id pohl vys vaha n.sour v.o v.m bydl...

......

......

......

...23 1 183 70 3 49 50 Vysocina24 1 192 85 2 51 53 Jiznı Morava25 1 178 90 1 45 41 Karlovy Vary26 0 168 55 1 53 53 Praha...

......

......

......

...

(celkem 269 pozorovanı v letech 2006–2011)

Page 7: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Prıklady problemu k resenı

Jaka je typicka hmotnost studentu?

Jake procento studentu je z Prahy?

Jake je rozdelenı veku studentu na prednasce?

Jsou otcove detı starsı nez matky? Pokud ano, o kolik?

Zavisı vyska na pohlavı? Pokud ano, tak jak?

Zavisı velikost bot na vysce?

Dva typy problemu:

odhady neznamych kvantit! odhady parametru

rozhodovanı o platnosti nejakeho vyroku! testovanıhypotez

Page 8: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Prıklad datoveho souboru

Studie zkoumajıcı ucinky noveho leku pro snizovanı krevnıhotlaku:

id lek tlak pred tlak po pohl. vaha . . . kurak...

......

......

......

...103 T 145 120 M 82 . . . ano104 C 155 130 M 97 . . . ano105 T 140 135 Z 74 . . . ne106 C 160 150 M 123 . . . ano

......

......

......

......

Je novy lek (T) ucinnejsı nez standardnı lek (C)? O kolik?

Lisı se ucinnost pro muze a zeny? Jak?

Page 9: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Teorie odhadu

mame data x1, . . . , xn (napr. hodnoty vysky studentu)

povazujeme je za realizaci nahodneho vyberu X1, . . . ,Xn

z nejakeho neznameho rozdelenı

chceme neco usuzovat o charakteristikach tohoto rozdelenı(strednı hodnota, rozptyl, hustota . . . ) budemekonstruovat jejich odhady

odhadu je mnoho, chceme vybrat ty”dobre“

Page 10: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Teorie odhadu

mame data x1, . . . , xn (napr. hodnoty vysky studentu)

povazujeme je za realizaci nahodneho vyberu X1, . . . ,Xn

z nejakeho neznameho rozdelenı

chceme neco usuzovat o charakteristikach tohoto rozdelenı(strednı hodnota, rozptyl, hustota . . . ) budemekonstruovat jejich odhady

odhadu je mnoho, chceme vybrat ty”dobre“

Jak by mel vypadat”dobry odhad“?

Nemel by mıt zadnou systematickou vychylku (v prumeruby mel odhadovat to, co chceme odhadovat).

S pribyvajıcım poctem pozorovanı by mel byt”presnejsı a

presnejsı“.

Page 11: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Teorie odhadu — prıklad

Prıklad

Chceme odhadnout”typickou“ vysku (tj. strednı hodnotu)

studentu 1. rocnıku na zaklade merenı provedeneho nan nahodne vybranych studentech.

Merenı odpovıdajı nezavislym nahodnym velicinam X1, . . . ,Xn

z nejakeho neznameho rozdelenı, jehoz strednı hodnotaEX = µX nas zajıma.

Uz vıme, ze:

X n ma strednı hodnotu µX

X n → µX pro n → ∞

X n tedy v prumeru dosahuje hodnoty µX , kterou chcemeodhadnout, a se zvysujıcım se poctem pozorovanı se k tetohodne blızı X je

”dobry“ odhad strednı hodnoty

Page 12: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

⋆ Formalnı definice

Definice

Odhadem nezname charakteristiky θ rozumıme jakoukoli funkciθn pozorovanı X1, . . . ,Xn.

1 Odhad θn nazyvame nestranny (nevychyleny), pokudE θn = θ.

2 Odhad θn nazyvame konzistentnı, pokud limn→∞ θn = θ.

Zaver: Rozumne odhady by mely byt konzistentnı a pokudmozno nestranne (ale mala vychylka nevadı).

Poznamka: Odhad je z principu nahodna velicina proto lzeuvazovat jeho rozdelenı, strednı hodnotu atd.

Page 13: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Co vsechno budeme odhadovat?

Problem: Mame nahodny vyber X1, . . . ,Xn z nejakehoneznameho rozdelenı. Potom nas muzou zajımat odhadynasledujıcıch charakteristik:

strednı hodnota

rozptyl

kvantily (vcetne medianu)

distribucnı funkce

hustota pro spojite rozdelenı

pravdepodobnosti P(X = xj) pro diskretnı rozdelenı

. . .

Page 14: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad strednı hodnoty

Situace: X1, . . . ,Xn nahodny vyber, chceme odhadnout EX

Odhad: vyberovy prumer

X n =1

n

n∑

i=1

Xi ,

uz vıme, ze tento odhad ma dobre vlastnosti.

Charakteristika

strednı hodnota

EX =∑

xiP(X = xi) neboEX =

∫x f (x)dx

platı E (a + bX ) = a+ bEX

platı E (X + Y ) = EX + EY

Odhad

vyberovy prumer

X n = 1n·∑n

1 Xi

platı totez

platı totez

Page 15: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Prıklad

Prıklad

Odhadnete strednı hodnotu vysky studentu 1. rocnıku PrF.

Resenı: Mame zaznamenanych 266 hodnot (3 chybejıcıhodnoty)! nahodny vyber z populace studentu 1. rocnıkuPrF

X =1

266(174+159+167+ · · ·+165+172+178) = 174.1 cm.

Podobne bychom mohli spocıtat odhad strednı hodnoty velicin

vaha, BMI index,

vek otce, vek matky, rozdıl veku rodicu,

velikost bot, pocet sourozencu, . . .

Ma smysl pocıtat strednı hodnotu veliciny udavajıcı pohlavı amesıc narozenı?

Page 16: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad pravdepodobnosti

Situace: Mame nahodny vyber X1, . . . ,Xn z diskretnıhorozdelenı, chceme odhad pravdepodobnostı pj = P [Xi = j]

Odhad: relativnı cetnost hodnoty j

pj =#[Xi = j]

n

je pocet pozorovanı, ktera nabyla hodnoty j , deleny celkovympoctem pozorovanı n.

Poznamka:

popis tzv. kategorialnıch znaku (pohlavı, bydliste . . . )

analogicky lze odhadovat pravdepodobnosti typuP(Xi < 80) pro spojita Xi

Page 17: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad pravdepodobnosti

Prıklad

Odhadnete pravdepodobnost, s jakou se vybrany(a) student(ka)1. rocnıku PrF narodil(a) v danem mesıci.

zaznamenan mesıc narozenı pro 269 studentu

23 se narodilo v lednu odhadnuta pravdepodobnostnarozenı studenta v lednu je tedy 23/269 = 0.086.

Kompletnı tabulka pro vsechny mesıce:

Leden Unor Brezen Duben Kveten Cerven0.086 0.0631 0.067 0.093 0.108 0.078

Cervenec Srpen Zarı Rıjen Listopad Prosinec0.093 0.089 0.097 0.074 0.078 0.074

Page 18: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad rozptylu a smerodatne odchylky

Situace: X1, . . . ,Xn nahodny vyber, chceme odhadnout rozptylvarX = E (X − EX )2 a smerodatnou odchylku σX =

√varX

Odhady: vyberovy rozptyl

S2n =

1

n − 1

n∑

i=1

(Xi − X n)2

a vyberova smerodatna odchylka

Sn =

√√√√ 1

n − 1

n∑

i=1

(Xi − X n)2.

Da se ukazat, ze tyto odhady majı”dobre“ vlastnosti

Page 19: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad rozptylu a smerodatne odchylky

Charakteristika

rozptyl

varX = E (X − EX )2

platı

varX = EX 2 − (EX )2

var (a + bX ) = b2varX

varX ≥ 0 a varX = 0prave tehdy, kdyz Xkonstanta

Odhad

vyberovy rozptyl

S2n = 1

n−1

∑ni=1(Xi − X n)

2

platı

S2n =

n

n − 1

(1

n

n∑

i=1

X 2i −X

2n

)

platı totez

S2n ≥ 0 a S2

n = 0 pravetehdy, kdyz jsou vsechna Xi

stejna

Page 20: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

⋆ Odhad rozptylu a smerodatne odchylky

S2n je nestranny a konzistentnı odhad σ2

X

jiny mozny odhad rozptylu je

1

n

n∑

i=1

(Xi − X n)2.

Tento odhad je konzistentnı, ale nenı nestranny.

Sn je konzistentnı odhad σX , ale nenı nestranny

Page 21: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad rozptylu a smerodatne odchylky

Prıklad

Odhadnete rozptyl a smerodatnou odchylku vysky studentu1. rocnıku PrF zvlast’ pro muze a pro zeny.

Ve vyberu mame 159 hodnot vysek zen (oznacıme jeX1, . . . ,Xn, kde n = 159) a 110 hodnot vysek muzu (oznacımeje Y1, . . . ,Ym, kde m = 110).

Vypocet vyberovych rozptylu a smerodatnych odchylek da

Skupina Vyb. rozptyl Vyb. smer. odchylka

Zeny 41.86 cm2 6.47 cmMuzi 41.62 cm2 6.45 cm

Page 22: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad distribucnı funkce

Problem: X1, . . . ,Xn nahodny vyber, chceme odhadnoutdistribucnı funkci F (x) = P(X ≤ x)

Odhad: empiricka distribucnı funkce definovana jako

Fn(x) =#[i : Xi ≤ x ]

n

lze ukazat, ze ma”dobre“ vlastnosti

hodnota funkce Fn v bode x je odhadem pravdepodobnostiP [Xi ≤ x ] pomocı relativnı cetnosti jevu [Xi ≤ x ]

Fn ma stejne vlastnosti jako distribucnı fce diskretnıveliciny

Page 23: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad distribucnı funkce

Vlastnosti empiricke distribucnı funkce

po castech konstantnı

skoky v pozorovanych hodnotach velicin X1, . . . ,Xn

velikost skoku v danem bode x je rovna poctu velicinnabyvajıcı hodnoty x delenemu n

Prıklad: Fn nahodneho vyberu 2, 5, 1, 2, 6, 4, 5, 2.

0 1 2 3 4 5 6 7

0.0

0.2

0.4

0.6

0.8

1.0

x

Fn(x

)

Page 24: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad distribucnı funkce

Empiricka distribucnı funkce vahy studentu 1. rocnıku PrF(muzi a zeny zvlast’).

40 60 80 100 120

0.0

0.2

0.4

0.6

0.8

1.0

Hmotnost

ED

F

zenymuzi

Page 25: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad hustoty

Problem: X1, . . . ,Xn nahodny vyber ze spojiteho rozdelenı,chceme odhadnout hustotu f

odhad hustoty je relativne slozity problem spokojıme ses jednoduchou grafickou metodou

histogram! dava vizualnı predstavu o hustote

Histogram of vyska

Vyska [cm]

Odh

ad h

usto

ty

150 160 170 180 190 200

0.00

0.01

0.02

0.03

0.04

Page 26: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Konstrukce histogramu

vezmeme interval A = (a, b〉, ktery pokryva cele rozmezıdat

rozdelıme jej na K navazujıcıch stejne velkychpodintervalu Ak , k = 1, . . . ,K , vsechny delky h = b−a

K

oznacıme Nk pocet pozorovanı, ktere padly do Ak

potom Nk

nhje

”dobry“ odhad hustoty na intervalu Ak

Histogram

graficke znazornenı Nk

nhna intervalech Ak

nekdy se zobrazujı relativnı cetnostiNk

nanebo jen cetnosti

Nk stejny tvar, ale lisı se skala na ose y

Page 27: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Histogram – prıklad

Histogram vysky studentu s prolozenou hustotou normalnıhorozdelenı

Histogram of vyska

Vyska [cm]

Odh

ad h

usto

ty

150 160 170 180 190 200

0.00

0.01

0.02

0.03

0.04

Page 28: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Ruzne”druhy“ histogramu

Histogram of vyska

Vyska [cm]

Odh

ad h

usto

ty

150 170 190

0.00

0.01

0.02

0.03

0.04

Histogram of vyska

Vyska [cm]

Poc

ty

150 170 190

010

2030

4050

Page 29: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Histogram

tvar histogramu zavisı na volbe K , tj. poctu uvazovanychintervalu

150 170 190

0.000

0.005

0.010

0.015

0.020

0.025

0.030

0.035

Vyska [cm]

150 170 190

0.00

0.01

0.02

0.03

0.04

Vyska [cm]

Page 30: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad kvantilu

Problem: X1, . . . ,Xnnahodny vyber, chceme odhadnouthodnotu kvantilu qX (α). Specialne, budeme chtıt odhadmedianu mX ≡ qX (0.5).

Pripomenutı:

na kvantil se muzeme dıvat jako na hodnotu, kterou Xi ve100α % prıpadu nedosahne a ve 100(1 − α) % prıpadu jipresahne

spec. pro spojitou velicinu P(X < qX (α)) = α aP(X > qX (α)) = 1− α

odhady sestrojıme pomocı tzv. usporadaneho vyberu

Page 31: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Usporadany nahodny vyber

Definice

Usporadanym nahodnym vyberem rozumıme seznam hodnotpuvodnıho nahodneho vyberu usporadany vzestupne podlevelikosti. Usporadany vyber znacıme indexem v zavorce

X(1),X(2), . . . ,X(n−1),X(n).

Musı tedy platit

X(1) ≤ X(2) ≤ · · · ≤ X(n−1) ≤ X(n).

X(1) je tedy nejmensı pozorovanı (minimum) z celehonahodneho vyberu a X(n) je nejvetsı pozorovanı (maximum).

Page 32: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad medianu

nahodny vyber X1, . . . ,Xn usporadany nahodny vyber

median by mel odpovıdat prostrednı hodnote

pro n liche mame

X(1) ≤ . . . ≤ X( n−12

)︸ ︷︷ ︸n−12

≤ X( n+12

) ≤ X( n+32

) ≤ · · · ≤ X(n)︸ ︷︷ ︸

n−12

pak za odhad medianu vezmeme X( n+12

)

pro n sude mame

X(1) ≤ . . .X( n2)︸ ︷︷ ︸

n2

≤ X( n2+1) ≤ · · · ≤ X(n)︸ ︷︷ ︸

n2

a zadna namerena hodnota prostrednı nenı za odhadmedianu vezmeme prumer X( n

2) a X( n

2+1)

Page 33: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad kvantilu

pouzijeme analogicke uvahy

oznacıme nα = (n + 1)α

je-li nα cele cıslo, pak odhadu qn(α) odpovıda X(nα)

Odhad: Kvantil qn(α) odhadneme pomocı α-teho vyberovehokvantilu

qn(α) =

{X(nα), je-li nα cele cıslo,

(1− nα + [nα])X([nα]) + (nα − [nα])X([nα]+1), jinak,

kde [x ] je cela cast cısla x .

pro α = 0.5 dostaneme tzv. vyberovy median, jizdiskutovany

qn(α) je ”dobry“ (konzistentnı ale ne nestranny) odhad

qn(α)

Page 34: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad kvantilu

Jak chapat vyraz v definici vyberoveho kvantilu?

qn(α) = (1− nα + [nα])X([nα]) + (nα − [nα])X([nα]+1)

Prıklad:

uvazujme n = 33 pocet pozorovanı a α = 0.2, tj. chceme20% kvantil

logicky bychom meli bychom vzıt (n + 1)α = 6.8-tepozorovanı z usporadaneho vyberu

to nelze mısto toho vezmeme 7− 6.8 = 0.2 z sesteho a6.8− 6 = 0.8 ze sedmeho pozorovanı

Page 35: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad kvantilu — prıklad

Prıklad

Odhadnete median veku otce a matky studentu 1. rocnıku PrFv dobe narozenı studenta.

zname soucasny vek rodicu, rok narozenı studenta a rokzaznamu dat spocıtame vek rodicu pri narozenı dıtete

258 pozorovanı veku otce, 262 pozorovanı veku matky

otcove: vyberovy median ze 258 pozorovanı = prumerpozorovanı c. 129 a 130 v usporadanem nahodnem vyberu(dve prostrednı pozorovanı)

pro matky podobne

dostaneme 27 let pro vek otce a 26 let pro vek matky!polovina otcu byla pri narozenı dıtete nejvyse 27 let stara apolovina matek nejvyse 26 let stara

Page 36: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad kvantilu — prıklad (pokrac.)

Spocıtame jeste dalsı vyberove kvantily veku rodicu prinarozenı dıtete:

kvantil 5% 10% 25% 75% 90% 95%

otcove 20.85 22 24 31 35 37.30matky 19.00 20 22 29 32 34.95

Page 37: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad kovariance a korelace

Problem: nahodny vyber(X1Y1

), . . . ,

(Xn

Yn

)z dvourozmerneho

rozdelenı, chceme odhadnout kovarianci a korelaci znaku X a Y

Pripomenutı

kovariance

cov (X ,Y ) = E [(X − EX )(Y − EY )]

merı zavislost X a Y

korelace

ρXY =cov (X ,Y )√varX varY

je normalizovana verze, −1 ≤ ρXY ≤ 1

jsou-li X ,Y nezavisle cov (X ,Y ) = 0 = ρXY

Page 38: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Vyberova kovariance

Kovariance: cov (X ,Y ) = E [(X − EX )(Y − EY )]Odhad: vyberova kovariance

SXY =1

n − 1

n∑

i=1

(Xi − X )(Yi − Y )

X je vyberovy prumer X1, . . . ,Xn

Y je vyberovy prumer Y1, . . . ,Yn

SXY ma stejnou struktura jako teoreticka kovariance, jenstrednı hodnoty nahrazeny prumery a mısto E

prumerujeme

SXY je”dobry“ odhad cov (X ,Y )

Page 39: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad korelace

Korelace: ρXY =cov (X ,Y )√varX varY

Odhad: vyberovy korelacnı koeficient

rXY =SXYSX SY

=

∑ni=1(Xi − X )(Yi − Y )√∑n

i=1(Xi − X )2∑n

i=1(Yi − Y )2.

S2X je vyberovy rozptyl X1, . . . ,Xn

S2Y je vyberovy rozptyl Y1, . . . ,Yn

rXY je podılem vyberove kovariance a soucinu vyberovychsmerodatnych odchylek

rXY je”dobry“ (konzistentnı ale ne nestranny) odhad ρXY

Page 40: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad kovariance a korelace

Charakteristika

kovariance

covX =E [(X − EX )(Y − EY )]

platıcov (X ,Y ) = EXY − EXEY

korelace ρXY

ρXY = cov (X ,Y )√varXvarY

−1 ≤ ρXY ≤ 1

znamenko udava smerzavislosti

Odhad

vyberova kovariance

SXY =1

n−1

∑ni=1(Xi − X )(Yi − Y )

platı SXY =n

n−1

(1n

∑ni=1 XiYi − X Y

)

vyberova korelace rXY

rXY = SXYSXSY

−1 ≤ rXY ≤ 1

znamenko naznacuje smerzavislosti

Page 41: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad kovariance a korelace — prıklad

Prıklad

Odhadnete korelacnı koeficient mezi vyskou a vahou studentu1. rocnıku PrF.

zaznamenano 266 hodnot dvojice vyska/vaha (3 chybejıcıpozorovanı) nahodny vyber z populace studentu1. rocnıku PrF

vyska X1, . . . ,Xn, vaha Y1, . . . ,Yn, n = 266

nutne spocıst X , Y , S2X , S

2Y , SXY a dosadit do vzorecku

(nebo pouzıt statisticky software)

vyjde rXY = 0.72

Page 42: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad kovariance a korelace: prıklad

Graf vahy proti vysce (rXY = 0.72):

150 160 170 180 190 200

5060

7080

9010

011

0

Vaha

Vys

ka

hodnota rXY koresponduje s obrazkem! zda se, ze vetsıvyska se pojı s vyssı hmotnostı

Page 43: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhad kovariance a korelace — prıklad

Graf vysky proti veku otce pri narozenı dıtete (rXY = −0.04):

20 25 30 35 40 45

150

160

170

180

190

200

Vek otce pri narozeni ditete

Vys

ka

nic nenaznacuje, ze by vyska nejak souvisela s vekem otce prinarozenı dıtete

Page 44: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Odhady — shrnutı

Teorie

nahodny vyber

strednı hodnota EX

rozptyl varX

median, kvantily qX (α)

distribucnı funkce F

hustota f

korelace ρXY

Odhady

data! realizace nah.vyberu

vyberovy prumer X n

vyberovy rozptyl S2X

vyberovy median, kvantilyqX (α)

empiricka distribucnı fce Fn

histogram

vyberova korelace rXY

Page 45: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Graficka prezentace dat

graficke metody pro zkoumanı rozdelenı velicin a vztahumezi nimi

dava nam vizualnı predstavu o analyzovanych datech

kvantitativnı znaky

jiz zname histogram a empirickou distribucnı funkcikrabicovy grafbodovy graf

kategorialnı znaky

sloupcovy diagramvysecovy (kolacovy) diagram

Histogram of vyska

Vyska [cm]

Odh

ad h

usto

ty

150 160 170 180 190 200

0.00

0.01

0.02

0.03

0.04

zena muz

150

160

170

180

190

200

jaro leto podzim zima

150

160

170

180

190

200

nadvaha podvaha

Cet

nost

i

050

100

150

200

nadvaha

normalni podvaha

20 25 30 35 40 45

150

160

170

180

190

200

Vek otce pri narozeni ditete

Vys

ka

zenymuzi

Page 46: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Krabicovy diagram (angl. boxplot)

simultanne zobrazuje nekolik vybranych charakteristiknema zavaznou definici konkretnı podoba se lisı podlepouziteho softwaru a zadanych parametruobvykle zakreslen vyberovy median a kvartily (ale lze iprumer a smer. odchylka)

2025

3035

4045

vek

otcu

pri

naro

zeni

dite

te

svisle polozena krabice

hornı a dolnı okraj urcujı vyberove kvartily

uprostred cara urcujıcı vyberovy median

”vousy“ (angl. whiskers) ukazujı rozmezıdat! od kvartilu k minimu/maximu(nenı-li odlehle)

odlehle pozorovanı! je dal nez3/2 · (Q3 − Q1) od blizsıho kvartilu

Page 47: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Krabicovy diagram

Obrazek: Krabicovy diagram vysky studentu podle pohlavı a podlerocnıho obdobı pri narozenı.

zena muz

150

160

170

180

190

200

jaro leto podzim zima

150

160

170

180

190

200

Page 48: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Bodovy diagram (angl. scatterplot)

slouzı k zobrazenı dvou spojitych nahodnych velicindvojice pozorovanı obou zkoumanych velicin zakreslene dokartezske soustavy souradnicvhodny k neformalnımu zkoumanı zavislosti mezinahodnymi velicinami

Prıklad: Bodovy diagram vysky studentu proti veku otces rozlisenım pohlavı

20 25 30 35 40 45

150

160

170

180

190

200

Vek otce pri narozeni ditete

Vys

ka

zenymuzi

Page 49: statistiky Matematick´a statistika - Univerzita Karlovahudecova/education/...Matematicka statistika ´Uvod do statistiky Odhady charakteristik rozdˇelen´ı Grafick´e metody pr˚uzkumov´e

Matematickastatistika

Uvod dostatistiky

Odhadycharakteristikrozdelenı

Grafickemetodypruzkumovestatistiky

Obdelnıkovy a vysecovy diagram

angl. barplot a pie chartzobrazujı cetnosti, relativnı cetnosti nebo procenta prohodnoty diskretnıch (kategorialnıch) velicin

Prıklad: obdelnıkovy a vysecovy diagram veliciny udavajıcı, zdama dany student nadvahu, podvahu nebo normalnı vahu

nadvaha podvaha

Cet

nost

i

050

100

150

200

nadvaha

normalni podvaha