Statistika I

Statistika I.

RNDr. Monika Pávková Goldbergová

„95% vražd 95% vražd bylo spácháno bylo spácháno

po požití chleba“po požití chleba“

Co je to statistika?Co je to statistika?

m a tem atická(o b o r te o re tic ké m a te m a tiky)

a p liko va ná(n a p ř. b io s ta tis t ika )

S ta tis t ika

= vědecké studium dat popisujících existující variabilitu = vědecké studium dat popisujících existující variabilitu a hodnotící hypotézy vysvětlující data a hodnotící hypotézy vysvětlující data

d e sk rip tivn í in d u ktivn í

S ta tis t ika

Data v biologii Data v biologii Soubory a populaceSoubory a populace

ko ne čná(fin ite )

n e ko n ečná(infinite )

P o pu la ce = zá k la d n í sou b or(popu lation )

S o u bo r po zoro ván í = výbě ro vý sou b or = výb ěr(sam ple )

In d ivid uá ln í p o zo rová n í(indiv idual ob servation = item [prvek] )

Proměnná = znak (variable, character)

DataData = naměřené = naměřené hodnoty proměnnéhodnoty proměnné

Statistická indukce

• základní soubor (populace)

– soubor prvků, o kterém chceme statistickými metodami něco zjistit

• výběr– reprezentativní část

dané populace (zákl. souboru), která má sloužit k odvození závěrů platných pro celou populaci

Data v biologii – Data v biologii – proměnnéproměnné

Kontinuální p.(co n tin uo u s v.)

Diskontinuální p.(d isco n tin u o u s, d iscrete, m eristic v.)

Pom ěrná p.(ratio v.)

Intervalová p.(in terval v.)

M ěřitelná prom ěnná(m easu rem e n t variab le )

m ěření

O rdinální (pořadová) prom ěnná(ran ked variab le )

kvantifikace

Nom inální (kategoriální) prom ěnná(attrib u te, categ o rical o r n o m in al variab le)

klasifikace

Prom ěnná(variab le)

binární binární (binary v.)(binary v.)

vícestavová vícestavová (multi-state v.)(multi-state v.)

Data v biologii – Data v biologii – proměnnéproměnné

kvalitativníkvalitativní• kategoriální, nominální (např.

pohlaví) potřeba kódování

kvantitativníkvantitativní • diskrétní• kontinuální / spojitá• ordinální (např. známky ve škole

1,2,3,4,5)

DataData

Data v biologii - Data v biologii - proměnnéproměnné

Proměnná Proměnná

Proměnná Proměnná

primárníprimární (primary v.; nezávisle zjišťovaná)

odvozená odvozená (derived v.derived v.; = poměry, indexypoměry, indexy)

extenzivní extenzivní (měřící množství)

intenzivníintenzivní (měřící stav)

Postup při testování Postup při testování hypotézhypotéz

1.1. Formulujeme Formulujeme nulovou hypotézunulovou hypotézu (H(H00)) a k ní a k ní alternativualternativu (H(HAA). ). 2.2. Zvolíme Zvolíme hladinu významnostihladinu významnosti ( (significance levelsignificance level, , ) s důsledky ) s důsledky

chyby I. druhu. chyby I. druhu. 3.3. Zvolíme Zvolíme rozsahrozsah výběru. výběru. 4.4. Provedeme Provedeme experiment experiment (pozorování) (pozorování) 5.5. Volba Volba testutestu6.6. V tabulkách nalezneme V tabulkách nalezneme kritickou hodnotukritickou hodnotu ( (critical valuecritical value, , kk. .

Jestliže Jestliže T < kT < k, nezamítneme (, nezamítneme (not rejectnot reject) nulovou hypotézu. ) nulovou hypotézu.

Jestliže Jestliže T > kT > k, zamítneme (, zamítneme (rejectreject) hypotézu) hypotézu - odchylky od hypotézy jsou - odchylky od hypotézy jsou statisticky významné. statisticky významné.

7.7. Vypočteme Vypočteme sílusílu ( (powerpower) testu a rozhodneme, zda ) testu a rozhodneme, zda pravděpodobnost s níž zamítáme nulovou hypotézu když neplatí pravděpodobnost s níž zamítáme nulovou hypotézu když neplatí je dostatečně velká a pravděpodobnost chyby II. druhu je je dostatečně velká a pravděpodobnost chyby II. druhu je dostatečně malá.dostatečně malá.

Chyba I. Druhu (Chyba I. Druhu (Type I errorType I error) )

• je spojena se zamítnutím nulové hypotézy, která ve skutečnosti platí je spojena se zamítnutím nulové hypotézy, která ve skutečnosti platí • její pravděpodobnost se nazývá její pravděpodobnost se nazývá hladina významnostihladina významnosti ((significance significance levellevel) ) • značí se značí se • velikost této chyby se volí malá (< 0,05)velikost této chyby se volí malá (< 0,05)

Chyba II. Druhu (Chyba II. Druhu (Type II errorType II error))

• Značí se Značí se • je pravděpodobnost nesprávného přijetí nulové hypotézyje pravděpodobnost nesprávného přijetí nulové hypotézy• ((1-1- ) se nazývá ) se nazývá síla testusíla testu a jedná se o pravděpodobnost, že a jedná se o pravděpodobnost, že zamítneme nulovou hypotézu, která ve skutečnosti neplatí zamítneme nulovou hypotézu, která ve skutečnosti neplatí ((alespoň 0,8alespoň 0,8) ) závisí na velikosti výběru (s větším souborem klesá) závisí na velikosti výběru (s větším souborem klesá)

Co jsou chyby I. a II. řádu?Co jsou chyby I. a II. řádu?

Popisná statistikaPopisná statistika ccharakteristiky centrální tendenceharakteristiky centrální tendence a rozptýlenostia rozptýlenosti - -

přehledpřehled

E n trop ie M ez ik va rt ilové roz pě tíIn te r kv ar t il ová odc h yl ka

V ari ances tanda rdn í od ch y lkaab so lu tn í od ch y lkavari ačn í ko e fic ien t

Míry varia b ility

M odu s M ed iá n P rů m ěr-a ritm e tický

-g eom e trický-h a rm on ický

M í ry ce ntr á ln í te nd en ce

N om iná ln í O rd in á ln í K vant ita tivn í (m etr ic ká )

D ata

koeficient kvartilové variaceVariation ratio

Charakteristiky centrální Charakteristiky centrální tendence (střední hodnoty)tendence (střední hodnoty)

Modus Modus = nejčastější hodnota

Medián Medián = 50 percentil, frekvenční střed

Aritmetický průměrAritmetický průměr

Vážený aritmetický průměrVážený aritmetický průměr

Geometrický průměrGeometrický průměr

Harmonický průměrHarmonický průměr

(v pořadí)

Nominální dataNominální data

Ordinální dataOrdinální data

Kvantitativní dataKvantitativní data


(pouze pro x>=0)

(pouze pro x>0)

Vztah mezi modusem, Vztah mezi modusem, mediánem a průměrem mediánem a průměrem

v případě kvantitativních datv případě kvantitativních datUnimodální rozdělení Bimodální r.

Kladně šikmé r. Záporně šikmé r.

Charakteristiky rozptýlenosti Charakteristiky rozptýlenosti (variability)(variability)

Entropie (Entropie (diversitydiversity))

Rozmezí, rozsah (Rozmezí, rozsah (rangerange) ) = min-max

Mezikvartilové rozpětíMezikvartilové rozpětí

Absolutní odchylkaAbsolutní odchylka

Kvartilová odchylkaKvartilová odchylka

Rozptyl (Rozptyl (variancevariance) ) (2)

Standardní (směrodatná) Standardní (směrodatná) odchylka (odchylka (standard deviationstandard deviation) ) (SD, )

Variační koeficientVariační koeficient

1

)( 22

n

xxss i

(= rozdíl mezi 75. a (= rozdíl mezi 75. a 25. kvantilem)25. kvantilem)

Nominální dataNominální data

Ordinální dataOrdinální data


Variation ratioVariation ratio

%)100(xs

CV

Kvantily (Kvantily (quantilesquantiles))Kvantil Kvantil xxpp (= (= pp-procentní kvantil) je hodnota znaku, pro kterou -procentní kvantil) je hodnota znaku, pro kterou

platí, že nejméně platí, že nejméně pp-procent prvku má hodnotu menší nebo rovnu -procent prvku má hodnotu menší nebo rovnu xxpp a 100- a 100-pp prvků je větších nebo rovno prvků je větších nebo rovno xxpp..

kk = (počet pozorování~ = (počet pozorování~nn) krát (úroveň kvantilu~) krát (úroveň kvantilu~pp) /) / 100 100

KvartilyKvartily = = xx25 25 , x, x50 50 , x, x7575

MediánMedián = = xx50 50

Dolní kvartilDolní kvartil = = xx25 25 (lower quartile) (lower quartile)

Horní kvartilHorní kvartil = = xx75 75 (upper quartile) (upper quartile)

DecilyDecily = = xx1010, x, x2020, …,x, …,x90 90

PercentilyPercentily = = xx11, x, x22, …, x, …, x99 99

..........

Barva květůBarva květů

Grafická prezentace datGrafická prezentace dat

0

5

10

15

20

25

30

červená růžová fialová modrá bílá

0

5

10

15

20

25


červená

růžová

fialová

modrá bílá

0

5

10

15

20

25

30

10 11 12 13 14

1049%

1129%

1210%

1310%

142%

10 11 12 13 14

0

5

10

15

20

25

0

5

10

15

20

25

30

10 11 12 13 140

5

10

15

20

25

30


Počet květů v květenstvíPočet květů v květenství

Sloupcový (2D) diagram (Bar chart)

Sloupcový (pseudo3D) diagram (Bar chart)

Koláčový diagram (Doughnut chart)

Spojnicový diagram, polygon

(Line chart, polygon)

Data kvalitativní Data kvantitativní

PříkladPříklad

30.0

50.0

70.0

90.0

vyska_rostliny

Box Plot

Variables

(cm

)Krabičkový diagram (Krabičkový diagram (Box-Box-

plotplot))

Průměr

Dolní kvartil

Horní kvartil

Medián

Vnitřní hradba (upper fence) (=1,5xIQR)

Vnitřní hradba (lower fence) (=1,5xIQR)

Odlehlá (vzdálená) hodnota (outlier)

IQR=mezikvartilové rozpětí=rozdíl mezi horním a dolním kvartilemIQR=mezikvartilové rozpětí=rozdíl mezi horním a dolním kvartilem

Vous (whisker)

Vous (whisker)

Graf je Graf je vhodný též vhodný též na určení na určení odlehlých odlehlých hodnot.hodnot.

Krabička (box)

Typy rozloženíTypy rozložení

• Binomické• Poissonovo• Normální• Standardizované normální• Studentovo t-rozložení, …..

• Nevhodné rozložení transformace

Binomické rozděleníBinomické rozdělení

Poissonovo rozděleníPoissonovo rozděleníPoissonovo rozdělení pro různé Poissonovo rozdělení pro různé

hodnoty hodnoty

Obr.: Zar 1996Obr.: Zar 1996

-je rozdělení spojité je rozdělení spojité proměnné na proměnné na intervalové a poměrné intervalové a poměrné stupnici stupnici

- značí se značí se N (N (

-hustota hustota pravděpodobnosti je pravděpodobnosti je symetrická, zvonovitá symetrická, zvonovitá

-funkce obsahuje dvě funkce obsahuje dvě konstanty (konstanty (ee, , a má a má dva parametry: dva parametry: aa

Normální rozdělení (Gaussovo Normální rozdělení (Gaussovo r., „normála“; r., „normála“; normal distributionnormal distribution))

f(x)f(x)

Normální rozdělení Normální rozdělení Hustota Hustota

pravděpodobnosti pravděpodobnosti normálního rozdělení normálního rozdělení

při při (a) různém(a) různém a stejnéma stejném

a a (b) při(b) při různémrůzném a

stejném

Obr.: Zar 1996Obr.: Zar 1996

Studentovo Studentovo tt-rozdělení-rozdělení

xsx

t

- je podobné je podobné standardizovanému standardizovanému normálnímu rozdělenínormálnímu rozdělení je symetrické kolem je symetrické kolem střední hodnoty střední hodnoty

- má pouze 1 parametr: má pouze 1 parametr: stupně volnosti: stupně volnosti: = = nn-1-1

Hustota pravděpodobnosti t-rozdělení Hustota pravděpodobnosti t-rozdělení při různých stupních volnostipři různých stupních volnosti

Obr.:Zar 1996

Oboustranný testOboustranný test

Jednostranný testJednostranný test

Příklad:Příklad: testuji průměr kvantitativní testuji průměr kvantitativní

spojité proměnné (např. spojité proměnné (např. výšku, hmotnost) z výběru výšku, hmotnost) z výběru proti očekávané hodnotě proti očekávané hodnotě

při při = 0,05. = 0,05.

hodnotahodnota

hodnotahodnota

1,96

/2

*

Statistické testy

parametrické(pro normální nebo téměř normální rozložení)

neparametrické(pro jiné nežnormální rozložení)

testy nepárové párové

• t-test nezávislý(klasický t-test, two-sample)

• Mann-Whitney(=Wilcoxon nezávislý)

• mediánový test

• t-test závislý(one-sample)

• Wilcoxon závislý

• znaménkový test

srovnání parametrumezi 2 skupinamiobjektů

srovnání parametruu stejných objektův časové souslednosti

Testování hypotéz – Testování hypotéz – rozhodovací strom aneb jaký test použít ?rozhodovací strom aneb jaký test použít ?

jed n ovýb ěrový t-tes t

tes t n orm ality

tes t d ob ré sh od y

K o lm og orov-S m irn ovů v t.

1 sou b or

B ow kerů v tes t

p á rový t-tes t

p aram etrické t.

W ilcoxon t.

n ep aram etrické t.

sp lň u jí d a ta p od m ín ky?

b lokové u sp ořá d á n í

kon tin g en čn í tab u lky

t-tes t

p aram etrické t.

M an n -W h itn ey t.

n ep aram etrické t.

sp lň u jí d a ta p od m ín ky?

zn á h od n ěn é u sp ořá d á n í

2 sou b ory

vícerozm ěrn é kon tin g en čn í tab u lky A N O V A

3 a více sou b orů

1 zn ak (p rom ěn n á )

test pro nominální datatest pro ordinální datatest pro kvantit. data

* * *…nebo 2 znaky

jednovýb. Wilcoxonův test

Nominální znakyNominální znaky

ČeleďČeleď Pozorovaná Pozorovaná frekvence frekvence (n(nii))

Relativní Relativní četnost četnost ((ffii==nnii/n/n))

AsteraceaeAsteraceae 2020 0,40,4

PoaceaePoaceae 1515 0,30,3

BrassicaceaeBrassicaceae 55 0,10,1

JuncaceaeJuncaceae 1010 0,20,2

SoučetSoučet 5050 1,01,0

Frekvenční tabulkaFrekvenční tabulka ((qualitative frequency tablequalitative frequency table))

Kat

egor

ie i

Kat

egor

ie i

inn iff

Absolutní četnost (Absolutní četnost (nnii ) = ) =

počet prvků v dané kategorii počet prvků v dané kategorii ii

Relativní četnost (Relativní četnost (ffii ) = ) =

relativní vyjádření absolutní relativní vyjádření absolutní četnosti četnosti nnii dané kategorie dané kategorie ii k k

součtu součtu nnii

0

5

10

15

20

25

Asteraceae Poaceae Brassicaceae Juncaceae

Kategorie

Abs

olut

ní č

etno

st

00.05

0.10.15

0.20.25

0.30.35

0.40.45

Asteraceae Poaceae Brassicaceae Juncaceae

Kategorie

Rel

ativ

ní č

etno

st

k

ii

ii

n

nf

1

i = 1, 2, …, ki = 1, 2, …, k

Nominální znakyNominální znaky

Spojité Spojité znakyznaky

Frekvenční (četnostní) tabulka (Frekvenční (četnostní) tabulka (frequency tablefrequency table))

Spojité Spojité znakyznaky

Tečkový graf = Tečkový graf = diagram rozptýlenídiagram rozptýlení (dot plot)

Histogram Histogram ((histogramhistogram))

Krabicový diagramKrabicový diagram (box plotbox plot)

Neparametrické statistické Neparametrické statistické metody pro 2 výběry: párové metody pro 2 výběry: párové

uspořádání uspořádání Wilcoxonův pořadový testWilcoxonův pořadový test

- počítání - počítání rozdílůrozdílů, jimž se přiřadí , jimž se přiřadí pořadí bez ohledu na znaménkopořadí bez ohledu na znaménko od nejmenšího po největší od nejmenšího po největší - sečtou se pořadí se znaménky + a - zvlášť sečtou se pořadí se znaménky + a - zvlášť

výsledek jsou testové statistiky výsledek jsou testové statistiky TT++ a a TT- -

Oboustranný test: Oboustranný test: je-li menší z obou T < Tje-li menší z obou T < T(2),n (2),n

....zamítáme H....zamítáme H00

Co se testuje: H0: Medián rozdílů je nulový.

H1:Medián rozdílů je různý od nuly.

Neparametrické statistické Neparametrické statistické metody pro 2 výběry: náhodné metody pro 2 výběry: náhodné

uspořádáníuspořádáníMann-Whitneyův U-testMann-Whitneyův U-test

-- - místo změřených hodnot pracujeme s místo změřených hodnot pracujeme s jejich jejich pořadím pořadím data seřadíme sestupně či data seřadíme sestupně či vzestupně (zde sestupně) bez ohledu na vzestupně (zde sestupně) bez ohledu na různé soubory různé soubory

U n nn n

R

1 21 1

1

1

2

( )

U n nn n

R1 22 2

2

1

2

( )

větší z obou U porovnáme s kritickou hodnotou větší z obou U porovnáme s kritickou hodnotou UU(2),n1,n2(2),n1,n2

je-li U či U´> Uje-li U či U´> Ukritkrit

, , zamítáme Hzamítáme H0 0

(v případě řazení vzestupného hledáme menší z obou U) (v případě řazení vzestupného hledáme menší z obou U)

(stejným hodnotám dáváme průměrné (stejným hodnotám dáváme průměrné pořadí)pořadí)

HH0:Rozdělení obou skupin je shodné. 0:Rozdělení obou skupin je shodné. HHA:Rozdělení obou skupin se liší. A:Rozdělení obou skupin se liší.

Documents

Statistika I