Upload
venecia-arthur
View
48
Download
4
Embed Size (px)
DESCRIPTION
Statistika I. RNDr. Monika Pávková Goldbergová. „ 95% vražd bylo spácháno po požití chleba“. Co je to statistika?. = vědecké studium dat popisujících existující variabilitu a hodnotící hypotézy vysvětlující data. Data v biologii Soubory a populace. Proměnná = znak - PowerPoint PPT Presentation
Citation preview
Statistika I.
RNDr. Monika Pávková Goldbergová
„95% vražd 95% vražd bylo spácháno bylo spácháno
po požití chleba“po požití chleba“
Co je to statistika?Co je to statistika?
m a tem atická(o b o r te o re tic ké m a te m a tiky)
a p liko va ná(n a p ř. b io s ta tis t ika )
S ta tis t ika
= vědecké studium dat popisujících existující variabilitu = vědecké studium dat popisujících existující variabilitu a hodnotící hypotézy vysvětlující data a hodnotící hypotézy vysvětlující data
d e sk rip tivn í in d u ktivn í
S ta tis t ika
Data v biologii Data v biologii Soubory a populaceSoubory a populace
ko ne čná(fin ite )
n e ko n ečná(infinite )
P o pu la ce = zá k la d n í sou b or(popu lation )
S o u bo r po zoro ván í = výbě ro vý sou b or = výb ěr(sam ple )
In d ivid uá ln í p o zo rová n í(indiv idual ob servation = item [prvek] )
Proměnná = znak (variable, character)
DataData = naměřené = naměřené hodnoty proměnnéhodnoty proměnné
Statistická indukce
• základní soubor (populace)
– soubor prvků, o kterém chceme statistickými metodami něco zjistit
• výběr– reprezentativní část
dané populace (zákl. souboru), která má sloužit k odvození závěrů platných pro celou populaci
Data v biologii – Data v biologii – proměnnéproměnné
Kontinuální p.(co n tin uo u s v.)
Diskontinuální p.(d isco n tin u o u s, d iscrete, m eristic v.)
Pom ěrná p.(ratio v.)
Intervalová p.(in terval v.)
M ěřitelná prom ěnná(m easu rem e n t variab le )
m ěření
O rdinální (pořadová) prom ěnná(ran ked variab le )
kvantifikace
Nom inální (kategoriální) prom ěnná(attrib u te, categ o rical o r n o m in al variab le)
klasifikace
Prom ěnná(variab le)
binární binární (binary v.)(binary v.)
vícestavová vícestavová (multi-state v.)(multi-state v.)
Data v biologii – Data v biologii – proměnnéproměnné
kvalitativníkvalitativní• kategoriální, nominální (např.
pohlaví) potřeba kódování
kvantitativníkvantitativní • diskrétní• kontinuální / spojitá• ordinální (např. známky ve škole
1,2,3,4,5)
DataData
Data v biologii - Data v biologii - proměnnéproměnné
Proměnná Proměnná
Proměnná Proměnná
primárníprimární (primary v.; nezávisle zjišťovaná)
odvozená odvozená (derived v.derived v.; = poměry, indexypoměry, indexy)
extenzivní extenzivní (měřící množství)
intenzivníintenzivní (měřící stav)
Postup při testování Postup při testování hypotézhypotéz
1.1. Formulujeme Formulujeme nulovou hypotézunulovou hypotézu (H(H00)) a k ní a k ní alternativualternativu (H(HAA). ). 2.2. Zvolíme Zvolíme hladinu významnostihladinu významnosti ( (significance levelsignificance level, , ) s důsledky ) s důsledky
chyby I. druhu. chyby I. druhu. 3.3. Zvolíme Zvolíme rozsahrozsah výběru. výběru. 4.4. Provedeme Provedeme experiment experiment (pozorování) (pozorování) 5.5. Volba Volba testutestu6.6. V tabulkách nalezneme V tabulkách nalezneme kritickou hodnotukritickou hodnotu ( (critical valuecritical value, , kk. .
Jestliže Jestliže T < kT < k, nezamítneme (, nezamítneme (not rejectnot reject) nulovou hypotézu. ) nulovou hypotézu.
Jestliže Jestliže T > kT > k, zamítneme (, zamítneme (rejectreject) hypotézu) hypotézu - odchylky od hypotézy jsou - odchylky od hypotézy jsou statisticky významné. statisticky významné.
7.7. Vypočteme Vypočteme sílusílu ( (powerpower) testu a rozhodneme, zda ) testu a rozhodneme, zda pravděpodobnost s níž zamítáme nulovou hypotézu když neplatí pravděpodobnost s níž zamítáme nulovou hypotézu když neplatí je dostatečně velká a pravděpodobnost chyby II. druhu je je dostatečně velká a pravděpodobnost chyby II. druhu je dostatečně malá.dostatečně malá.
Chyba I. Druhu (Chyba I. Druhu (Type I errorType I error) )
• je spojena se zamítnutím nulové hypotézy, která ve skutečnosti platí je spojena se zamítnutím nulové hypotézy, která ve skutečnosti platí • její pravděpodobnost se nazývá její pravděpodobnost se nazývá hladina významnostihladina významnosti ((significance significance levellevel) ) • značí se značí se • velikost této chyby se volí malá (< 0,05)velikost této chyby se volí malá (< 0,05)
Chyba II. Druhu (Chyba II. Druhu (Type II errorType II error))
• Značí se Značí se • je pravděpodobnost nesprávného přijetí nulové hypotézyje pravděpodobnost nesprávného přijetí nulové hypotézy• ((1-1- ) se nazývá ) se nazývá síla testusíla testu a jedná se o pravděpodobnost, že a jedná se o pravděpodobnost, že zamítneme nulovou hypotézu, která ve skutečnosti neplatí zamítneme nulovou hypotézu, která ve skutečnosti neplatí ((alespoň 0,8alespoň 0,8) ) závisí na velikosti výběru (s větším souborem klesá) závisí na velikosti výběru (s větším souborem klesá)
Co jsou chyby I. a II. řádu?Co jsou chyby I. a II. řádu?
Popisná statistikaPopisná statistika ccharakteristiky centrální tendenceharakteristiky centrální tendence a rozptýlenostia rozptýlenosti - -
přehledpřehled
E n trop ie M ez ik va rt ilové roz pě tíIn te r kv ar t il ová odc h yl ka
V ari ances tanda rdn í od ch y lkaab so lu tn í od ch y lkavari ačn í ko e fic ien t
Míry varia b ility
M odu s M ed iá n P rů m ěr-a ritm e tický
-g eom e trický-h a rm on ický
M í ry ce ntr á ln í te nd en ce
N om iná ln í O rd in á ln í K vant ita tivn í (m etr ic ká )
D ata
koeficient kvartilové variaceVariation ratio
Charakteristiky centrální Charakteristiky centrální tendence (střední hodnoty)tendence (střední hodnoty)
Modus Modus = nejčastější hodnota
Medián Medián = 50 percentil, frekvenční střed
Aritmetický průměrAritmetický průměr
Vážený aritmetický průměrVážený aritmetický průměr
Geometrický průměrGeometrický průměr
Harmonický průměrHarmonický průměr
(v pořadí)
Nominální dataNominální data
Ordinální dataOrdinální data
Kvantitativní dataKvantitativní data
Kvantitativní dataKvantitativní data
(pouze pro x>=0)
(pouze pro x>0)
Vztah mezi modusem, Vztah mezi modusem, mediánem a průměrem mediánem a průměrem
v případě kvantitativních datv případě kvantitativních datUnimodální rozdělení Bimodální r.
Kladně šikmé r. Záporně šikmé r.
Charakteristiky rozptýlenosti Charakteristiky rozptýlenosti (variability)(variability)
Entropie (Entropie (diversitydiversity))
Rozmezí, rozsah (Rozmezí, rozsah (rangerange) ) = min-max
Mezikvartilové rozpětíMezikvartilové rozpětí
Absolutní odchylkaAbsolutní odchylka
Kvartilová odchylkaKvartilová odchylka
Rozptyl (Rozptyl (variancevariance) ) (2)
Standardní (směrodatná) Standardní (směrodatná) odchylka (odchylka (standard deviationstandard deviation) ) (SD, )
Variační koeficientVariační koeficient
1
)( 22
n
xxss i
(= rozdíl mezi 75. a (= rozdíl mezi 75. a 25. kvantilem)25. kvantilem)
Nominální dataNominální data
Ordinální dataOrdinální data
Kvantitativní dataKvantitativní data
Variation ratioVariation ratio
%)100(xs
CV
Kvantily (Kvantily (quantilesquantiles))Kvantil Kvantil xxpp (= (= pp-procentní kvantil) je hodnota znaku, pro kterou -procentní kvantil) je hodnota znaku, pro kterou
platí, že nejméně platí, že nejméně pp-procent prvku má hodnotu menší nebo rovnu -procent prvku má hodnotu menší nebo rovnu xxpp a 100- a 100-pp prvků je větších nebo rovno prvků je větších nebo rovno xxpp..
kk = (počet pozorování~ = (počet pozorování~nn) krát (úroveň kvantilu~) krát (úroveň kvantilu~pp) /) / 100 100
KvartilyKvartily = = xx25 25 , x, x50 50 , x, x7575
MediánMedián = = xx50 50
Dolní kvartilDolní kvartil = = xx25 25 (lower quartile) (lower quartile)
Horní kvartilHorní kvartil = = xx75 75 (upper quartile) (upper quartile)
DecilyDecily = = xx1010, x, x2020, …,x, …,x90 90
PercentilyPercentily = = xx11, x, x22, …, x, …, x99 99
..........
Barva květůBarva květů
Grafická prezentace datGrafická prezentace dat
0
5
10
15
20
25
30
červená růžová fialová modrá bílá
0
5
10
15
20
25
červená růžová fialová modrá bílá
červená
růžová
fialová
modrá bílá
0
5
10
15
20
25
30
10 11 12 13 14
1049%
1129%
1210%
1310%
142%
10 11 12 13 14
0
5
10
15
20
25
0
5
10
15
20
25
30
10 11 12 13 140
5
10
15
20
25
30
červená růžová fialová modrá bílá
Počet květů v květenstvíPočet květů v květenství
Sloupcový (2D) diagram (Bar chart)
Sloupcový (pseudo3D) diagram (Bar chart)
Koláčový diagram (Doughnut chart)
Spojnicový diagram, polygon
(Line chart, polygon)
Data kvalitativní Data kvantitativní
PříkladPříklad
30.0
50.0
70.0
90.0
vyska_rostliny
Box Plot
Variables
(cm
)Krabičkový diagram (Krabičkový diagram (Box-Box-
plotplot))
Průměr
Dolní kvartil
Horní kvartil
Medián
Vnitřní hradba (upper fence) (=1,5xIQR)
Vnitřní hradba (lower fence) (=1,5xIQR)
Odlehlá (vzdálená) hodnota (outlier)
IQR=mezikvartilové rozpětí=rozdíl mezi horním a dolním kvartilemIQR=mezikvartilové rozpětí=rozdíl mezi horním a dolním kvartilem
Vous (whisker)
Vous (whisker)
Graf je Graf je vhodný též vhodný též na určení na určení odlehlých odlehlých hodnot.hodnot.
Krabička (box)
Typy rozloženíTypy rozložení
• Binomické• Poissonovo• Normální• Standardizované normální• Studentovo t-rozložení, …..
• Nevhodné rozložení transformace
Binomické rozděleníBinomické rozdělení
Poissonovo rozděleníPoissonovo rozděleníPoissonovo rozdělení pro různé Poissonovo rozdělení pro různé
hodnoty hodnoty
Obr.: Zar 1996Obr.: Zar 1996
-je rozdělení spojité je rozdělení spojité proměnné na proměnné na intervalové a poměrné intervalové a poměrné stupnici stupnici
- značí se značí se N (N (
-hustota hustota pravděpodobnosti je pravděpodobnosti je symetrická, zvonovitá symetrická, zvonovitá
-funkce obsahuje dvě funkce obsahuje dvě konstanty (konstanty (ee, , a má a má dva parametry: dva parametry: aa
Normální rozdělení (Gaussovo Normální rozdělení (Gaussovo r., „normála“; r., „normála“; normal distributionnormal distribution))
f(x)f(x)
Normální rozdělení Normální rozdělení Hustota Hustota
pravděpodobnosti pravděpodobnosti normálního rozdělení normálního rozdělení
při při (a) různém(a) různém a stejnéma stejném
a a (b) při(b) při různémrůzném a
stejném
Obr.: Zar 1996Obr.: Zar 1996
Studentovo Studentovo tt-rozdělení-rozdělení
xsx
t
- je podobné je podobné standardizovanému standardizovanému normálnímu rozdělenínormálnímu rozdělení je symetrické kolem je symetrické kolem střední hodnoty střední hodnoty
- má pouze 1 parametr: má pouze 1 parametr: stupně volnosti: stupně volnosti: = = nn-1-1
Hustota pravděpodobnosti t-rozdělení Hustota pravděpodobnosti t-rozdělení při různých stupních volnostipři různých stupních volnosti
Obr.:Zar 1996
Oboustranný testOboustranný test
Jednostranný testJednostranný test
Příklad:Příklad: testuji průměr kvantitativní testuji průměr kvantitativní
spojité proměnné (např. spojité proměnné (např. výšku, hmotnost) z výběru výšku, hmotnost) z výběru proti očekávané hodnotě proti očekávané hodnotě
při při = 0,05. = 0,05.
hodnotahodnota
hodnotahodnota
1,96
/2
*
Statistické testy
parametrické(pro normální nebo téměř normální rozložení)
neparametrické(pro jiné nežnormální rozložení)
testy nepárové párové
• t-test nezávislý(klasický t-test, two-sample)
• Mann-Whitney(=Wilcoxon nezávislý)
• mediánový test
• t-test závislý(one-sample)
• Wilcoxon závislý
• znaménkový test
srovnání parametrumezi 2 skupinamiobjektů
srovnání parametruu stejných objektův časové souslednosti
Testování hypotéz – Testování hypotéz – rozhodovací strom aneb jaký test použít ?rozhodovací strom aneb jaký test použít ?
jed n ovýb ěrový t-tes t
tes t n orm ality
tes t d ob ré sh od y
K o lm og orov-S m irn ovů v t.
1 sou b or
B ow kerů v tes t
p á rový t-tes t
p aram etrické t.
W ilcoxon t.
n ep aram etrické t.
sp lň u jí d a ta p od m ín ky?
b lokové u sp ořá d á n í
kon tin g en čn í tab u lky
t-tes t
p aram etrické t.
M an n -W h itn ey t.
n ep aram etrické t.
sp lň u jí d a ta p od m ín ky?
zn á h od n ěn é u sp ořá d á n í
2 sou b ory
vícerozm ěrn é kon tin g en čn í tab u lky A N O V A
3 a více sou b orů
1 zn ak (p rom ěn n á )
test pro nominální datatest pro ordinální datatest pro kvantit. data
* * *…nebo 2 znaky
jednovýb. Wilcoxonův test
Nominální znakyNominální znaky
ČeleďČeleď Pozorovaná Pozorovaná frekvence frekvence (n(nii))
Relativní Relativní četnost četnost ((ffii==nnii/n/n))
AsteraceaeAsteraceae 2020 0,40,4
PoaceaePoaceae 1515 0,30,3
BrassicaceaeBrassicaceae 55 0,10,1
JuncaceaeJuncaceae 1010 0,20,2
SoučetSoučet 5050 1,01,0
Frekvenční tabulkaFrekvenční tabulka ((qualitative frequency tablequalitative frequency table))
Kat
egor
ie i
Kat
egor
ie i
inn iff
Absolutní četnost (Absolutní četnost (nnii ) = ) =
počet prvků v dané kategorii počet prvků v dané kategorii ii
Relativní četnost (Relativní četnost (ffii ) = ) =
relativní vyjádření absolutní relativní vyjádření absolutní četnosti četnosti nnii dané kategorie dané kategorie ii k k
součtu součtu nnii
0
5
10
15
20
25
Asteraceae Poaceae Brassicaceae Juncaceae
Kategorie
Abs
olut
ní č
etno
st
00.05
0.10.15
0.20.25
0.30.35
0.40.45
Asteraceae Poaceae Brassicaceae Juncaceae
Kategorie
Rel
ativ
ní č
etno
st
k
ii
ii
n
nf
1
i = 1, 2, …, ki = 1, 2, …, k
Nominální znakyNominální znaky
Spojité Spojité znakyznaky
Frekvenční (četnostní) tabulka (Frekvenční (četnostní) tabulka (frequency tablefrequency table))
Spojité Spojité znakyznaky
Tečkový graf = Tečkový graf = diagram rozptýlenídiagram rozptýlení (dot plot)
Histogram Histogram ((histogramhistogram))
Krabicový diagramKrabicový diagram (box plotbox plot)
Neparametrické statistické Neparametrické statistické metody pro 2 výběry: párové metody pro 2 výběry: párové
uspořádání uspořádání Wilcoxonův pořadový testWilcoxonův pořadový test
- počítání - počítání rozdílůrozdílů, jimž se přiřadí , jimž se přiřadí pořadí bez ohledu na znaménkopořadí bez ohledu na znaménko od nejmenšího po největší od nejmenšího po největší - sečtou se pořadí se znaménky + a - zvlášť sečtou se pořadí se znaménky + a - zvlášť
výsledek jsou testové statistiky výsledek jsou testové statistiky TT++ a a TT- -
Oboustranný test: Oboustranný test: je-li menší z obou T < Tje-li menší z obou T < T(2),n (2),n
....zamítáme H....zamítáme H00
Co se testuje: H0: Medián rozdílů je nulový.
H1:Medián rozdílů je různý od nuly.
Neparametrické statistické Neparametrické statistické metody pro 2 výběry: náhodné metody pro 2 výběry: náhodné
uspořádáníuspořádáníMann-Whitneyův U-testMann-Whitneyův U-test
-- - místo změřených hodnot pracujeme s místo změřených hodnot pracujeme s jejich jejich pořadím pořadím data seřadíme sestupně či data seřadíme sestupně či vzestupně (zde sestupně) bez ohledu na vzestupně (zde sestupně) bez ohledu na různé soubory různé soubory
U n nn n
R
1 21 1
1
1
2
( )
U n nn n
R1 22 2
2
1
2
( )
větší z obou U porovnáme s kritickou hodnotou větší z obou U porovnáme s kritickou hodnotou UU(2),n1,n2(2),n1,n2
je-li U či U´> Uje-li U či U´> Ukritkrit
, , zamítáme Hzamítáme H0 0
(v případě řazení vzestupného hledáme menší z obou U) (v případě řazení vzestupného hledáme menší z obou U)
(stejným hodnotám dáváme průměrné (stejným hodnotám dáváme průměrné pořadí)pořadí)
HH0:Rozdělení obou skupin je shodné. 0:Rozdělení obou skupin je shodné. HHA:Rozdělení obou skupin se liší. A:Rozdělení obou skupin se liší.