20
Chováme králíčky Liší se tato tři králičí plemena hmotností? 3, 3, 4, 5, 5 4, 4, 6, 5, 6 7, 5, 6, 5, 7 Mezi plemeny nemusí být skutečný rozdíl: průměry skupin se mohou lišit jen proto, že mám malý počet pozorování Příklad výběrů z normální distribuce N(5,2), každý s 5 případy: průměry jsou například: 5.89, 4.50, 5.69, 5.73, .... H 0 : 1 = 2 = 3 H A : alespoň jeden se liší

Chov áme králíčky

  • Upload
    yuki

  • View
    64

  • Download
    0

Embed Size (px)

DESCRIPTION

Chov áme králíčky. H A : alespoň jeden se liší. H 0 : m 1 = m 2 = m 3. Liší se tato tři králičí plemena hmotností?. 3, 3, 4, 5, 5. 4, 4, 6, 5, 6. 7, 5, 6, 5, 7. Mezi plemeny nemusí být s kute čný rozdíl: průměry skupin se mohou lišit jen proto, že mám malý počet pozorování. - PowerPoint PPT Presentation

Citation preview

Chováme králíčky

Liší se tato tři králičí plemena hmotností?3, 3, 4, 5, 5 4, 4, 6, 5, 6 7, 5, 6, 5, 7

Mezi plemeny nemusí být skutečný rozdíl: průměry skupin se mohou lišit jen proto, že mám malý počet pozorování

Příklad výběrů z normální distribuce N(5,2), každý s 5 případy:průměry jsou například: 5.89, 4.50, 5.69, 5.73, ....

H0:1=2=3

HA: alespoň jeden se liší

Zas ti králíci ...

SStot =

Celková suma čtvercůTotal sum of squares SStot

rozptyl kolem společného průměru

SStot = (3-5)2+(3-5)2+(4-5)2+(5-5)2+ (5-5)2+(4-5)2+(4-5)2+...+(7-5)2

= 22

Skupinová (modelová) suma čtvercůAmong-group sum of squares SSG

rozptyl hodnot předpovídanýchplemenem kolem celkového průměru

SSG = (4-5)2+(4-5)2+(4-5)2+(4-5)2+ (4-5)2+(5-5)2+(5-5)2+...+(6-5)2

= 10

Residuální suma čtvercůError sum of squares SSe

rozptyl hodnot kolem průměrů předpovídaných plemenem

SSe = (3-4)2+(3-4)2+(4-4)2+(5-4)2+ (5-4)2+(4-5)2+(4-5)2+...+(7-6)2

= 12

Jaký počet nezávislých informací jsme použili? SSG + SSe

DFtot = počet pozorování – 1 (pro celkový průměr) = 14

DFG = počet skup. průměrů – 1 (pro celkový průměr) = 2

DFe = počet pozorování – počet nezávislých průměrů = 12

MStot je celková variance= 22/14 = 1.5714

MSG je objasněná variance= 10/2 = 5.0

MSe je neobjasněná variance= 12/12 = 1.0

A pořád ještě králíci ...

Pokud platí nulová hypotéza, měly by být obě variability zhruba stejné – jejich poměr lze popsat F distribucí, se dvěma parametry: DFG a DFe

MSG a MSe odhadují mezi-skupinovou a vnitro-skupinovou variabilitu na srovnatelné škále

V našem příkladě F = 5.0 / 1.0 = 5.0

Pravděpodnost, že takto velkou nebo větší hodnotu „si vytáhnu“ z F2,12 distribuce je asi 0.0263

Zamítám tedy H0 ve prospěch HA s p=0.0263

e

G

MS

MSF

ANOVA

• Použitá metoda je nejjednodušším typem analýzy variance (Analysis of variance = ANOVA)

• Tento typ se nazývá analýza variance jednoduchého třídění (= jednocestná ANOVA)one-way ANOVA

• případně single-factor ANOVA

Model pro one-way ANOVA

• Nulovou hypotézu pro případ jednocestné analýzy variance se 3 skupinami jsme popsali takto:

H0: 1 = 2 = 3

• Nebo vytvoříme model, popisující naše data v případě, že platí alternativní hypotéza HA:

Xij = + i + ij

Společná střední hodnota

“posunutí” průměru i-té skupiny proti společnému průměru

náhodná variabilita N(0, σ2)nezávislá na α

H0: 1 = 2 = 3 = 0

V programu Statistica

Shoda variancí

Test shody variancí mezi skupinami: Bartlettův test

Liší se všechna plemena?

• Zamítnutí H0 může znamenat:

1 = 2 ≠ 3

1 ≠ 2 = 3

1 ≠ 2 ≠ 3

• Jak zjistím, co z toho je správně?

• Problém – opakované použití stejných údajů: rychlý růst chyby I. typu

• Mnohonásobná porovnání (multiple comparisons = post-hoc compar.)

Tukey-ho test

• Používáme testovou statistiku q podobnou statistice z dvouvýběrového T-testu

• Standardní chyba rozdílu průměrů je:

• Smysl podobný jako u T statistiky, ale q nemá T distribuci!

Tukey v programu Statistica

Výstup může vypadat různě:

Proč nesrovnávat po dvojicích a nepoužít řadu t-testů?

Plemeno C Plemeno B

Plemeno A

Pokud máme k skupin (a srovnáváme k průměrů)

• Provádíme k(k-1)/2 testů Pravděpodobnost chyby I. druhu je α v každém z nich

• Šance, že uděláme alespoň jednu chybu prvního druhu roste s počtem porovnávaných průměrů

Dunnetův test• Pojem kontrola (control treatment)

• Dunnetův test používáme v případě, že chceme porovnávat jednotlivé hladiny faktoru jen proti kontrole

• V programu Statistica provedeme takto:

Pokud mám dvě skupiny, mám užít ANOVA nebo t-test ?

Je to jedno, P vyjde v obou případech zcela shodné

Hodnota F statistiky z ANOVA bude druhou mocninou hodnoty T z t-testu

Síla testu

• Roste s počtem pozorování ve skupině

• Roste s vyvážeností skupin (balanced design)

• Klesá s rostoucím počtem skupin (nesnažte se porovnávat všechno možné při malém počtu pozorování ve skupině!)

Narušení předpokladů –robustnost testu

• Robustnost k narušení normality stoupás počtem pozorování ve skupině

• Robustnost k narušení homogenity variancí výrazně klesá při nevyvážených počtech ve skupinách

Pevné a náhodné efekty• Králičí příklad představoval problém, ve kterém faktor

(nezávislá proměnná) plemeno obsahoval hladiny, které nás konkrétně zajímaly – podobně hnojené vs. nehnojené plochy, srovnání vlivu několika druhů léků. Plemeno, hnojení, druh léku jsou faktory s pevným efektem (fixed effect factor)

• V jiných situacích: porovnáváme variabilitu hodnot mezi kategoriemi vs. uvnitř kategorií: liší se hmotnost plodů mezi mateřskými rostlinami, tj. existuje systematický vliv rostliny? Konkrétní rostlina mne nezajímá, faktor rostlina odpovídá tzv. náhodnému efektu (random effect factor)

• ANOVA s náhodnými efekty se označuje také jako model II ANOVA (x model I – s pevnými efekty). Mixed-effect ANOVA

• V případě faktorů s náhodným efektem nemá smysl testovat rozdíly mezi konkrétními hladinami faktoru (nemá smysl dělat multiple comparisons)

Kruskal – Wallisův test

• Neparametrický test – zobecnění Mann – Whitneyova testu pro tři a více (k) skupin

• Původní hodnoty se nahradí pro každé pozorování hodnotou jeho pořadí

• Ze součtu pořadí ve skupinách se pak spočítá testová statistika H, která by měla za platnosti H0 pocházet z 2 distribuce s k-1 stupni volnosti

• Problém shodných hodnot (ties)

Kruskal – Wallisův test: příklad

• Porovnáváme četnost určitého druhu hmyzu ve třech vegetačních patrech.

• Původní data nahradíme pořadím

16*3]5

26

5

30

5

64[

16*15

12)1(3

)1(

12 222

1

2

k

i i

iN

n

R

NNH

Kruskal – Wallisův test: Statistica