Upload
yuki
View
64
Download
0
Embed Size (px)
DESCRIPTION
Chov áme králíčky. H A : alespoň jeden se liší. H 0 : m 1 = m 2 = m 3. Liší se tato tři králičí plemena hmotností?. 3, 3, 4, 5, 5. 4, 4, 6, 5, 6. 7, 5, 6, 5, 7. Mezi plemeny nemusí být s kute čný rozdíl: průměry skupin se mohou lišit jen proto, že mám malý počet pozorování. - PowerPoint PPT Presentation
Citation preview
Chováme králíčky
Liší se tato tři králičí plemena hmotností?3, 3, 4, 5, 5 4, 4, 6, 5, 6 7, 5, 6, 5, 7
Mezi plemeny nemusí být skutečný rozdíl: průměry skupin se mohou lišit jen proto, že mám malý počet pozorování
Příklad výběrů z normální distribuce N(5,2), každý s 5 případy:průměry jsou například: 5.89, 4.50, 5.69, 5.73, ....
H0:1=2=3
HA: alespoň jeden se liší
Zas ti králíci ...
SStot =
Celková suma čtvercůTotal sum of squares SStot
rozptyl kolem společného průměru
SStot = (3-5)2+(3-5)2+(4-5)2+(5-5)2+ (5-5)2+(4-5)2+(4-5)2+...+(7-5)2
= 22
Skupinová (modelová) suma čtvercůAmong-group sum of squares SSG
rozptyl hodnot předpovídanýchplemenem kolem celkového průměru
SSG = (4-5)2+(4-5)2+(4-5)2+(4-5)2+ (4-5)2+(5-5)2+(5-5)2+...+(6-5)2
= 10
Residuální suma čtvercůError sum of squares SSe
rozptyl hodnot kolem průměrů předpovídaných plemenem
SSe = (3-4)2+(3-4)2+(4-4)2+(5-4)2+ (5-4)2+(4-5)2+(4-5)2+...+(7-6)2
= 12
Jaký počet nezávislých informací jsme použili? SSG + SSe
DFtot = počet pozorování – 1 (pro celkový průměr) = 14
DFG = počet skup. průměrů – 1 (pro celkový průměr) = 2
DFe = počet pozorování – počet nezávislých průměrů = 12
MStot je celková variance= 22/14 = 1.5714
MSG je objasněná variance= 10/2 = 5.0
MSe je neobjasněná variance= 12/12 = 1.0
A pořád ještě králíci ...
Pokud platí nulová hypotéza, měly by být obě variability zhruba stejné – jejich poměr lze popsat F distribucí, se dvěma parametry: DFG a DFe
MSG a MSe odhadují mezi-skupinovou a vnitro-skupinovou variabilitu na srovnatelné škále
V našem příkladě F = 5.0 / 1.0 = 5.0
Pravděpodnost, že takto velkou nebo větší hodnotu „si vytáhnu“ z F2,12 distribuce je asi 0.0263
Zamítám tedy H0 ve prospěch HA s p=0.0263
e
G
MS
MSF
ANOVA
• Použitá metoda je nejjednodušším typem analýzy variance (Analysis of variance = ANOVA)
• Tento typ se nazývá analýza variance jednoduchého třídění (= jednocestná ANOVA)one-way ANOVA
• případně single-factor ANOVA
Model pro one-way ANOVA
• Nulovou hypotézu pro případ jednocestné analýzy variance se 3 skupinami jsme popsali takto:
H0: 1 = 2 = 3
• Nebo vytvoříme model, popisující naše data v případě, že platí alternativní hypotéza HA:
Xij = + i + ij
Společná střední hodnota
“posunutí” průměru i-té skupiny proti společnému průměru
náhodná variabilita N(0, σ2)nezávislá na α
H0: 1 = 2 = 3 = 0
Liší se všechna plemena?
• Zamítnutí H0 může znamenat:
1 = 2 ≠ 3
1 ≠ 2 = 3
1 ≠ 2 ≠ 3
• Jak zjistím, co z toho je správně?
• Problém – opakované použití stejných údajů: rychlý růst chyby I. typu
• Mnohonásobná porovnání (multiple comparisons = post-hoc compar.)
Tukey-ho test
• Používáme testovou statistiku q podobnou statistice z dvouvýběrového T-testu
• Standardní chyba rozdílu průměrů je:
• Smysl podobný jako u T statistiky, ale q nemá T distribuci!
Pokud máme k skupin (a srovnáváme k průměrů)
• Provádíme k(k-1)/2 testů Pravděpodobnost chyby I. druhu je α v každém z nich
• Šance, že uděláme alespoň jednu chybu prvního druhu roste s počtem porovnávaných průměrů
Dunnetův test• Pojem kontrola (control treatment)
• Dunnetův test používáme v případě, že chceme porovnávat jednotlivé hladiny faktoru jen proti kontrole
• V programu Statistica provedeme takto:
Pokud mám dvě skupiny, mám užít ANOVA nebo t-test ?
Je to jedno, P vyjde v obou případech zcela shodné
Hodnota F statistiky z ANOVA bude druhou mocninou hodnoty T z t-testu
Síla testu
• Roste s počtem pozorování ve skupině
• Roste s vyvážeností skupin (balanced design)
• Klesá s rostoucím počtem skupin (nesnažte se porovnávat všechno možné při malém počtu pozorování ve skupině!)
Narušení předpokladů –robustnost testu
• Robustnost k narušení normality stoupás počtem pozorování ve skupině
• Robustnost k narušení homogenity variancí výrazně klesá při nevyvážených počtech ve skupinách
Pevné a náhodné efekty• Králičí příklad představoval problém, ve kterém faktor
(nezávislá proměnná) plemeno obsahoval hladiny, které nás konkrétně zajímaly – podobně hnojené vs. nehnojené plochy, srovnání vlivu několika druhů léků. Plemeno, hnojení, druh léku jsou faktory s pevným efektem (fixed effect factor)
• V jiných situacích: porovnáváme variabilitu hodnot mezi kategoriemi vs. uvnitř kategorií: liší se hmotnost plodů mezi mateřskými rostlinami, tj. existuje systematický vliv rostliny? Konkrétní rostlina mne nezajímá, faktor rostlina odpovídá tzv. náhodnému efektu (random effect factor)
• ANOVA s náhodnými efekty se označuje také jako model II ANOVA (x model I – s pevnými efekty). Mixed-effect ANOVA
• V případě faktorů s náhodným efektem nemá smysl testovat rozdíly mezi konkrétními hladinami faktoru (nemá smysl dělat multiple comparisons)
Kruskal – Wallisův test
• Neparametrický test – zobecnění Mann – Whitneyova testu pro tři a více (k) skupin
• Původní hodnoty se nahradí pro každé pozorování hodnotou jeho pořadí
• Ze součtu pořadí ve skupinách se pak spočítá testová statistika H, která by měla za platnosti H0 pocházet z 2 distribuce s k-1 stupni volnosti
• Problém shodných hodnot (ties)
Kruskal – Wallisův test: příklad
• Porovnáváme četnost určitého druhu hmyzu ve třech vegetačních patrech.
• Původní data nahradíme pořadím
16*3]5
26
5
30
5
64[
16*15
12)1(3
)1(
12 222
1
2
k
i i
iN
n
R
NNH