ANALÝZA ROZPTYLU

Preview:

DESCRIPTION

ANALÝZA ROZPTYLU. PREDNÁŠKA. Čo je ANOVA, základné pojmy Hypotézy pri ANOVA Model ANOVA Jednofaktorová ANOVA - vyvážený pokus Prijatie rozhodnutia v ANOVA Predpoklady ANOVA Jednofaktorová ANOVA - nevyvážený pokus Dvojfaktorová ANOVA - bez opakovania - PowerPoint PPT Presentation

Citation preview

ANALÝZA ROZPTYLU

1

2

PREDNÁŠKA Čo je ANOVA, základné pojmy Hypotézy pri ANOVA Model ANOVA

Jednofaktorová ANOVA - vyvážený pokus Prijatie rozhodnutia v ANOVA Predpoklady ANOVA Jednofaktorová ANOVA - nevyvážený pokus Dvojfaktorová ANOVA - bez opakovania Dvojfaktorová ANOVA - s opakovaním Metódy viacnásobného porovnávania Overenie zhody variability

ČO JE ANOVA

analysis of variance - analýza rozptylu metóda na porovnávanie stredných hodnôt

(priemerov) niekoľkých ZS hľadanie rozdielov medzi priemermi sa

zakladá na analýze rôznych foriem rozptylu AR zároveň skúma vplyv kvalitatívneho faktora

(faktorov) na výsledný kvantitatívny znak - teda analyzuje vzťahy medzi znakmi

ANOVA je zovšeobecnením Studentovho t-testu pre nezávislé výbery

3

ČO JE ANOVA praktické využitie

najčastejšie sa AR používa pri vyhodnocovaní biologických experimentov

počet predaných výrobkov v závislosti od umiestnenia výrobku v regáli, atď.

4

ZÁKLADNÉ POJMY skúmaný štatistický znak

Označenie: y výsledný kvantitatívny znak napr. počet predaných výrobkov

faktor Označenie: A., B, ... je kvalitatívna premenná

úroveň faktora jednotlivé obmeny faktora určité množstvo kvantitatívneho faktora, napr.

množstvo dávok čistých živín pri hnojení, rôzne príjmové skupiny domácností,

určitý druh kvalitatívneho faktora, napr. rôzne odrody tej istej plodiny, spôsoby umiestnenia výrobkov v predajni,

5

ČO JE ANOVA

pojmy jednofaktorová/viacfaktorová ANOVA

skúmame vplyv jedného/viacerých faktor na kvantitatívnu premennú

vyvážená/nevyvážená ANOVA podľa toho, či majú jednotlivé

skupiny rovnaký rozsah n

6

ČO JE ANOVA

pri ANOVA porovnávame priemerné hodnoty kvantitatívnej premennej pri rôznych úrovniach faktora napríklad porovnávame

priemerné výdavky obyvateľov so základným vzdelaním, priemerné výdavky stredoškolsky vzdelaného obyvateľstva, priemerné výdavky vysokoškolsky vzdelaného obyvateľstva

7

1

2

3

SCHÉMA JEDNOFAKTOROVÉHO EXPERIMENTU “VYVÁŽENÝ POKUS”

A 1 2… j… n Yi . yi .

1 y11 y12 y1j y1n Y1. y1.

2 y21 y22 y2j y2n Y2. y2.

… ……….. i yi1 yi2 yij yin Yi. yi.

… ……….. m ym1 ym2 ymj ymn Ym. ym.

Y.. y..

Úrovnefaktora

Celkový súčet

opakovania

riadkový súčet

riadkovýpriemer

celkovýpriemer

9

Model pre výslednú napozorovanú hodnotu

ijiij e α μ y

Kde: - očakávaná hodnota pre všetky úrovne faktora a napozorované hodnoty,

i - efekt i-tej úrovne faktora A

eij - náhodná chyba, ktorým je každé meranie zaťažené, resp. výsledok vplyv náhodných činiteľov

kde i = 1, 2,…, m j = 1,2,…, n

10

ijiij e α μ y

Nulovú hypotézu potom môžeme formulovať aj nasledovne:Ho : 1 = 2 =… i = m = 0

t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze

H1: i 0 pre aspoň jedno i (i = 1,2…m)efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly

ijiij e μy alebo

HYPOTÉZY PRI ANOVAHYPOTÉZY PRI ANOVAHYPOTÉZY PRI ANOVAHYPOTÉZY PRI ANOVA

11

Odhadmi jednotlivých parametrov sú nasledovné výberové charakteristiky:

.y - y e est ..y - .y est

.y est ..y est

iijijii

ii

ijiij e α μ y

ijiij e α μy čo môžeme prepísať:

.)y(y ..)y - .y( ..)y - y( iijiij

PRINCÍP ANOVY

12

Podstata ANOVY spočíva v rozklade celkovej variabilityrozklade celkovej variability výsledného skúmaného znaku

2.i

m

1i

n

1jij

2..

m

1i.i

2..

m

1i

n

1jij )yy()yy(n )yy(

Celková variabilita

Variabilita medzi úrovňami faktora, spôsobená pôsobením

faktora A,“variabilita medzi

triedami, riadkami”

Variabilita náhodná,

reziduálna,“vo vnútri tried

Sc S1 Sr

PRINCÍP ANOVY

Typy variability celková variabilitacelková variabilita

na koľko sa odchyľujú konkrétne hodnoty v skupinách od celkového priemeru

variabilita medzi skupinamivariabilita medzi skupinami na koľko sa odchyľujú skupinové priemery od celkového

priemeru variabilita vnútri skupínvariabilita vnútri skupín

na koľko sa odchyľujú konkrétne hodnoty v skupinách od ich skupinového priemeru

čím väčšia je variabilita medzi skupinami v porovnaní

s variabilitou vnútri skupín, tým väčší je účinok faktora

13

PRIJATIE ROZHODNUTIA V ANOVA

Testovacia štatistika (F) porovnáva variabilitu S1a variabilitu Sr

čím väčšia je variabilita S1

tým je vplyv faktora väčší tým sú väčšie rozdiely medzi skupinovými priemermi tým viac dôkazov máme pre prijatie alternatívnej

hypotézy14

celková variabilita

variabilita medzi skupinami

variabilita vnútri skupín

celková suma štvorcov

suma štvorcovodchýlok - faktor

rezid. suma štvorcovodchýlok

priemerná suma štvorcov odchýlok

priemerná sumaštvorcov rezid. odchýlok

= F

15

2..

m

1i

n

1jij )yy(

2..

m

1i.i )yy(n

2.i

m

1i

n

1jij )yy(

Variabilitamedzi triedami

Reziduálnavariabilta

Celková variabilita

ANOVAVariabilita

1Súčet štvorcov

odchýlok

2Stupne

voľnosti

m-1

m.n - m

N-1=m .n-1

3Priemerný

štvorec(1/2)

S1

Sr

Sc

s12

sr2

4F-krité-

rium

2r

21

s

sF

VÝSLEDNÁ TABUĽKA ANOVYVÝSLEDNÁ TABUĽKA ANOVY

Ak F vyp F vyp F F. ((m-1,(N-m)) . ((m-1,(N-m)) Ho zamietame Ho zamietame, v takom prípade je aspoň efekt jednej úrovne

faktora preukazný, teda priemerná úroveň ukazovateľa sa štatisticky významne líši od ostatných. resp. aspoň

jeden

efekt i

je štatisticky významne

odlišný odnuly. 16

PRIJATIE ROZHODNUTIA V ANOVAPRIJATIE ROZHODNUTIA V ANOVA

obor zamietnutia H0

kritický obor,

Fobor nezamietnutia Ho

AkF vyp F

Ho nezamietame

PREDPOKLADY ANOVY

Nezávislosť výberových súborov štatistická nezávislosť náhodných chýb eij

Normalita výbery pochádzajú z normálnych rozdelení,

narušenie tohto predpokladu nemá podstatnejší vplyv na výsledky AR

Homoskedasticita -zhodné reziduálne rozptyly

12 = 2

2 = …. = 2 , t.j. D(eij) = 2

tento predpoklad je závažnejší a možno ho overovať Cochranovým, resp. Bartlettovým testom

17

SCHÉMA JEDNOFAKTOROVÉHO EXPERIMENTU - “NEVYVÁŽENÝ POKUS”

18

A 1 2… j … ni Yi . yi .

1 y11 y12 y1j ... n1 Y1. y1.

2 y21 y22 y2j ... n2 Y2. y2.

… ……….. i yi1 yi2 yij ... ni Yi. yi.

… ……….. m ym1 ym2 ymj ... nm Ym.

ym.

Y.. y..

Rôzny počet opakovaní

Úrovnefaktora

riadkový súčet

riadkovýpriemer

Kde

m

1iin N

celkovýpriemer

19

2..

m

1i

in

1jij )yy(

2..

m

1i.ii )yy(n

2.i

m

1i

in

1jij )yy(

Variabilitamedzi

triedami

Reziduálnavariabilta

Celková variabilita

ANOVAVariabilita

1Súčet štvorcov

odchýlok

2Stupnevoľnosti

m-1

N - m

N-1

3Priemerný

štvorec(1/2)

S1

Sr

Sc

s12

sr2

4F-kritérium

2r

21

s

sF

m

1iin N

VÝSLEDNÁ TABUĽKA ANOVYVÝSLEDNÁ TABUĽKA ANOVY

DVOJFAKTOROVÁ ANALÝZA ROZPTYLU BEZ DVOJFAKTOROVÁ ANALÝZA ROZPTYLU BEZ OPAKOVANIA OPAKOVANIA

Uvažujme vplyv faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m

ďalej uvažujme faktor B, ktorý sledujeme na n - úrovniach , j = 1,2, …, n

na každej i-tej úrovni faktora A a j-tej úrovni faktora B máme len jedno len jedno pozorovaniepozorovanie (opakovanie) yij

overujeme tak vplyv dvoch nulových hypotéz

20

SCHÉMA DVOJFAKTOROVÉHO EXPERIMENTU S JEDNÝM POZOROVANÍM V KAŽDEJ PODTRIEDE DAR

21

A 1 2 … j … n Yi . yi .

1 y11 y12 y1j y1n Y1. Y1.

2 y21 y22 y2j y2n Y2. y2.

… ……….. i yi1 yi2 yij yin Yi. yi.

… ……….. m ym1 ym2 ymj ymn Ym. ym.

Y.1 Y.2 ... Y.j ... Y.1

Y.. y.1 y.2 ... y.j ...

y.1 y..

n-úrovní faktora B

m-úrovnífaktora A

riadkové súčty

Riadkovépriemery

celkovýpriemer

B

Stĺpcové súčty

stĺpcové priemery

Overujeme platnosť dvoch nulových hypotéz

22

Hypotéza pre faktor Afaktor A:

HHoo 1: 1: 1 1 = = 2 2 =… =… i i = = m m == 00

t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze

HH111 :1 : i i 0 0

pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly

ijjiij e α μ y Model pre skúmaný znak môžme zapísať

23

Hypotéza pre faktor B: faktor B: Ho 2: 1 = 2 =… j = n = 0

t.j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze

H12 : j 0

pre aspoň jedno j (j = 1,2…m) efekt j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly

24

Variabilitamedzi

riadkami

Reziduálnavariabilta

Celková variabilita

DARVariabilita

1Súčet štvorcov

odchýlok

2Stupnevoľnosti

m-1

n-1

(m-1)(n-1)

3Priem.štvorec

(1/2)

Sr

Sc

s12

sr2

4F-kritérium

2

21

1

rs

sF S1

S2

Variabilita medzi

stĺpcami

m.n -1

2

22

2

rs

sF s2

2

VÝSLEDNÁ TABUĽKA ANOVYVÝSLEDNÁ TABUĽKA ANOVY

ROZKLAD CELKOVEJ VARIABILITY SKÚMANÉHO ZNAKU: SC= S1 + S2 + S R

25

2m

1ii 1 ..)y.y(nS

2n

1jj2 ..)y.y(m S

2ji

m

1i

n

1jij r ..)y.y.yy(S

2m

1i

in

1jijc ..)yy( S

Variabilita medzi riadkami, vplyv faktora A

Variabilita medzi stĺpcami,vplyv faktora B

Reziduálna

variabilita

Celková variabilita

DVOJFAKTOROVÁ ANALÝZA ROZPTYLU DVOJFAKTOROVÁ ANALÝZA ROZPTYLU S S OPAKOVANÍM OPAKOVANÍM

Uvažujme vplyv dvoch faktorov: faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m a faktora B, ktorý sledujeme na n - úrovniach , j = 1,2, …, n

Skúmame nielen individuálny vplyv daných faktorov, ale aj ich vzájomné pôsobenie (interakciu)

Pre každú kombináciu úrovní máme viacviac pozorovanpozorovaníí (opakovaní) yij

Overujeme tak vplyv troch nulových hypotéz

26

User

SCHÉMA DVOJFAKTOROVÉHO EXPERIMENTU S INTERKACIOU

Faktor B B1 B2 ... Bn

A1 yijk Priemer

A1B1 Priemer A1B2

Priemer A1Bn

Priemer A1

A2 Priemer

A2B1 Priemer A2B2

Priemer A2Bn

Priemer A2

.

.

.

Am

Faktor A

Priemer

AmB1 Priemer AmB2

Priemer AmBn

Priemer Am

Priemer B1

Priemer B2

... Priemer Bn

Celkový priemer

27

Overujeme platnosť troch nulových hypotéz

28

Hypotéza pre faktor Afaktor A:

Ho : 1 = 2 =… i = m = 0

t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze

H1 : i 0

pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly

( )ij i j ij ijy μ α e Model pre skúmaný znak môžme zapísať

29

Hypotéza pre faktor Bfaktor B: Ho: 1 = 2 =… j = n = 0

t.j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze

H1 : j 0 pre aspoň jedno j (j = 1,2…m) efekt j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly

Hypotéza pre interakciu (interakciu ()ij)ij: : Ho : 11 = 12 =… ij = mn = 0

t.j. že pôsobenie interakcie je nulové, teda nepreukazné, oproti alternatívnej hypotéze

H1 : ()ij 0

30

Variabilitamedzi

riadkami

Reziduálnavariabilta

Celková variabilita

DARVariabilita

1Súčet štvorcov

odchýlok

2Stupnevoľnosti

m-1

n-1

m.n.(k-1)

3Priem.štvorec

(1/2)

Sr

Sc

s12

sr2

4F-kritérium

2

21

1

rs

sF S1

S2

Variabilita medzi

stĺpcami

m.n -1

2

22

2

rs

sF s2

2

Interakcia S12(m-1)(n-1)

212

12 2r

sF

ss12

2

VÝSLEDNÁ TABUĽKA ANOVYVÝSLEDNÁ TABUĽKA ANOVY

ROZKLAD CELKOVEJ VARIABILITY SKÚMANÉHO ZNAKU: SC= S1 + S2 + S12 +S R

31

m2

1 i 1

. ( .. ...)iS n k y y

n

22

j 1

. ( . . ...)jS m k y y

2

1 1 1

( .)m n l

r ijk iji j k

S y y

2

1 1 1

( ...)inm l

c iji j k

S y k y

Variabilita medzi riadkami, vplyv faktora A

Variabilita medzi stĺpcami, vplyv faktora B

Reziduálna variabilita

Celková variabilita

m2

12 . .. ...1 j=1

( )n

ij i ijii

S k y y y y

Variabilita z

interakcie

METÓDY VIACNÁSOBNÉHO POROVNÁVANIA v prípade, že H0 zamietame, zaujíma nás,

medzi ktorými strednými hodnotami existujú štatisticky významné rozdiely

existuje široká škála testov zameraná na viacnásobné porovnanie výberových priemerov

Ktoré priemery sú významne rozdielne? použijeme test kontrastov

testy, ktoré robia dve alebo viac porovnaní medzi tromi alebo viacerými priemermi

je možné vytvoriť m*(m-1)/2 kontrastov veľký počet testov

32

TESTY KONTRASTOVTESTY KONTRASTOV

1. Fischerov LSD test2. Duncanov test3. Student-Newman-Keulsov test4. Tukeyho test5. Scheffeho test

33

FISCHEROV LSD TESTFISCHEROV LSD TEST

LSD = Least Significant Difference je založený na t-teste štatisticky významný rozdiel je

potvrdený, ak platí vzťah:

kde: kritická hodnota t rozdelenia pri m(n-1) stupňoch voľnosti

n

s2tyy

2r

)1n(m,.j.i

)1n(m,t

34

DUNCANOV TESTDUNCANOV TEST

štatisticky významný rozdiel je potvrdený, ak platí vzťah:

kde: tabuľovaná hodnota Duncanovho testu pre daný počet rozdielov a pri reziduálnom stupni voľnosti

n

sDyy

2r

.j.i

D

35

STUDENT-NEWMAN-KEULSOV STUDENT-NEWMAN-KEULSOV TESTTEST

štatisticky významný rozdiel je potvrdený, ak platí vzťah:

kde: tabuľovaná hodnota Student-Neumannovho - Keulsovho testu pre daný počet porovnávaných rozdielov a pri reziduálnom stupni voľnosti

n

sgyy

2r

.j.i

g

36

TUKEYHO TESTTUKEYHO TEST

štatisticky významný rozdiel je potvrdený, ak platí vzťah:

kde: tabuľovaná hodnota Tukeyho testu.

)1n(m,m,q

n

s.qyy

2r

)1n(m,m,.j.i

37

SCHEFFEHO TESTSCHEFFEHO TEST

štatisticky významný rozdiel je potvrdený, ak platí vzťah:

kde: kritická hodnota F rozdelenia pri (m-1) a m(n-1) stupňoch voľnosti

)1n(m),1m(,F

)1n(m),1m(,2r

ji.j.i F.s).1m.(

n

1

n

1yy

38

KTORÝ TEST POUŽIŤ?KTORÝ TEST POUŽIŤ?

Test Sila testu (1-β) Chyba I. druhu (α)

LSD najvyššia najvyššia

Duncan

Student-Newman-Keuls

Tukey

Scheffe najnižšia najnižšia

39

viac konzervatívn

y, menej pravdepo-dobné, že

bude objavený skutočný rozdiel

viac pravdepo-dobné,, že

bude určený

nesprávny rozdiel

KTORÝ TEST POUŽIŤ?KTORÝ TEST POUŽIŤ?

závisí, ktorý typ chyby je akceptovateľnejší z hľadiska analýzy daného problému, t.j. neurčenie rozdielu, ak skutočne existuje, resp. určenie rozdielu, ktorý neexistuje.

40

TESTY KONTRASTOV - STATGRAPHICSTESTY KONTRASTOV - STATGRAPHICS

Multiple Range Tests

Method: 95,0 percent LSDCount Mean Homogeneous Groups

Col_4 5 303,8 XCol_3 5 337,0 XXCol_1 5 344,2 XCol_2 5 349,8 X

Contrast Sig. Difference +/- Limits

Col_1 - Col_2 -5,6 38,7085Col_1 - Col_3 7,2 38,7085Col_1 - Col_4 * 40,4 38,7085Col_2 - Col_3 12,8 38,7085Col_2 - Col_4 * 46,0 38,7085Col_3 - Col_4 33,2 38,7085* denotes a statistically significant difference.

41

TESTY KONTRASTOV - STATGRAPHICSTESTY KONTRASTOV - STATGRAPHICS

Col_1 Col_2 Col_3 Col_4

Means and 95,0 Percent LSD Intervals

280

300

320

340

360

380

Mea

n

42

OVERENIE ZHODY VARIABILITYOVERENIE ZHODY VARIABILITY

predpokladáme, že skúmané výberové súbory majú približne normálne rozdelenie a rozdiely rozptylov medzi testovanými skupinami sú nepreukazné.

H0:

Testy: Cochranov test Hartleyov test Bartlettov test

22m

22

21 ....

43

COCHRANOV TESTCOCHRANOV TEST

je ho vhodné použiť, ak u skúmaných výberových súborov sú značné rozdiely medzi rozptylmi

testovacia charakteristika:

ak G ≥ Gα, m, n-1 → H0 zamietame Gα, m, n-1 - tabuľková hodnota pri m a n-1

stupňoch voľnosti

2m1

212

211

2m1

212

211

s...ss

)s...ssmax(G

44

HARTLEYOV TESTHARTLEYOV TEST

testovacia charakteristika:

ak H ≥ Hα, m, n-1 → H0 zamietame

Hα, m, n-1 - tabuľková hodnota pri m a n-1 stupňoch voľnosti

)s...ssmin(

)s...ssmax(H

2m1

212

211

2m1

212

211

45

BARTLETTOV TESTBARTLETTOV TEST spočíva v porovnávaní aritmetického a

geometrického priemeru rozptylov. Ak sú rozptyly rovnaké, potom aj priemery sú rovnaké.

testovacia charakteristika:2

2 21

1 1

21

2 1

1

1

1

2,3026 .log .log

.

1 1 11

3( 1)

m m

i i ii i

m

i ii

m

ii

m

mi i

ii

M

C

M k s k s

s ks

k

Cm k k

46

ki = ni-1

m – počet výberových súborov

ni – rozsah i-teho výberového súboru

Ak χ2χ2(m-1), potom H0 zamietame

OVERENIE ZHODY VARIABILITY - OVERENIE ZHODY VARIABILITY - STATGRAPHICSSTATGRAPHICS

Variance Check

Test P-Value Bartlett's 1,70592 0,0517136

47

48

ĎAKUJEM ZA POZORNOSŤĎAKUJEM ZA POZORNOSŤ

Recommended