47
Varianciaanalízis Informatikai Tudományok Doktori Iskola

Varianciaanalízis

  • Upload
    nuwa

  • View
    36

  • Download
    1

Embed Size (px)

DESCRIPTION

Varianciaanalízis. Informatikai Tudományok Doktori Iskola. - PowerPoint PPT Presentation

Citation preview

Page 1: Varianciaanalízis

Varianciaanalízis

Informatikai Tudományok Doktori Iskola

Page 2: Varianciaanalízis

A szórásanalízis (ANOVA=analysis of variance) modellek rugalmas statisztikai eszközök valamely kvantitatív (numerikus vagy intervallum skálájú) változónak (függő változó) egy vagy több nem feltétlenül kvantitatív változóval (független változók) való kapcsolata kielemzésére.

Arra vagyunk itt kíváncsiak, hogy van-e hatása a független változóknak a függő változóra illetve, hogy ez a hatás egyforma vagy különböző. A hatás, kapcsolat függvényszerű feltárása akkor sem cél, ha a független változók kvantitatívek .

Page 3: Varianciaanalízis

A szórásanalízis módszereit alapvetően két szempont különbözteti meg a regresszióanalízis módszereitől:

1. A vizsgált független változók kvalitatívek is lehetnek (pl. a vizsgált személy neme, lakóhelye stb.) Ilyenkor regressziós vizsgálatról szó sem lehet.

2. Még ha a függő változók kvantitatívek is, nem cél a független változóval való függvényszerű kapcsolat feltárása.

Ilyen értelemben a szórásanalízis módszere megelőzi a regressziós vizsgálatokat. Ugyanis, ha az összefüggés fennállására pozitív választ kapunk van egyáltalán értelme keresni ezen összefüggés jellegét.

Page 4: Varianciaanalízis

A szórásanalízis módszerei besorolhatók a hipotéziselmélet módszerei közé is, hiszen különböző nullhipotézisek feletti döntéssorozattal válaszolunk a kiindulási kérdéseinkre.

Azt vizsgáljuk, hogy egy bizonyos faktornak (körülménynek) van-e hatása a kimeneti változó (válasz) várható értékére.

A faktort különböző szintekre állitjuk be és méréseket végzünk

nullhipotézis: a faktornak nincs hatása, azaz a várható értékek egyenlőek.

Az adatok alapján ezt megpróbáljuk megcáfolni

Page 5: Varianciaanalízis

Alapfogalmakfaktor (factor) Faktornak nevezzük a vizsgálatba bevont független változókat.

faktor szint (factor level) A faktor értékkészletének eleme. Ezen beállítások mellett figyeljük meg a függő változót.

interakció Az egyes faktorok között feltételezett kapcsolat. Pl. a dolgozó neme és fizetési kategóriája között feltételezhető kapcsolat.

egyfaktoros és többfaktoros elemzések (single factor, MANOVA=multifactor analysis of variance)A modelleket a faktorok száma szerint csoportosítjuk, így beszélünk egy-, két-, háromfaktoros modellekről stb. Bizonyos kérdéseket csak többfaktoros modellekben tehetünk fel, pl. a faktorok között fellépő interakció kérdése ilyen.

Page 6: Varianciaanalízis

véletlen és beállított faktorok Vannak kísérletek, amikor az egyes faktorok szintjeit előre be tudjuk állítani, és ennek megfelelően tervezzük meg a méréssorozatot. Pl. ha egy gép beállítási módjai a faktorszintek, akkor rajtunk áll, hogy milyen beállítások mellett mérjünk. De ha a vizsgált faktor pl. a csapadék mennyisége, akkor azt előre nem tudjuk garantálni, hogy a független faktorok (hőmérséklet, nyomás, páratartalom stb.) milyen értékeket vesznek fel, csak utólag tudjuk azokat megállapítani. Ez utóbbi esetben tehát véletlen faktorokról van szó.

Alapfogalmak

Page 7: Varianciaanalízis

kvalitatív és kvantitatív faktorok Ha a faktorszintek nem numerikusak, vagy intervallum skálájúak kvalitatív, ellenkező esetben kvantitatív faktorokról beszélünk. Ez utóbbi esetben később regressziós elemzést is végezhetünk majd.

kezelések (cellák) (treatment, cell) Egyfaktoros esetben a kezelések megfelelnek a faktor szintjeinek, többfaktoros esetben a figyelembe vett faktorok szintjeiből előálló kombinációk lesznek a kezelések. Pl. amikor a két faktor egy boríték színei és a címzésnél használt betűtípus, akkor a kezelések a (szín, betűtípus) párok összes lehetséges kombinációiból állnak.

Alapfogalmak

Page 8: Varianciaanalízis

Példák1. példa: Egy nagy televíziógyár három szakközépiskolában képzi a szervízhálózata szerelőit. Mindegyik iskolában két oktatási program szerint folyik a képzés. A tanulók egy része elméletibb, a másik fele gyakorlatiasabb oktatást kap. A záróvizsga-eredmények alapján megvizsgálják, van-e lényeges különbség az oktatási programok között. Arra is keresik a választ, hogy az egyes iskolák színvonalai között van-e lényeges különbség. A függő változó most a tanulók záróvizsga teljesítményére adott összpontszám. (A záróvizsgán elméleti és gyakorlati feladatok vannak, mindet 1-től 5-ig értékelik.) Kétfaktoros modellről van szó. Az egyik faktor az oktatási program, melynek két szintje van. A másik faktor az iskola, amely három szintű. Tehát összesen hat kezelés (cella) képezhető ebben a modellben. Amikor a programokat hasonlítjuk össze, az iskolák hatásait, amikor az iskolákat hasonlítjuk össze, a programok hatásait kell kiküszöbölni. A faktorok interakciójával ebben az esetben nem érdemes foglakozni.

Page 9: Varianciaanalízis

Példák

2. példa: Veszélyeztetett terhességeknél az orvosok három különböző beavatkozás közül szoktak választani, hogy megakadályozzák a koraszülést. Rendelkezésre állnak a beavatkozás után születendő gyerekek súlyai. Azonos hatásfokúak-e a beavatkozások, vagy valamelyik műtét jobban szolgálja az ügyet? (Az orvosok akkor tartanak egy módszert jobbnak, mint a másikat, ha a születendő gyermek súlya nagyobb.) Itt most a gyerekek súlya a függő változó, és az orvosi beavatkozás a vizsgált egyetlen faktor, aminek három szintje van. Ennél fogva, a kezelések száma is három. A vizsgálat eredménye egyébként az volt, hogy nincsen lényeges különbség a kezelések között. Mivel az egyik „kezelés” az volt, hogy nem kell műteni, hanem szigorúan fektetni kell a kismamát, ezért a vizsgálat eredménye az, hogy ilyen esetben ez a legjobb módszer.

Page 10: Varianciaanalízis

Példák3. példa: Egy üzemben négy gyártósoron készítenek csapágygolyókat. Megvizsgálandó, hogy a golyók átmérői azonosaknak tekinthetők-e, vagy valamelyik gyártósort le kell állítani, hogy a többihez igazítsák. Itt is egyfaktoros elemzésről van szó (ez a faktor a gyártósor), a szintek száma most négy. A függő változó a golyók átmérője.

4. példa: Egy üzemben mérik a dolgozók hiányzási rátáit. Megvizsgálandó, hogy a hiányzási ráták különbözőek-e a nemek, családi állapotok, beosztások, iskolai végzettségek, korok, fizetési kategóriák által meghatározott csoportok között. Itt többfaktoros vizsgálatról van szó. A függőváltozó a hiányzási ráta, ami 0 és 1 közé eső arányszám minden dolgozó esetén. A faktorok között most célszerű interakciót feltételezni. Pl. a beosztások, korok és a fizetési kategóriák között van összefüggés.

Page 11: Varianciaanalízis

Példák

5. példa Három különböző műtrágya hatását mérték 9, 6, ill. 8 kísérleti alanyon. Itt az egyetlen tényező a műtrágya, annak 3 szintje van. A műtrágya hatására a terméseredményeket a fenti táblázat mutatja. Vizsgálják azt a nullhipotézist, hogy a terméseredmények várható értékei egyenlőek-e!

6. példa Egy cég szeretne egy új energiaitalt bevezetni a piacra. Ehhez az országban 4 régiót jelöltek ki tesztelés céljából, a vizsgált szempontok a csomagolás, a reklámkampány és a koffeintartalom voltak, miden faktornál négy különböző értéket vizsgáltak, összesen 16 kísérletet végeztek. Az eredmény az adott idő alatt vásárolt energiaital mennyisége volt száz doboz egységben.

Page 12: Varianciaanalízis

Kísérleti elrendezések

Több faktor hatásának egyidejű vizsgálatakor a módszereket három csoportba sorolhatjuk:

a.) hierarchikus osztályozásb.) keresztosztályozásc.) nem teljes kísérleti elrendezések

Page 13: Varianciaanalízis

Hierarchikus osztályozás

A faktorok hierarchiában vannak és egy faktor összes szintje a felette álló faktor csak egy szintjéhez kapcsolódik:

Ilyen kísérleti beállítást követünk, amikor p osztály tanulóinak tudását akarjuk összehasonlítani, r különböző tantárgy számonkérése útján.

Page 14: Varianciaanalízis

KeresztosztályozásAz A és B faktor szintjeinek minden (i,j) párosításához (kezelés, cella) veszünk egy- vagy többelemű mintát:

B1

B2

B3

................. Br

A1

y11

y12

y13

.................. yr1

A2

y21

y22

y23

.................. yr2

: :

: :

: :

: :

: :

: :

Ap

yp1

yp2

yp3

.................. ypr

B1

B2

B3

................. Br

A1 y11 y12 y13 .................. y r1 A2 y21 y22 y23 .................. y r2 : :

: :

: :

: :

: :

: :

Ap yp1 yp2 yp3 .................. ypr

Kettőnél több faktor esetén az kezelés kombinációhoz veszünk mintát, ahol k a faktorok száma.

Page 15: Varianciaanalízis

Nem teljes kísérleti elhelyezések

véletlen blokkok módszere

Olyankor alkalmazandó, amikor egy vizsgálandó faktor mellett más, nem kívánt de számontartott hatás is fellép, és azokat ki akarjuk küszöbölni.

B B Br

A A Ar1

A A Ar

Ap

Ap

Arp

C

1 2

11 21

12 22 2

1 2

A C faktor hatását úgy elimináljuk, hogy a B faktor minden szintjéhez az A faktor szintjeinek egy véletlen permutációját rendeljük. Pl. amikor r földterületen p műtrágya-beállítás mellett vizsgáljuk a terméshozamot azért, hogy a domborzati hatást kiküszöböljük ( C faktor) az egyes táblákon a műtrágyakezeléseket meg kell keverni.

Page 16: Varianciaanalízis

Nem teljes kísérleti elhelyezések

latin négyzetek módszere

Ez speciális három faktoros kísérleti terv a faktoronkénti p kezelés esetén az elvileg lehetséges kezelés helyett, csak kezelést igényel, az alábbi szisztéma szerint:

A A

B C C

B C C

Ap

Cp

Cp

Br

Cr1

Cr

Crp

1 2

1 11 12

2 21 22

1

2

2

A mátrix minden egyes sora és oszlopa a C faktor szintjeinek egy permutációja. Így az A és B faktorok szintjeinek minden egyes párosításához csak egyetlen faktorszintet rendelünk a C faktorból.

Page 17: Varianciaanalízis

Nem teljes kísérleti elhelyezések

latin négyzetek módszere

Pl. egy lehetséges 4x4-es latin négyzet az alábbi:

Az (A2,B3) kezeléspárhoz ekkor a C4-es faktorszint tartozik.A latin négyzetek módszere feltételezi, hogy a faktorok közötti interakciók nem jelentősek.

1 2 3 4

2 3 4 1

3 4 1 2

4 1 2 3

Page 18: Varianciaanalízis

Nem teljes kísérleti elhelyezések

latin négyzetek módszere

További 4x4-es latin négyzet:

Érdekesség: nincs felfedezett képlet a különböző nxn-es latin négyzetek számára vonatkozóan!

Page 19: Varianciaanalízis

Nem teljes kísérleti elhelyezések kiegyensúlyozott nem teljes blokk

Ha a blokkok száma kisebb a kezelések számánál, akkor egy 7x7-es problémánál alkalmazható az alábbi elrendezés:

B B B B

A A A A

A A A A

A A A A

B B B

A A A

A A A

A A A

A A A A A A A

1 2 3 4

1 1 1 1

2 2 3 4

3 5 4 6

5 6 7

2 2 3

3 4 5

4 5 6

6 7 5 7 7 6 7

Ilyenkor a B faktor minden szintjéhez az A faktorok egy kombinációját rendeljük. Pl. 7 alomból származó állatokon 7 különböző gyógyszer hatását akarjuk vizsgálni, de mindegyik alomból csak 4 állat áll a rendelkezésünkre, tehát az egy alomhoz tartozó állatok között nem oszthatjuk szét az összes gyógyszeradagot.

Page 20: Varianciaanalízis

Az alkalmazás feltételei

A függőváltozó eloszlásának normálisnak kell lennie. Tehát tetszőleges kezeléshez tartozó mintának követnie kell a normális eloszlást.

A minták szórásnégyzeteinek meg kell egyezniük. Ez azon múlik, hogy a kezelések eredményét azonos módon mérik-e.

Az egyes kezelésekhez tartozó mintáknak függetleneknek kell lenniük.

Page 21: Varianciaanalízis

A módszerek fázisai

Először a minták várható értékeinek egyezésére vonatkozó nullhipotézist ellenőrizzük.

Másodszor, ha a nullhipotézist el kellett vetni, megvizsgáljuk, milyen relációknál mutatkozik szignifikáns eltérés, és mi lehet ennek az oka. (Posthoc analysis)

Page 22: Varianciaanalízis

Egyszeres osztályozás (One-way ANOVA)

Egy X normális eloszlású változónak egyetlen L szintű faktorváltozóval való kapcsolatát vizsgáljuk (one-way-ANOVA). A X-re vett n elemű mintát a faktor szintjei szerint L csoportba soroljuk:

A nullhipotézis az, hogy az L db minta átlagai között nincs különbség:

A képletben ai az i szinthez tartzozó várható érték. Látható, hogy akétmintás t-próba többmintás kiterjesztéséről van szó.

)(,...,)(

2,)(

1,.....,)2(

2,...,)2(

2,)2(

1,)1(

1,...,)1(

2,)1(

1L

Ln

xLxLxn

xxxn

xxx

LaaaH ...: 210

Page 23: Varianciaanalízis

Egyszeres osztályozás (One-way ANOVA)

az egyes csoportok átlagai

a teljes mintaátlag

Lini

jx i

jnix i ,...,2,1

1

)(1)(

L

i

ni

jx i

jn

L

ix inin

x1 1

)(1

1

)(1

L

i

ni

jxx i

jQ1 1

)( 2a teljes négyzetösszeg

L

ixixniQk

1

)( 2a csoportok közötti négyzetösszeg

L

i

ni

j

ixij

xQb1 1

2))()(( a csoportokon belüli négyzetösszeg

Page 24: Varianciaanalízis

Egyszeres osztályozás (One-way ANOVA)

Megmutatható, hogy QbQkQ

Amennyiben igaz a nullhipotézis a

Ln

Qb

L

Qk

1

statisztika F- eloszlású lesz (L-1), (n-L) szabadságfokokkal.Tehát a nullhipotézis elfogadását az F-eloszlásból vett kritikus

értékkel (illetve a hozzá tartozó szignifikancia-szinttel) bírálhatjuk el.

Page 25: Varianciaanalízis

Egyszeres osztályozás (One-way ANOVA)

Ha nullhipotézist el kell vetni, akkor lehetőség van az (ai-aj) eltérések nagyságának megbecsülésére Student próbával. Az alapmintára vonatkozó normalitási feltételből következik, hogy az i-edik és j-edik csoportok elméleti várhatóértékei különbségére az alábbi konfidencia-intervallum szerkeszthető:

n jni

n jniLn

Qbtjxix

)()(

ahol t a Student táblázatból az 1- szignifikanciaszinthez és n-L szabadsági fokhoz tartozó kritikus érték.

Page 26: Varianciaanalízis

Kétszeres osztályozás (interakció nélkül)

Ha egy folytonos függőváltozó, és két nominális változó faktorváltozó adott, kétszeres osztályozásról beszélünk. Tegyük fel hogy az egyik faktor értékei az 1, 2, ..., L a másik faktor értékei az 1, 2, ..., K közül valók. Így a mintát összesen KxL részhalmazra bonthatjuk:

A kifejezésekben pl. az (j,k) párosítás esetén megszorított részminta (vagy cella) i-edik eleme. Feltesszük, hogy a minták normális eloszlásúak, és hogy a szórásaik ismeretlenek, de azonos értékűek.

x kji

),(

x KLn KL

x KLx KLxnxxxnxx ),(,

,...,),(2,),(

1,....,)2,1(2,1

,...,)2,1(2,)2,1(

1,)1,1(1,1

,...,)1,1(2,)1,1(

1

Page 27: Varianciaanalízis

Kétszeres osztályozás (interakció nélkül)

A modellünk, ha a két nominális változó között kölcsönhatást (interakciót) nem tételezünk fel az, hogy a függő változónak a cellákra leszűkített részmintái várható értékeinek az egyik nominális változó által magyarázható részei azonosak. Vagyis a (j,k) cella elméleti várhatóértéke alakú, ahol az első tag az első faktor j szintjéből, a második tag pedig a második faktor k szintjéből eredő tag.

j k ja kg,

0 1 2H a a La: ...

A nullhipotézisünk az, hogy az első faktor szintjeihez ugyanakkorahatás tartozik.

Page 28: Varianciaanalízis

Kétszeres osztályozás (interakció nélkül)

ixin l

i jxl

i jn

j

K

1

11( , )

,

jx

jn li jx

l

i jn

i

L1

11( , )

,

xn l

i jxl

i jn

j

K

i

L

1

111( , )

,

az első faktor i szintjéhez tartozó átlag

az második faktor j szintjéhez tartozó átlag

a teljes mintaátlag

Az átlagok mintaelemszáma: in i jnj

Kjn i jn

i

Ln i jn

j

K

i

L

, , , , , ,

1 1 11

Page 29: Varianciaanalízis

Kétszeres osztályozás (interakció nélkül)

Q li jx x

l

i jn

j

K

i

L

2

111( , )

,a teljes négyzetösszeg

QA

L xii

Lx

( )1

2 az első faktor magyarázta négyzetösszeg

QB

K xjj

Kx

( )1

2 a második faktor magyarázta négyzetösszeg

bQ x i j xi

ni j

j

K

i

Lx

jx

( ( , )

,) 111

2

a véletlen ingadozásokat mérő négyzetösszeg

Page 30: Varianciaanalízis

Kétszeres osztályozás (interakció nélkül)

Megmutatható, hogy: Q AQ BQ bQ

Ha a nullhipotézis igaz, akkor sA

QA

L2

1

( )sb

Qb

L K2

1 1

( ) ( )

jelölésekkelsA

sb

2

2

F-eloszlást fog követni (L-1, (L-1)(K-1) ) szabadságfokokkal.

Tehát, ha a próbastatisztika értéke szignifikáns, a nullhipotézist elfogadjuk, azaz az első faktornak nincsen hatása a célváltozóra.

Page 31: Varianciaanalízis

Kétszeres osztályozás (interakció nélkül)

Az eljárás alkalmas a 1 2g g Kg ... nullhipotézis ellenőrzésére is,

de akkor a próbastatisztika számlálójába az sB

QB

K2

1

kifejezés kerül.

Ha az eredeti nullhipotézist elvetjük, akkor az első faktor szintjei okozta különbségekre, azaz az ai-aj eltérésekre konfidencia intervallum szerkeszthető.

Page 32: Varianciaanalízis

Kétszeres osztályozás interakcióval

Ha a két nominális faktor között interakciót tételezünk fel, akkor az (i,j) cella elméleti várhatóértékének a felbontása az alábbiakban módosul: A ci,j tag éppen azt fejezi ki, hogy az (i,j) párosításnál a hatások egymást erősítik, vagy gyengítik. A módszer alkalmas egyidejűleg három hipotézis ellenőrzésére:

i j ia jg i jc, ,

1 1 2H a a La: ...

2 1 2H g g Kg: ...

1 2 0, : , ( , )H i jc i j re

Page 33: Varianciaanalízis

Kétszeres osztályozás interakcióval

A hipotézisek eldöntéséhez a következő statisztikákra van szükség:

x

n li jx

l

i jn

j

K

i

L1

111( , )

,a teljes minta átlaga

xi

in li jx

l

i jn

j

Ki L

1

111( . )

,, ... , az első faktor i szintjeinél az átlagok

jx

jn li jx

l

i jn

i

L1

11( . )

,a második faktor j szintjénél az átlagok

Page 34: Varianciaanalízis

Kétszeres osztályozás interakcióval

ijxijn l

i jxl

i jni L és j K

1

11 2 1 2( , )

,( , , ... , , , ... , ) az (i,j) cellaátlag

Q li jx x

l

i jn

j

K

i

L

2

111( , )

,a teljes négyzetösszeg

NK L i jn

j

K

i

L

1

11, az átlagos cella-elemszám

Page 35: Varianciaanalízis

Kétszeres osztályozás interakcióval

QA

N L xi

xi

L

( )1

2 az első faktor magyarázta négyzetösszeg

QB

K N xjj

Kx

( )1

2a második faktor magyarázta négyzetösszeg

QA B

N xij

xi

xjj

K

i

Lx

,( )

11

2

az interakcióval magyarázott négyzetösszeg

Qb

xi ji jn

j

K

i

Lx

ij

( ,

,) 111

2

a csoportokon belüli ingadozásokat mérő véletlen hibatag

Page 36: Varianciaanalízis

Kétszeres osztályozás interakcióval

Először a H1,2 hipotézist vizsgáljuk. Ha ez fennáll, a

QA B

L K

Qb

K L N,

( ) ( )

( )

1 1

1

statisztikának F-eloszlást kell követnie. Ha ez a hányados szignifikánsan nagyobb mint a kritikus érték, az interakciót tényként könyvelhetjük el. Ilyenkor lehetőség van arra, hogy a ci,j tagokra konfidencia intervallumokat szerkeszthessünk.

Page 37: Varianciaanalízis

Ha H1,2-t elfogadjuk, vagyis interakció sehol nincsen, akkor QA,B-ét hozzáadjuk a Qb hibataghoz, létrehozva a Qb*=QA,B+Qb hibatagot. Ilyenkor a H2 hipotézist a

QB

KQ

bK L N L K

1

1*

statisztikával ellenőrizzük.

Kétszeres osztályozás interakcióval

Page 38: Varianciaanalízis

Kétszeres osztályozás interakcióval

A H1 hipotézist a

QA

LQ

bK L N L K

1

1*

próbastatisztikával az előzőekhez hasonlóan végezhetjük.

Page 39: Varianciaanalízis

A latin négyzetek módszereA latin négyzetek módszere háromfaktoros, nem teljes kísérleti elrendezéses modell. Tegyük fel, hogy a célváltozónkkal három kategóriaváltozó van kapcsolatban, mindegyik r>1 szinttel. Ha véletlen blokkok módszerét követnénk, akkor minden szintkombinációhoz legalább egy megfigyelést kellene tennünk, azaz legalább r3 mérést kellene végeznünk. A latin négyzetek módszerével viszont már r2 adattal is tudunk dönteni.

Pl. Tegyük fel, hogy a búza terméshozamát mérjük 5 különböző műtrágya adagolás mellett. A terméshozamra azonban a talaj minősége és az öntözött csapadékmennyiség is hatással van. A három faktor tehát a műtrágya-adagolás, a talajminőség és a öntözés mennyisége. Mindhárom faktorhoz 5 szintet kell kialakítani, ha a latin négyzetek módszerét alkalmazzuk. Kérdés: a műtrágya adagolás van-e hatással a terméshozamra?

Page 40: Varianciaanalízis

A latin négyzetek módszere

Definíció: Az olyan rxr-es mátrixokat, melynek minden sora és oszlopa az 1, 2, …, r számok egy permutációja, latin négyzetnek nevezünk.

Két különböző 5x5-ös latin négyzet:

Page 41: Varianciaanalízis

A latin négyzetek módszere

Tekintsünk egy H=(hij) rxr-es latin négyzetet! A három faktor minden i, j=1, 2, …, r (i, j, hij) szintbeállítása mellett figyeljük meg a célváltozó értékét! Jelöljük ezeket Xijh-val! Feltesszük, hogy a Xijh változó teljesen független normális eloszlásúak és EXijh=fh+bi+cj, Xijh=. A célváltozó várható értékére mindhárom faktor additív taggal van hatással.

Arról a nullhipotézisről szeretnénk dönteni, hogy a harmadik faktor szintjei nincsenek hatással a célváltozóra, azaz

H0: f1=f2=…=fr

Page 42: Varianciaanalízis

A latin négyzetek módszere

r

jijhi X

rX

1

1az első faktor i szintjének átlaga

r

iijhj X

rX

1

1 a második faktor j szintjének átlaga

hjih

r

i

r

jijhh X

rX

),(1 1

1a harmadik faktor h szintjének átlaga

r

i

r

jijhX

rX

1 12

1 a teljes mintaátlag

Page 43: Varianciaanalízis

A latin négyzetek módszere

a teljes négyzetösszeg 2

1 1

r

i

r

jijh XXQ

2

11

r

ii XXrQ az első faktor magyarázta négyzetösszeg

2

12

r

jj XXrQ a második faktor magyarázta négyzetösszeg

2

13

r

hh XXrQ a harmadik faktor magyarázta négyzetösszeg

2

1 14 2

r

i

r

jhjiijh XXXXXQ

a véletlen ingadozásokat kifejező négyzetösszeg

Page 44: Varianciaanalízis

A latin négyzetek módszere

Megmutatható, hogy Q=Q1+Q2+Q3+Q4.

Q szabadságfoka r2-1Q1, Q2, Q3 szabadságfoka egyaránt r-1Q4 szabadságfoka (r-1)(r-2)

Mivel r2-1=3(r-1)+(r-1)(r-2) és a Q3-ban a lineáris kifejezések várható értékei 0-ák, ha a nullhipotézis igaz, így alkalmazható a Fisher-Cohran tétel.

Page 45: Varianciaanalízis

A latin négyzetek módszere

Tehát, ha igaz a nullhipotézis,

2

21

1

4

3

24

23

rQ

Q

rr

Qr

Q

T

Eloszlása (r-1) és (r-1)(r-2) szabadságfokú F-eloszlást követ.

Ha elvetjük a nullhipotézist, az fi-fj különbségekre konfidencia-intervallum szerkeszthető a t(r-1)(r-2) eloszlás segítségével.

Page 46: Varianciaanalízis

A szórásanalízis elméleti háttere

Definíció: Ha X n szabadságfokú Chi-négyzet eloszlású, akkor a•X „a>0” paraméterű és n szabadságfokú Chi-négyzet-eloszlás lesz.

Definíció: Legyenek X1, X2, …Xn teljesen független 0 várhatóértékű és a varianciájú normális eloszlású változók. Legyenek továbbá Li=i1•X1+i2•X2+…+ in•Xn (i=1,…,m)lineáris kifejezések. Azt mondjuk, hogy az L1, L2, …, Lm rendszer szabadságfoka m-r, ha pontosan r db olyan ij együtthatórendszer létezik, hogy i1 •L1+ i2 •L2+…+ im •Lm=0 és i1

2+ i12+…+ i1

2=1 (i=1,…, r).

Definíció: A Q=L12+L2

2+…+Lm2 négyzetösszeg szabadságfoka az

L1, L2, …, Lm rendszer szabadságfokával egyezik meg.

Page 47: Varianciaanalízis

Fisher-Cohran tételek

Tétel (Addíciós tétel): Ha Q1, Q2, …, Qk teljesen független rendre n1, n2, …, nk szabadságfokú a>0 paraméterű Chi-négyzet eloszlásúváltozók, akkor a Q= Q1+ Q2+ …+ Qk szintén Chi négyzet eloszlású lesz n= n1+ n2+ …+nk szabadságfokkal és a>0 paraméterrel.

Tétel (Partíciós tétel): Legyenek X1, X2, …Xn teljesen független 0 várhatóértékű és a varianciájú normális eloszlású változók, Qj=XTAjX (j=1,2,…, k) kvadratikus alakok, ahol rank(Ai)=ni.Tegyük fel, hogy n= n1+ n2+ …+nk és Q1+ Q2+ …+ Qk = X1

2+X22+ …+Xn

2 . Akkor a Q1, Q2, …, Qk kifejezések rendre n1, n2, …, nk szabadságfokú a>0 paraméterű teljesen független Chi-négyzet eloszlású változók