36

Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

Eötvös Loránd TudományegyetemTermészettudományi Kar

Szórás- és kovarianciaanalízisalkalmazása szociológiai adatokra

Szakdolgozat

Kelemen KingaMatematika BSc

Matematikai elemz® szakirány

Témavezet®:

Dr. Zempléni András

Valószín¶ségelméleti és Statisztika Tanszék

Budapest

2016

Page 2: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

Tartalomjegyzék

1. Köszönetnyilvánítás 3

2. Bevezetés 4

3. Az ANOVA modell történeti háttere 5

4. Az ANOVA modell elméleti háttere 64.1. Változók típusai . . . . . . . . . . . . . . . . . . . . . . . . . 64.2. Alapfogalmak . . . . . . . . . . . . . . . . . . . . . . . . . . 74.3. Az ANOVA feltételeinek ellen®rzése . . . . . . . . . . . . . . 84.4. A modell felépítése . . . . . . . . . . . . . . . . . . . . . . . 10

4.4.1. Egyszempontos szórásanalízis . . . . . . . . . . . . . 104.4.2. Kétszempontos szórásanalízis interakcióval és anélkül 134.4.3. Többszempontos szórásanalízis . . . . . . . . . . . . 164.4.4. Kovarianciaanalízis (ANCOVA) . . . . . . . . . . . . 17

5. Adatok és elemzés 195.1. Az adatok ismertetése és el®készítése . . . . . . . . . . . . . 195.2. Egyszempontos szórásanalízis alkalmazása . . . . . . . . . . 235.3. Kétszempontos szórásanalízis és szimulációs vizsgálatok . . . 245.4. Háromszempontos szórásanalízis alkalmazása . . . . . . . . . 295.5. Kovarianciaanalízis bemutatása a vizsgált adatokon . . . . . 295.6. Eredmények összesítése . . . . . . . . . . . . . . . . . . . . . 31

6. Összegzés 34

7. Irodalomjegyzék 35

Page 3: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

1 KÖSZÖNETNYILVÁNÍTÁS 3

1. Köszönetnyilvánítás

Ezúton szeretnék köszönetet mondani témavezet®nek, Zempléni András-nak, hogy segítségével, hasznos tanácsaival és útmutatásával hozzájárulta szakdolgozatom elkészüléséhez. Külön köszönöm a konzultációkat, aholmindig türelemmel fordult felém.Ugyancsak köszönöm a TÁRKI-nak, hogy rendelkezésünkre bocsátotta aHáztartás Monitor vizsgálat adatait.Hálás köszönettel tartozom a szüleimnek az egyetemi éveim alatt nyújtottkitartó támogatásukért.

Page 4: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

2 BEVEZETÉS 4

2. Bevezetés

Szakdolgozatom témája a szórás- és kovarianciaanalízis alkalmazása szocio-lógiai adatokra. A témaválasztás során els®dleges célom volt, hogy a mate-matika szerteágazó témakörei közül olyan témában mélyedjek el, amelyetmás tudományok is alkalmaznak. A TÁRKI Háztartás Monitor adathalma-zai lényegében a társadalom mindennapjairól szólnak. Ezeket az adathal-mazokat egy- és többszempontos szórásanalízissel és kovarianciaanalízisselvizsgálom a szakdolgozatomban.A két mintás t-próbák általánosításának tekinthet® szórásanalízis, több,egyez® szórású, normális eloszlású csoport átlagának összevetésére alkal-mas statisztikai eljárás [1]. A szórásanalízisnek, mint statisztikai módszer-nek többféle elnevezése is van a szakirodalomban. Szóráselemzésként, vari-anciaanalízisként, varianciaelemzésként is nevezik, illetve több helyen csakANOVA-ként hivatkoznak rá. Az ANOVA elnevezés az angol ANalysis OfVAriance kezd®bet¶ib®l keletkezett rövidítés. Az els® részben ismertetema modell történeti hátterét, majd a következ® fejezetben rendszerezem aváltozók különböz® típusait, amely lényeges szempont az ANOVA alkalma-zásánál. Ezután az alapfogalmak de�niálása következik, majd rátérek azANOVA feltételeire és azok ellen®rzésének módszereire. Ezt követ®en be-mutatom az egy- és többszempontos szórásanalízis és kovarianciaanalízismatematikai, elméleti hátterét. Legvégül az ismertetett módszereket alkal-mazom társadalomtudományi adatokra. Els® lépésben azt nézem, hogy avizsgált személyek neme hatással van-e a jövedelmükre. Ezt követ®en újabbváltozókat vonok be a vizsgálatba, az iskolai végzettséget és az életkort.Ezek külön-külön és együttes hatásait vizsgálom a függ® változóra, a jöve-delemre. Befejezésként a vizsgált id®szak adatainak jövedelem és in�ációsváltozását szemléltetem.

Page 5: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

3 AZ ANOVA MODELL TÖRTÉNETI HÁTTERE 5

3. Az ANOVA modell történeti háttere

El®ször ismertetem az ANOVA módszer kialakulásának történetét, felhasz-nálva f®leg a [2], [4] és [5] forrásokat.A varianciaanalízis a 20. században alakult ki, habár az el®élete korábbiszázadokig nyúlik vissza. Ezalatt értend® a hipotézis vizsgálatok, a négyzet-összegek elkülönítése, egyéb kísérleti technikák és az additív modell(AM).Az els® statisztikai hipotézisvizsgálat idejét nehéz pontosan meghatározni,de az id®számításunk el®tti ®si Kroában történt népszámlálás alapján úgygondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási adat birtokában John Arbuthnot, angol matematikusrámutatott arra, hogy el kell vetni ezt a hipotézist, ez keltette fel Laplaceérdekl®dését is [3]. A legkisebb négyzetek elve fejl®dése Gauss és Laplacenevéhez köthet®, ennek segítségével fejl®dött ki egy olyan módszer, amia meg�gyelések vizsgálatát segítette. Gyakorlati alkalmazásai megjelenneka geodéziában és az asztronómiában is. Így több tanulmány született anégyzetösszegekr®l. Laplace hamar rájött hogyan tudja megbecsülni a szó-rást a reziduális (inkább mint a totális) négyzetösszegekb®l. 1827-ben Lap-lace a legkisebb négyzetek módszerét használva feladatként azonosította azANOVA problémát atmoszferikus árapály mérésekre vonatkozóan.Az ANOVA alkotója egy brit statisztikus, Sir Ronald Aylmer Fisher, akiegy angliai mez®gazdasági kísérleti állomáson dolgozott. Fisher ismerte felel®ször, hogy a nullhipotézis, a H0 úgy is vizsgálható több csoporton együttvégzett kísérletben, hogy egymástól függetlenül kiszámítjuk a minta vari-anciájának becslését kétféleképpen. Az egyik módszer, amikor a csoportonbelüli szóródásból, a másik módszer, amikor a csoportok közötti szóródás-ból végzünk becslést. H0 érvényessége esetén a két módszerrel számítottbecslés ugyanannak a mennyiségnek a becslése. Amennyiben a H0-t elvet-jük és az els®fajú hiba valószín¶sége kicsi, akkor a csoportok között nagyvalószín¶séggel van különbség.A varianciaanalízis akkor vált széles körben ismertté, amikor megjelent1925-ben Fisher könyve a Statistical Methods for Research Workers cím-mel. A varianciaanalízis kifejezést is ® alkotta meg. Az ANOVA használjaa Fisher féle F eloszlást a statisztikai szigni�kancia teszt részeként. Fisherhíres írásai közé soroljuk a "On the mathematical foundations of theoreticalstatistics" cikkét, amely megjelent 1922-ben a Philosophical Transactionsof the Royal Society tudományos folyóiratban, illetve az 1925-ben megje-lent "Applications of Student's distribution" cím¶ írása is mérföldk®nekszámít a módszer történetében.

Page 6: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

4 AZ ANOVA MODELL ELMÉLETI HÁTTERE 6

4. Az ANOVA modell elméleti háttere

4.1. Változók típusai

A matematikában a változókat 4 féle csoportba oszthatjuk a mérési szint-jükt®l függ®en. Ebben a fejezetben f®leg a [6], [7] és [8] forrásokat használ-tam fel.Ez a 4 mérési szint:Nominális mérési szint: a változót csoportokba osztjuk egy tulajdonságalapján, amelyek között nem tudunk felállítani sorrendiséget. Például nemihovatartozás(fér�/n®), ebben az esetben a nem a változó. Nominális mérésiszint¶ változónál átlag és medián számítást nem lehet vizsgálni, de módusztlehet számolni.Ordinális mérési szint: a változók kategorizálása mellett sorrendiségettudunk felállítani a kategóriák között, de az ezek közötti különbséget nemtudjuk számszer¶síteni, azaz két értékpár távolságát nem tudjuk meghatá-rozni. Például településtípus(tanya/falu/község/város/f®város). A nominá-lis mérési szinthez képest itt már a medián számításról van értelme beszélni,de a számtani átlag itt sem értelmezhet®.Intervallumskála: a sorba rendezhet®ség mellett itt már értelmezhet® kétértékpár távolsága, de ezek az értékek az arányosságot nem fejezik ki. Azérus megválasztása megegyezésen alapul, mint Celsius foknál a víz fagyás-pontja. Pl. Celsius fok: a 40◦ nem kétszer melegebb a 20◦-nál. Itt már vanértelme átlagról beszélni.Arányskála: az el®bbi mérési szinthez képest itt már az arányosság isérvényes az értékek között és itt már a nullapont megválasztása nem meg-egyezésen alapul. Például jövedelem, súly, magasság stb.

Nominális Ordinális Intervallumskála ArányskálaMódusz számítás igen igen igen igenMedián számítás nem igen igen igenÁtlag számítás nem nem igen igen

Osztás nem nem nem igen

1. táblázat.

A táblázatban szerepl® "igenek" arra utalnak, hogy az adott mérési szin-ten végrehajthatóak-e az egyes statisztikai számítások, míg a "nemek" aztjelentik, hogy nem hajthatók végre.Alacsony mérési szint¶nek nevezzük a nominális és az ordinális mérésiszint¶ változókat, illetve magas mérési szint¶nek nevezzük az intervallum-skála és az arányskála típusúakat.Az ANOVA modellben a függ® változókat szeretnénk megmagyarázni afüggetlen változók segítségével, azonban a társadalomtudományokban nem

Page 7: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

4 AZ ANOVA MODELL ELMÉLETI HÁTTERE 7

olyan egyértelm¶/egyszer¶ meghatározni a függ®/független változókat, mintpéldául egy �zikai jelenségnél. El®fordulhat, hogy két változó között csak"látszólagos" kapcsolat van és valójában egy harmadik változó bevonásávalmár teljesen más eredményt kapunk [8].A változókat kategorizálhatjuk aszerint is, hogy diszkrét vagy folytonosváltozóról beszélünk.

4.1. De�níció. (Diszkrét valószín¶ségi változó) Értékkészlete legfel-jebb megszámlálhatóan végtelen, azaz {x1, . . . , xn, . . .} elemekb®l áll.

Például a családonkénti gyerekszám diszkrét valószín¶ségi változó [9].

4.2. De�níció. (Folytonos valószín¶ségi változó) Az X valószín¶ségiváltozó folytonos, ha az eloszlásfüggvénye folytonos függvény.

A jövedelem például egy folytonos valószín¶ségi változó [10].A társadalomtudományokban jelent®s szerepe van az elemzési egységnek,azaz hogy a vizsgálat középpontjában mi áll. Állhat az egyén, a család,kisebb közösség, település, régió, ország, kontinens stb. Az elemzési egy-ségnek fontos szerepe van a társadalmi kutatásoknál, ugyanis egy adottközösségre vonatkozó jellemz®kb®l nem vonhatunk le következtetéseket azegyénre (ökológiai tévkövetkeztetés) [8].A változók mérési szintjei a kés®bbiekben fontos szerepet játszanak, mivel avarianciaanalízis alkalmazásakor a magyarázó változók csak alacsony mérésiszint¶ek lehetnek. Azonban magas mérési szint¶ változó diszkretizálás utánmár lehet faktor.

4.2. Alapfogalmak

Ez a fejezet f®leg a [13] és a [15] forrásokon alapszik.Faktor: a kutatásban vizsgált független változók pl. különböz® iskolai vég-zettség¶ek.Faktor szint: A faktor értékkészletének az eleme, amely beállítása mellettvizsgálhatjuk meg a függ® változónkat pl. iskolai végzettség esetében azérettségivel rendelkez®k.Diszkretizálás: Folytonos változó esetében alkalmazható, amikor a foly-tonos tartományt intervallumokra bontjuk.Homoszkedasztikusság, másnéven homogenitás: A csoportokon be-lül a függ® változó szórása azonos, szigni�káns különbség nincs közöttük.Bootstrap statisztikai eljárás:Újramintavételezési eljárás, becslések szó-rásának a vizsgálatára is alkalmazható.Egyszempontos varianciaanalízis: Varianciaanalízis, ahol csak egy fak-tor van.Többszempontos varianciaanalízis: Varianciaanalízis, ahol kett® vagytöbb faktor van.

Page 8: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

4 AZ ANOVA MODELL ELMÉLETI HÁTTERE 8

Interakció: Többszempontos varianciaanalízis esetében az interakció aztjelenti, hogy a tényez®k között van kölcsönhatás, tehát a szempontok hatásanem független.ANCOVA, azaz a kovarianciaanalízis: olyan elemzéseket nevezzünk így,ahol még kovariánsokat(folytonos magyarázó változó) is bevonunk a vizs-gálatba.Egyszempontos szórásanalízis esetében a minta:1.csoport N(µ1, σ

2)X1,1X2,1 . . . Xn1,1

2.csoport N(µ2, σ2)X1,2X2,2 . . . Xn2,2

3.csoport N(µ3, σ2)X1,3X2,3 . . . Xn3,3

. . .k.csoport N(µk, σ

2)X1,kX2,k . . . Xnk,k

Ahol a csoportok normális eloszlásúak, a µi (i = 1, . . . k) a csoportok vár-ható értékét, a σ2 pedig a szórásnégyzetet jelöli.

4.3. Az ANOVA feltételeinek ellen®rzése

Az osztályokba tartozó meg�gyeléseket függetlennek, közös szórásúnak ésnormális eloszlásúnak feltételezzük, a várható érték az lehet különböz®.Ezek a feltételek mind kellenek az F-próbák használatához. Ezeket a [15]és [16] források alapján közelítem meg.A normalitás ellen®rzése történhet gra�kusan vagy numerikusan:Normalitás vizsgálatra többféle statisztikai teszt létezik. A numerikus tesz-tekhez soroljuk a Kolmogorov-Szmirnov tesztet, Cramér-von Mises-tesztet,Anderson-Darling-próbát és Shapiro-Wilk tesztet is. A leggyakrabban hasz-nált teszt eloszlásvizsgálatokra a Kolmogorov-Szmirnov teszt. A teszt el®-nye, hogy eloszlásfüggetlen, a hátránya viszont, hogy kicsi az ereje.A normalitást szokás gra�kusan is megjeleníteni, tesztelni. Érdemes hisz-togramon ábrázolni az adott változót, így a hisztogram alakjáról lehet kö-vetkeztetéseket levonni. Az osztópontok s¶rítésével a hisztogram nem leszannyira durva, míg az osztópontok ritkításával nem lesz a hisztogrambaolyan sok ugrás. Gra�kus vizsgálatoknál elterjedt módszer a Q-Q (kvantilis-kvantilis) ábra készítése. A Q-Q ábra készítésénél el®ször az alapadatokstandardizálása történik, majd ezek alapján elkészül az empirikus eloszlás-függvény. Végül az eloszlásfüggvény értékeit a normális eloszlásfüggvényszerint kell transzformálni. Amennyiben a vizsgált változó normális vagyközelít®leg normális (valós adatoknál jellemz®bb eset), akkor a pontok azorigón átmen® 45 fokos egyenes körül szóródnak. Ez a fajta tesztelés nemannyira szigorú, mint a numerikus tesztek, mivel a döntésmeghozatal vizu-álisan történik [22].Szórás azonosság ellen®rzését Levene-teszttel lehet megvizsgálni. Az alkal-mazás során a beépített függvényét fogom használni az R-ben. Amennyiben

Page 9: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

4 AZ ANOVA MODELL ELMÉLETI HÁTTERE 9

a Levene-teszt szigni�káns, szimulációkkal fogom vizsgálni a szórásanalízisegyütthatóit, illetve p-értékeit.Az ANOVA hipotézisvizsgálatnál kulcsfontosságú statisztikák függetlensé-gét a Fisher-Cochran tétel biztosítja, a tétel kimondása és bizonyítása el®ttazonban ismertettek pár de�níciót és tételt a [19] alapján.

4.3. De�níció. (Kvadratikus alak) A kvadratikus alak egy homogén má-sodfokú polinom.

Q = Q(x1, . . . , xn) = Q(x) =n∑i=1

n∑j=1

mijxixj, ahol mij ∈ R

A kvadratikus alak mátrixos felírása:

Q = xTMx, ahol M = (mij) (i = 1, . . . , n, j = 1, . . . , n)

A kés®bbiekben M egy n× n-es szimmetrikus mátrix. A kvadratikus alakrangja az M mátrix rangja.

4.4. De�níció. Legyenek X1, X2,. . ., Xn független, standard normális el-oszlású valószín¶ségi változók. Xj ∼ N(µj, 1), j = 1, . . . , n. Ekkor az

Yn = X21 +X2

2 + . . .+X2n

valószín¶ségi változó n szabadságfokú χ2-eloszlású.

4.5. Tétel. Legyenek Xn és Xm független χ2 eloszlású valószín¶ségi válto-zók n, illetve m szabadsági fokkal. A két valószín¶ségi változó összege is χ2

eloszlású, a szabadsági fokok pedig összeadódnak, vagyis n+m.

Bizonyítás. Legyenek X1, X2,. . .,Xn+m független, standard normális el-oszlásúak: Xj ∼ N(µj, 1), ahol j = 1, . . . , n

Yn = X21 +X2

2 + . . .+X2n Ym = X2

n+1 +X2n+2 + . . .+X2

n+m

Yn + Ym = X21 +X2

2 + . . .+X2n+m

n+m szabadsági fokú χ2 eloszlású. �

4.6. Tétel. Legyenek Qj-k (j = 1, . . . , k) az xi-k (i = 1, . . . , n) változókkvadratikus formái. Tegyük fel, hogy rang(Qj) = nj és

Q1 +Q2 + . . .+Qk =n∑i=1

x2i

Ha n1 + n2 + . . . + nk = n akkor és csak akkor ∃ olyan M ortogonálismátrix, amelyre igaz az, hogy b = Mx, ahol b = (b1, b2, . . . , bn)

T , x =(x1, x2, . . . , xn)

T és

Q1 = b21 + . . .+ b2n1, Q2 = b2n1+1 + . . .+ b2n1+n2

, . . .

Qk = b2n1+...+nk−1+1 + . . .+ b2n1+...+nk

tejesül.

Page 10: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

4 AZ ANOVA MODELL ELMÉLETI HÁTTERE 10

4.7. Tétel. (Fisher-Cochran) Legyen adva X = (X1, X2, ..., Xn)T vélet-

len vektor, ahol Xi (i = 1, . . . , n) független, standard normális eloszlású va-lószín¶ségi változók, és de�niáljuk a segítségükkel a Q = X

TInX = X

TX =∑n

i=1X2i és a Qj = X

TMjX(j = 1, .., k) kvadratikus alakokat, ahol Mj

szimmetrikus n × n-es mátrixok (j = 1, ..., k ≤ n). Tegyük fel, hogy érvé-nyes

Q = Q1 +Q2 + ...+Qk

azonosság. Legyen Qj rangja: rang(Mj)= nj. A Qj (1 ≤ j ≤ k) kifejezésekfüggetlen, χ2- eloszlásúak nj (1 ≤ j ≤ k) szabadságfokkal, pontosan akkor,ha

k∑j=1

nj = n

teljesül.

Bizonyítás.⇒Legyenek a Qj-k függetlenek és az eloszlásuk χ2

nj, (j = 1, . . . , k). A 4.5

tételb®l tudjuk, hogy a Q1 + . . . + Qk eloszlása χ2n1+...+nk

. Azonban azt istudjuk, hogy Q1 + Q2 + . . . + Qk = X2

1 +X22 + . . . +X2

n, amelynek a 4.4.de�níció szerint az eloszlása χ2

n. Tehát n1 + n2 + . . .+ nk = n.⇐Legyen n1 + n2 + . . . + nk = n. A 4.6 tétel alapján ∃ olyan M ortogonálismátrix, hogy az Y =MX-re, ahol Y = (Y1, Y2, . . . , Yn)

T

Q1 = Y 21 + Y 2

2 + . . .+ Y 2n1

Q2 = Y 2n1+1 + . . .+ Y 2

n1+n2, . . .

Qk = Y 2n1+...+nk−1+1 + . . .+ Y 2

n1+...+nk.

Viszont X ∼ Nn(0, I), ezért Y = MX ∼ Nn(M ∗ 0,MMT ) = Nn(0, I),mivel M ortogonális mátrix.Tehát azY koordinátáiN(0, 1) eloszlásúak és függetlenek. AQ1, Q2, . . . , Qk

pedig nj darab ilyenek négyzetösszege, vagyis χ2njeloszlású. AQ1, Q2, . . . , Qk

függetlenek, mivel különböz® Qj-k el®állításában azonos nj-k nem vesznekrészt. �

4.4. A modell felépítése

4.4.1. Egyszempontos szórásanalízis

Döntésmeghozatal el®tt feltételezéseket fogalmazzunk meg és ezek igaz/hamisvoltára vagyunk kíváncsiak. Ilyenkor segítenek a statisztikai hipotézisvizs-gálatok, amelyek a minta alapján kiszámolhatóak egy megadott szigni�kan-cia szint mellett. A szigni�kanciaszintet (jelölése:α) a modell vizsgálatánálel®re meg kell határozni. Általában α = 0, 05-nek szokás megválasztani.

Page 11: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

4 AZ ANOVA MODELL ELMÉLETI HÁTTERE 11

A modell felépítése során a [11], [13], [12], [14], [15] és a [16] forrásokathasználom.Az ANOVA modellben azt vizsgáljuk meg, hogy egy faktornak, körülmény-nek van-e hatása a kimeneti változó várható értékére. A faktor különböz®szintekre való beállítása után méréseket végzünk. Majd kimondjuk a null-hipotézist.Egy(kés®bbiekben több) szempont alapján k csoportba osztjuk az adatokat.A csoportok létrehozatalánál fontos, hogy a faktor, tehát a szempont, amelyalapján csoportokat csinálunk, az alacsony mérési szint¶ változó legyen.Folytonos változót csak diszkretizálás után tehetünk faktorrá. A csoportokmintaelemszáma nem feltétlenül egyezik meg, ezt jelölje ni, ahol az i az i.csoportra utal, az teljes minta elemszáma pedig legyen n =

∑ki=1 ni. Az i.

csoportban az Xi ∼ N(µi, σ2) valószín¶ségi változóra vett mintaelemeket

Xij ∼ N(µi, σ2) (j = 1, . . . , ni)

jelöli. A várható értékekre vezessünk be egy célszer¶ felbontást:

µi = m+ ai

ahol az ai az i. csoport hatása, az m pedig a várható értékek súlyozottátlaga, vagyis m = 1

n

∑ki=1 niµi.

Az egyszempontos modell egyenlete:

Xij = m+ ai + εij (j = 1, . . . , ni, i = 1, . . . , k)

ahol az εij a véletlen hatást/hibát jelöli. A szóráselemzés egy lineáris mo-dell, így

Y = Ba+ 1m+ ~ε

aholY := (X11, . . . , X1n1 , X21, . . . , X2n2 , Xk1, . . . , Xknk)T , a := (a1, . . . , ak)

T

~ε := (ε11, . . . , ε1n1 , ε21, . . . , ε2n2 , εk1, . . . , εknk)T , 1 ∈ Rn vektor és B pedig

egy 0-1-esekb®l álló ún. struktúramátrix. Az egyszempontos varianciaanalí-zis esetében a mátrix oszlopainak a száma megegyezik a csoportok k számá-val. A sorok pedig az ni-ket jelöli. A következ® struktúramátrixban k = 3,n1 = 2, n2 = 3 és n3 = 4.

B =

1 0 01 0 00 1 00 1 00 1 00 0 10 0 10 0 10 0 1

Page 12: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

4 AZ ANOVA MODELL ELMÉLETI HÁTTERE 12

A legkisebb négyzetek módszerét használva keressük a minimumát a

k∑i=1

ni∑j=1

ε2ij =k∑i=1

ni∑j=1

(Xij −m− ai)2

kifejezésnek. Legyen a csoportátlag X i. =1ni

∑ni

j=1Xij, ahol i = 1, . . . , k,

illetve legyen a teljes mintaátlag X .. =1n

∑ki=1

∑ni

j=1Xij. Tehát a korábbanhasznált paraméterek becslései m = X .. és ai = X i.−X.., ahol i = 1, . . . , k.Visszahelyettesítve a legkisebb négyzetes módszernél felírt egyenletbe:

SScsb =k∑i=1

ni∑j=1

(Xij − m− ai)2 =k∑i=1

ni∑j=1

(Xij −X i.)2

A mintaelemek teljes mintaátlagtól vett eltéréseinek négyzetösszege (jelö-lése: SS) felbontható a csoporton belüli (jelölése: SScsb) és a csoportokközötti (jelölése:SScsk) részre:

SS =k∑i=1

ni∑j=1

(Xij −X ..)2 =

k∑i=1

ni∑j=1

[(Xij −X i.) + (X i. −X ..)]2 =

=k∑i=1

ni∑j=1

(Xij −X i.)2 + 2

k∑i=1

ni∑j=1

(Xij −X i.)(X i. −X ..) +k∑i=1

ni∑j=1

(X i. −X ..)2 =

=k∑i=1

ni∑j=1

(Xij −X i.)2 +

k∑i=1

ni(X i. −X ..)2 = SScsb + SScsk

H0:(nullhipotézis)a várható értékek egyenl®ek, azaz a faktornak nincs ha-tása µ1 = µ2 = . . . = µkH1:(ellenhipotézis)a várható értékek nem egyenl®ek, van legalább 2 olyanvárható érték, amely nem egyenl® ∃ i, j : µi 6= µj

Nullhipotézis igaz Nullhipotézis hamisElfogadjuk a nullhipotézist Helyes döntés Másodfajú hibaElutasítjuk a nullhipotézist Els®fajú hiba Helyes döntés

2. táblázat.

A szabadsági fokok:A teljes szórásnégyzet szabadságfoka(jelölése: df): n− 1A csoporton belüli szórásnégyzet szabadságfoka: n− kA csoportok közötti szórásnégyzet szabadságfoka: k − 1

Page 13: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

4 AZ ANOVA MODELL ELMÉLETI HÁTTERE 13

F-próbával ellen®rizzük a szórások egyezését.

F =SScsk(n− k)SScsb(k − 1)

F > Fn−k,k−1,α-ra elutasítjuk a próbát. Amint azt a Fisher-Cochran tétel-nél láttuk, H0 érvényessége esetén két független, χ2 eloszlásból kapjuk aképletet, tehát valóban F eloszlású. A végeredményt táblázatban szokásösszefoglalni. Egyszempontos ANOVA-tábla:

Forrás SS df MS F p-érték

Hatás(csk) SScsk k − 1 s2csk =SScsk

k−1

s2csks2csb

P(F >

s2csks2csb

)Hiba(csb) SScsb n− k s2csb =

SScsb

n−k

3. táblázat.

Az R2 együttható:

R2 =SScskSS

Az R2 együttható írja le, hogy mekkora a megmagyarázott szórásnégyzetrészaránya.

4.4.2. Kétszempontos szórásanalízis interakcióval és anélkül

A kétszempontos varianciaanalízis vizsgálatánál két különböz® szempontalapján vizsgálódunk. Az egyik szempont szerint legyen k, a másik szem-pont szerint pedig p lehetséges érték. Az egyszempontos esethez képest alineáris modellben megjelenik egy újabb tag:

Xij = m+ ai + bj + εij (i = 1, . . . , k; j = 1, . . . , p)

Az ai-k jelölik az egyik, míg a bj-k a másik szempont egymástól függetlenhatását. A többi jelölést az egyszempontos esetben már de�niáltam. A Bstruktúramátrix segítségével az el®bbi lineáris modell:

Y = B~ab+ 1m+ ~ε

aholY := (X11, . . . , X1p, X21, . . . , X2p, Xk1, . . . , Xkp)T , ~ab := (a1, . . . , ak, b1, . . . , bp)

T

~ε := (ε11, . . . , ε1p, ε21, . . . , ε2p, εk1, . . . , εkp)T , 1 ∈ Rn vektor. A B struktúra-

mátrix kétszempontos varianciaanalízis esetén kölcsönhatás nélkül:

Page 14: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

4 AZ ANOVA MODELL ELMÉLETI HÁTTERE 14

B =

1 0 0 1 0 01 0 0 0 1 01 0 0 0 0 10 1 0 1 0 00 1 0 0 1 00 1 0 0 0 10 0 1 1 0 00 0 1 0 1 00 0 1 0 0 1

A fenti struktúramátrix esetében k = 3 és p = 3. Az els® 3 oszlop a k-tjelöli, az utolsó három oszlop pedig a p-t jelöli. Az egyszempontos esethezhasonlóan itt is a legkisebb négyzetek módszerével becsüljük a paraméte-reket:

k∑i=1

p∑j=1

ε2ij =k∑i=1

p∑j=1

(Xij −m− ai − bj)2

A fenti kifejezésnek a minimumát szeretnénk meghatározni. Legyen az egyikszempont szerinti csoportátlag X i. =

1p

∑pj=1Xij, ahol i = 1, . . . , k, a másik

szempont szerinti csoportátlag X .j =1k

∑ki=1Xij, ahol j = 1, . . . , p, illetve

legyen a teljes mintaátlag X .. =1n

∑ki=1

∑pj=1Xij. A paraméterek legkisebb

négyzetes becslései:

m = X ..

ai = X i. −X .., ahol i = 1, . . . , k

bj = X .j −X .., ahol j = 1, . . . , p

Az el®bb meghatározott paraméterek alapján a kifejezés minimuma:

SScsb =k∑i=1

p∑j=1

(Xij − m− ai − bj)2

Kétszempontos esetben is a mintaelemek teljes mintaátlagtól vett eltéré-seinek a négyzetösszege felbontható csoportok közötti (SSa, illetve SSb akétféle szempont szerinti csoportosításban) és a csoportokon belüli (SScsk)reziduális részre.

SS = SSa + SSb + SScsb

Ebben az esetben kétféle nullhipotézist fogalmazhatunk meg [18]:H

(1)0 : µ

(1)1 = µ

(1)2 = . . . = µ

(1)k = 0, vagyis az els® szempont szerinti

k csoport a függ® változó átlagára nézve mind azonos, tehát az átlagokközött nincs különbség.A másik nullhipotézis a másik szempontra vonatkozik:

Page 15: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

4 AZ ANOVA MODELL ELMÉLETI HÁTTERE 15

H(2)0 : µ

(2)1 = µ

(2)2 = . . . = µ

(2)p = 0, vagyis a második szempont szerinti

p csoport a függ® változó átlagára nézve mind azonos, az átlagok közöttnincs különbség.Az eredményeket a kétszempontos ún. ANOVA-tábla foglalja magába:

Forrás SS df MS F p-érték

a-hatás(csk) SSa k − 1 s2a =SSa

k−1s2as2csb

P(F > s2a

s2csb

)b-hatás(csk) SSb p− 1 s2b =

SSb

p−1

s2bs2csb

P(F >

s2bs2csb

)Hiba(csb) SScsb (k − 1)(p− 1) s2csb =

SScsb

(k−1)(p−1)

4. táblázat.

A kétszempontos varianciaanalízis interakcióval esetben szintén kp csoportvan, de itt a lineáris modellben egy újabb tag jelenik meg a (ab)ij-k, amelyaz interakciókat jelöli.

Xijl = m+ ai + bj + (ab)ij + εijl

A B struktúramátrix segítségével az

Y = B−−−→ab(ab) + 1m+ ~ε

lineáris modell alakját ölti. A B struktúramátrix alakja megváltozik azinterakció nélküli esethez képest. Az alábbi mátrixnál k = 2 és p = 3, ezels® két oszlop a k-t jelöli, a következ® három oszlop a p-t és a többi kpdarab oszlop az interakciót. Az alábbi példa mátrixban az ismétlések száma2, ezért van minden sorból 2.

B =

1 0 1 0 0 1 0 0 0 0 01 0 1 0 0 1 0 0 0 0 01 0 0 1 0 0 1 0 0 0 01 0 0 1 0 0 1 0 0 0 01 0 0 0 1 0 0 1 0 0 01 0 0 0 1 0 0 1 0 0 00 1 1 0 0 0 0 0 1 0 00 1 1 0 0 0 0 0 1 0 00 1 0 1 0 0 0 0 0 1 00 1 0 1 0 0 0 0 0 1 00 1 0 0 1 0 0 0 0 0 10 1 0 0 1 0 0 0 0 0 1

A legkisebb négyzetek módszerével történ® paraméter becslés hasonló in-terakció nélküli esethez. A varianciafelbontás kiegészül egy újabb elemmel:

SS = SSa + SSb + SSab + SScsb

Page 16: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

4 AZ ANOVA MODELL ELMÉLETI HÁTTERE 16

A kétszempontos interakció nélküli varianciaanalízis esethez képest egy har-madik nullhipotézist is megfogalmazhatunk, amely azt állítja, hogy nincsinterakció. Az ANOVA-táblában is vannak változások:

Forrás SS df MS F p-érték

a-hatás(csk) SSa k − 1 s2a =SSa

k−1s2as2csb

P(F > s2a

s2csb

)b-hatás(csk) SSb p− 1 s2b =

SSb

p−1

s2bs2csb

P(F >

s2bs2csb

)ab-interakció SSab (k − 1)(p− 1) s2ab =

SSab

(k−1)(p−1)

s2abs2csb

P(F >

s2abs2csb

)Hiba(csb) SScsb kp(n− 1) s2csb =

SScsb

kp(n−1)

5. táblázat.

4.4.3. Többszempontos szórásanalízis

Három vagy több szempontra is m¶ködik az ANOVA. Háromszempontosmodell esetében vizsgálni kell az összes kétszeres, illetve háromszoros in-terakciót. Három, illetve többtényez®s kísérleteknél többféle módszer léte-zik: véletlen blokkelrendezés, kétszeresen osztott parcellás elrendezés (split-split-plot), osztott sávos elrendezés (split-strip plot) és latin négyzet elren-dezés. A három szempont mindenféle kombinációját ismétlésen belül vé-letlenszer¶en rendezzük el, amikor a véletlen blokkelrendezést használjuk.Ebben az esetben a matematikai modell egyenlete:

Xijkl = m+ ai + bj + ck + (ab)ij + (ac)ik + (bc)ij + (abc)ijk + εijkl

A háromszempontos ANOVA-tábla:

Page 17: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

4 AZ ANOVA MODELL ELMÉLETI HÁTTERE 17

Forrás SS df MS F p-érték

a-hatás(csk) SSa k − 1 s2a =SSa

k−1s2as2csb

P(F > s2a

s2csb

)b-hatás(csk) SSb p− 1 s2b =

SSb

p−1

s2bs2csb

P(F >

s2bs2csb

)c-hatás(csk) SSc c− 1 s2c =

SSc

c−1s2cs2csb

P(F > s2c

s2csb

)ab-interakció SSab (k − 1)(p− 1) s2ab =

SSab

(k−1)(p−1)

s2abs2csb

P(F >

s2abs2csb

)ac-interakció SSac (k − 1)(c− 1) s2ac =

SSac

(k−1)(c−1)s2acs2csb

P(F > s2ac

s2csb

)bc-interakció SSbc (p− 1)(c− 1) s2bc =

SSbc

(p−1)(c−1)

s2bcs2csb

P(F >

s2bcs2csb

)abc-interakció SSabc (k − 1)(p− 1)(c− 1) s2abc =

SSabc

(k−1)(p−1)(c−1)

s2abcs2csb

P(F >

s2abcs2csb

)Hiba(csb) SScsb kpc(n− 1) s2csb =

SScsb

kpc(n−1)

6. táblázat.

4.4.4. Kovarianciaanalízis (ANCOVA)

A szóráselemzésnél egy magas mérési szint¶ változót vizsgálunk egy ala-csony mérési szint¶ változó függvényében. A kovarianciaanalízis esete na-gyon hasonló, itt azonban az alacsony mérési szint¶ változó mellett megje-lenik egy folytonos (magas mérési szint¶) változó is, ezt nevezzük kovari-ánsnak (jelölése: y). A legegyszer¶bb esetben egy, bonyolultabb esetekbentöbb kovariáns is bevonható a vizsgálatba. Az ANCOVA modellnek két al-kalmazási feltétele van. Az egyik az, hogy a kovariáns lineáris kapcsolatbanlegyen a függ® változóval. A másik szempont szerint a kovariáns értéke nemfügghet az alkalmazott tényez®kt®l, szempontoktól. Ehhez a részhez a [17]forrást használtam.A kétszempontos lineáris modell egy kovariáns bevonásával:

Xij` = m+ ai + bj + (ab)ij + βyij` + εij`

A fenti modellben Xij` a függ® változó értéke, az m a �x hatású f®átlag,az ai és bj az egyik, illetve a másik szempont szerinti hatás, a (ab)ij a kétszempont kölcsönhatása, a β a függ®változó és a kovariáns közötti lineárisregressziós együttható, yijk a kovariáns értékei és végül az εij` a hibát jelöli.A csoportok száma kp, mivel az egyik szempont k részre, a másik szem-pont pedig p részre osztja a mintát. Az n a minta elemszámát jelöli, nj acsoportokban a meg�gyelésszámot, így

∑kpj=1 nj = n. Az ANCOVA modell

végrehajtásához több mindent ki kell számolni:A mintákon belüli eltérés-négyzetösszegek y-ra, vagyis a kovariánsra nézve,a teljes mintára:

SScsb−y =

kp∑j=1

nj∑i=1

(yij − yj)2

Page 18: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

4 AZ ANOVA MODELL ELMÉLETI HÁTTERE 18

A mintákon belüli eltérés-négyzetösszegek x-re, vagyis a függ® változóranézve, a teljes mintára:

SScsb−x =

kp∑j=1

nj∑i=1

(xij − xj)2

A mintákon belüli eltérés-keresztszorzatok a összege a mintára:

SScsb−xy =

kp∑j=1

nj∑i=1

(yij − yj)(xij − xj)

A teljes eltérés-négyzetösszeg y-ra:

SSy =

kp∑j=1

nj∑i=1

(yij − y)2

A teljes eltérés-négyzetösszeg x-re:

SSx =

kp∑j=1

nj∑i=1

(xij − x)2

A teljes keresztszorzat összeg:

SSxy =

kp∑j=1

nj∑i=1

(yij − y)(xij − x)

Az SScsb−yj a mintákon belüli eltérés-négyzetösszegek az egyes mintákban,a SScsb−xyj a mintákon belüli eltérés-keresztszorzatok összege mintánként.Az ANCOVA feltételeinek a vizsgálatához egy-egy F-próba szükséges.Az els® feltételnek a próbafüggvénye:

F =

(∑kpj=1

(SScsb−xyj)2

SScsb−yj− (SScsb−xy)

2

SScsb−y

)/(kp− 1)(

SScsb−x −∑kp

j=1

(SScsb−xyj)2

SScsb−yj

)/(n− 2kp)

Ha teljesül a feltétel, akkor a felírt változó (kp− 1, n− 2kp) szabadságfokúF-eloszlású, tehát folytatható a vizsgálat.A második feltétel próbafüggvénye:

F =(SScsb−xy)

2

SScsb−xSScsb−y − SScsb−xy(n− kp− 1)

Page 19: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

5 ADATOK ÉS ELEMZÉS 19

Ha a második feltétel is teljesül, akkor a felírt változó (1, n− kp − 1) sza-badságfokú F-eloszlású. A feltételek teljesülése után elvégezhetjük a ko-varianciaanalízist. Az alacsony mérési szint¶ faktornak a hatását a függ®változóra a következ® próbafüggvény teszteli:

F =

(SSx − (SSxy)2

SSy− SScsb−x + (SSxy)2

SSy

)/(kp− 1)

(SScsb−x − (SScs−xy)2

SScsb−y)/(n− kp− 1)

Ha a nullhipotézist elfogadjuk, akkor ez a változó egy (kp− 1, n− kp− 1)szabadságfokú F-eloszlású.

5. Adatok és elemzés

5.1. Az adatok ismertetése és el®készítése

A szakdolgozatomban a TÁRKI Háztartás Monitor felmérés adatait dolgo-zom fel. A Háztartás Monitor longitudinális keresztmetszeti háztartásvizs-gálat. A háztartásvizsgálat sorozat 1998-ban kezd®dött el, miután a MagyarHáztartás Panel (1992-1997) véget ért. Módszere: kérd®íves adatfelvétel. Aszemélyes adatfelvétel során mintegy kétezer háztartásról és tagjairól gy¶j-töttek adatokat úgy, hogy a háztartás minden 16 éven felüli tagját megkér-dezték. Emellett a háztartás egészére jellemz® adatokat is felvettek.A vizsgálat központjában a munkaer®piac és a jövedelmek témái állnak. ATÁRKI Háztartás Monitor alkalmas a teljes népességre vonatkozó követ-keztetések levonására. Az eredmények értelmezését valamelyest nehezíti,hogy a leggazdagabbak és a legalacsonyabb jövedelm¶ek válaszadási haj-landósága alacsony az ilyen típusú jövedelemvizsgálatok során [21].A Háztartási Monitor 2001-es, 2003-as, 2005-ös, 2010-es, 2012-es és 2014-esadatait vizsgáltam meg szórás-és kovarianciaanalízis módszerével a szabadforráskódú R-program felhasználásával. A továbbiakban a 2014-es adatokeredményét mutatom be részletesebben. A 2014-es adathalmazban 4420meg�gyelés található, ezek közül azokat a rekordokat vonom be az elem-zésbe, akik 18 éven felüliek, tehát a feln®tt lakosságot, illetve azokat, akikrendelkeznek jövedelemmel és a kérd®íves adatfelvétel során nyilatkoztakerr®l. Így a tényleges elemzést 3034 mintaelemre végeztem el.Az ANOVA és az ANCOVA módszerekkel fogom megvizsgálni, hogy a jö-vedelemre hatással van-e a nem, az iskolai végzettség és az életkor. A Vál-tozók típusai alfejezetben említettem, hogy az ANOVA módszer alkalma-zása során jelent®s szerepet játszik, hogy a függ® változó csak folytonosváltozó (magas mérési szint¶) lehet, míg a faktorok csak alacsony mérésiszint¶ek lehetnek, bár magas mérési szint¶ változó is lehet faktor diszkre-tizálás után. A kovarianciaanalízis estében a faktorok mellé még további

Page 20: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

5 ADATOK ÉS ELEMZÉS 20

kovariánsok(folytonos változók) is bevonhatóak. Tehát a függ® változóma vizsgálat során végig a jövedelem, pontosabban a havi nettó jövedelemlesz, az adathalmazban ezt az attribútumot hgjobe0 kód jelöli. A fakto-rok kezdetben a nem(hgbnem0) lesz, majd az iskolai végzettség(hgiisk0) ésvégül az életkor(hgbszu0). Az iskolai végzettség egyes szintjeit blokkokbavontam össze. Az els® szintbe tartozik a "Kevesebb, mint 8 általános", "8általános" és a "Szakmunkásképz®; szakképzés érettségi nélkül" megneve-zés¶ iskolai végzettségek. A második szintbe tartozik a "Szakközépiskolaiérettségi; szakképzést követ® érettségi", "Gimnáziumi érettségi", "Érettsé-git követ®, fels®fokra nem akkreditált szakképzés; technikum" és a "Akkre-ditált fels®fokú szakképzés; fels®fokú technikum". A harmadik szint pedigmagába foglalja a "F®iskola", "Egyetem" és "Tudományos fokozat" elneve-zés¶ iskolai végzettségeket. Látható, hogy az els® szintbe kerültek az érett-ségivel nem rendelkez® személyek, a második szintbe az érettségivel, illetvea legtöbb esetben szakképzéssel is rendelkez®k, míg a harmadik szintbe adiplomások kerültek. Az életkor attribútum (2014-születési év) magas mé-rési szint¶, ezért az ANOVA számításhoz diszkretizáltam ezt a változót.Négy részre osztottam, az els® kategória a 18 és 35 év közöttiek, ahol azintervallum baloldali végpontja beletartozik a csoportba, de a jobboldalivégpontja a következ® csoporthoz fog tartozni. A második kategória a 35és 50 év közöttiek, a harmadik szintbe az 50 és 65 év közöttiek tartoznakés végül a legutolsó szinten a 65 év felettiek vannak.A szóráselemzés alkalmazhatóságának feltétele az, hogy a függ® változó nor-mális eloszlású legyen. A következ® hisztogramon a havi nettó jövedelemeloszlása látható, amely egyáltalán nem hasonlít a normális eloszlásra, eztmutatja a hisztogram után látható Q-Q ábra is. A hisztogramon meg�gyel-het®, hogy viszonylag sokan vannak, akik keveset keresnek(100 ezer forintalattiak). A jövedelem mediánja 100 ezer forint és ezután hosszan elnyú-lik az eloszlás. A gyakorlatban többször tapasztalható, hogy a jövedelemlognormális eloszlású és valóban ez a hisztogram is hasonlít a lognormáliseloszláshoz, ezért az adatokat transzformáltam, vagyis az e alapú logarit-musát vettem.

Page 21: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

5 ADATOK ÉS ELEMZÉS 21

A következ® Q-Q ábrán látható, hogy a normalitási feltevés nem igazolódikbe, mivel a pontok jelent®s mértékben eltérnek az ábrán látható egyenest®l.

A Kolmogorov-Szmirnov teszt sem fogadja el a normalitást. A D értéke0,1071, a D a tapasztalati és az elméleti eloszlásfüggvény abszolút eltéré-sének a maximuma. A p-érték kisebb, mint 2,2e-16.Az alábbi hisztogram a havi nettó jövedelem logaritmusát ábrázolja, amelymár jobban hasonlít a normális eloszlásra, mint az el®bbi hisztogram, habárnem teljes mértékben követi, de ez talán nem is várható el ilyen nagyságúvaló életb®l vett mintánál, ahol torzítások és véletlen hibák is befolyásoljákaz adatok felvételét.

Page 22: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

5 ADATOK ÉS ELEMZÉS 22

Az adatok transzformálása után a Q-Q ábra is megváltozott. Meg�gyel-het®, hogy a pontok jobban követik az egyenest, de az ábra alsó részénéleltér az egyenest®l. Az ábra legalján van pár kiugró érték, majd egy kisebbcsoport, akiknek nagyon kevés a jövedelmük. Ez alatt lehetnek a különböz®segélyek, GYES, családi pótlék vagy nagyon alacsony összeg¶ nyugdíj. Ez akisebb csoport nem tekinthet® véletlennek. Ezt a részt elhagyva meredekenközelítenek a pontok a kívánt egyeneshez.

Az adat transzformálás után a Kolmogorov-Szmirnov teszt értéke 0,085 ésa p-értéke kisebb, mint 2,2e-16. Az adatok els® 181 elemét elhagyva a kö-vetkez® hisztogramot láthatjuk. A 181 érték elhagyása után a Kolmogorov-

Page 23: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

5 ADATOK ÉS ELEMZÉS 23

Szmirnov teszt D értéke 0,0343 és a p-értéke 0,002382. Tehát egyre jobbanközelítjük a normális eloszlást.

5.2. Egyszempontos szórásanalízis alkalmazása

A 7. táblázatban az egyszempontos szóráselemzés eredményei láthatóak. Anullhipotézisünk az, hogy a havi nettó jövedelemre nincs hatással a 18 év fe-letti lakosok neme. Vagyis a fér�ak és n®k jövedelmének átlaga között nincsszigni�káns különbség. Az ANOVA-tábla F próbája szerint a nullhipotézistel kell vetni (szigni�kancia 3,27e-15, vagyis a p<0,05). A fér�ak havi nettójövedelmének átlaga 122541, a n®ké 103450. A p-érték szerint a fér�ak ésa n®k jövedelmének átlaga közötti eltérést nehezen lehet véletlen ingado-zással magyarázni. Az R2 együttható 0,0202, csupán 2%-ot magyaráz megszemélyek neme a jövedelmek szórásnégyzetéb®l.

Forrás SS df MS F p-értékHatás(csk) 20,9 1 20,910 62,75 3,27e-15Hiba(csb) 1010,4 3032 0,333

7. táblázat.

A 8. táblázatban az el®bbi egyszempontos varianciaanalízis homoszkedasz-tikusság vizsgálatának eredménye látható, ahol a Levene-tesztet használ-tam. Látható, hogy a Levene-teszt statisztika értéke alacsony (0,014), ap-érték magas (0,906) a nullhipotézist megtarthatjuk, tehát a csoportokonbelüli szórás megegyezik.

Page 24: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

5 ADATOK ÉS ELEMZÉS 24

Forrás SS df MS F p-értékHatás(csk) 0,0 1 0,00205 0,014 0,906Hiba(csb) 444,1 3032 0,14648

8. táblázat.

Az alábbi boxplot ábrán a fér�ak és a n®k havi nettó jövedelmeir®l lát-ható pár statisztikai mutató. Az egyes dobozok az alsó kvartilist®l a fels®kvartilisig tartanak. A dobozok középvonala a csoport mediánját jelöli. Afér�ak havi nettó jövedelmének mediánja 110 ezer forint, a n®k havi nettójövedelmének mediánja 94 ezer forint. A vonalak a teljes terjedelmet felöle-lik, ha ez mindkét irányban nem nagyobb a kvartilisek közötti különbség1,5-szeresénél [12]. Az ezen kívül es® pontokat (ún. outliereket) is megjele-níti az ábra. A boxplot ábra egy gra�kus megjelenítést ad az adathalmazjellegér®l.

5.3. Kétszempontos szórásanalízis és szimulációs vizs-

gálatok

A 9. táblázatban egy kétszempontos szórásanalízis eredményei láthatóak. Atovábbiakban a nemre vonatkozó hatást a-val jelölöm, míg az iskolai vég-zettségre vonatkozó hatást b-vel. Tehát az egyszempontos esethez képestitt az iskolai végzettséget is bevontam újabb faktorként. A táblázatbanmegjelenik még egy plusz sor, ami a nem és az iskolai végzettség közöttiinterakciót jellemzi. Mivel a nem p-értéke (kisebb, mint 2e-16) és az is-kolai végzettség p-értéke (kisebb, mint 2e-16) is szigni�káns, mert mind-

Page 25: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

5 ADATOK ÉS ELEMZÉS 25

kett® érték kisebb, mint 0,05, ezért el kell utasítani azt a nullhipotézist,miszerint a nem és az iskolai végzettség nincs hatással a jövedelemre. AzANOVA-táblát megvizsgálva megállapítható, hogy szigni�káns interakcióshatás nem �gyelhet® meg a két faktor között (F=0,122, p-érték=0,885). Azegyes csoportok átlagai a következ®képpen változnak. Az iskolai végzettségels® szintjén a fér�ak havi nettó jövedelmének átlaga 103376, szórása 51760,míg a n®knél az átlag 83040, a szórás pedig 38655. Az iskolai végzettségmásodik szintjén a fér�ak havi nettó jövedelmének átlaga 135278, szórása65732 , míg a n®k esetében az átlag 110807, a szórás 54541. Végül az isko-lai végzettség harmadik szintjén a fér�ak havi nettó jövedelmének átlaga187918, szórása 81633, ezzel szemben a n®knél az átlag 157570, a szórás pe-dig 65534. A kétszempontos szórásanalízis esetében az R2 együttható 0,16,vagyis 16 % a megmagyarázott szórásnégyzet-hányad.

Forrás SS df MS F p-értéka-hatás(csk) 29,8 1 29,80 105,005 <2e-16b-hatás(csk) 142,0 2 71,00 250,153 <2e-16ab-interakció 0,1 2 0,03 0,122 0,885Hiba(csb) 859,4 3028 0,28

9. táblázat.

Az interakciót vagy annak hiányát gra�kusan is lehet ábrázolni. A követ-kez® két ábra ezt mutatja. Az interakciós ábrának az x-tengelyén az egyikfaktor szintjei láthatóak és az ábra a másik faktor viselkedését mutatja azels® faktor függvényében.

Tehát a fenti interakciós ábrán a szaggatott vonal mutatja a fér�ak jöve-delem függését az iskolai végzettségt®l, míg a folytonos vonal a n®két írja

Page 26: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

5 ADATOK ÉS ELEMZÉS 26

le. Mivel ez a két vonal nagyjából párhuzamos, ezért ebben az esetben nembeszélhetünk interakcióról. Az alábbi interakciós ábra ugyanazt írja le, deebben az esetben az x-tengelyen a másik faktor szerepel. Ezek az egyenesekis nagyjából párhuzamosak.

A 10. táblázatban a kétszempontos varianciaanalízis homogenitás vizsgá-lata látható, hasonlóan az egyszempontos esethez itt is a Levene-teszt al-kalmazásával. A nullhipotézis az, hogy a csoportok szórásai egyenl®ek, demint azt a táblázat is mutatja az iskolai végzettség faktornak a p-értéke(0,00137) kisebb mint 0,05, a másik faktornál a p-érték megfelel®.

Forrás SS df MS F p-értéka-hatás(csk) 0,0 1 0,0059 0,045 0,83136b-hatás(csk) 1,7 2 0,8556 6,611 0,00137ab-interakció 0,2 2 0,1183 0,914 0,40103Hiba(csb) 391,9 3028 0,1294

10. táblázat.

Mivel a Levene-teszt szigni�káns, így szimulációval is vizsgálom a hatásokszigni�kanciáját. Az els® négy hisztogramon a szimulált ANOVA együtt-hatói láthatóak. A hisztogramok bootstrap eljárással készültek. Mindenegyes csoportból vettem mintát. Az els® két hisztogramon a konstans és anemre vonatkozó (n®) együtthatók eloszlása látható, a piros vonal az ere-deti kétszempontos szórásanalízis együtthatójának az értéke, a kék vonalaka 2,5%-97,5%-os kvantiliseket jelölik. Végül az iskolára vonatkozó együtt-hatók eloszlása is látható (2-es és 3-as szinten lév® iskolai végzettség¶ek).Látszik az ábrákon a hatások szigni�kanciája (semelyik esetben sem kerül-tek a 0 közelébe) és a kon�dencia intervallum becslése is.

Page 27: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

5 ADATOK ÉS ELEMZÉS 27

Végeztem egy másik szimulációt is, amikor a hatásokat 0-nak vettem. Ittarra voltam kíváncsi, hogy vajon a heteroszkedasztikusság nem befolyásolja-e túlságosan az alkalmazott teszt p-értékét. A nemre és az iskolai végzett-ségre vonatkozó szimulált p-értékek láthatóak. A pirossal jelölt rész a szig-ni�káns rész. Ennél a szimulációnál a korábban ismertetett lineáris modellegyenletét használtam, a véletlen hibát pedig normális eloszlásból gene-ráltam úgy, hogy a szórások megegyezzenek a megfelel® csoport szórásá-val. Megállapítható, hogy az 1000 szimulációból közel 50 esetben találtunkszigni�kánsnak t¶n® hatást, és a hisztogram is mutatja, hogy a statisz-tika p-értékei közel vannak az egyenletes eloszláshoz. Tehát nem okozottszámottev® eltérést a csoportonkénti szórások feltételezhet® eltérése.

Page 28: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

5 ADATOK ÉS ELEMZÉS 28

A hatás nélküli szimuláció p-értékei

Az alábbi boxplot ábra az iskolai végzettség szerint jövedelemre ad párstatisztikai mutatót. Az iskolai végzettség els® szintje, vagyis az érettségi-vel nem rendelkez®k mediánja 88 ezer forint.Ez a legalacsonyabb a többiszinthez képest. A második szint mediánja 112500 forint, a harmadik szintmediánja pedig 160 ezer forint. A mediánok mutatják, hogy a magasabbiskolai végzettséggel rendelkez®k általában többet keresnek. Érdekességeaz ábrának, hogy a felmérésben résztvev® személyek között a legmagasabbhavi nettó jövedelem az 550 ezer forint volt és ennek a személynek az iskolaivégzettsége második szinten van, vagyis az adathalmazban a legmagasabbhavi nettó jövedelm¶ személynek nincs diplomája. Az ábrán az is meg�gyel-het®, hogy az érettségivel nem rendelkez®k csoportjában sok a kiugró érték.Ennek egyik lehetséges oka lehet az is, hogy a szakmunkásképz®t végzettszemélyeknek jobbak a munkaer®-piaci kilátásai, mint a csak 8 általánostvégzetteknek. A szakmunkásképz®t végzett embereket nem tettem különcsoportba, mivel kis számban jelentek meg az adathalmazban.

Page 29: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

5 ADATOK ÉS ELEMZÉS 29

5.4. Háromszempontos szórásanalízis alkalmazása

A 11. táblázatban egy háromszempontos ANOVA-tábla látható, a koráb-ban használt két faktorhoz bevontam egy harmadik faktort az életkort.Az életkornak a diszkretizált változatát használom ebben az elemzésben.Az életkort az ANOVA-táblában c-vel fogom jelöni, mint hatást. A három-szempontos szóráselemzésnél megjelennek a táblázatban az összes kétszeresinterakcióra vonatkozó adatok, illetve a hármas interakciót is vizsgálja amódszer. A nullhipotézisünk azt mondja ki, hogy a havi nettó jövedelemrenincs hatással a nem, az iskolai végzettség és az életkor. A táblázat els® há-rom sora a három faktor külön-külön hatását nézi, mindegyiknek a p-értékekisebb, mint 2e-16, amib®l következik, hogy a nullhipotézist nem tudjuk el-fogadni. Az interakciókból megállapítható, hogy az iskolai végzettség ésnem hatása között nem tudunk interakcióról beszélni (p-érték=0,491) ésugyanez igaz a hármas esetben is (p-érték=0,618). Viszont az iskolai vég-zettség és az életkor hatása között szigni�káns az interakció (p-érték=2,38e-10) és a nem és az életkor hatása között is szigni�káns (p-érték=3,72e-05).Az R2 együttható értéke 0,23, tehát 23 %-ot magyaráznak a faktorok ajövedelmek szórásnégyzetéb®l.

Forrás SS df MS F p-értéka-hatás(csk) 29,8 1 29,80 113,654 <2e-16b-hatás(csk) 142,0 2 71,00 270,758 <2e-16c-hatás(csk) 47,6 3 15,88 60,547 <2e-16ab-interakció 0,4 2 0,19 0,712 0,491ac-interakció 6,1 3 2,03 7,753 3,72e-05bc-interakció 14,9 6 2,49 9,487 2,38e-10abc-interakció 1,2 6 0,19 0,739 0,618Hiba(csb) 789,3 3010 0,26

11. táblázat.

5.5. Kovarianciaanalízis bemutatása a vizsgált adato-

kon

A 12. táblázatban annak a kovarianciaanalízisnek az eredménye látható,ahol egy faktor van a nem, és egy kovariáns az életkor. A kovariancia-analízisnél az életkort folytonos változóként használom és nem a koráb-ban említett diszkretizált változatát. Most az életkort k-val fogom jelölnia táblázatban, mint kovariánst. Ez a táblázatból kiderül, mivel az életkorszabadságfoka(df) 1, diszkretizált esetben 3 lenne. Megállapítható a táblá-zatból, hogy a nem p-értéke (2,42e-15) és a kovariáns p-értéke (4,66e-08)

Page 30: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

5 ADATOK ÉS ELEMZÉS 30

is szigni�káns, vagyis elvetend® az a nullhipotézis miszerint a nem és azéletkor nincs hatással a jövedelemre. Az R2 együttható értéke 0,029, vagyis2,9 %-ot magyaráz meg a faktor és a kovariáns a jövedelmek szórásnégyze-téb®l.

Forrás SS df MS F p-értéka-hatás(csk) 20,9 1 20,910 63,35 2,42e-15k-hatás(csk) 9,9 1 9,904 30,01 4,66e-08Hiba(csb) 1000,5 3031 0,330

12. táblázat.

A 13. táblázatban szintén egy kovarianciaanalízis eredményei láthatóak. Ittkét faktor van az iskolai végzettség és nem, illetve továbbra is egy kova-riáns az életkor. A két faktor és a kovariáns esetében is a p-érték kisebb,mint 2e-16, vagyis mindegyik szigni�káns. A két faktor interakcióját vizs-gáló p-érték (0,396) azt bizonyítja, hogy a két faktor között nem szigni-�káns a kölcsönhatás. Az R2 együttható értéke 0,198, vagyis 19,8 %-os amegmagyarázott szórásnégyzet-hányad. Látható, hogy a háromszempontosszórásanalízis esetében az R2 együttható nagyobb volt (23%). Ez betudhatóannak is, hogy a kovarianciaanalízis esetében az életkor (vagyis a kovariáns)és a jövedelem kapcsolata nem lineáris. Kezdetben n® a jövedelem, majdegy id® után stagnál és nyugdíjas években lecsökken.

Forrás SS df MS F p-értéka-hatás(csk) 29,8 1 29,80 109,170 <2e-16b-hatás(csk) 142,0 2 71,00 260,076 <2e-16k-hatás 32,6 1 32,63 119,522 <2e-16

ab-interakció 0,5 2 0,25 0,927 0,396Hiba(csb) 826,4 3027 0,27

13. táblázat.

Page 31: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

5 ADATOK ÉS ELEMZÉS 31

5.6. Eredmények összesítése

A következ® gra�konon a jövedelem változása látható. A TÁRKI-s adathal-mazokból kiszámolt havi nettó jövedelem mediánját az ábrán feketével je-löltem. Ezeket a jövedelem mediánokat visszatranszformáltam 2001-es érté-kekre, vagyis leosztottam az aktuális éves in�ációk szorzatával (fogyasztóiár-index [22]), ezt piros színnel tüntettem fel az alábbi gra�konon. A 2001-esmedián jövedelem aktuális értékét pedig zölddel jelöltem. Az ábrán lát-ható, hogy 2005-t®l 2012-ig az in�ációs görbe meredeken emelkedik, míga 2001-es értékre visszatranszformált jövedelem elkezdett csökkenni, tehátebben az id®szakban a jövedelmeknek a vásárló értéke csökkent. 2012-t®laz in�ációs görbe nagyon picit emelkedik csak, szinte stagnál és láthatóana jövedelmek vásárló értéke elkezdett n®ni.

Az alábbi két ábrán a fér�ak és a n®k havi nettó jövedelmének változásalátható, amelyeknél az in�ációt �gyelembe vettem. A zölddel jelölt a leg-magasabb iskolai végzettség csoportba tartozókat ábrázolja, tehát a diplo-másokat. A piros az érettségivel (esetleg még szakmával is) rendelkez®k jö-vedelem változását mutatja. Végül a feketével jelöltem az érettségivel nemrendelkez®k csoportjának jövedelem változásait. Az ábrán meg�gyelhet®els®sorban a csoportok jövedelmének 2001-es értékekre visszatranszformáltmediánja alapján, hogy a magasabb iskolai végzettség¶ek általában töb-bet keresnek, illetve hogy a fér�aknak is általában többet keresnek, minta n®k. Természetesen vannak kivételek, de ha a társadalomból vett min-ták mediánjait nézzük ezek az eredmények jönnek ki, összhangban az el®z®fejezetben bemutatott ANOVA elemzéssel, ahol szintén pozitív hatást je-lentett az iskolai végzettség magasabb szintje. Ahogy az el®z® ábrán is, ittis látható, hogy 2005-t®l az egyes csoportok jövedelmének vásárló értéke

Page 32: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

5 ADATOK ÉS ELEMZÉS 32

csökken, a legnagyobb mértékben a diplomásoké. Érdekes, hogy a n®knélaz érettségivel nem rendelkez® csoportról ez nem mondható el. Viszont2012-t®l minden csoportnál meg�gyelhet® a jövedelmek vásárló értékéneka növekedése.

A vizsgált id®szakban a kétszempontos szórásanalízis együtthatóinak a vál-tozását a következ® ábra mutatja. A konstans (intercept) nincs ábrázolva.A kékkel jelölt a diplomásokat ábrázolja, a pirossal jelölt az érettségivel ren-delkez®ket, a feketével jelölt pedig a nemre vonatkozó hatás (n®k). A zöldegyenesek az el®z®ekben bemutatott 2014-re vonatkozó 95%-os bootstrapkon�denciaintervallumokat jelölik. Ezeket az el®z® fejezetben a szimuláci-óknál határoztam meg. Az ábrán látható, hogy az évek múlásával nagyjábólstabilak ezek az együtthatók.

Page 33: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

5 ADATOK ÉS ELEMZÉS 33

A 14. táblázatban minden egyes csoportnak a becsült átlag�zetése látható,amely a kétszempontos szórásanalízis együtthatóinak a visszatranszformá-lásából keletkezett.

20148 általánost végzett n®k 73870 Ft

Érettségivel rendelkez® n®k 96517 FtDiplomás n®k 143463 Ft

8 általánost végzett fér�ak 90685 FtÉrettségivel rendelkez® fér�ak 118554 Ft

Diplomás fér�ak 171171 Ft

14. táblázat.

Page 34: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

6 ÖSSZEGZÉS 34

6. Összegzés

Szakdolgozatomban a szórás- és kovarianciaanalízis statisztikai eljárásokatmutattam be. El®ször a történeti, majd a matematikai, elméleti hátterétismertettem. Az elméleti rész bemutatása után az R 3.1.2-es verziójávalvizsgáltam a TÁRKI-tól kapott adatokat a fentebb ismertetett statisztikaimódszerekkel. Látható volt, hogy a gyakorlatban több probléma is felmerülta módszerek alkalmazása során. A szórásanalízis feltételei közül a normáliseloszlás és a csoportok közötti azonosság nem minden esetben teljesült. Anormális eloszlás közelítése érdekében az adatokat transzformáltam, e alapúlogaritmusát vettem. A homogenitás az egyszempontos szórásanalízis ese-tében teljesült, de a kétszempontos esetben nem. A homogenitás hiányátszimulációkkal vizsgáltam és elemeztem ezután. Meg�gyelhet® volt, hogy ahavi nettó jövedelemre, a vizsgált változóra hatással van a nem, az iskolaivégzettség és az életkor is. Pontosabban a kapott eredmények alapján akülönbségeket nehezen lehetne csupán a véletlen ingadozással magyarázni.Legvégül a kapott hat év havi nettó jövedelem mediánjainak változását azin�áció függvényében ábrázoltam a nem és az iskolai végzettség csopor-tokra bontása alapján. Az utolsó ábrán az együtthatók id®beni változásátvizsgáltam meg. Látható volt, hogy a hatások nagyjából állandóak.

Page 35: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

7 IRODALOMJEGYZÉK 35

7. Irodalomjegyzék

Hivatkozások

[1] https://hu.wikipedia.org/wiki/Varianciaanal%C3%ADzis

[2] https://en.wikipedia.org/wiki/Analysis_of_variance#History

[3] Székely J. Gábor: Paradoxonok a véletlenek matematikájában, Typo-tex, Budapest, 2004, p134

[4] http://xenia.sote.hu/hu/biosci/docs/biometr/lecture/anova1.html

[5] http://clinfowiki.org/wiki/index.php/ANOVA#History

[6] Babbie, E.: A társadalomtudományi kutatás gyakorlata, Balassi KiadóBudapest, 1995. p430-435

[7] http://psycho.unideb.hu/munkatarsak/balazs_katalin/matalapok/matalapok_ora2.pdf

[8] Németh Renáta, Simon Dávid: Társadalomstatisztika

http://www.tankonyvtar.hu/hu/tartalom/tamop425/0010_

2A_21_Nemeth_Renata-Simon_David_Tarsadalomstatisztika_

magyar_es_angol_nyelven/ch02s04.html

[9] http://www.cs.elte.hu/~vargal4/Elm_vsz1_14.pdf

[10] https://hu.wikipedia.org/wiki/Folytonos_val%C3%B3sz%C3%ADn%C5%B1s%C3%A9gi_v%C3%A1ltoz%C3%B3

[11] http://www.agr.unideb.hu/~baloghp/PhD%20anyagok/parameteres_elmelet.pdf

[12] Dr. Zempléni András, Leíró és matematikai statisztika el®adásjegyzet

http://www.cs.elte.hu/~zempleni/

[13] Dr. Márkus László, Id®sorok és többdimenziós statisztika el®adásjegy-zet

http://www.math.elte.hu/probability/markus/index.m.html

[14] http://www.tankonyvtar.hu/hu/tartalom/tamop425/0027_MSTE5/ch01s06.html

Page 36: Szórás- és koarianciaanalízisv alkalmazása szociológiai adatokra · 2016-05-26 · gondolták a nemek születési aránya 50-50 %. Az 1700-as években több évti-zednyi népszámlálási

HIVATKOZÁSOK 36

[15] Huzsvai László: Variancia-analízisek az R-ben, Seneca Books, Debre-cen, 2013

[16] Bolla Marianna, Krámli András: Statisztikai következtetések elmélete,Typotex, Budapest, 2005,p15-61, p269-291

[17] http://www.tankonyvtar.hu/hu/tartalom/tamop425/2011_0001_531_pedagogia/ch15s04.html

[18] http://www2.univet.hu/users/zslang/phd/ANOVA%20es%20elrendezesek.pdf

[19] Fazekas István: Statisztika

http://www.inf.unideb.hu/valseg/dolgozok/fazekasi/

oktatas/statmobi.pdf

[20] Hunyadi László: Gra�kus ábrázolás a statisztikában, StatisztikaiSzemle, 2002 január, p49

[21] www.tarki.hu

[22] https://www.ksh.hu/docs/hun/xstadat/xstadat_eves/i_qsf001.html