138
Bodó László Bevezetés a mintavételes statisztikába 1

Statisztika Jegyzet

Embed Size (px)

DESCRIPTION

Statisztika Jegyzet

Citation preview

Page 1: Statisztika Jegyzet

Bodó László

Bevezetés a mintavételes statisztikába

1

Page 2: Statisztika Jegyzet

2

Page 3: Statisztika Jegyzet

Bodó László

Bevezetés a mintavételes statisztikába

PTE TTK FEEFI

Pécs, 2004

3

Page 4: Statisztika Jegyzet

Lektorálta:dr. Novák Zoltán

HUMÁN SZERVEZŐ (MUNKAÜGYI)MENEDZSER

SOROZAT

Sorozatszerkesztő: dr. Koltai Dénes

Megjelent a Pécsi TudományegyetemTermészettudományi Kar

Felnőttképzési és Emberi Erőforrás Fejlesztési Intézetgondozásában

Felelős kiadó: az Intézet igazgatója

ISSN 1218–6880

Layout: Bodó László

G&G Kft.Felelős vezető: dr. Gárván János ügyvezető igazgató

4

Page 5: Statisztika Jegyzet

Tartalom1. Előszó...............................................................................................72. Matematikai alapfogalmak...............................................................9

2.1. Függvénytani alapfogalmak.....................................................102.1.1. Elemi függvények...............................................................11

2.2. Az adatok kerekítése................................................................132.2.1. Szignifikáns számjegyek.....................................................13

2.3. Logaritmusok és használatuk...................................................142.4. Sorozatösszeadások, szorzatok...............................................152.5. Kombinatorikai alapok.............................................................152.5.1. Faktoriális...........................................................................162.5.2. Permutációk........................................................................162.5.3. Kombinációk.......................................................................172.5.3.1 Példák a valószínűségszámításra és kombinatorikára.18

3. A nagy számok törvénye és a reprezentatív megfigyelés............203.1. Főbb eloszlástípusok................................................................263.2. A binomiális és a normális eloszlás..........................................263.2.1. Binomiális (Bernoulli-) eloszlás...........................................263.2.2. Normális (Gauss-féle) eloszlás............................................273.2.3. A szórás tulajdonságai........................................................283.2.4. A standard valószínűségi változó........................................293.2.4.1 Példák a standardizálásra..............................................30

3.3. Kapcsolat az eloszlások között.................................................323.3.1. Diszkrét egyenletes eloszlás...............................................33

4. A mintavétel alapjai.......................................................................344.1. A statisztikai egység, sokaság és minta..................................344.2. Statisztikai sokaságok típusai..................................................344.3. A reprezentatív minta..............................................................354.3.1. A valószínűségi mintavételi tervek fajtái............................364.3.2. Nem valószínűségi mintavételek.......................................38

4.4. A véletlenszerű minta előnyei..................................................384.5. Visszatevéses, visszatevés nélküli mintavétel.........................39

5. A minták jellemző összefüggései...................................................405.1.1. Milyen számokkal lottózzunk?.............................................43

5.2. Mintavételi eloszlások..............................................................455.2.1. Az átlagok mintavételi eloszlása.........................................455.2.2. A mintabeli arányok eloszlása............................................46

5.3. Standard hiba..........................................................................476. Statisztikai következtetéselmélet..................................................49

6.1. Statisztikai becsléselmélet.......................................................506.1.1. Torzítatlan becslések..........................................................516.1.2. Hatásos becslés..................................................................51

6.2. A pontbecslés...........................................................................526.3. Intervallumbecslés...................................................................526.3.1. Kétoldali konfidencia-intervallum........................................536.3.2. Konfidenciaintervallum átlagra...........................................536.3.3. Konfidenciaintervallum arányra..........................................54

6.4. A közvélemény-kutatások pontossága.....................................546.4.1.1 Példák az intervallumbecslésre.....................................56

7. Döntéselmélet — hipotézisvizsgálat..............................................58

5

Page 6: Statisztika Jegyzet

7.1. A hipotézis megfogalmazása...................................................597.1.1. A null-hipotézis...................................................................607.1.2. Szignifikanciaszint...............................................................607.1.3. A kritikus tartomány...........................................................61

7.2. A hipotézisvizsgálat során elkövethető hibák..........................627.2.1. Az elsőfajú hiba...................................................................637.2.2. A másodfajú hiba................................................................63

7.3. A próbafüggvény......................................................................667.4. A hipotézisvizsgálat során használatos próbafüggvények.......677.4.1. Standard normális eloszlás.................................................677.4.2. Student féle t-eloszlás.........................................................687.4.3. Khi-négyzet eloszlás...........................................................697.4.4. Fisher féle F-eloszlás...........................................................707.4.5. A szabadságfok...................................................................70

7.5. Egymintás próbák....................................................................717.5.1. Kismintás z-próba...............................................................717.5.1.1 Példák a z-próbára.........................................................727.5.2. Aszimptotikus(nagymintás) z-próba...................................757.5.3. Egymintás t-próba..............................................................767.5.3.1 Példák a t-próbára..........................................................77

7.6. Kétmintás próbák.....................................................................807.6.1. Páros (önkontrollos) minták................................................807.6.1.1 Példák a páros t-próbára...............................................81

7.7. Két független mintát igénylő próbák.......................................847.7.1. Kétmintás z-próba...............................................................857.7.1.1 Példák a kétmintás z-próbára........................................857.7.2. Szórásnégyzetekre irányuló próba (F-próba)......................877.7.2.1 Példa az F-próbára.........................................................887.7.3. Kétmintás t-próba...............................................................897.7.3.1 Kétmintás t-próba..........................................................89

7.8. Több sokaság várható értékének összehasonlítása.................927.8.1. Variancia-analízis................................................................927.8.2. Belső variancia....................................................................927.8.3. Külső variancia....................................................................937.8.3.1 Példa a varianciaanalízisre............................................93

7.9. Függetlenségvizsgálat.............................................................957.9.1. Szórásnégyzetre irányuló próba......................................967.9.1.1 Példák a khi-négyzet próbára........................................967.9.1.2 Szórásnégyzetre irányuló2- próba............................100

8. A hipotézisvizsgálat összefoglalása.............................................1019. Felhasznált, egyúttal ajánlott irodalom........................................10410. Melléklet —táblázatok................................................................106

6

Page 7: Statisztika Jegyzet

1. Előszó

A Bevezetés a mintavételes statisztikába című jegyzet a Pécsi Tudományegyetem Felnőttképzési és Emberi Erőforrás Fejlesztési Intézet humánszervező és személyügyi szervező hallgatói számára íródott. A FEEFI által kiadott jegyzetek sorában megtalálható Pintér József Bevezetés a statisztikába című jegyzete, mely a leíró, a deduktív statisztika alapjaival ismerteti meg az olvasót. E jegyzet a mintavételen alapuló legfontosabb statisztikai módszerekkel foglalkozik.

A mintavételes statisztika a sokaság és a belőle nyert minták közti kapcsolatokat vizsgálja. Sokszor ugyanis valamilyen ok folytán nincs alkalom a megfigyelést a populációra kiterjeszteni, ezért a sokaságból vett megfelelő mintából kell a sokaságra vonatkozó megállapításokat tenni. Amennyiben a minta jól reprezentálja a sokaságot, azaz a vizsgált szempontból hasonló arányban szerepelnek az egyedek a mintában, mint amilyen arány a sokaságban is jellemzi őket, akkor a minta elemzésével következtetések vonhatók le a sokaságra vonatkozóan.

Mintavételből származó statisztikákból például megbecsülhetjük a sokaság valamely paraméterét. Mintavételes eljárásokkal tudjuk eldönteni, hogy két minta között megfigyelhető különbség valódi, szignifikáns-e, vagy csak a véletlennek tulajdonítható: a hipotézis- és a szignifikanciavizsgálat egyaránt a sokaságból nyert megfelelő minta alapján történik.

A statisztika azon ágát, mely a matematika valószínűségelméletére alapul, s amely azt vizsgálja, hogy milyen feltételek mellett érvényesek a minta alapján a sokaságra vonatkozó következtetések,

7

Page 8: Statisztika Jegyzet

induktív statisztikának vagy statisztikai következtetéselméletnek nevezzük.

A jegyzet célja, hogy a humánszervező és személyügyi szervező szakos hallgatók – majdan szakemberek – segítséget kapjanak statisztikai jellegű problémák felismerésében, azok kezelésében és megoldásában, illetve ha komolyabb statisztikai feladat előtt állnak, akkor meg tudják fogalmazni a statisztikus szakember számára kérdéseiket, kívánalmaikat.

Az anyag elsajátítása egyszerű középiskolai matematikai ismereteket feltételez, a jegyzetben igyekeztem elkerülni a bonyolultabb matematikai jelöléseket és képleteket, s nem foglalkoztam a tételek bizonyításával. A matematikai ismeretek legszükségesebbjeit külön fejezetben foglaltam össze, illetve a példákban a használatukat is bemutattam.

A jegyzet a tanulás megkönnyítése érdekében megoldott példákat is tartalmaz, melyeket igyekeztem úgy összeállítani, hogy az alkalmazási lehetőségekre irányítsák a figyelmet.

A jegyzet elkészítésekor nagyban támaszkodtam a Pécsi Tudományegyetem Közgazdaságtudományi Kara által kiadott statisztika jegyzetekre – a statisztikában elmélyülni szándékozók feltétlenül vegyék kezükbe Hoóz István, Hajdu Ottó, Pintér József, Rappai Gábor és Rédey Katalin jegyzeteit. Ajánlom még Hunyadi László–Mundruczó György–Vita László Statisztika című könyvét és a rengeteg példát közlő Spiegel, Murray R. Statisztika: Elmélet és gyakorlat című munkáját. Az interneten is sok honlap foglalkozik a statisztikával; egy javasolt induló oldal: www.statisztika.lap.hu

A jegyzetben csak utalni tudtam számítógépes statisztikai módszerekre. A speciális statisztikai programcsomagok közül elterjedt az SPSS, s a

8

Page 9: Statisztika Jegyzet

hétköznapokban jól használható a Microsoft EXCEL programja, sőt még a WORD is rendelkezik bizonyos statisztikában használatos lehetőségekkel, melyeket nemcsak a szakdolgozat elkészítésekor, hanem napi munkája során is jól hasznosíthat a falhasználó.

2004. április A szerző

9

Page 10: Statisztika Jegyzet

2. Matematikai alapfogalmak

A megszámlálás által közönséges egész számok vagy más néven pozitív egész számok: 1, 2, 3, 4, 5, keletkeznek. A matematika e legegyszerűbb számokból kiindulva újabb számnemek bevezetésével a számfogalom körét fokozatosan kibővíti, hogy a számokkal való műveletek, melyek a meglévő számnemek körében csak kivételesen oldhatók meg, mindig elvégezhetők legyenek. Például a kivonás a közönséges egész számok körében csak akkor végezhető el, ha nagyobb számból kisebbet vonunk ki.

Hogy bármely egész számból bármelyiket kivonhassuk, újabb számokat kellett bevezetni: a zérust és a negatív egész számokat. A zérus két egyenlő szám különbsége. A -k negatív szám pedig egy tetszőleges n kisebbítendőnek s a nálánál k-val nagyobb n+k kivonandónak különbsége. A pozitív és negatív egész számok meg a zérus együtt a racionális egész számok összességét alkotják.

A racionális egész számok körében a kivonás már mindig elvégezhető, az osztás azonban csak kivételesen. Hogy bármely egész számot bármely (a zérustól különböző) egész számmal eloszthassunk, a törtek bevezetésére volt szükség. Két egész szám hányadosa, hacsak nem maga is racionális egész szám, pozitív vagy negatív tört, aszerint, hogy az adott számok egyenlő vagy ellenkező előjelűek. Vannak véges és végtelen törtek. Pl. a ¾ véges eredményt, pontosan 0,75-öt eredményez, s vannak végtelen szakaszos törtek, pl. az 1/3, mert nincs az osztásnak vége 0,33333…

A racionális egész számokat és a törteket közösen racionális számoknak mondjuk (ide tartoznak a

10

Page 11: Statisztika Jegyzet

végtelen tizedes törtek is, mégpedig azért, mert osztással kifejezhetők). Ezek körében már mind a négy alapművelet mindenkor elvégezhető.

Azonban még ebben a számkörben sem végezhető el mindig a gyökvonás. A gyökvonás a négyzetreemelés ellenétes művelete, ami azt jelenti, hogy egy adott számot önmagával megszorzok: 22=2×2. A 4-ből, a 9-ből vonható gyök 24 , 39 ,

de már a 3-ból nem, ugyanis nincs olyan természetes szám, azaz a fentiek szerint olyan, ami osztással előállítható, amit önmagával megszorozva 3-at adna. Tehát ismét újabb számnemek bevezetésére van szükség: az irracionális számok és komplex számok bevezetésére. A négyzetgyök 2 vagy a négyzetgyök 3 tehát azért irracionális szám, mert nem fejezhető ki tört eredményeként. Két számnak egymáshoz való viszonya (rációja, a:b) törtszám (a/b). A négyzetgyök 2 vagy 3 pedig nem ilyen. Bármely törtszám csak megközelítheti azt az értéket, amelyet mai gyakorlat szerint az adott módon, négyzetgyökjel alá írunk.

A racionális számok a véges, illetve végtelen szakaszos tizedestörtek, az irracionális számok pedig a végtelen nem szakaszos tizedestörtek. A kettő együtt adja a valós számokat, így valós számoknak tulajdonképpen az összes felírható tizedestörtet tekintjük. Pl. valós szám a -5, 0, 2, 4/3 és a négyzetgyök 2 is.

Transzcendens számok: azok az irracionális számok, amelyek nem megoldásai egyetlen egy egész-együtthatós egyenletnek sem. Transzcendens szám a (pí= 3,14…) és a természetes logaritmus alapja, az e.

Az e számot Euler a következőképpen definiálta:

)!

1!2

1!1

11(

n értéke közelítőleg

e=2,718281828459045235.

11

Page 12: Statisztika Jegyzet

2.1. Függvénytani alapfogalmak

A függvénykapcsolat definíciója: Az y mennyiség – a függő változó – az x mennyiség – a független változó – függvénye, általános formában: y=f(x). Valamely függvény értelmezési tartománya azon értékek összessége, amelyeket x felvehet. Az y értékek összességét, halmazát értékkészletnek nevezzük.

A függvénykapcsolatot legtöbbször értéktáblázattal, grafikonnal vagy formulával adjuk meg. A formulával adott függvény értelmezési tartománya azon valós számok halmaza, amelyekre a formulában kijelölt műveletek értelmezve vannak. Pl. az y=ax+b -∞<x<∞, azaz bármilyen valós számra értelmezhető, a y=lg(x) függvény esetében a kapcsolat csak az x0-ra van értelmezve.

2.1.1. Elemi függvények

A függvényeket feloszthatjuk algebrai és transzcendens függvényekre. Az algebrai függvények közé tartoznak a racionális egész, racionális törtfüggvények, valamint az algebrai irracionális függvények. A nem algebrai függvényeket transzcendens függvényeknek nevezzük.

Elsőfokú függvény (lineáris függvény): y=ax+b. Itt a0 és b valós számok. A függvény képe egyenes, az a érték meghatározza az egyenes meredekségét, a b-érték pedig, hogy hol metszi az y tengelyt. Ha b=0 akkor az egyenes az origón megy át; ez a kapcsolat fejezi ki az egyenes arányosságot.

Pl. az y=–2x+3 formulával jelzett függvény értéktáblázattal és grafikonnal megadva:

x -2 -1 0 1 2 3 4y 7 5 3 1 -1 -3 -5

12 x

y

Page 13: Statisztika Jegyzet

Másodfokú függvény: y=ax2+bx+c (a0). A másodfokú függvény képe parabola. Ha a0, akkor szárai felfelé irányulnak; ha a0 akkor lefele. Mindkét esetben a parabola tengelye párhuzamos az y-tengellyel.

x -3 -2 -1 0 1 2 3 4 5 6y=x2 9 4 1 0 1 4 9 162536

y=2x2-3x+1

2815 6 1 0 3 102136 …

13

y

Page 14: Statisztika Jegyzet

A racionális törtfüggvény: a racionális törtfüggvények mindig felírhatók két racionális egész függvény hányadosaként. A legegyszerűbb racionális törtfüggvény: y=a/x. A függvény képe hiperbola, amelynek tengelyei a koordinátarendszer szögfelezői. Ez a függvénykapcsolat fejezi ki a fordított arányosságot.

Algebrai irracionális függvények: olyan függvények amelyekben a független változó az előzőkön kívül

gyökvonásban is előfordul. Pl. baxy . A függvény

képe az x tengelyre szimmetrikus, az a és a b értékétől függően ellipszis, parabola vagy hiperbola is lehet.

Transzcendens függvények: — Exponenciális függvények.

Általános alakja: y=ax, ahol a0 és a1

Pl.: y=2x

x -2 -1 0 1 2 3 4y 0,2

50,5 1 2 4 8 16

— Logaritmus függvény. A logaritmus függvény az exponenciális függvény inverz függvénye; y=ax

inverz kapcsolata x=logay, ebből az a változók felcserélésével kapjuk az a alapú logaritmusfüggvényt: y=logax.

Trigonometrikus függvények: a trigonometrikus függvényekben a független változó valamely szögfüggvénye szerepel. A szögfüggvények y=sin(x); y=cos(x); y=tg(x); y=ctg(x). A szögfüggvények periodikusak

14

-1

-0,5

0

0,5

1

Page 15: Statisztika Jegyzet

(a sinus- és cosinus-függvény képe köznapi nyelven: hullámvonal).

2.2. Az adatok kerekítése

Gyakran nincs szükségünk törteredményekre, vagy megelégszünk 1, vagy 2 tizedesjeggyel. Ilyenkor kerekítjük a tizedestörteket. A 3,157 egészre kerekítve 3, egy tizedesre kerekítve 3,2, két tizedesre pedig 3,16. A 7,864 pedig: 8; 7,9; 7,86 – azaz 5-ös értékig, azt is beleértve lefelé, 5-től pedig felfelé kerekítünk.

2.2.1. Szignifikáns számjegyek

A statisztikai szám1 esetében (részint a kerekítés okán) szignifikáns – jelentéssel bíró – számjegyekről beszélhetünk. Ha valakinek a testmagasságát pl. 1,76 méterként adjuk meg, ez azt jelenti, hogy a tényleges magasság 1,755 és 1,765 m között van. Ha pontosabban akarjuk az előbbi magasságot megadni, akkor 1,760-nak kell megadni (négy szignifikáns jeggyel); még pontosabban 1,7600 (öt szignifikáns számjegy). A 0,0012300 számban hét szignifikáns számjegy található.

A számjegyeket (a tizedesvessző helyét kijelölő nulla kivételével) szignifikáns jegyeknek nevezzük.

Gyakran nem is tudunk teljesen pontos adatokat prezentálni az adatfelvételi hibák folytán. Példa: a legutóbbi népszámlálás, mely 2001. január 31. és február 1. közötti éjfél eszmei állapotát próbálta rögzíteni. Elméletileg ekkorra minden magyar állampolgár „meg lett számlálva”, ám gyakorlatban

1 A statisztikai szám mindig valamire vonatkozik: például Magyarország lakossága 2003. január elsején 10 152 ezer fő; a 2002-ben 3900 általános iskola volt hazánkban. A matematikai szám elvonatkoztatott, puszta szám, pl.: 10 152 000, illetve 3900.

15

Page 16: Statisztika Jegyzet

lehettek néhányan, akiket nem ért el a kérdezőbiztos. E pontatlanság, hiba jelzésére gyakran találunk így megadva népességadatot: Magyarország lakossága 2002-ben 10.277 ezer fő. A szignifikáns számjegyek: 10.277. Az utolsó kiírt számjegy helyi értéke ezres. Az abszolút hibakorlát ennek a számtani közepe: â = 1000/2 = 500 – tehát a 10.277 ezer statisztikai pontossággal így értendő 10.277.000±500 fő.

Amikor lehetséges, akkor tehát számjegyekkel írjuk a szignifikáns értéket és betűvel jelezzük a nagyságrendet. (Pl.: 10 millió fő, 93 ezer m2.)

Természetesen létezik teljes körű adatfelvétel, pontosan megadható például a 2003/2004-es tanév tavaszi szemeszterére beiratkozott FEEFI-hallgatók száma stb.

2.3. Logaritmusok és használatuk

Minden pozitív számot ki lehet fejezni a 10 hatványaként. Ha N a szám, akkor létezik olyan p, amelyre igaz, hogy N=10p. Ezt a p-t nevezzük az N tízes alapú logaritmusának. 1000= 103, ezért log 1000=3, 0,01= 10-2, ezért log 0,01=–2. Ha az N 1 és 10 közé, azaz 100 és 101 közé eső szám, akkor p=logN 0 és 1 közé esik, értéke pedig a logaritmustáblázatból kereshető ki.

A logaritmus használatával a szorzás összeadássá, az osztás kivonássá, a hatványozás szorzássá, a gyökvonás osztási műveletre „egyszerűsödik”. Pl.:

M×N= log M+log NM/N= log M-log NMk=logM×k

2

logNN

5

log5 MM

16

Page 17: Statisztika Jegyzet

Minden pozitív szám logaritmusa kifejezhető az 1 és 10 közötti számok logaritmusaiból. Pl.: 2,36 logaritmusértéke

log2,36= 0,3729 azaz 2,36=100,3729

A 23,6 felírható 10×2,36-ként, a 236=100×2,36= 102×2,36, azaz ezen számok logaritmusa:

23,6=log10+log2,36= 1+ 0,3729= 1,3729, illetve236=log100+log2,36 =2+0,3729= 2,3729.

6864,02

1,3729

2

6,23log23,6

A logaritmustáblázatból „visszakeresve” a 0,6864-et 4,86 kapunk.

A logaritmusértékekben a tizedesvessző utáni decimális részt mantisszának, a tizedesvessző előtti egész számot a logaritmus karakterisztikájának nevezzük. A karakterisztikát magunknak kell meghatározni, a mantisszát táblázatból keressük ki. Pl. a 12650 logaritmusánál a karakterisztika 4 (eggyel kevesebb, mint a tizedesvessző előtti számok).

2.4. Sorozatösszeadások, szorzatok

A változókat az x,y,z betűkkel jelöljük. Ha egy adott változó több értéket is felvehet, akkor alsó index jelzi ezt. Az xj (yj, zj) jelöli az x (y,z) változó által felvett összesen n számú x1, x2, x3 …xn értéket. A j helyett vagy mellett használatos az i, k, p, q karakter is.

Képletekben sok (n darab) szám összeadását röviden is jelölhetjük a görög nagy szigma () jel használatával. A változónál alsó indexben jelöljük, hogy hányadik eleme a sorozatnak. Pl.:

x1+x2+x3+…+xi+…+xn=xn

Matematikailag akkor korrekt a jelölés, ha a szumma jel alján a kezdő, tetején az utolsó értéket

17

Page 18: Statisztika Jegyzet

megadjuk, de ha nem jelent félreértést, akkor nem szükséges feltüntetni a határokat:

n

inx

1(szumma x, i egyenlő egytől n-ig)= xn

Ha ugyanezen számokat össze kell szorozni, akkor a görög nagy pí betűvel () jelezzük a szorzást:

x1×x2×x3×…×xi×…×xn=

n

n

i

n xx1

2.5. Kombinatorikai alapok

Összetett események valószínűségének számításakor, ha az egyik esemény n féleképpen, a másik esemény m-féleképpen következhet be, akkor a két esemény n×m-féleképpen következhet be.

Például ha a Hallgatói Önkormányzat (HÖK) elnökére 3 jelölt van, alelnökére pedig 4, akkor a két tisztség 3×4=12 féleképpen tölthető be.

Ugyanígy „megjósolhatjuk”, valószínűsíthetjük, hogy egy 52 lapos (francia) kártyacsomagból ha két lapot húzunk ki, mekkora a valószínűsége, hogy mindkettő ász? Ha egymás után két lapot húzunk, akkor az első lap esetében 4/52-ed a valószínűsége, hogy a lap ász (négy ász van egy csomagban), a második lap kihúzása előtt viszont már csak 3/51-ed, hiszen egy ász már hiányzik. Ha viszont az első lapot visszatesszük, akkor újra 4/52-ed valószínűséggel húzhatunk ászt.

Alapvetően tehát kétféle módon, visszatevés nélkül és visszatevéssel húzhatunk lapot, s ennek megfelelően más-más valószínűséggel:visszatevéssel:4/52×4/52 = (4×4)/(52×52) = 16/2704 = 1/169 ≈ 0,00592visszatevés nélkül:

18

Page 19: Statisztika Jegyzet

4/52×3/51 = (4×3)/(52×51) = 12/2652 = 1/221 ≈0,004525

2.5.1. Faktoriális

Egy szám faktoriálisán azt értjük, hogy 1-től az adott számig összeszorozzuk a természetes számokat. A faktoriális jele a felkiáltójel: (!). A faktoriális tehát a következő módon értelmezzük. (A 0! definíció szerint=1)

n!= n×(n–1)×(n–2)…×2×1Pl.: 5!=5×4×3×2×1=120 4!3!

=(4×3×2×1)×(3×2×1)=144

2.5.2. Permutációk

Ha a sorrendet is figyelembe véve választunk ki egy sokaságból egyedeket (tehát pl., az alma-körte párost megkülönböztetjük a körte-alma párostól), vagy hogy hányféleképpen rakhatunk egymás mellé különböző elemeket, akkor permutációról beszélünk.

Például hányféle sorrendet alakíthatunk ki a magyar kártya piros lapjaiból? 8 kártyalapot nyolc helyre tehetjük le. Az első helyre a 8 lap bármelyike kerülhet (a 7-estől az ász-ig bármelyik). A második helyre a maradék hét lap bármelyikét tehetjük, a harmadikra a maradék hat lap bármelyikét és így tovább. A nyolc lap lehetséges sorrendjeinek száma tehát:

8×7×6×5×4×3×2×1=8!= 40 320

Ha a sokaság n számú tárgyból áll és r számút húzunk ki közülük, akkor a permutációk számát Pn,r-rel jelöljük, s így számítjuk:

)!(

!P rn, rn

n

Például: hányféleképpen tudunk 3 lapot kiválasztani a nyolc piros lap közül úgy, hogy a kiválasztás sorrendje is fontos?

19

Page 20: Statisztika Jegyzet

Az első helyre bármelyiket tehetjük a nyolc lap közül, a másodikra bármelyiket a maradék hét lap közül és végül a harmadikra bármelyiket a maradék hat lap közül. Tehát: 8×7×6=336 féleképpen választhatunk.

Az általános összefüggés szerint:

2.5.3. Kombinációk

Ha a kihúzási sorrend nem mérvadó (azaz az abc=acb=bac=bca=cab=cba, s csak egyszer vesszük figyelembe) akkor n elem r-ed osztályú kombinációját kapjuk. A kapott kombinációk jelölése:

A piros kártyalapokra:

A lottó-húzásoknál szintén visszatevés és ismétlés nélkül sorsolják ki a számokat:

43949268120

527391216012345

8687888990)!590(!5

!905

90

Azaz 43 949 268 féleképpen választhatunk ki 90 szám közül ötöt úgy, hogy a kiválasztott számokat nem tesszük vissza a húzás után, s a kihúzás sorrendje nem számít: ennyi lottócédulát kellene kitölteni, hogy biztosan legyen egy öttalálatos szelvényünk.

A hatoslottónál:

20

Page 21: Statisztika Jegyzet

2.5.3.1 Példák a valószínűségszámításra és kombinatorikára

Példa 1.: Egy zsákban 4 fehér és 2 fekete, egy másikban pedig 3 fehér és 5 fekete golyó van. Mindegyikből egy golyót húzunk ki. Mekkora annak valószínűsége, hogy a 2 golyó közül a.) mindkettő fehér; b.) mindkettő fekete; c.) egyik fehér, a másik fekete?

a.) Az első zsákban 4+2=6 golyó van összesen, ebből 4 fehér, a másikban összesen 3+5=8 golyó, melyből 3 fehér, tehát a két fehér golyó kihúzásának valószínűsége:

b.) Két feketére:

c.) Az az esemény, hogy az egyik fehér, a másik fekete megegyezik azzal, hogy vagy az első fehér és a második fekete, vagy az első fekete és a második golyó fehér. Ezért a két lehetőség együttes valószínűsége:

Példa 2.: Öt diák elhatározza, hogy együtt vizsgázik, de mindig más sorrendben. Hányszor kellene vizsgázniuk?

Az első vizsgán bármelyikük lehet az első. Ennek rögzítése után a második hely négyféleképpen tölthető be stb. Az öt diák lehetséges sorrendjeinek (permutációjának) száma:

21

Page 22: Statisztika Jegyzet

5×4×3×2×1=120=5! általánosan: n×(n-1)×(n-2)×…×1=n!

Azaz ha tíz szemeszter áll rendelkezésükre, átlagosan 6 vizsgával (10×6=60), akkor nem tudják teljesíteni vállalásukat.

Hányféleképpen vizsgázhat le ez az öt diák, ha egyszerre hárman mehetnek be a vizsgáztatóhoz, de nem mindegy hogy milyen sorrendben az adott három?

Az első vizsgahármasból a legelső bárki lehet, a második négyféle, a harmadik háromféle módon tölthető be. Tehát:

5×4×3=60 általánosan: n×(n-1)×…(n-r+1), ahol „n” az összlétszám, „r” pedig az egyszerre kiválasztottak száma. Így éppen teljesíthetik vállalásukat

S hányféleképpen, ha egyszerre hárman mehetnek be, de nem vesszük figyelembe, hogy hármójuk sorrendje milyen?

Az általános forma felhasználásával:

22

Page 23: Statisztika Jegyzet

3. A nagy számok törvénye és a reprezentatív megfigyelés

A leíró statisztika minden esetben a megfigyelt teljes sokaságra vonatkoztatva dolgozik, s így értelemszerűen mindig (közel) pontos adatokkal tud szolgálni.

A statisztikai következtetés (induktív statisztika) valamely okból nem tudja számba venni a meghatározott sokaságot, ezért a sokaságból vett minta adatainak megfelelő feldolgozása alapján von le következtetést a teljes sokaságra vonatkozóan. Az induktív statisztika értelemszerűen valamekkora hibaszázalékkal dolgozik; pontosabban: mindig egy meghatározható valószínűséggel állít valamit a sokaságról. A módszere tehát kiegészül annak meghatározásával, hogy mekkorának kell lennie a mintának ahhoz, hogy egy megkívánt valószínűséggel jelenthessen ki valamit a sokaságról. (A közvélemény-kutató intézetek például a havi pártpreferencia-vizsgálatok esetében 1000-1500 fős reprezentatív mintán tendenciajelleggel 5%-os hibával képesek megválaszolni azt a kérdést, hogy „ha ma lennének a választások, Ön melyik pártra szavazna?”. Ha nem tendenciajelleggel történik a vizsgálat, akkor 5-10 ezer fős minta szükséges az 5%-os hibával történő becsléshez.) Belátható: a minta elemszámának növelésével a hiba nagysága csökkenthető; ad absurdum: ha a mintába a teljes sokaság bekerül, a hiba 0-vá válik.)

A mintavételes statisztika módszerével lehet élni, ha a teljeskörű adatfelvétel túlságosan költséges és/vagy sokáig tartana. A teljeskörű népszámlálás például nagyon költséges, ezért csak 10-15 évenként

23

Page 24: Statisztika Jegyzet

kerül rá sor. Ez idő alatt jelentős változások történhetnek mind a népességszámban, mind a népesség kor-, iskolázottsági, lakóhely-megoszlási stb. adataiban. Ezekről a változásokról a mikrocenzusok adnak képet néhány tízezres mintákon végzett adatgyűjtés alapján. Ha a teljeskörű adatfelvétel (tehát egy országos népszámlálás) alkalmával mintavételes adatgyűjtés is történik, akkor azok összevetésével ellenőrizhető a mintavételes módszer megbízhatósága, illetve finomíthatók módszerei.

A mintavételes statisztika módszerével kell élni, ha a teljes körű adatfelvétel lehetetlen. A pszichológiai kutatások történhetnek leíró statisztikai eszközökkel egy adott személy vagy csoport esetében. Tekintheti a csoportot mintának, pl. annak vizsgálatára, hogy milyen reflexidő jellemzi a magyarországi korcsoportokat. Ám ha általános emberi tulajdonságokat kíván számszerűsíteni (minden, valaha élt, most élő és még meg sem született – azaz végtelen számú sokaságot), akkor csakis a mintavételes, azaz a matematikai statisztika módszereivel dolgozhat.

A szociológiai kutatások szintén alapvetően mintavételen alapulnak.

A statisztikai következtetés tehát mintából gyűjt adatot, s az adatfeldolgozás utáni eredményelemzés a teljes sokaságra vonatkozik meghatározott valószínűséggel: a sokaságból vett minta adataiból próbálunk következtetni a sokaság megfelelő paraméterére. Más esetben arra vagyunk kíváncsiak, hogy egy minta melyik sokaságból került ki. Ám egyik esetben sem jelenthetjük ki száz százalékos biztonsággal következtetésünket, hanem csak valamilyen valószínűséggel állíthatunk bármit is.

24

Page 25: Statisztika Jegyzet

A valószínűségszámítás a matematikának viszonylag fiatal ága, kibontakozásában nagy szerepe volt a szerencsejátékoknak. Pascal, a nagy francia fizikus-matematikus az elsők között foglalkozott ezzel a kérdéssel:2

„…az emberek azt hiszik, hogy ha valamit nem tudnak biztosan – már pedig biztosan szinte semmit nem tudnak – akkor nem tudnak semmit. Gondolatmenetem kiinduló pontja éppen az, hogy ez tévedés. A részleges tudás is tudás és a részleges bizonyosság is értékes lehet, különösen, ha tudom azt, hogy e bizonyosság milyen fokú. »Hogyan, hát lehet a bizonyosság fokát mérni, számmal kifejezni?« – kérdezheti valaki. Valóban lehet – válaszolom erre –, minden játékos ezt teszi. Amikor egy játékos egy kockát feldob, nem tudhatja, milyen számot fog dobni, de azért mégis tud valamit: azt hogy mind a 6 számnak egyenlő esélye van. Ha a teljes bizonyosságát választjuk egységnek, a hatos dobásának bizonyosságát (és ugyanígy a többi 5 szám dobásának bizonyosságát) 1/6 fejezi ki. Ha egy kockát négyszer egymás után dobunk fel, akkor, mint már de Méré lovag észrevette, előnyös arra fogadni – egyenlő tételek mellett – hogy legalább egyszer 6-ost dobunk: ez szerintem azt jelenti, hogy azon esemény

2 Blaise Pascal (1623–1662) sem iskolába, sem egyetemre nem járt, apja tanította őt mindenre. Pascal már tizenhat éves korában megírta a kúpszeletekről szóló munkáját; tizenkilenc éves korában pedig feltalált egy mechanikus számológépet – joggal tekinthetjük a kibernetika úttörőjének. 1646-ban igazolja a légnyomás függését a tengerszint feletti magasságtól, felfedezi a hidrosztatika alaptörvényét és a hidraulikus prés alapelvét. A tudományban szilárdan a kísérleti módszer és az előítélet nélküli logikus gondolkodás oldalán állott.1653-ban Pascal előkelő és nagyvilági életet élő barátaival,

Roannez herceggel, de Méré lovaggal és Mitonnal együtt Poitou-ba utazik. Valószínűleg ezen utazás alatt tette fel Pascalnak de Méré lovag azt a két, a szerencsejátékokra vonatkozó kérdést, amelyről Pascal 1654-ben Fermat-tal levélváltást folytatott. E levélváltással vette kezdetét a valószínűségszámítás. E levelek megjelentek Rényi Alfréd: Levelek a valószínűségről című kötetben (Typotex Kiadó, Budapest. 1984) Az első kérdés a következő: hányszor kell két kockával dobni ahhoz, hogy annak a valószínűsége, hogy legalább egyszer két hatost dobjunk, nagyobb legyen 1/2-nél?

25

Page 26: Statisztika Jegyzet

bizonyosságának, hogy a négy dobás során legalább egyszer 6-ost dobjunk, a foka ½-nél nagyobb. Ha egy esemény bekövetkezésének és be nem következésének esélyei pontosan egyenlőek, mint például a pénzfeldobásnál a fej és írás esélyei, azt mondom, hogy az esemény bizonyosságának foka éppen ½, és ugyanennyi az esemény be nem következése bizonyossági foka. Persze az, hogy a biztos esemény bizonyossági fokát 1-nek választom, tulajdonképpen önkényes: lehetne ehelyett más számot is választani, pl.: 100-at, és akkor a véletlentől függő események bizonyossági fokát százalékban kapnánk meg. Lehetne esetenként más-más számot választani; ha például a kockadobásnál a teljes bizonyosságnak a 6 számot feleltetnénk meg, az egyes számok bizonyossági foka 1-nek adódnék. Legtermészetesebbnek azonban azt érzem, hogy a teljes bizonyosságnak az 1 számot feleltessük meg, és így minden véletlen esemény bizonyossági fokát azzal mérjük, hogy az hányadrésze a biztos esemény teljes bizonyosságának. A lehetetlen esemény bizonyossági foka természetesen 0 lesz; ha tehát egy véletlen esemény biztonsági foka pozitív szám, ez azt jelenti, hogy az illető esemény bekövetkezése lehetséges – habár ennek esélyei esetleg rendkívül csekélyek. Hadd jegyezem meg rögtön, hogy a bizonyosság fokának külön elnevezést adtam: valószínűségnek nevezem. A szó megválasztásán sokat töprengtem és végül ezt találtam a legkifejezőbbnek. A mindennapi szóhasználattal ez, úgy érzem, teljes összhangban van. Persze a mindennapi beszédben csak azt szoktuk mondani valamiről, hogy »valószínű«, vagy, hogy »nem valószínű«, illetve egy eseményről azt, hogy »valószínűbb«, mint a másik. Én viszont abból az alapfeltevésből indulok ki, hogy minden olyan eseménynek, amelyek bekövetkezésében nem lehetünk biztosak, de nem is tekinthetjük azt kizártnak, más szóval minden olyan eseménynek, amely a véletlentől függően be is következhet meg nem is, a valószínűsége egy meghatározott – nulla és egy közé eső – számmal fejezhető ki. Azoknak az eseményeknek, amelyeket a mindennapi szóhasználat szerint valószínűnek nevezzük, a valószínűsége 1-hez (a teljes bizonyosság valószínűségéhez) van közel. Míg

26

Page 27: Statisztika Jegyzet

azoknak az eseményeknek, amelyeket a mindennapi életben valószínűtlennek nevezünk, a valószínűsége 0-hoz (lehetetlen esemény »valószínűségéhez«) van közel.”

Két kocka esetében annak valószínűsége tehát, hogy mindkettő azonos oldalára esik (mind a kettő pl. 6-os), az egyenkénti valószínűségek szorzata adja meg: 1/6×1/6=1/36. Pénzérme esetén: ½×½=¼.

Négy érmére vonatkoztatva már felismerhető a szabályszerűség:

Előfordulás F I Valószínűség

F F F F 4 0 1/16=0,0625

F F F I 3 1

F F I F 3 1 4/16=0,25

F I F F 3 1

I F F F 3 1

F F I I 2 2

F I F I 2 2

F I I F 2 2 6/16=0,375

I F F I 2 2

I F I F 2 2

I I F F 2 2

F I I I 1 3

I F I I 1 3 4/16=0,25

I I F I 1 3

I I I F 1 3

I I I I 0 4 1/16=0,0625

Pascal egy egyszerű táblázatot, „háromszöget” készített az együtthatók alakulására N függvényében:

N0 1

1 1 1

2 1 2 1

3 1 3 3 1

4 1 4 6 4 1

5 1 5 10 10 5 1

27

Page 28: Statisztika Jegyzet

6 1 6 15 20 15 6 1

7 1 7 21 35 35 21 7 1

8 1 8 28 56 70 56 28 8 1

Minden sorban az első és utolsó szám 1; a közbensők pedig megkaphatók az előző sorban felette balról és jobbról lévő két szám összegeként. Pl.: 10=4+6, 15=5+10

A Pascal-háromszögből könnyen kiolvasható 8 pénzérme feldobásának lehetséges eloszlása. Az összes variációs lehetőség 28=256. Ebből csak 1-1-szer fordul elő, hogy mind a nyolc érme azonos oldalára esett. 8 olyan eset van, amikor egy pénzérme „írás” a többi pedig „fej” stb. Ha diagramon ábrázoljuk az előfordulásokat jellegzetes eloszlástípushoz jutunk.

Belátható, ha növeljük a feldobott pénzek számát, egyre több oszlopot kapunk, melyeket egyre inkább „helyettesíthetünk” egy folytonos

görbével. Ábránkon még szaggatottan jelezzük ezt a harangra emlékeztető burkológörbét.

Már az érmék feldobása előtt megmondhatjuk tehát, hogy mekkora a valószínűsége annak, hogy mind a négy (vagy mind a nyolc, akár mind a száz) azonos oldalára esik, vagy hogy mekkora a valószínűsége annak, hogy a négy (nyolc, száz) közül ugyanannyi lesz „írás” mint fej.

Galton egy készüléket szerkesztett a binominális eloszlás modellezésére: a felső tölcséren egymás után apró söréteket szórt abba a dobozba, mely-ben ékek állták útját a golyócskáknak.

28

1

8

28

56

70

56

28

8

10

10

20

30

40

50

60

70

Page 29: Statisztika Jegyzet

Az első szinten egy, majd a másodikon 2, a har-madikon 3 stb. ék helyeződött el. Az ékeken véletlen-szerűen vagy jobbra, vagy balra pattantak a golyók (egy golyó tehát úgy „viselkedett mint egy pénzérme, amit annyiszor „dobtak fel”, ahány emelet volt az ékekből). A doboz alját rekeszekre osztotta Galton, s azt tapasztalta sokszori kísérlet után is, hogy a szélső rekeszekbe kevés, befelé egyre több, a középen levő rekeszbe pedig a legtöbb sörét gyűlt össze.

Ha a rekeszek számát tetszés szerint növeljük (elméletileg, hiszen a gyakorlatban egy rekesz nem lehet keskenyebb, mint egy golyócska átmérője) és a golyók méretét a matematikai ponthoz közelítjük, akkor a diszkrét eloszlás folytonos eloszlássá alakul át.

diszkrét eloszlás folytonos normál eloszlás

29

Page 30: Statisztika Jegyzet

3.1. Főbb eloszlástípusok

A normális eloszlás nagyon elterjedt a sokaságra vonatkoztatva is. Normál eloszlást követ például az emberek testmagassága vagy a sorozatgyártású csapágygolyók átmérője. Vannak azonban más típusú eloszlások is; a legjellegzetesebbeket ábránk mutatja:

exponenciális lognormális (2) normális pl.: vállalatnagyság jövedelmek testmagasság

A tiszta típusú eloszlások mellett azok kombinációival létrejövő eloszlások is ismeretesek. A mintavételen alapuló statisztikai módszerek legtöbbje a normális és a lognormális eloszlásokon (és ezek kombinációján) alapulnak. Ezek közül is a legfontosabb a normális eloszlás.

3.2. A binomiális és a normális eloszlás

Mind a binomiális, mind a normál eloszlás jellegzetes eloszlás. N darab pénzérme összes lehetséges eloszlása binomiális, az emberek testmagassága, testsúlya normál eloszlást követ.

3.2.1. Binomiális (Bernoulli3-) eloszlás

Ha egy esemény bekövetkezésének valószínűsége egy egyszeri kísérlet során p, és q=1-p ugyanezen

3 Jacob (Jacques) Bernoulli . (1654−1705) 33 éves korában a bázeli egyetem matematikaprofesszora lett. Kiváló eredményeket ért el az analízis fejlesztésében, a sorelméletben, a differenciálegyenletek elméletében, a variációszámításban és a

valószínűségszámítás alapjainak lerakásában. A Bernoulli-család több mint féltucat tagja örökítette meg nevét a matematikában.

30

Page 31: Statisztika Jegyzet

esemény be nem következésének a valószínűsége (pénzdobásnál p=q=0,5; kockadobásnál p=1/6, q=5/6), akkor annak valószínűsége, hogy ez az esemény N kísérletből pontosan X-szer következik be:

XNXXNX qpXNX

Nqp

X

NXp

)!(!!

)(

Példa: Annak valószínűsége, hogy 6-szor feldobva egy szabályos érmét, pontosan 2 alkalommal kapunk fejet:

6415

61

!4!2!6

21

21

2

6 6262

A fenti képlettel megadott diszkrét, binomiális valószínűségeloszlás X=0, 1, 2, 3, … N értékekre felbontva:

NNNNNN ppqN

pqN

pqN

qpq

33221

321)(

ahol, 1,

2

,1

NN, … a binomiális együtthatók.

Példa egy pénzérme négyszeri (vagy 4 érme egyidejű) feldobására:

432234

4322344

14641

3

4

2

4

1

4)(

pqppqpqq

pqppqpqqpq

Az együtthatók (1,4,6,4,1) ismerős értékek: a négy érme egyidejű feldobásakor „kiókumlált” táblázatból.

31

Page 32: Statisztika Jegyzet

3.2.2. Normális (Gauss-féle) eloszlás

Matematikailag Gauss4 német matematikus jellemezte az egyik legfontosabb folytonos valószínűségeloszlást, ezért szokás Gauss-görbének is nevezni (köznapi elnevezése alakja okán: haranggörbe).

Normális (Gauss-féle) eloszlás jelölése N(, ), sűrűségfüggvénye:

22

2)(

2

1)(

X

eYxf

ahol =átlag, =szórás, =3,14159:, e=2,71828…

A normál eloszlást tehát jellemzi az eloszlás átlaga (a görbe csúcsa) és szórása.

3.2.3. A szórás tulajdonságai

A szórás az átlagtól vett eltérések négyzetes átlaga (jele a görög kis szigma , ha a szórás a sokaság szórása. A sokaságból vett minta szórását általában s betűvel jelöljük):

A szórás számos előnnyel rendelkezik a szóródási statisztikákkal szemben. A legfontosabb: ha a sokaság normális eloszlású, akkor a szórással jól jellemezhetjük az átlagtól való eltérések gyakoriságát. Annak a 4 Gauss, Karl Friedrich, német matematikus, fizikus és csillagász

(1777–1855). A göttingai egyetem tanult, ahol megismerkedett és baráti viszonyba került Bolyai Farkassal, akivel később is sok levelet váltottak. Gauss főképp mennyiségtani munkálatokkal foglalkozott, és már 1795-ben feltalálta a legkisebb négyzetek módszerét és a körosztás elméletét (s annak alapján a szabályos 17-szög szerkesztését). Ez évben kezdte meg nagy művét, a Disquisitiones arthmetica-t. Doktori értekezésében bebizonyította, hogy minden algebrai egyenletnek a komplex számok alkalmazásával annyi gyöke van, ahányadfokú az illető egyenlet.

32

Page 33: Statisztika Jegyzet

sokaságnak, melynek nagy a szórása (azaz az egyes egyedei jelentősen eltérnek az átlagtól) az eloszlási görbéje „lapultabb”, mint a kis szórásúnak – x>y:

Mivel a görbe a sokaság eloszlását jelzi, a görbe alatti terület nagysága 1, azaz százalékosan 100%. Ha az átlagtól jobbra és balra kijelöljük a vízszintes

tengelyen a szórás értékét, akkor a felette lévő terület a teljes görbe alatti terület 68,27%-a. Két-két szórásnyira az átlagtól a befogott terület a teljes terület 95,45%-a, a három-három szórásnyi terület pedig már 99,73%.

Ez a szabályszerűség még mérsékelten szimetrikus normál-jellegű eloszlásnál is érvényesül.

Ha a sokaság testmagasságátlaga például 170 cm és a magasság szórása 10 cm (átlagos felnőtt lakosság), akkor tehát a fentiek értelmében a 170 10 cm-es tartományba esik 1000 ember közül 683-nak a testmagassága; a 170 2×10 cm-es tartományba, azaz 150—190 cm közé 1000 ember közül 954-é, s mindössze 3 olyan ember van, aki vagy alacsonyabb mint 140, illetve magasabb mint 200 cm. Az összefüggés akkor is igaz, ha más az egységnyi szórás. Ha egy másik sokaság testmagasságátlaga 190 cm, s az ő magasságszórásuk 1 cm (a sokaságot egy

átlag

x y

X Y

33

--2-3

68,27%

-3 -3--2

95,45%

--2

99,73%

Page 34: Statisztika Jegyzet

díszezred jelenti), akkor a 190 1 cm-es tartományba, azaz 189—191 cm közé esik 1000 egyén közül 683 magassága, s csak 3 olyan ember akad ezer közül akiknek a 187—193 cm-es tartományon kívül esik a testmérete.

A sokaságból számított átlagnak, szórásnak stb. van mértékegysége – ha testmagasságból számítjuk, akkor cm, ha testsúlyból akkor kg stb. Ha ezektől el kívánunk tekinteni, akkor standardizálnunk kell értékeinket.

3.2.4. A standard valószínűségi változó

Az a változó, amely az átlagtól vett eltérést a szórás mértékegységében méri, a standardizált változó. Ha egy várható értékű szórású normális eloszlású valószínűségi változót N() a

x

Z

transzformációnak vetünk alá, akkor a z standardizált valószínűségi változó nulla várható értékű (átlagú), 1 szórású N(0,1) standard normális eloszlású lesz, s transzformáció során „elveszti” a mértékegységét. (A 0 várható értéket úgy értelmezzük, hogy most már nem érdekes, hogy minek az átlaga, s hogy cm, vagy kg mértékegységű-e, hanem hogy az eloszlás közepére helyezzük az X-tengely 0-pontját (megtehetjük, hiszen az eloszlás szimmetrikus). A szórásnak megfelelő standardizált változó is elveszti mértékegységét és 1-gyel lesz egyenlő , az eddigi egységnyi – a példában 10 vagy 1 cm – helyett. Most már egy normál eloszlási táblázattal dolgozhatunk (lásd II. melléklet.

34

Néhány z

értékhez

tartozó

terület0,1,03980,5,19150,8,2881,34131,2,38491,38,39971,65,45051,96,4750,47722,58,4950,49873,5,4998

z

Page 35: Statisztika Jegyzet

Ezt a z-értéket behelyettesítve a Gauss-féle sűrűségfüggvénybe, megkapjuk annak az ún. standard alakját:

2

2

21

)(Z

eYxf

A standardizálás tehát összehasonlíthatóvá tesz különböző dimenziójú és paraméterű eloszlásokat.

3.2.4.1 Példák a standardizálásra

Példa 1.: Statisztika vizsgán az évfolyam tesztjeinek pontátlaga 72, szórása 15 volt.

Határozzuk meg azon hallgatók standard eredményét, akik a.) 60; b.) 72 és c.) 93 pontot értek el!

a.)

8,015

7260

sXX

z

A normál eloszlás táblázatból (II. melléklet) z=0,8-hez 0,2881 érték tartozik, azaz a várható értéktől jobbra a terület nagysága: 28,81%. Mivel z értéke negatív előjelű volt, ez azt jelenti, hogy a 60 pontot elért hallgatónál az összes hallgató 50-28,81= 21,19%-a nálánál rosszabb eredményt ért el, 78,81%-a pedig jobbat.

b.) Az a hallgató akinek a pontszáma éppen megegyezik az átlaggal, természetesen az eloszlás közepén helyezkedik el (normál eloszlást feltételezve), az ő standard eredménye:

015

7272

sXX

z

c.) A 93 pontot elért hallgatónál:

4,115

7293

sXX

z → ehhez a z értékhez a II.

táblázatból 0,4192 érték tartozik, a terület nagysága:

35

Page 36: Statisztika Jegyzet

41,92%, azaz az összes hallgató kereken 8 százaléka ért el nálánál jobb eredményt.

Példa 2.: Egy hallgató 54 pontos eredményt ért el az informatika kollokviumon, melyen az évfolyamátlag 48 pont volt 5 pontos szórással. Ugyanezen hallgató statisztikából 76 pontot ért el, ahol az átlagos pontszám 69 volt 12 pontos szórással. Melyik tárgyból ért el relatíve jobb helyezést?

2,156

54854

inf

z illetve: 58,0127

126976

stz

Informatikából ért el relatíve jobb eredményt, hiszen az informatikaátlagnál 1,2 standard szórásnyira volt jobb, statisztikából viszont csak 0,6 szórásnyival.

Példa 3.: Az egérpopuláció átlagos testsúlya 36 gramm, 1,9 grammos szórással. Az elefántnépesség

átlagsúlya 42 mázsa 8,2 mázsás szórással. Mickey Mouse súlya 38 gramm, Jumbóé 44,2 mázsa. Melyikőjük súlya nagyobb a saját csoportjában?

Tehát Mickey Mouse súlya csak 0,105 standard értékkel tér el a várható értéktől, ehhez A II. mellékelt táblázatában cca. 0,0418 érték tartozik, Jumbóé viszont 0,268, melyhez cca. 0,1056 érték tartozik (lineáris extrapolációval: a táblázati értékeknél ugyanis 0,26-hoz 0,1026 míg 0,27-hez 0,1064 tartozik. A két érték különbözetének tizede 3,8, ennek nyolcszorosa 30,4 —0,1026+0,0030=0,1056). Tehát 0,5-0,105=0,395 – az egerek 39,5%-a Mickey Mouse-nál nehezebb, viszont csak 23,2% nehezebb elefánt van Jumbónál: Jumbóra inkább ráfér egy kis fogyókúra.

Példa 4.: Tudjuk, hogy egy horgásztóban lévő halak átlagos hossza =28 cm =4 cm-es szórással. A

36

105,09,13638

.

MouseMz 268,02,8

422,44

Jumbóz

Page 37: Statisztika Jegyzet

halak hossza normál eloszlást követ. A horgászoknak vissza kell dobniuk azokat a halakat, melyek hossza nem éri el a 30 cm-t. Milyen arányban vannak a tóban a kifogható és visszadobandó méretű halak?

A válaszhoz standardizálnunk kell a 30 cm-es értéket:

A II. táblázatban az 0-tól balra eső területek vannak megadva. Mivel a görbe szimmetrikus, a 0-tól balra eső görbe alatti terület 0,5 (50%)A z=0,5-höz tartozó szürke terület nagysága= 0,1915 (19,15%). E két terület összesen a visszadobandó halak tartománya, azaz 100—69,15≈30% az elvihető halak aránya. 100 kifogott közül tehát átlagosan harmincat vihetnek haza a horgászok.

3.3. Kapcsolat az eloszlások között

Galton készülékénél már utaltunk a binomiális és a normális eloszlás közötti kapcsolatra. Ha N elég nagy és sem p, sem q nincs közel a 0-hoz, akkor a binomiális eloszlás jól közelíthető a standardizált normális eloszlással:

Npq

NpXz

(p-vel jelöljük a lehetséges két állapot közül az egyik valószínűségét, q-val a másik állapot valószínűségét. Így például p jelölheti pénzfeldobás esetében az „írás”, q pedig a „fej” valószínűségét. Értelemszerűen p+q=1, és szabályos érme feldobása esetén p=q=0,5 (50%) Ha több lehetséges állapot is van (mint kockadobás esetén), akkor p-vel a számunkra kedvező, q-val a

37

0 0,5z

A kifogható halak

tartománya

Page 38: Statisztika Jegyzet

számunkra kedvezőtlen valószínűséget jelöljük. Kockadobásnál a számunkra kedvező, ha 6-os dobunk, ennek valószínűsége 1/6-od; minden más eset számunkra kedvezőtlen, melynek valószínűsége 5/6-od. Természetesen itt is igaz: p+q=1, illetve p=1-q.

3.3.1. Diszkrét egyenletes eloszlás

Végezetül említést kell tennünk a diszkrét egyenletes eloszlásra, bár a statisztikai módszerek között tiszta előfordulása ritka, de a köznapi életből számos példa hozható rá: lottóhúzás (mind a kilencven számból egy-egy van, azaz egyenletes az eloszlás). A kockának hat oldala van, hat különböző számmal, ezek is egyenletesen oszlanak meg stb.

Az egyenletes eloszlás esetében minden kimeneti érték bekövetkezése egyenlően valószínű: 1/90-ned, 1/6-od stb.

38

Page 39: Statisztika Jegyzet

4. A mintavétel alapjai

4.1. A statisztikai egység, sokaság és minta

A statisztikai egység a megfigyelés tárgyát képező egyed, a statisztikai információ hordozója. Lehet élőlény, tárgy, képzett egység. A statisztikai sokaság a megfigyelt egyedek összessége. A statisztikai sokaság, populáció (tömeg) valamely szempont szerint elhatárolt sokaság, összesség. Az egység a sokaság azon legkisebb része, amely még rendelkezik az alapvető ismérvekkel. Az ismérv tehát a sokaságot és az egységet határozza meg; követelmény hogy pontosan meghatározott, közérthető, felismerhető, mérhető legyen. A minta a sokaságból vett részhalmaz, amely belső arányaiban megfelel a sokaságnak, reprezentálja azt.

4.2. Statisztikai sokaságok típusai

Az egységek jellege szerint lehet:— diszkrét: az egységek világosan elkülönülnek pl.

égitestek, molekulák, a lakosság egyedei; jellemző ábrázolása oszlopdiagram, illetve

— folytonos: az egységek bármekkora értéket felvehetnek pl. testmagasság, távolság; jellemző ábrázolása vonaldiagram.

Diszkrét adat általában a megállapítható (pl. férfi-nő), folytonos pedig a mért adatok java része. A folytonos sokaság tehát csak önkényesen elkülöníthető egységekből áll.

Egy család létszáma lehet 2, 3 vagy akár 10 is, de nem lehet, 3,14, azaz ez diszkrét változó. Egy személy testmagassága a mérés pontosságától függően lehet 1,7 méter, vagy 171 centiméter, 1,7185 méter vagy

39

Page 40: Statisztika Jegyzet

171,8542 centiméter, azaz folytonos változó. (A mérőeszköz beosztása egyébként folytonos adattípust is diszkrétként jeleníthet meg: a csak centiméteres beosztású méterrúddal mérve, az egyedek testsúlya csak meghatározott értéket vehet fel, de ettől a testmagasság nem lesz diszkrét változó!)

Az egységek száma szerint lehet — véges: a megfigyelt egységek száma véges; pl.

népesség, esős napok száma.— végtelen: a megfigyelhető egységek száma

korlátlan, pl. fizikai vagy kémiai kísérlet.

A sokaság megadásának módjai:Sokaság

IsmérvVéges Végtelen

Diszkrét Felsorolás,valószínűségeloszlás

Valószínűségeloszlás

Folytonos Felsorolás,eloszlásfüggvény

Eloszlásfüggvény

4.3. A reprezentatív minta

A mintavételes statisztika a sokaságot reprezentáló mintákkal dolgozik. A sokaságból vett mintával szembeni legfontosabb követelmény ugyanis a reprezentativitás. Sajnos sohasem lehetünk biztosak abban, hogy a mintánk a minket érdeklő szempontból valóban reprezentatív-e. Ezt akkor tudnánk eldönteni, ha a mintában tapasztalt értéket össze tudnánk hasonlítani a sokasági értékekkel. A populációra jellemző értékek zöme azonban gyakorta nem ismeretes: nem tudjuk, mekkora a magyar lakosság testmagassága, testsúlya, IQ-ja stb. Ha ezeket az értékeket ismernénk, akkor a vizsgálatra nem is lenne szükség. Egy közvélemény-kutatás mindig arra kíváncsi, amivel kapcsolatban a lakosság álláspontja nem pontosan ismert, így az sem eldönthető, hogy a vizsgálat alapjául szolgáló minta reprezentatív-e.

40

Page 41: Statisztika Jegyzet

Vannak azonban olyan jellemzők, amelyek a Központi Statisztikai Hivatal által gyűjtött adatok alapján jól ismertek. Tudhatjuk például a felnőtt népesség megoszlását nemek, korcsoportok és az iskolai végzettség szerint, s azt is, hogy milyen a lakosság lakhely szerinti aránya. Ezek az információk a tízévenkénti népszámlálás (és a közbülső időben végrehajtott mikrocenzus), illetve bizonyos kötelező és rendszeres adatszolgáltatás statisztikai feldolgozásából származnak. Azaz ezen változók szempontjából a minta reprezentativitása ellenőrizhető és szerencsés esetben megállapítható (ha a mintabeli érték nem tér el túlságosan a populációra jellemző értéktől).

Könnyen előfordulhat, hogy a minta valamely szempontból reprezentatív, de egy más szempont szerint már nem az. Egy mintát akkor nevezhetnénk minden további nélkül reprezentatívnak, ha valamennyi, a vizsgálatban feltett kérdés szerint reprezentálná a teljes populációt. Azt, hogy a reprezentativitás teljesül-e, éppen a legfontosabb (a kutatás tárgyát képező) változók szempontjából lehetetlen ellenőrizni. Ezért ebben az általános értelemben reprezentatív mintáról nem beszélhetünk. A minta mindig csak bizonyos változók szerint lehet reprezentatív. A vizsgálat tárgyát képező változó(k) szempontjából a reprezentativitás kérdése nem dönthető el.

A legnagyobb valószínűséggel a minta reprezentatívságát úgy biztosíthatjuk, ha a populáció minden tagjának egyforma esélyt adunk a mintába kerülésre. Az ezen az elven alapuló mintavételi eljárásokat véletlen vagy valószínűségi mintavételnek nevezik.

41

Page 42: Statisztika Jegyzet

4.3.1. A valószínűségi mintavételi tervek fajtái

Egyszerű véletlen mintavétel: csak a legegyszerűbb mintavételi keretek esetén használjuk. Módszer lehet például: ha a sokaság adott, akkor a lista elemeinek sorszámokat adunk, majd egy véletlenszám-táblázat segítségével kiválasztjuk a mintába kerülő elemeket, vagy számítógéppel kiválasztatjuk a véletlenszerű mintát.

Szisztematikus mintavétel: a teljes felsorolás minden x-edik elemét választjuk be a mintába. (pl. 10000 névből minden 10-ediket). Periodikus elrendezésnél, azaz, ha van valamilyen rendszer az elrendezésben valamilyen szempont szerint, nem célszerű ezt a módszert használni, mint minőségellenőrzéskor sem, mert a gyártóberendezés működésében is adódhat periodicitás. E hatás kivédhető, ha az elemeknek sorszámot adunk, majd összekeverjük a sorrendet, és így választjuk ki szisztematikusan az elemeket a mintába. Az első elemet is célszerű véletlenszerűen kiválasztani (véletlen kezdőpontú szisztematikus mintavétel).

Rétegzett mintavétel: A rétegzés az előző két módszernek kiegészítése lehet. Az előző kettő biztosítja a minta bizonyos fokú reprezentativitását, és lehetővé teszi a fellépő hiba megbecslését. A rétegzett mintavétel arra szolgál, hogy nagyobb fokú legyen a reprezentativitás. A rétegzett mintavétel a minta homogenitására alapoz. Itt nem az egész populációból választunk ki elemeket, hanem egyneműség szerint részcsoportokra osztjuk a populációt, így homogén alcsoportok jönnek létre, és mindegyikből megfelelő számú elemet választunk ki (pl. lakhely, iskolai végzettség nem szerint). A rétegképző változók azok a szempontok, amelyek szerint létrehozzuk a

42

Page 43: Statisztika Jegyzet

részcsoportokat. Ennek megválasztása attól függ, hogy milyen változók állnak a rendelkezésünkre.

Többlépcsős csoportos mintavétel: olyankor használjuk, amikor az alapsokaság tagjairól nincs teljes körű lista. Kiindulásképpen mintát veszünk a tagok csoportjai közül. Azután a kiválasztott csoportok tagjairól listát készítünk, végül pedig mintát veszünk az egyes kiválasztott csoportok tagjainak listáiból, így jutunk a végleges mintához. Vezérlő elv, hogy igyekezzünk minél több csoportot kiválasztani, és közben csökkentjük a csoportonként kiválasztandó elemek számát!

Elemszámmal arányos valószínűségű mintavétel: a többlépcsős csoportos mintavétel egy speciális, hatékony módszere. Akkor használjuk, amikor az elemek egyes csoportjainak elemszáma eltérő. Ilyenkor az elemek egyes csoportjainak a csoport méretével arányos mintába kerülési valószínűséget adunk.

Nem arányos mintavétel és súlyozás: valószínűségi mintának tekintendő minden olyan minta, ahol minden elemnek ugyanakkora esélye van bekerülni a mintába. Ennél a módszernél viszont abból indulunk ki, hogy a populáció minden elemének ismert, nem nulla esélye van a mintába kerülésre. Akkor lesz reprezentatív a minta, ha az esélyek szerint különbözően súlyozzuk az egyes mintába kerülő elemet. Önsúlyozó mintánál minden elem 1-es súlyozást kap. Akkor használjuk, ha különböző részsokaságokból nem egyforma aránnyal veszünk mintát, mert csak így biztosítható, hogy kellően nagy számú elemünk legyen az elemzéshez. Azt, hogy milyen pontossággal választjuk meg az egymáshoz képest meglévő arányt, az alapján döntjük el, hogy mekkora precizitást szeretnénk elérni.

43

Page 44: Statisztika Jegyzet

4.3.2. Nem valószínűségi mintavételek

Szakértői (megítélésen alapuló) mintavétel: a kutató saját megítélése szerint választja meg a minta elemeit. Pl. egy-egy jobb- és baloldali szervezetet választ ki a bal-, ill. a jobboldalisággal kapcsolatos kutatáshoz.

Kvótás mintavétel: kiindulópontja egy, a célpopuláció jellemzőit leíró mátrix-táblázat. Itt azokat az elemeket választjuk ki, akik a táblázatban szereplő minden tulajdonsággal rendelkezik. Ezután az adott cellához tartozó minden elemnek az összpopulációban képviselt részarányoknak megfelelő súlyt adunk.

Egyszerűen elérhető alanyokra hagyatkozó mintavétel: Ez a módszer csak akkor indokolt, ha a kutatót az csak az adott időpillanatban elérhető emberek érdeklik. Csak előzetes tesztre alkalmas.

4.4. A véletlenszerű minta előnyei

Az egyszerű véletlen mintavétel a populáció minden tagjának ugyanakkora esélyt ad a mintába kerülésre.

Mit nyerünk, és mit veszítünk a véletlen mintavétel alkalmazásával? A véletlen mintavétel esetén az egyik veszteség, hogy nem lehetünk száz százalékosan biztosak abban, hogy a mintánk valóban reprezentatív. Előfordulhat, hogy a minta torz még olyan alapvető szempontból is, mint a nemek szerinti megoszlás. Továbbá a véletlen mintavétel eredménye felett nem gyakorlunk kontrollt, „ki vagyunk szolgáltatva a véletlennek”. Ez azonban nem feltétlenül rossz.

A véletlen pártatlan és – legalábbis hosszú távon – kiegyensúlyozott mintaválasztást eredményez. Semmilyen mintavételi eljárás esetén sem tudjuk megmondani, hogy az aktuális minta reprezentatív-e a vizsgálandó szempontokból. Véletlen mintavétel esetén azt remélhetjük, hogy ez a reprezentativitás –

44

Page 45: Statisztika Jegyzet

hosszú távon és átlagosan – teljesül. Ezért a véletlen minta az esetek többségében jól reprezentálja a sokaságot. További előny, hogy a véletlenségből adódó hiba számszerűsíthető, azaz figyelembe vehető, szemben a nem véletlenszerű mintavételekkel.

Az egyszerűség kedvéért a továbbiakban reprezentatív mintán véletlenszerűen kiválasztott mintát értünk.

4.5. Visszatevéses, visszatevés nélküli mintavétel

Amikor a minta első elemét kiválasztottuk, dönthetünk, hogy a második elem kiválasztása előtt visszategyük-e a sokaságba vagy sem. Ha visszatesszük, akkor újra lehetőséget adunk neki, hogy a mintába kerüljön – ad absurdum tízszer, százszor is kihúzhatjuk, s akkor az ő értéke súlyozottabban jelentkezik a mintában. Ha azonban nem kerül vissza a mintába, akkor mentesülünk az előbbi problémától.

Ha a sokaság elég nagy és a mintanagyság elég kicsi, akkor a kétféle mintavétel közötti különbség elhanyagolhatóvá válik: ha 10 ember közül választunk akkor visszatevéssel 1/10 valószínűsége ugyanazon egyed másodszori mintába kerülésének, ha 1 millió közül, akkor az 1/1000000 – ez pedig gyakorlatilag elhanyagolható.

45

Page 46: Statisztika Jegyzet

5. A minták jellemző összefüggései

A sokaságból véletlenszerű kiválasztás útján nyert minta esetében tehát reménykedhetünk annak reprezentatívságában. Ha több véletlenszerű mintát veszünk a sokaságból, azt tapasztaljuk, hogy a minták összetétele, így a belőlük számolt statisztikák (átlag, szórás stb.) mintáról mintára más és más lesz. Hogy mégis ez a mintavételi eljárás jellemző a statisztikai döntéselméleteknél, azt beláthatjuk a következő gondolatmenettel.

Egy olyan „sokaságot” választunk kiindulásul, amelyből ki tudjuk választani az összes n elemszámú mintát. Legyen e sokaság az 1-től 10-ig terjedő egész számok halmaza; e tíz számot tekintjük sokaságnak. E sokaságból válasszuk ki az összes 3 „fős” mintát!

10 szám közül 3-at 120 féleképpen választhatunk ki ismétlés és visszatevés nélkül (azaz nem teszünk különbséget az 1-2-3, a 1-3-2, a 2-1-3, a 2-3-1, a 3-1-2 és a 3-2-1 minták között), s csak egy olyan mintánk van, amiben e három szám szerepel, s nincs olyan mintánk, ami 1-1-1-ből állna.

Sorsz. 1. 2. 3. … 29. … 70. 71. 72. 73. …119.

120.

A minták

1 1 1 … 1… 3 3 3 3 … 7 82 2 2 … 6… 4 5 5 5 … 9 93 4 5 … 9… 10 6 7 8 … 10 10

átlaga:2,002,332,67…5,33 …5,674,675,005,33…8,679,00szórása:0,821,251,70…3,30 …3,091,251,632,05…1,250,82

Sorra kiszámoljuk minden egyes minta átlagát és szórását. Pl. a 29. minta esetében:

33,5316

3961

átlag

46

Page 47: Statisztika Jegyzet

A szórások eloszlása

0

5

10

15

0,82

1,63

2,05

2,45

2,62

2,94

3,27 3,

4

3,68

3,86

Az átlagok eloszlása

0

2

4

6

8

10

2

2,67

3,33 4

4,67

5,33 6

6,67

7,33 8

8,67

3,3367,32

3

)33,59()33,56()33,51( 222

szórás

A 120 számhármas átlag- és szórásértékeinek megoszlását táblázatba foglaltuk. Mint látható, ezek diszkrét eloszlások, mert mind az átlag, mind a szórás csak meghatározott értéket vehet fel. Belátható, hogy a „sokaság” elemszámával, s így a kivehető minták számával ezen statisztikák is egyre több értéket vehetnek fel (hasonlóan a Galton-készüléknél tárgyaltakhoz), és így egyre inkább „folytonossá” válhatnak.

Átlag-

érték

ek

gyako

riság

uk

Szórás

-

értéke

k

gyako

riság

uk

2,00 1 0,82 8

2,33 1 1,25 14

2,67 2 1,63 6

3,00 3 1,70 12

3,33 4 2,05 10

3,67 5 2,16 10

4,00 7 2,45 4

4,33 8 2,49 8

4,67 9 2,62 8

5,00 10 2,87 6

5,33 10 2,94 6

5,67 10 3,09 6

6,00 10 3,27 2

6,33 9 3,30 4

6,67 8 3,40 4

7,00 7 3,56 4

7,33 5 3,68 2

7,67 4 3,74 2

8,00 3 3,86 2

8,33 2 4,03 2

8,67 1

9,00 1

47Az eloszlások jellege

Page 48: Statisztika Jegyzet

A mintaátlagok eloszlását ábrázolva megállapíthatjuk, hogy a minták átlagai a sokasági átlag (5,5) körül szóródnak, s eloszlásuk normál jellegű: a 120 érték közül csak egy-egy esik legtávolabb az átlagtól, majd a szélekről befelé haladva egyre több. Arról is meggyőződhetünk, hogy a mintaátlagok átlaga a sokasági átlaggal lesz egyenlő.

Tehát, ha egy urnából, mely csak 10 számot tartalmaz és csak hármat húzunk ki (a példa tulajdonképpen egy 3/10-es lottónak felel meg), akkor 1/120-ad a valószínűsége annak, hogy a „nyertes” számok átlaga 2 legyen (1-2-3). Ugyancsak 1/120-ad annak valószínűsége, hogy a kihúzott számok átlaga 9 legyen (8-9-10), viszont 4×10/120=4/12=1/3-ad a valószínűsége, hogy a kihúzott számok átlaga 5-től 6-ig lévő tartományban legyen (a határokat is beleértve). Úgy is fogalmazhatjuk: az 1-2-3 vagy a 8-9-10 számokat tartalmazó minta csak 1/120-ad, azaz 0,83%-os valószínűséggel reprezentálja a teljes sokaságot. Viszont azt is megállapíthatjuk, hogy a lehetséges minták 1/3-ának átlaga egészen közel van a sokasági 5,5-ös átlaghoz: 40 esetben 5 és 6 közé esik, az esetek 73,34%-ában pedig 4 és 7 közé. Másképpen ez azt is jelenti, hogyha egyszerű véletlen módszerrel választunk ki 10 szám közül hármat, akkor száz minta közül 73 esetében viszonylag pontosan megbecsülhetjük a sokasági átlagot a mintaátlag alapján.

Az is megállapítható, hogy a minták szórása szintén mintáról mintára változik, s bár azok eloszlása már korántsem szimmetrikus (hiányzik a bal oldala, s a jobb is lankásabban ereszkedik) – de szintén függvényszerű változást mutat.

Az eddigi példákban a sokaság egyenletes eloszlású volt, hiszen minden egyes szám csak egyszer

48

Page 49: Statisztika Jegyzet

szerepelt. Mint említettük, a gyakorlati eloszlások (például az emberek testmagasság-eloszlása) maga is normál eloszlású (azaz az átlagos testmagasság közelében van a legtöbb ember magassága).

Fogadjuk el, hogy a számított statisztikák függvény-jellegű eloszlása akkor is igaz, amikor a sokaság maga is normális (vagy éppen más) eloszlású.

5.1.1. Milyen számokkal lottózzunk?

Hasonlóan értékelhetjük az eddigi ötöslottó-húzások (5/90) eredményeit is. 90 számból 5 ismétlés és visszatevés nélkül 43 949 268 féleképpen válaszható ki. Minden egyes húzás öt száma kis túlzással reprezentatív mintának tekinthető (abból a szempontból mindenképpen, hogy mindegyik golyónak azonos esélye van a mintába kerülésre)5.

Reménytelen vállalkozás lenne előállítani mind a ≈44 millió variációt. Ha sikerülne, s átlagolnánk minden egyes számötöst, s ábrázolnánk ezen átlagértékek gyakoriságát, még finomabb eloszlást kapnánk, mint amikor 10 szám közül választottuk ki minden lehetséges számhármast. S ez az eloszlás is normál-jellegű lenne. De ellenőrizhetjük feltételezésünket az eddigi húzások adataival.

A Szerencsejáték Rt. honlapján Excel-táblázatban elérhető az eddigi összes húzás eredménye. Mi 2448 húzás heti számait átlagoltuk, s néztük e heti átlagok eloszlását. A legkisebb átlagú (9,8) számokat (2-3-6-8-30) 1976-ban a 19. héten húzták ki, a legnagyobb értékű átlag (77,2) kétszer is szerepelt (1967/49. hét: 61-78-80-81-86; illetve 2001/44. hét: 56-77-79-85-89). Természetesen a véletlennek köszönhetően az 1, 2, 3, 4, 5, illetve a 86, 87, 88, 89, 90 számokat is

5 Ha a golyókban nem számok lennének, hanem egy 90 fős sokaság nevei, akkor a kihúzott öt névhez tartozó tulajdonság szempontjából már valóban reprezentatív mintát kapnánk.

49

Page 50: Statisztika Jegyzet

kihúzhatták volna, s akkor az átlagok 3–88 között oszlanának meg, a határértékek csak egyszer, azaz 1/43.949.268-valószínűséggel.

A 9,8-es jelenlegi legkisebb átlag több számötösből is számolható (mindazon öt különböző számból, melynek összege 49, pl.: a lehető legkisebb 1-2-3-4-39, …vagy a 2-3-6-13-25 …, végül a lehető legnagyobb számokból 7-9-10-11-12 álló húzásokból). Ilyen számötös már elég sok van. Belátható, hogy a legeslegtöbb számötöst azon számok adják melynek átlaga a sokasági átlag (46) közelében van. S valóban: a vizsgált 2425 húzásból 1531-nek (kereken 63 százalékának) az átlaga 36 és 56 közé esik, 83 százalékuk pedig 28-tól 63-ig tartó intervallumban helyezkedik el.

Ha a heti kihúzott számok szórását nézzük a legkisebb szórás 1970-ben volt a 29. héten: 5,84 (44-47-48-55-60), a legnagyobb pedig az 1988/ 4. héten 39,35-as értékkel (2-3-72-85-89), a szórások átlaga pedig 22,55.

Az 5/90-es lottó heti átlagainak megoszlásaSzakasz- határok 8–14 –21 –28 –35 –42 –49 –56 –63 –70 –77 –84

db 4 36 114 299 508 529 511 305 112 28 2

Az 5/90-es lottó heti szórásainak megoszlásaSzakasz- határok 5–7 –12 –17 –22 –27 –32 –37 –42

db 9 124 345 592 753 512 108 5

Grafikusan ábrázolva jól felismerhető az átlagok eloszlásának normál-jellege, s az is, hogy az egyes számötösök átlaga a kilencven szám átlaga (45,5) körül helyezkedik, el, 11,32-es szórással; a heti

50

Page 51: Statisztika Jegyzet

szóráseloszlásoknál pedig egy erősen aszimmetrikus, lognormális jellegű eloszlást tapasztalunk.

Ez azt is jelenti, hogy a számötösök a valóságban nem azonos eséllyel „húzódhatnak” ki, nagyobb valószínűséggel nyerhetünk olyan számokkal, melyek átlaga a sokasági átlag közelében van. Ha a szóráseloszlásokat is figyelembe vesszük, akkor „tudományosan” úgy célszerű lottózni, hogy a megjátszott öt szám átlaga 35 és 55 között helyezkedjen el és szórása 20 és 30 között legyen.

5.2. Mintavételi eloszlások

Az eddigiekben láttuk, hogy a sokaságból vett mintákból számított statisztikáknak is van jellegzetes eloszlása.

Érzékeltük, hogy a sokaságból vett minták átlagai a sokasági átlag körül szóródnak, e szóródás függvényszerű: a Gauss-féle normális eloszlási függvény jellegét megtartva alakul – ez az egyik legfontosabb valószínűségszámítási tétel – a központi (centrális) határeloszlás tétele. Más számított statisztikák is mintáról mintára változnak, s szintén függvényszerűen.

5.2.1. Az átlagok mintavételi eloszlása

Ha egy Np véges sokaságból (melynek átlaga , szórása pedig ) kiválasztjuk az összes lehetséges N elemű visszatevés nélküli mintát (értelemszerűen Np>N), akkor a mintabeli átlagok eloszlásának átlaga megegyezik a sokaság átlagával:

x

Ez a központi határeloszlás tétele! A tétel kimondja, hogy az eredetileg nem normális eloszlású sokaságból (populációból) vett minták átlagai (közel) normális eloszlást követnek. Ez azt is jelenti, hogyha valamely

51

Page 52: Statisztika Jegyzet

paramétert sok, egymástól független hatás együttesen alakít ki, akkor ez az érték normális eloszlású lesz, függetlenül attól, hogy a hatások milyen eloszlásúak voltak önmagukban.

Ez pontosan igaz arra esetre, amikor 10 szám közül kiválasztottuk az összes lehetséges mintát: ha a mintaátlagokat is átlagoljuk pontosan 5,5-öt kapunk, ami megegyezik az 1—10 számok átlagával. Az ötöslottó példája is jól igazolja a tételt, bár csak 2448 lottóhúzás heti átlagait átlagoltuk a közel 44 millió lehetségesből (a heti átlagok átlaga=45,49), az elég jól megközelíti az 1-tól 90-ig terjedő számok átlagát, a 45,50-öt.

Természetesen van összefüggés a minták szórásának átlagára is, mégpedig a következő:

1

p

px N

NN

N

Ha a sokaság végtelen, vagy ha a mintavétel visszatevéses volt, akkor a fenti képlet egyszerűsödik:

Nx

Ha N kellően nagy (N>30), akkor a mintabeli átlagok eloszlása a sokasági eloszlástól függetlenül közelítőleg normális eloszlást követ x

átlaggal és x

szórással (lásd lottó). Ha a sokaság maga is normális eloszlású, akkor már N<30 esetén is normális eloszlást követ a minták átlaga.

Ezekből következik, hogy egy reprezentatív mintából számított átlaggal és szórással jól becsülhető a sokasági átlag és szórás.

5.2.2. A mintabeli arányok eloszlása

Ha egy végtelen számú sokaságban valamely esemény bekövetkezésének valószínűsége p, a be nem

52

Page 53: Statisztika Jegyzet

következésé pedig q=1-p, az összes lehetséges minta száma pedig N, akkor a mintákból meghatározott p arányok átlaga meg fog egyezni a valószínűségi aránnyal (P=p), a p-k szórása pedig az alábbi szerint számítható:

Ennek segítségével pedig egy mintából számított valószínűségből megfelelő módon becsülhető a sokasági valószínűség.

5.3. Standard hiba

Már említettük, hogy a véletlenszerű mintavétel esetében a mintavételi hiba számszerűsíthető. Tapasztaltuk, a minta átlaga nagy valószínűséggel várhatóan a sokasági átlag közeli értéket vesz fel – a mintaátlaggal jól becsülhetjük meg a sokasági átlagot. Az is belátható, hogy egy újabb minta más elemeket tartalmaz(hat), azaz nemcsak maga a minta változik, hanem azzal együtt a mintából számított minden mintajellemző (átlag, szórás, arány stb.). Tehát minden mintajellemző mintavételi ingadozásnak van kitéve, azaz változó. A véletlen kiválasztású minta (valószínűségi minta) mintajellemzői tehát valószínűségi változók. A valószínűségi változókat pedig eloszlásukkal, valamint várható értékükkel és varianciájukkal (szórásukkal) jellemezhetjük.

A véletlen mintavételből származó hibát a mintaátlagok szórásával jellemezhetjük, s standard hibának nevezzük.

Nx

A standard hiba megmutatja, hogy mekkora a mintaátlagoknak a sokasági értéktől való átlagos (négyzetes) eltérésének várható értéke, hogy mekkora a mintavételből származó hiba átlagos nagysága (hogy

53

Page 54: Statisztika Jegyzet

az átlagos értékről van szó, azt az alsó indexben szereplő változó felülhúzásával is jeleztük).

Belátható, hogy a standard hiba nagysága függ a sokasági szórástól () – ha az nagy, akkor a hiba is nő; és a minta elemszámától – ha N nagy, akkor a tört értéke kicsivé válik. Ha ugyanis a sokaság szórása () kicsi, például közel azonos magasságú mindenki a sokaságban (178–179 cm), akkor a mintába is közel azonos magasságú egyedek kerülnek – a mintavételi hiba szinte alig tapasztalható; ha viszont a sokaság szórása nagy (azaz az átlagos 175 cm magasság mellett található a sokaságban 120 és 200 cm-es egyén is), akkor – s éppen a véletlennek „köszönhetően” – többen bekerülhetnek a mintába a 190 cm körüliek közül: a minta átlaga jelentősen eltérhet a sokasági átlagtól (jobban szóródik a sokasági átlag körül), azaz a mintavételi hiba nagysága nő.

Egy adott szórású sokaság esetében pedig a mintavételi hiba csökken, ha növeljük a minta elemszámát (N). Kis elemszám esetén könnyen előfordul, hogy a minta nem reprezentálja a sokaságot, az elemszám növekedésével azonban egyre nagyobb valószínűsége van annak, hogy a minta összetétele a sokaság összetételével lesz hasonló. (A pénzfeldobás elméleti valószínűsége ½–½. Öt érme feldobásakor még az is előfordulhat, hogy mind az öt azonos oldalára esik. Ha azonban ötven érmét dobunk fel már nagyon kicsi a valószínűsége hasonló esetnek, ha pedig ötszázat, akkor már az lesz a legvalószínűbb, hogy valóban közel fele-fele arányban lesz „fej” és „írás” – azaz a mintavétel hibája kicsivé válik.)

Ha egy hallgatói évfolyam testmagassága átlagosan 175 cm és a sokasági szórás 5 cm, akkor egy 4 fős véletlen mintába könnyen bekerülhet 4 magas (vagy

54

Page 55: Statisztika Jegyzet

éppen alacsony). Ha 16 fős véletlen mintát veszünk, már nagyobb a valószínűsége, hogy a magasak mellett alacsonyak is lesznek a mintában. Ha 36 fős véletlen mintát veszünk, még inkább esélyünk van arra, hogy a minta összetétele a sokasági összetételhez lesz hasonló, azaz egyre csökken a mintavételből származó hiba. Számszerűen:

A minta elemszámának megnyolcszorozásával tehát a mintavételből származó hiba 2,5-ről 0,83-ra csökkent. 100 fős minta esetében a mintavételi hiba már csak 0,5 lenne.

55

5,225

4

5

Nx 83,065

36

5x25,1

45

16

5x

Page 56: Statisztika Jegyzet

6. Statisztikai következtetéselmélet

A statisztikai következtetéselmélet módszere az eddigi példákban illusztrált törvényszerűségek alkalmazása: a sokaságból vett minta számított értékeiből következtetünk a sokasági jellemzőre.

A következtetéselmélet fontos fogalma a statisztika, amelyen a mintaelemek egy tetszőleges, de ismeretlen paramétert nem tartalmazó függvényét értjük. Ezen statisztika segítségével egyrészt megbecsülhetjük a sokaság valamely jellemzőjét, illetve ellenőrizhetjük a sokaság állapotáról felállított hipotézisünket. De hasznát vesszük akkor is, amikor azt szeretnénk eldönteni, hogy két minta között megfigyelt eltérést csak a véletlen okozza-e, vagy azok valódi eltérések, tehát, hogy szignifikáns-e az eltérés.

Ezen törvényszerűségeket felismerve, a statisztikák eloszlási jellemzőit ismerve, valószínűsíthetjük, hogy egy adott értékű statisztika hol helyezkedik el az eloszlási függvényén, azaz számszerűsíthetjük, hogy a minta mekkora valószínűsséggel reprezentálja a sokaságot.

A statisztikai hipotézisvizsgálat, indukció, következtetéselmélet éppen ezen alapul. Sokszor ugyanis nincs alkalmunk megvizsgálni a teljes sokaságot. Költségessége miatt nem lehet minden évben népszámlálást végezni, de fontos lenne tudni – s nemcsak az államigazgatásnak, hogyan alakulnak a demográfiai adatok, ezért két teljeskörű népszámlálás között elvégzett reprezentatív mintavétel, az ún. mikrocenzus módszerével tájékozódik a statisztikai hivatal. Ugyancsak le kell mondania a teljeskörű adatfelvételről sok esetben a közgazdásznak, a minőségellenőrnek, a kereskedőnek, a

56

Page 57: Statisztika Jegyzet

pszichológusnak – s az emberi erőforrással foglalkozó szakembernek is.

A statisztikai következtetéselmélet eszközei:– statisztikai becslés,– hipotézisvizsgálat.

6.1. Statisztikai becsléselmélet

A sokasági paramétereket (sokasági átlagot vagy varianciát) megbecsülni a mintavételből származó statisztikákkal (mintaátlag, minta-variancia) lehet.

A becslés fogalmán azt értjük, hogy a sokaság valamely tulajdonságát a reprezentatív mintából levonható következtetés által közelítjük meg.

A becslés alapvető eszköze a becslőfüggvény, amely a mintaelemek függvényében ad egy értéket az ismeretlen jellemzőre: olyan statisztika, ami egy sokasági jellemző mintából történő közelítő pontosságú meghatározására szolgál. A becslőfüggvény a véletlen mintaelemek függvénye, maga is valószínűségi változó, így várható értéke, szórása és eloszlása van.

A becslés két altípusa a pontbecslés, illetve az intervallumbecslés. Ha minta alapján azt állítom, hogy a FEEFI hallgatóinak testmagasságátlaga 172 cm, akkor pontbecslést adunk, ha pedig azt, hogy a sokasági átlag 1723 cm (azaz 169 és 175 cm közé esik), akkor intervallumbecslést. (Nyilvánvaló, hogy a pontbecslés az intervallumbecslés „határesete”: 172±0 cm).

A pontbecslésnél a tévedés lehetősége nagy, az intervallum szélesítésével a becslés „egyre jobb lesz”, de egyre kevésbé használható. Ha úgy adom meg az intervallumot, hogy az átlagos testmagasság 172100 cm, akkor biztosan ebben az intervallumban van a sokasági átlag, de becslésem semmire sem használható. Az intervallumbecslés tehát akkor a

57

Page 58: Statisztika Jegyzet

legjobb, ha a lehető legkisebb intervallum mellett a lehető legnagyobb valószínűséggel tartalmazza a sokasági statisztikát. Ehhez az átlag mellett a szórás adja a legjobb támpontot.

A becslés pontosságát megbízhatóságnak nevezzük.A becslőfüggvény legfontosabb kívánatos

tulajdonságai a torzítatlanság (várható értéke megegyezzen a sokasági értékkel), a minimális szórásnégyzet (ami azt követeli meg, hogy a becslőfüggvény lehetőleg kevéssé szóródjék várható értéke körül) és a konzisztencia, ami azt írja elő, hogy növekvő mintanagyság esetén a becslőfüggvény egyre jobban közelítse meg a vizsgált, ismeretlen sokasági jellemzőt (szórásnégyzete a 0-hoz tartson).

A legfontosabb esetekben a sokasági átlagot becslő összes becslőfüggvény közül a mintaátlag adja a legjobb (leghatásosabb) becslést.

A sokasági szórást pedig megbecsülhetjük az ún. korrigált tapasztalati szórással (a mintából számított szórást immár s-sel jelölve):

11

2

N

)Y(Y

s

N

i

i

Belátható, hogy minél nagyobb a minta elemszáma, annál pontosabban lehet megbecsülni a sokasági szórást e képlet segítségével.

6.1.1. Torzítatlan becslések

Ha egy statisztika mintavételi eloszlásának az átlaga megegyezik a megfelelő sokasági paraméterrel, akkor a statisztikát torzítatlan (minimális szórásnégyzetű), ellenkező esetben torzított becslőfüggvényének nevezzük.

58

N=20

N=10

N= 5

Page 59: Statisztika Jegyzet

N, azaz a minta elemszámának növekedésével a becslőfüggvény hatásossága javul, mert egyre kisebb varianciájú lesz – a standard hibával összefüggésben.

6.1.2. Hatásos becslés

Ha két statisztika mintavételi eloszlásának átlaga megegyezik, akkor a kisebb varianciájú (kisebb standard hibájú) statisztikát hatásos, a másikat hatástalan becslőfüggvénynek nevezzük. A gyakorlatban a leghatásosabb becslőfüggvény a mintaátlag, de gyakran használ a statisztikus hatástalan becslést, ha annak statisztikája könnyebben számítható mint az átlag (például a medián).

6.2. A pontbecslés

Az előző fejezetbe foglaltak szerint a sokaság átlaga jól megbecsülhető a mintaátlaggal, a sokaság szórása pedig a minta korrigált szórásával. Megállapítottuk, hogy a minta elemszámának növelésével a becslés is egyre pontosabb lesz.

6.3. Intervallumbecslés

Az intervallumbecslés a sokaság valamely jellemzőjére kíván mintából származó alsó és felső határokat adni. Intervallumbecslés esetén a minta alapján olyan intervallumot határozunk meg, amely előre megadott (nagy) valószínűséggel tartalmazza az ismeretlen, megbecsülni kívánt sokasági jellemzőt. Ezt az intervallumot konfidencia intervallumnak nevezzük.

Az intervallumbecslés határai a konfidenciahatárok.A konfidencia intervallum (megbízhatósági

intervallum) megadja azt, hogy milyen határok fedik le előre megadott nagy valószínűséggel a keresett sokasági jellemzőt. Ezek a határok valószínűségi

59

Page 60: Statisztika Jegyzet

változók, az adott (véletlen) mintától függenek (mintáról mintára változnak).

Mint azt a normális eloszlás jellemzőinél már láttuk, ha egy S statisztika mintavételi eloszlásának átlaga s,

szórása (standard hibája) s, és ha az eloszlás normális, akkor az S mintastatisztika az esetek 68,27%-ában ss; az esetek 95,45%-ában s2s; az esetek 99,73%-ában pedig s3s. Ezt az alapösszefüggést használjuk fel az intervallumbecslés esetében: a mintaátlaggal megbecsült sokasági érték körül akkora intervallumot jelölünk ki, amely adott valószínűséggel tartalmazni fogja az ismeretlen sokasági jellemzőt.

6.3.1. Kétoldali konfidencia-intervallum

Ismételt mintavétel esetén az esetek átlagosan (1-)×100 százalékában igaz az, hogy az így számított intervallum lefedi a keresett sokasági jellemzőt:

-Z1-/2 Z1-/2 (Zc)

Ha a hallgatók sokasági testmagasság-eloszlásának átlaga S=172 cm, szórása (standard hibája) pedig 2 cm, akkor 95,45%-os biztonsággal állíthatjuk, hogy a sokasági átlag 168 és 176 cm közé esik. Kisebb valószínűséggel szűkebb határ állapítható meg: 170 és 174 cm-es konfidenciaintervallum csak 68,27%-os valószínűséggel rendelkezik. A z-eloszlás táblázatából tetszés szerinti határok kiválaszthatók a szükséges valószínűséggel. Pl., ha 95%-os (0,95) valószínűségi konfidenciahatárokat akarunk kijelölni (=5%), akkor a

60

/2 /2

Page 61: Statisztika Jegyzet

táblázatban a 0,4750 területértékhez tartozó z-értéket kell kikeresnünk (0,95/2=0,475), ez pedig 1,96.

Ha az értékek nem sokasági adatokból lettek számítva, hanem reprezentatív mintából, akkor a konfidenciahatárokra hatással lesz a mintavételből származó hiba nagysága, azaz azzal korrigáltan kell azokat megállapítanunk.

A konfidenciahatárokban szereplő 1, 1,96, 2 stb. számokat konfidenciaegyütthatóknak nevezzük és zc-vel jelöljük.

6.3.2. Konfidenciaintervallum átlagra

Ha a sokaságból vett minta átlaga Y , akkor a sokasági átlag 95%-os valószínűséggel (=5%) a Y1,96 Y , 99%-os valószínűséggel pedig Y 2,58 Y

konfidenciahatárok közé fog esni. A sokasági átlag konfidenciahatárait a következő képlet adja meg, ha a mintavétel végtelen sokaságból visszatevéssel történt:

nzY c

és ha a mintavétel Np nagyságú véges sokaságból visszatevés nélkül történt akkor:

1

p

pc N

NN

nzY

Tapasztalható, hogy a minta nagysága (N vagy n) befolyással van a becslés pontosságára: n növekedésével a (zc×N szorzat nagysága csökken, azaz szűkebbé válik a konfidenciaintervallum. Vegyük

észre: a képletben lévő a mintavételből származó hibát veszi figyelembe.

61

Page 62: Statisztika Jegyzet

6.3.3. Konfidenciaintervallum arányra

Binomiális sokaság p paraméterének (azaz a kedvező esetek valószínűségének) konfidenciahatárait végtelen sokaság esetében a baloldali, illetve ha a mintavétel Np

nagyságú véges sokaságból visszatevés nélkül történt, akkor a jobboldali képlet jelöli ki:

N

ppzP

N

pqzP cc

)1(

1

p

pc N

NN

N

pqzP

6.4. A közvélemény-kutatások pontossága

A havi rendszerességgel készülő politikai közvélemény-kutatások általában 1000-3000 főt kérdeznek meg. Ekkora mintával általában, öt százalékos hibával lehet megbecsülni a néhány milliós sokasági megoszlásokat. E mintaszám már lehetőséget ad arra is, hogy bár csak néhány ismérv (életkor, nem, iskolai végzettség, lakóhely jellege) szerint rétegzett is lehessen a reprezentatív minta. 6

A közvélemény-kutató intézetek általában a 95 százalékos megbízhatóságú mintákat alkalmazzák, tehát száz mintavételből legfeljebb öt esetben fordulhat elő, hogy az eredmények a hibahatárok figyelembevételével sem közelítik meg kellő mértékben a tényleges eredményeket.

A reprezentatív megfigyelés hibája a véletlen mintavétel természetéből ered: minél kisebb a megkérdezettek száma, annál nagyobb lesz az ún. standard hiba. A standard hiba nagysága az alapsokaság szórásától is függ, vagyis attól, hogy mennyire heterogén vagy homogén a népesség a megfigyelés tárgya szerint. A közvélemény-kutatás adatainak publikálásakor közölni kell a hibahatárokat,

6 Részletesebben lásd: Rudas.

62

Page 63: Statisztika Jegyzet

azokat az értékeket, amelyek között a publikált eredmények megbízhatónak tekinthetők. Az 1000-1500 főre kiterjedő vizsgálatoknál a hibahatár 2,5-3,5 százalék, azaz, ha az X pártra szavazni szándékozók aránya a teljes választókorú népességre vetítve 22 százalék, akkor ez azt jelenti, hogy legalább 19 és legfeljebb 25 százalék.

A mintanagyság hatását a becslés pontosságára a táblázat mutatja. Ha feltételezzük, hogy egy véleményt a lakosság pontosan 30 százaléka képvisel, akkor a mintanagyságtól függően ekkora eltérést várhatunk a becsült értékek és a valódi értékek között.

Mintanagyság

a minták

99%-

ában

95%-ában 90%-ában 75%-ában

100 fő 18,2–

41,8

20,0–40,0 22,5–37,5 24,7–35,3

500 fő 24,7–

35,3

26,0–34,0 26,6–33,4 27,6–32,4

1000 fő 26,3–

33,7

27,2–32,8 27,6–32,4 29,3–31,7

2000 fő 27,4–

32,6

28,0–32,0 28,3–31,7 28,8–31,2

3000 fő 27,8–

32,2

28,4–31,6 28,6–31,4 29,0–31,0

Azt láthatjuk tehát, hogy a becslés pontossága és megbízhatósága fordítottan arányos egymással: a 3000 fős minta esetében 100 minta közül 99 eredménye fog a 27,8–32,2-es intervallumba esni, s csak egy lesz, amely az adott párt támogatottságát ennél kisebbnek vagy nagyobbnak mutatja. Ha szűkebb intervallumot akarunk kijelölni 30±1%, akkor csak 75 százalékos biztonsággal állíthatjuk, hogy az adott vélemény támogatottsága 30 százalékos, mert

63

Page 64: Statisztika Jegyzet

100 minta közül 25 ennél kisebb vagy éppen nagyobb támogatottságot is mutathat.

6.4.1.1 Példák az intervallumbecslésre

Példa 1: Egy közepes városban 1000 fő megkérdezett közül 450 fő, Aaa-t választaná szívesebben polgármesternek, mint Bbb-t.

Ki nyerhet 95%-os megbízhatóság mellett?A zc értéket a standard normális eloszlás

táblázatából kell meghatároznunk. Mivel e táblázat csak a 0-várható értéktől jobbra eső z-értékhez adja meg a görbe alatti területet, a 95%-nak megfelelő 0,95 értéknek először is a felét vesszük: 0,95/2=0,475. E számot a táblázat belsejében megkeresve nézzük meg, hogy milyen z-érték tartozik hozzá: az 1,9 jelű sor és a 6 jelű oszlop kereszteződésében található a .4750: azaz a keresett z-érték 1,96

45,01000

450p

1000

55,045,096,145,0

=0,45 0,03

Az intervallum: 42% illetve 48%. Tehát Bbb valószínűleg nyerni fog, hiszen a felső határ, a 48% Aaa-ra vonatkozott!

Példa 2: A FEEFI 70 levelezős hallgatójának testmagasságátlaga 168,2 cm, varianciája pedig 86,3 cm. Adjunk torzítatlan és hatásos becslést a 252 fős évfolyam testmagasságátlagára és a varianciára!

A minta átlaga egyben a sokasági átlag becslése is.

A sokasági variancia becslése: A minta szórása alapján a sokaság becsült

szórása(s): 9,4.

64

Page 65: Statisztika Jegyzet

Készítsünk 95%-os, illetve 99%-os konfidenciainter-vallumot az évfolyam átlagmagasságára!

A 95%-os konfidenciaintervallum:

87,16,87)85,02,2(6,87

251

70252

70

4,996,16,87

1

p

pc N

NN

nzY

A 99%-os konfidenciaintervallum:

46,26,87)85,089,2(6,87

251

70252

70

4,958,26,87

1

p

pc N

NN

nzY

Ha a mintát nem az évfolyam, hanem a teljes hallgatóság 2800-as létszámára vonatkoztatnánk,

akkor lévén 99,02799

702800

, a 95%-os határok gyakorlatilag

maradnának 87,62,2, a 99%-os határok pedig 87,62,89 cm értékűek lennének.

Példa 3.: Egy megye 15 ezer vállalkozójából egyszerű véletlen kiválasztással az APEH ezer vállalkozó adóbevallását ellenőrizte, s a mintába összesen 50 millió Ft adóhiányt állapított meg 150 ezer forintos szórással. Becsüljük meg 95%-os valószínűséggel a megyei adóhiány nagyságát!

Az átlag pontbecslése:

A konfidenciahatárok:

Tehát 50 0008982 Ft az egy főre jutó átlagos adóhiány, minimálisan: 41 018 maximálisan 58 982 Ft. A megyére vonatkoztatva ezen értékek 15 ezerszeresét kell vennünk, azaz legalább 615 270 000

65

Page 66: Statisztika Jegyzet

és legfeljebb 884.730.000 forint hiánnyal számolhat az adóhivatal.

66

Page 67: Statisztika Jegyzet

7. Döntéselmélet — hipotézisvizsgálat

Amikor mintákból származó statisztikák alapján a sokaságra vonatkozó feltételezéseinket, hipotéziseinket ellenőrizzük, s eldöntjük azok helyességét, vagy helytelenségét, statisztikai döntésekről beszélünk.

A sokaságról gyakran nincs elégséges mennyiségű adatunk, így nem is tudjuk azokat a leíró statisztika eszközeivel elemezni. Ennek oka lehet, hogy a sokaság végtelen (a pszichológiai vizsgálatok egy része ugyan véges sokaságon történik, ám következtetéseit általánossá, minden emberre vonatkozóvá igyekszik formálni). Lehet ugyan a sokaság véges, de mivel túl nagy elemszámú, ezért nincs elég idő, eszköz, pénz a teljeskörű vizsgálathoz. Ilyenkor ugyancsak mintából kell következtetnünk a sokasággal kapcsolatos sejtésünk, hipotézisünk igazságáról.

A hipotézisvizsgálat arra szolgál, hogy a sokaságra vonatkozó olyan feltevések helyességét ellenőrizzük egy (esetleg több) minta adatai alapján, melyek helyességéről nem vagyunk teljes mértékben meggyőződve. A hipotézisvizsgálat eszközei a próbák.

A sokaságra vonatkozó hipotézisünk lehet igaz is, hamis is. A hipotézis igaz vagy hamis voltáról kétféleképpen lehet meggyőződni. Vagy úgy, hogy teljes körű adatfelvételt végzünk, vagy úgy, hogy mintavétel alapján próbálunk következtetni arra, hogy a hipotézis igaz vagy sem. A teljes körű adatfelvétellel teljes bizonyosságra juthatunk – de erre számtalan esetben nincs lehetőségünk.

A hipotézisvizsgálat lényege az, hogy a rendelkezésre álló egy vagy több minta adataiból kiszámítjuk egy ún. próbafüggvény értékét és

67

Page 68: Statisztika Jegyzet

megnézzük, hogy az egy előre kijelölt elfogadási tartományba, vagy egy másik tartományba, az ún. kritikus tartományba esik-e. Előbbi esetben elfogadjuk, utóbbiban pedig elvetjük a hipotézist.

A mintavétellel nyert eredmények esetében már nem lehetünk teljesen biztosak abban, hogy helyes döntést hozunk. A sokaságot reprezentáló minta vételére ugyanis nincs megbízható eljárásunk, a leginkább reprezentatív mintát szolgáltató véletlenszerű mintavétel eredménye még akkor is eltérhet a hipotézisben szereplő megfelelő értéktől, ha a hipotézis igaz. Sőt még az sincs kizárva, hogy a hipotézis nem igaz, de a véletlen szeszélye folytán mégis a hipotézist alátámasztani látszó mintavételi eredmény áll elő.

7.1. A hipotézis megfogalmazása

A hipotézisvizsgálat legelső lépése magának a hipotézisnek a megfogalmazása. A hipotézisünket ún. null-hipotézis formájában fogalmazzuk meg, egyúttal rögzítjük az azzal szemben álló, ún. alternatív hipotézist (ellenhipotézist). Ezek közül azt fogjuk elfogadni, amelyik a mintavétel eredménye alapján nagyobb valószínűséggel rendelkezik.

Bármely hipotézis lehet egyszerű vagy összetett. Egy H hipotézist egyszerűnek mondunk, ha fennállásának feltételezése a sokaság eloszlását egyértelműen meghatározottá teszi. Ellenkező esetben a H hipotézist összetettnek nevezzük. Az összetett hipotézisek mindig visszavezethetők több egyszerű hipotézisre. Az ellenhipotézis (alternatív hipotézis) általában összetett.

Egyszerű hipotézis: azt fogalmazzuk meg, hogy az ismeretlen sokasági jellemző () megegyezik egy feltételezett értékkel (0) H: =0

68

Page 69: Statisztika Jegyzet

Összetett hipotézis: egyenlőtlenséget fogalmazunk meg, azaz tartomány(oka)t jelölünk ki a paraméter valószínű értékére Pl.: H: >= 0 vagy H: 0

A két hipotézist oly módon kell megfogalmazni, hogy azok:

egyszerre ne lehessenek igazak; akármelyik is a nagyobb valószínűséggel

rendelkező, megválaszolható legyen a bennünket érdeklő kérdés.

7.1.1. A null-hipotézis

A vizsgálati módszereket a statisztikusok úgy alakították ki, hogy mindig a null-hipotézis helyességéről, vagy helytelenségéről döntünk. A null-hipotézis a matematikából ismert indirekt bizonyítással analóg.

A null-hipotézis (H0) egyszerű (a kísérleti beavatkozás nem okoz változást, a változás várható értéke 0) – vele szemben: az alternatív hipotézis (H1) összetett. Természetesen, ha a nullhipotézis és az alternatív hipotézis kölcsönösen kizárják egymást, akkor a H0 hipotézisre vonatkozó döntés közvetetten mindig döntést jelent H1-re vonatkozóan is: a null-hipotézis elfogadása egyúttal H1 elvetését, H0 elvetése pedig egyben H1 elfogadását is jelenti.

Ha egy gyártó berendezést kívánunk ellenőrizni, hogy az elhasználódás során pontatlanná vált-e, akkor a null-hipotézist úgy fogalmazzuk meg, hogy a berendezés pontosan működik. Ha a mintából végzett próba azt valószínűsíti, hogy igen, akkor elfogadjuk a H0-t, ellenkező esetben elvetjük. Ha a diákok úgy gondolják, az a hipotézisük, hogy a vizsgatesztek nem egyforma nehézségűek voltak, ennek vizsgálatára szolgáló H0 az lesz, hogy nincs különbség a tesztek

69

Page 70: Statisztika Jegyzet

nehézsége között, a vizsgapontokban megmutatkozó különbségek csak a véletlennek tulajdoníthatók. Ha annak van nagyobb valószínűsége, hogy az A-teszt nehezebben megoldható, mint a B-teszt, akkor elvetjük a H0-t, s helyébe lép a H1, azaz, hogy a tesztek között eltérés valószínűsíthető.

7.1.2. Szignifikanciaszint

Azt az -valószínűséget, ami már elég kicsi a null-hipotézis elvetéséhez szignifikanciaszintnek nevezzük (szignifikáns = jelentéssel bíró).

A szignifikanciaszint az a valószínűség, amely a hipotézis megengedő voltát igazolja; a feltevés helyességét valószínűsíti; s amely értéknél a null-hipotézistől való eltérés

jelentős.

nem szignifikáns szignifikáns különbség

A szignifikanciaszint általában 5% – azaz akkor vetjük el a null-hipotézist, ha 5%-nál kisebb a valószínűsége annak, hogy a statisztika ilyen értéket vegyen fel, mint a konkrét esetben.

Szignifikáns az eredmény, ha a null-hipotézistől való eltérés jelentős, nem a véletlen (a mintavételi ingadozás) hatására jött létre. A szignifikanciaszintet 1-re kiegészítő 1– valószínűséget, azaz annak az eseménynek a valószínűségét, hogy nem vetjük el a helyes null-hipotézist, a próba megbízhatósági szintjének nevezzük.

A nem szignifikáns eredmény a véletlen hatására is létrejöhet!

70

Page 71: Statisztika Jegyzet

7.1.3. A kritikus tartomány

A hipotézis helyességének ellenőrzése céljából a próbafüggvény lehetséges értékeinek tartományát osztópontok segítségével két egymást át nem fedő részre bontjuk: egy elfogadási tartományra (E) és egy visszautasítási – kritikus – tartományra (K). E két tartomány határait úgy választjuk meg, hogy a próbafüggvény a null-hipotézis fennállása esetén előre megadott nagy valószínűséggel az elfogadási tartományba essen. Lehet:

– egyoldali (bal, jobb) és– kétoldali:

K E K E K E K

baloldali kétoldali jobboldali

Ha minta adataiból számított próbafüggvény értéke az elfogadási tartományba esik, akkor elfogadjuk H0-t, ellenkező esetben pedig elvetjük azt. Ez utóbbi esetben H0 elvetésével együtt természetesen elfogadjuk a vele szembe állított H1 alternatív hipotézist.

Ha a szignifikanciaszint %, akkor tehát egyoldali hipotézisvizsgálatnál (H0 : > 0; vagy H0 : < 0) -nál lesz a határ; kétoldali hipotézisvizsgálatnál (H0 : = 0, vagy H0 : ≠ 0) pedig /2-nél.

Egy olyan eseménynek a bekövetkezése, amire (igazságát feltételezve) nagy valószínűséggel számítunk (a próbafüggvény értékének E-be esésére), megerősíti a H0 hipotézis helyességébe vetett hitünket, s így hajlamosak vagyunk annak elfogadására. Ha ezzel szemben a kis valószínűséggel várt másik esemény következik be (ti. a próbafüggvény értéke a K tartományba esik), akkor ez

71

Page 72: Statisztika Jegyzet

megingatja a null-hipotézis helyességébe vetett hitünket, s így inkább elvetjük, visszautasítjuk azt.

Az elfogadási tartomány határait mindig úgy jelöljük ki, hogy a próbafüggvény H0 helyességét feltételezve – bizonyos más feltételek fennállását pedig kikötve – előre meghatározott nagy (1–) valószínűséggel e tartományba essen. A próbafüggvény kritikus tartományba esésének valószínűsége ennek megfelelően és kicsi.

Az értéket szignifikanciaszintnek nevezzük.

7.2. A hipotézisvizsgálat során elkövethető hibák

A hipotézisvizsgálat annak mérlegelése, hogy mintavétel eredményeire alapozva a sokaságra vonatkozó állítás mennyire valószínű. A hipotézisvizsgálat során ebből következően döntési hibákat követhetünk el: elfogadunk olyan hipotézist, ami a valóságban nem igaz, illetve elutasítunk olyant, ami pedig igaz – e hibákat éppen azért követhetjük el, mert valószínűségekkel dolgozunk (ha valaminek kicsi a valószínűsége, attól még megtörténhet, s fordítva).

7.2.1. Az elsőfajú hiba

Előfordulhat, hogy a H0 null-hipotézis helyes, de az adott mintából számított próbafüggvény-érték mégis a kritikus tartományba esik. Ilyenkor a H0-hipotézist annak ellenére el fogjuk utasítani, hogy az a valóságban helyes. Ezt a hibás döntést elsőfajú hibának nevezünk. Az elsőfajú hiba nagysága a szignifikanciaszinttel egyenlő, elkövetési valószínűsége alkalmas megválasztásával tetszés szerint korlátozható.

Az elsőfajú hiba akkor jöhet létre, ha a mintánkba – s éppen a véletlenszerű kiválasztás következtében – az

72

Page 73: Statisztika Jegyzet

átlagtól szélsőségesen eltérő mintaegyedek kerülnek bele. Egy új edzésmódszertől azt várjuk, hogy szignifikánsan lerövidíti a reflexidőt. A nullhipotézis természetesen az, hogy az új módszernek nincs ilyen hatása – és a valóság is ez; azonban a mintánkba véletlenül olyan egyedek kerülnek, akiknek edzés nélkül is rövid volt a reflexideje, ám mivel eleget tettünk a reprezentatív mintavétel szabályainak, azt hihetjük, hogy az ő jó idejük a sokaságra is vonatkoztathatók: elvetjük az egyébként helyes null-hipotézisünket.

7.2.2. A másodfajú hiba

Előfordulhat, hogy H0 nem igaz, és a próbafüggvény mégis az elfogadási tartományba esik. Következménye: H0-t elfogadjuk, pedig az valójában nem igaz. Ez a másodfajú hiba. A másodfajú hiba elkövetésének valószínűsége .

Ez a hiba pedig úgy jöhet létre, hogy az edzés valóban hatásos, de a véletlenszerű mintába azok kerülnek be, akiknek az edzés előtt is gyenge volt a reflexideje, s az edzés hatására némileg javult, de csak az edzés nélküli állapot átlagára. Az ő adataikból azt a következtetést vonhatjuk le, hogy az edzésnek nincs hatása:

Sokasági eloszlás helyes

H0 esetén

A minta eloszlása

A feltételezett sokasági eloszlás a

minta alapján alternatív hipotézis

(H1)

73

Page 74: Statisztika Jegyzet

A valószínűség csak akkor számszerűsíthető, ha pontosan tudjuk azt, hogy a valóságban a H0-ban szereplő feltételezéssel szemben mi áll fenn.

Ha a két eloszlás várható értéke közt nagy a különbség, akkor a második fajta hiba egészen kicsi. Ha a két eloszlás közel esik, akkor nagy a második típusú hiba. Túl nagy minta esetén túlságosan kis különbségek is szignifikánssá válnak! (A szórások egyre szűkülnek – megszűnik a 2. típusú hiba)

Az 1- kiegészítő valószínűséget, tehát annak az eseménynek a valószínűségét, hogy nem követjük el a másodfajú hibát, a próba erejének nevezzük.

H0-tH0 a valóságban

igaz(H1 nem igaz)

nem igaz(H1 igaz)

elvetjük elsőfajú hiba

()helyes döntés

(1-)

nem vetjük el(elfogadjuk)

helyes döntés(1- )

másodfajú hiba()

Sokasági eloszlás H0

esetén

A H1-hez tartozó minta eloszlása

Sokasági eloszlás az igaz alternatívhipotézis (H1)

esetén

Feltételezett sokaságieloszlás a minta alapján

74

Page 75: Statisztika Jegyzet

A -valószínűség függvényében

A H0 és a H1, valamint a H0 és H2 görbéknek egyaránt van közös területe. Elkövethetjük az elsőfajú hibát, azaz elvetjük H0-t, akkor, ha az /2-el jelzett fekete területre esik a próbafüggvény aktuális értéke, de mi a H1 görbéhez tartozó értékként értelmezzük, pedig a H0-eloszláshoz tartozik – s elkövethetjük a másodfajú hibát a fordított esetben: ha a H1 görbéhez tartozó értéket a H0 eloszláshoz tartozónak vélünk (sötétszürke 1 terület). Ha az eltérés jelentősebb (H2-görbe), akkor az /2 terület, tehát az elsőfajú hiba lehetősége változatlan, viszont a másodfajú hiba világosszürke terület) elkövetésének valószínűsége csökken.

A -valószínűség a mintanagyság függvényében

Adott szignifikanciaszint és egyszerű alternatív hipotézis esetén a másodfajú hiba elkövetésének valószínűsége a mintanagyság növelésével vagy minél

75

H0 H 1 H 2/2

/2

N

n

Page 76: Statisztika Jegyzet

kisebb szórású próbafüggvény használatával mérsékelhető.

7.3. A próbafüggvény

A hipotézisek vizsgálatára próbafüggvényeket használunk. A próbafüggvények a becslőfüggvényekhez hasonlóan mintáról mintára ingadozó mintajellemzők, azonban a sokaságból vett minták megfelelő értékei nem véletlenszerűen, hanem mint azt az előző fejezetben láttuk, függvényszerűen változnak. A próbafüggvényt úgy kell megválasztani, hogy

a sokaságra tett bizonyos kikötések teljesülése, a mintavétel adott módja és nagysága, az ellenőrzendő H0 helyességének feltételezése

mellett ismert legyen annak valószínűségeloszlása. Ehhez a H0 hipotézisnek egyszerű hipotézisnek kell lennie.

A sokaságra és a mintavétel módjára vonatkozó kikötéseket (melyeknek teljesülését eleve elfogadjuk, és a hipotézisvizsgálat keretein belül külön nem vizsgáljuk), a továbbiakban az egyes próbák alkalmazási feltételeinek nevezzük.

Vannak olyan próbák, melyek elvégzéséhez elégséges egyetlen minta – bizonyos feltételek teljesülése esetén: ezek az egymintás próbák. A próbák egy másik részének végrehajtásához nem egy, hanem két vagy több minta szükséges, melyekről többnyire azt tételezzük fel, hogy különböző sokaságokból származnak. Ilyen esetekben a rendelkezésre álló minták vagy egymástól független minták, vagy ún. páros minták lehetnek. Az, hogy e két lehetőség közül melyik áll fenn, ugyancsak az egyes próbák alkalmazási feltételét képezheti.

76

Page 77: Statisztika Jegyzet

A próbafüggvények konstruálása alapvetően elvi, matematikai feladat egy-egy konkrét null-hipotézis és alkalmazási feltétel-rendszer mellett. E célra az elméleti statisztikusok általános módszereket dolgoztak ki. A gyakorlatban a hipotézisvizsgálat végzőjére az alkalmas próba kiválasztásának feladata hárul.

A hipotézisvizsgálat lépései tehát:1. A H0 null-hipotézis és egy vele szemben álló H1

alternatív hipotézis megfogalmazása.2. Olyan próbafüggvény konstruálása, illetve

keresése, amelynek eloszlása H0 helyességét feltételezve és a próba alkalmazási feltételeinek fennállását adottnak véve egyértelműen meghatározható.

3. Egy 0-hoz közeli szignifikanciaszint választása, és a próbafüggvény lehetséges értéktartományának ezzel és az alternatív hipotézissel összhangban lévő felosztása egy elfogadási és egy visszautasítási (kritikus) tartományra.

4. A mintavétel gyakorlati lebonyolítása, és a próbafüggvény számszerű értékének meghatározása a mintából.

5. Döntés a H0 és H1 hipotézisek helyességéről: ha a próbafüggvény értéke az előre kijelölt elfogadási tartományba esik, elfogadjuk H0-t, ellenkező esetben pedig visszautasítjuk, elvetjük azt. Ezzel együtt az alternatív hipotézis az előbbi esetben elvetésre, az utóbbiban pedig elfogadásra kerül.

77

Page 78: Statisztika Jegyzet

7.4. A hipotézisvizsgálat során használatos próbafüggvények

7.4.1. Standard normális eloszlás

A normális eloszlású sokaságokra vonatkozó próbafüggvények egy része a standard formára hozott sűrűségfüggvénnyel jellemezhető (II. melléklet). A standard normális eloszlásnak nincs szabad paramétere.

Példa: a próbafüggvény S értéke normál eloszlást követ 0 átlaggal és 0 szórással. A szignifikanciaszint 5% és kétoldali próbát végzünk. A mintából számított átlag =m

A mintaátlag standardizált értéke az ismert

0

0

mxz

képlettel számítható. (A mintavételi hibát még figyelmen kívül hagyva!)

Mivel a normál eloszlás táblázatában csak az átlagtól jobbra lévő területnagyságok olvashatók le, a 0,95 nagyságú terület feléhez, azaz 0,475-hez tartozó z érték fogja kijelölni az elfogadási és elutasítási tartomány határát (0,47,5+0,025=0,5). Ez a z érték 1,96. Ha a 0-hipotézisünk igaz, akkor egy véletlen mintából származó S statisztika z-értéke a 1,96 tartományba esik, azaz 95%-os biztonsággal elfogadjuk a 0-hipotézist. Amennyiben a z-érték nagyobb mint 1,96 (szignifikánsan különbözik), akkor mindössze 5% a valószínűsége az állításunknak, tehát ekkor a 0-hipotézisünket elvetjük.

78

z=-1,96 z=1,9

6

kritikustartomány

0,950,02

5

0,025

Page 79: Statisztika Jegyzet

Normális:

=4

=1

4

1

Y

t

Ha nem két-, hanem egyoldali próbát kellett volna elvégeznünk, akkor a jobboldali sötét terület egymagában =0,05. Az elfogadási tartomány nagysága tehát 0,5–0,05=0,45. Az ehhez az értékhez tartozó z= 1,6545

A leggyakoribb szignifikanciaszintekhez tartozó z-értékek:

szignifikanciaszint

%

0,10

10%

0,05

5%

0,01

1%

egyoldali

próba

jobboldali -1,28 -1,6545 -2,33

baloldali 1,28 1,6545 2,33

kétoldali próba 1,6545 1,96 2,58

7.4.2. Student féle t-eloszlás

A Student7 féle t-eloszlás egy normális és egy

eloszlású változó transzformáltjának hányadosából származtatható. Hasonlít a standard normális eloszláshoz annyiban, hogy szimmetrikus a 0 pontra, de a t-eloszlást egy paramétere, az ún. szabadságfok () jellemzi. A szabadságfok növekedésével, vagy nagy minták esetén (n >100) a t-eloszlás egyre közelít a standard normális eloszláshoz, azaz nagy mintaelemszámnál a standard normáls eloszlás táblázata is használható.

A Student féle t-eloszlás táblázata a szabadságfok függvényében és a választott szignifikanciaszint szerint adja meg az elutasítási tartomány határát.

7 W.S. Gossett angol statisztikus volt, aki egy sörgyárban dolgozott, ahol kis elemszámú mintákat vizsgált. 1908-ban írt egy cikket "A. Student" álnéven, amelyben a kis minták tulajdonságait vizsgálta.

79

Page 80: Statisztika Jegyzet

A t-eloszlás esetén a konfidenciahatárok:

1

N

stX c , ahol a tc a választott megbízhatósági

(szignifikancia-) szinttől és a minta nagyságától függ, értékei a III. mellékletben találhatók meg.

7.4.3. Khi-négyzet eloszlás

Definíció szerint a (khi-négyzet) statisztika:

2

222

21

2

22 )()()(

xxxxxxsN n

Ha a sokaság normális eloszlású, s a belőle vett szórású N elemszámú minták mindegyikéből kiszámítjuk a -et, akkor kapjuk meg a khi-négyzet

mintavételi eloszlását:

Az ábrából is látható, hogy a khi-négyzet eloszlás paramétere a szabadságfok, s ebben az esetben is a görbe alatti területek egyaránt 1-gyel egyenlők, illetve az is, hogy a szabadságfok növekedésével az eloszlás mind jobban kezd hasonlítani a normális eloszláshoz. A Melléklet IV. tartalmazza az eloszlás percentiliseit a szabadságfok függvényében. Az előbbiekből az is következik, hogyha a szabadságfok nagyobb mint 50, akkor a normális eloszlás táblázata is használható.

A kétoldali 5%-os konfidenciahatárai tehát:

80

5 10 15 20

0,5

0,4

0,3

0,2

0,1

2

Y

=12

=10

=4

=6

Page 81: Statisztika Jegyzet

7.4.4. Fisher féle F-eloszlás

A kétmintás próbák elemzésekor a két minta átlagainak különbsége mellett fontos a két minta varianciájának a vizsgálata is. Ha a sokaság (közel) normális eloszlású, akkor a belőle vett két független minta varianciájának hányadosa egy újabb eloszlást eredményez. Az V. Melléklet mutatja az F-eloszlás leggyakrabban használt, 95-ödik percentilis értékeit a minták szabadságfokának függvényében.

Definíciószerűen: amennyiben a két minta elemszáma N1, N2, a minták szórása s1 és s2 és a sokaságok szórása és :

222

222

211

211

22

22

21

21

)1/(

)1/(

/ˆ/ˆ

NsN

NsN

S

SF , ahol S a korrigált

szórás.

7.4.5. A szabadságfok

Mind a t-, mind a khi-négyzet) kiszámításához a mintából kapott és bizonyos sokasági paraméterek szükségesek (ha ez utóbbiakat nem ismerjük, akkor a mintából becsüljük őket).

Egy statisztika (nű) szabadságfokát a kiszámításához szükséges minta elemszámából származtatjuk: a mintanagyságból (N) levonjuk a mintából becsülni kívánt paraméterek (k) számát: N–k.

A t-statisztika esetében az N számú elemből kiszámíthatjuk a mintaátlagot és -szórást. Mivel csak a -t (sokasági várható átlagot) kell megbecsülni, ezért k=1 következésképp a szabadságfok

81

F

Y

F0,95 F0,99

Page 82: Statisztika Jegyzet

-statisztika számításakor a sokasági szórást a mintából kell megbecsülnünk, azaz k szintén 1 következésképp a szabadságfok szintén

(Kicsit sántító, de képszerű példa a szabadságfok fogalmára: 10 vendéget várunk, ezért kikészítünk 10 széket; az elsőként megérkező vendég választhat, melyik székre ül le. Még a kilencediknek érkező vendég is választhat a szabadon levő két szék közül, de a tizedik vendégnek már nincs szabadság(fok)a a szék megválasztásában, hiszen már csak egyetlen egy üres.)

7.5. Egymintás próbák

Az egymintás próbák mindig egy adott sokaság valamely jellemzőjére vagy valamely változó szerinti eloszlására vonatkozó feltevések helyességének ellenőrzésére szolgálnak. Ennek érdekében a rendelkezésre álló egyetlen minta egyes jellegzetességeit valamely feltételezett vagy kívánatosnak tartott állapothoz viszonyítják. Szokásos elnevezésük ennek megfelelően: várható értékre irányuló próbák. Ennek következtében kivétel nélkül annak a kérdésnek a megválaszolására alkalmasak, hogy az a sokaság, amelyből a minta származik lehet-e olyan, mint amilyennek azt mi a nullhipotézisben feltételezzük.

Két altípusa van: a kismintás z- és t-próba, illetve a nagymintás aszimptotikus z-próba. Mindhárom próba kizárólag az alkalmazási feltételek tekintetében tér el egymástól.

Várható értékre irányuló próbáknak azért nevezzük őket, mert a sokaság -el jelölt várható értékére irányul a próba az alábbi módon felírt null-hipotézis esetében:

82

Page 83: Statisztika Jegyzet

H0 : = 0

E próbák egyaránt használhatók bal-, két-, vagy jobboldali alternatívával szemben.

7.5.1. Kismintás z-próba

A z-próba csak akkor alkalmas a nullhipotézis (H0 : =0) helyességének vizsgálatára, ha a rendelkezésre álló reprezentatív minta ismert szórású normális eloszlásból származik. Az ismert szórást 0-lal jelöljük. Az ismert szórás és a mintaelemszám gyökének a hányadosa a mintavételből származó hibát veszi figyelembe.

E feltétel mellett a

n

xz

0

0

standardizált mintaátlag N(0,1) eloszlást követ.

7.5.1.1 Példák a z-próbára

Példa 1.: Egy malom csomagolóüzemében az automata lisztet tölt papírzacskókba. A liszteszacskók névleges súlya 2 kg. A gép gyártója nem garantálja, hogy a csomagológép száz százalékosan pontos, de azt igen, hogy a névleges súly 2,5%-ának megfelelő szórással normális eloszlással csomagol. A malom óránként véletlenszerűen kiválaszt 10 zacskót, s ezzel kívánja ellenőrizni a gép pontosságát.

Ha a gép megfelelően működik akkor tehát a liszteszacskók N(200,5) eloszlást követnek (2 kg=200 dkg – ennek 2,5%-a megengedett szórás, tehát s=5 dkg). Az ebből a sokaságból származó 10 darabos

véletlenszerű minták átlaga pedig N(200, )

eloszlású.

83

Page 84: Statisztika Jegyzet

Az intervallumbecslésnél tárgyalt módon véletlenszerűen kiválasztott 10 minta 95%-ának az átlaga a következő határok közé kell esnie (zc= 1,96):

nzY c

A minták 99%-ának átlaga pedig a 200±4,08 dkg-os határok közé kell esnie (ekkor a zc=2,58).

Ha tehát egy konkrét mintavétel eredménye az lenne, hogy a mintaátlag 202,5 vagy éppen 197 dkg, akkor hihetőnek vélhetnénk, hogy a gép jól működik, hiszen az intervallumon belül helyezkednek el ezen átlagok. Ha azonban a mintaátlag 196, vagy 204 dkg lenne, akkor gyanakodnánk a gép jó működésében; 5%-nál kisebb valószínűséggel lehetséges ilyen minta. Ha ilyen „szoros” az eredmény, érdemes új véletlenszerű próbát venni, hiszen még a 2,04 kg-os mintaátlag is valószínű a gép jó működés esetén, igaz csak 1%-os szinten.

Az egyik alkalommal a mintába a következő súlyú zacskók kerültek: 201, 192, 202, 198, 194, 196, 202, 197, 198, 196 (dekában). Jól működik-e a gép?

Írjuk fel a gép működésére vonatkozó két hipotézist!

H0 : μ = 200H1 : μ ≠ 200 (azaz kétoldali eltérést célszerű

vizsgálni, egyrészt azért hogy a gép működését ellenőrizzük, s azért is mert így optimalizálható hogy a malom se fizessen rá a „biztonsági” túlcsomagolásra és a vevők se károsodjanak az egyoldali „alulcsomagolással”.

Mivel ismert a sokasági átlag (a névleges töltősúly) és adott a sokasági szórás (a gyártó által garantáltan) a z-próba végezhető el. Végezzük el a próbát 5%-os szignifikanciaszinten!

Ehhez először kiszámoljuk a mintaátlagot:

84

Page 85: Statisztika Jegyzet

(201+192+202+198+194+196+202+197+198+196)/10=197,6

Most már minden szükséges értékünk megvan, behelyettesíthetjük azokat a z-próba képletébe:

n

xz

0

0

Mivel kétoldali próbát végzünk /2=5/2=2,5%, azaz a 0,025 lesz az elfogadási tartomány határa. A II. melléklet standard normál eloszlás táblázatát használva a 0,5–0,025 területhez tartozó z-értéket kell tehát megkeresnünk. A 0,475-höz tartozó érték a már ismerős 1,96, azaz akkor fogadható el a H0, ha a számított z-értékünk a ±1,96 tartomány közé esik – s esetünkben ez valóban így van, azaz elfogadjuk a gép jó működését, s kijelenthetjük (95%-os biztonsággal) hogy a mintaátlag szignifikánsan nem különbözik a névleges súlytól.

Példa 2.: A névlegesen 1000 óra élettartamú, 85 óra szórású villanyégők vizsgálatakor egy 50 db-os véletlen minta átlagosan 960 óráig világított. Ellenőrizzük 5%-os szignifikanciaszinten azt a hipotézist, hogy az égők eleget tesznek e az 1000 órás feltételnek.

Mivel a vevők csak akkor károsodnak, ha az égők kevesebb ideig égnek az előírtnál, egyoldalú próbát lehet végeznünk, ekkor a z=–1,6545 az elfogadási és elutasítási tartomány határa. A hipotézis felírása:

H0 : = 1000H1 : < 1000

85

z=-1,6545

kritikus tartomány

0,950,05

Page 86: Statisztika Jegyzet

-3,3275685

282,843-

85

07,740

50

851000960

0

0

n

xz

Mivel z=–3,33 kívül esik az –1,6545-ös tartományhatáron, elvetjük az égők szabványosságára vonatkozó 0-hipotézisünket, s elfogadjuk az alternatív hipotézist, azaz, hogy az égők szignifikánsan nem teljesítik az előírt élettartamot. Ha mintabeli égők átlagos időtartama 985 óra lett volna, akkor a z számított értéke –1,248 lenne, azaz akkor megtartanánk az égők szabványosságára vonatkozó 0-hipotézist.

Példa 3.: Egy gép 10 mm vastag alátéteket gyárt, a megengedhető szórás 0,8 mm. Egy 36 db-os véletlen minta átlaga 10,3 mm volt. Jól működik-e a gép a) 5%-os; b) 1%-os szinten?

Mivel mindkét irányú eltérés fontos, kétoldali próbát kell végeznünk!

A hipotézis megfogalmazása:H0 : = 1000H1 : 1000

Kétoldali próbánál az 5%-os szignifikanciahatár 1,96, 1%-os határnál pedig 2,58

25,20,8

1,8

8,0

63,0

36

8,0103,10

0

0

n

xz

Azaz 5%-os szignifikanciaszinten el kell vetnünk a gép jó működésére vonatkozó 0-hipotézisünket, mivel 2,25>1,96, 1%-os szinten pedig már elfogadhatjuk, mert 2,25<2,58. – másképpen: 95%-os valószínűséggel a gép jól működik, 99%-os valószínűséggel már nem állíthatjuk ugyanezt.

86

Page 87: Statisztika Jegyzet

Ellenőrizzük megállapításunkat az intervallumbecslésnél megismert eljárással. Ha a konfidenciaintervallum 95%, akkor a határok:

26,01036

8,096,110

nzY c ,

azaz 9,74 és 10,26 mm közé esik 100 db alkatrészből 95 db. A 10,3 mm-es átlagú minta tehát nem a 95%-os tartományba, hanem az azon kívüli 5%-os tartományba kerül.

Ha a konfidenciaintervallum 99%, akkor a határok:

0,3441036

8,058,210

nzY c ,

azaz 9,656–10,344 határok közé kerül 100 alkatrész közül 99-nek a mérete – így a mintánké is.

7.5.2. Aszimptotikus(nagymintás) z-próba

Enyhébb alkalmazási feltételei vannak, mert ez a próba semmi mást nem igényel, mint egy véges szórású tetszőleges eloszlásból származó nagy mintát. Nem kell tehát ismernünk a sokaság szórását, mert a nagy minta segítségével jól megbecsülhetjük azt. Ebben az esetben ugyanis a mintaelemek egymástól való függetlensége és nagy száma, valamint a sokaság

eloszlásának véges szórása miatt a

próbafüggvény aszimptotikusan standard normál eloszlású.

A mintaelemszámnak annál nagyobbnak kell lennie, minél jobban különbözik a sokaság eloszlása a normális eloszlástól.

Ha a sokaság eloszlása nem normális, de szimmetrikus, már a viszonylag kicsi – 30 körüli – mintanagyság is elegendő lehet. Erősen aszimmetrikus sokasági eloszlások esetén azonban akár többszáz

87

Page 88: Statisztika Jegyzet

elemű minta is kellhet ahhoz, hogy valóban közel N(0,1) eloszlású legyen. (A képletben „s” a korrigált tapasztalati szórás – ezzel becsüljük meg a sokaság nem ismert szórását.)

7.5.3. Egymintás t-próba

A másik gyakori kis mintát igénylő próba az egymintás t-próba enyhít a z-próba meglehetősen szigorú alkalmazási feltételein: nem követeli meg a sokasági eloszlás szórásának ismeretét, de annak normális voltát továbbra is kiköti; azaz feltételezzük, vagy korábbi ismereteink alapján tudjuk, hogy a vizsgált populáció normális eloszlású, de a paramétereit nem ismerjük. A próba a paraméter értékére vonatkozik. Ebben az esetben a

kk s

nμy

n

sμy

t

)( 00

próbafüggvény használható fel H0 helyességének ellenőrzésére ( y a minta átlaga, 0 a sokasági –

várható – átlag, n a minta elemszáma, sK a korrigált tapasztalati szórás – a korrigált tapasztalati szórás-sal becsüljük meg a sokaság ismeretlen szórását).

11

2

N

)Y(Y

s

N

i

i

K

A t-próba képlete egyébként formailag megegyezik a z-próbáéval. A szóráson (becsült szóráson) kívül a másik lényeges különbség, hogy míg a z-próbánál a számított érték szignifikanciáját a standard normál eloszlás táblázatán ellenőrizzük, addig a t értékét a Student-féle (III. melléklet) táblázatban a szabadságfok függvényében vizsgáljuk.

88

Page 89: Statisztika Jegyzet

A hipotézis felállítása:1. H0: = v (v a várt, feltételezett érték)2. H1: v (kétoldalú alternatív hipotézis);3. rögzítése.Ha H0 helyes, és a sokaság eloszlása valóban

normális, a t próbafüggvény n-1 szabadságfokú Student-féle t-eloszlást követ.

Döntés: |tszámított|<t esetén nem vetjük el a nullhipotézist és azt mondjuk, hogy a populáció átlagának -től való eltérése nem szignifikáns (1-)%-os szinten; — |tszámított|>t esetén elvetjük a nullhipotézist és azt mondjuk, hogy a populáció átlagának -től való eltérése szignifikáns (1-)%-os szinten.

7.5.3.1 Példák a t-próbára

Példa 1.: Egy boltban lemértünk 10 db, névlegesen félkilós kenyeret. A minta átlaga 0,47 kg-nak bizonyult 0,03 kg-os szórással. Vizsgáljuk meg minta alapján 5 és 1%-os szignifikanciaszinten, hogy elfogadhatók-e a kenyerek, s a súlycsökkenés, pl. a természetes száradás elfogadható mértékéből adódik, azaz hogy

H0: =05 és a kenyerek szabványosak, vagyH1: 0,5 és megkárosítják a vevőketA kétoldalú próba, a 0-hipotézis esetén:

00,311003,0

5,047,01

N

s

Xt

(Mivel a kiírás szerint a minta szórását ismerjük, a korrekciót az elemszámnál vesszük figyelembe!)

Elfogadjuk H0-t, ha t a t0,975 intervallum belsejébe esik, ami 9 szabadságfok mellett 2,26. Mivel ez nem teljesül, a 0-hipotézist elvetjük.

1%-os szignifikanciaszintnél a 3,25 intervallum érvényes, itt elfogadhatjuk a H0-t.

89

Page 90: Statisztika Jegyzet

Reklamálás előtt érdemes új próbát venni, s ha az hasonló eredményre vezet, akkor értesíteni a kenyérgyárat, hiszen a mintabeli adatok valószínűleg szignifikánsak.

Példa 2.: Egy kísérlet bevezetéseként a résztvevőknek felmutattak egy 20 cm-hosszú pálcát, majd azt kérték tőlük, hogy az asztalon kijelölt vonattól becsüljék meg ugyanazt a távolságot, annak ellenőrzésére, hogy van-e „távolságemlékezetük”. A kísérlet során a 8 személy a következő távolságokat produkálta: 22,1, 20,5, 22,6, 20,6, 20,1, 16,6, 18,7, 20,6. Kérdés: van-e távolságérzékelés?A hipotézis felállítása:

H0 : = 20 cm, és van távolságemlékezetH1 : 20 cm, és nincs távolságemlékezet

táv x– x (x– x )2

x1 22,1 1,875 3,516

x2 20,5 0,275 0,076

x3 22,6 2,375 5,64

x4 20,6 0,375 0,14

x5 20,1 -0,125 0,016

x6 16,6 -3,625 13,14

x7 18,7 -1,525 2,33

x8 20,6 0,375 0,141

Összes: 161,8 24,995

Átlag: 20,225

A minta szórásának számítása:

A minta korrigált szórásának számítása:

90

Page 91: Statisztika Jegyzet

A kiinduló értékek átlagának és szórásának kiszámítása után, behelyettesítve a t-próba képletébe:

Ugyanezt az eredményt kapjuk, ha a minta szórásá-val számolunk és a korrekciót az elemszámnál, az alábbi módon vesszük figyelembe:

33706521273065276761

22507

76761

2022520

1

,,,,,

,

,

,

N

sμX

t

A t=0,337-es érték 7-es szabadságfoknál a 0,6-0,7 valószínűség közé esik, tehát 60%-nál nagyobb a valószínűsége annak, hogy a véletlen ingadozás adja a kísérleti személyek átlaga és a várt érték közötti 0,225 cm-es különbséget.

5%-os szignifikanciaszintnél a t.975-ös oszlopot kell néznünk, hiszen kétoldali eltérést vizsgálunk. A 7-es szabadságfok sorában ezen oszlopban levő érték 2,36.

Elfogadjuk a nullhipotézist, ha |t|<ttáblázat. A H0-t akkor kellene elvetnünk, ha t értéke nagyobb lenne a táblázatbelinél. Mivel 0,337<2,36, ezért H0-t, azaz a távolságérzékelés meglétét fogadjuk el.

Mindezt ellenőrizhetjük, ha felállítjuk a 20,225 cm-es távolság 95%-os konfidenciahatárait:

0,667225,2065,2

7676,1225,20

7

7676,1225,20

1975,0

N

stX

Ezek a határok azt jelentik, hogy a „sokasági” átlag 19,558 és 20,992 közé esik: s mivel a 20 cm valóban ebben az inetervallumban található, ezért megerősí-thetjük: a 0,225 cm-es eltérés a várt 20 cm-től a mintavételi véletlennek tulajdonítható csak, s létezik az elég nagy pontosságú távolságbecslés.

91

Page 92: Statisztika Jegyzet

Ám ha a kísérlet kezdetén 17 cm-es hosszúságot mutatnak, hogy próbálják eltalálni azt a távolságot, de a kisérletben részt vett személyek ezt a 20,225 ös át-lagot produkálták volna, akkor:

83,465,2824,165,27676,1

225,37

7676,1

17225,20

t

A 4,83 még a t.995 3,5 értékénél is nagyobb (1%-os szignifikanciaszint), azaz ekkor el kellene vetni a H0-t 99,5%-os valószínűségnél is, tehát nem lenne szig-nifikáns az eredmény arra vonatkozó hipotézisre, hogy van távolságérzékelés. El kellene vetnünk tehát a null-hipotézist, s érvénybe lépne az alternatív: nincs távol-ságbecslési képessége a kísérletben részt vett szemé-lyeknek.

7.6. Kétmintás próbák

A két- (és több) mintás próbák annak a kérdésnek a vizsgálatára használhatók, hogy két vagy több – meghatározott szempontból eltérő – sokaság valamilyen más tekintetben is különbözik-e egymástól. A többmintás próbák tehát két vagy több sokaság egymással való összehasonlítására szolgálnak.

A két- és többmintás próbák igen fontosak a gyakorlati életben, hiszen az összehasonlítás nem lehet mindig teljes körű, hanem jellemzően a mintavételes megfigyelés eredményeire támaszkodhatunk csak.

7.6.1. Páros (önkontrollos) minták

A kétmintás próbák közül a speciális páros mintás próbákat visszavezethetjük az egymintás próbákra. Páros mintákról beszélünk, ha minden egyes X-mintabeli adathoz hozzátartozik egy Y-beli adat. Páros minta képződik például házaspárok tulajdonságainak összefüggés-vizsgálatakor. Szintén páros mintát

92

Page 93: Statisztika Jegyzet

képeznek az önkontrollos kísérletek, hiszen akkor minden egyes mintaelemhez tartozik egy kísérlet előtti és egy kísérlet utáni adat.

Ha mindenegyes pár adatainak különbségeit képezzük, akkor egy adat keletkezik, arra pedig elvégezhető az egymintás próba a következő összefüggés segítségével:

xi–yi = di és ns

dt

k

ahol d a páros adatok különbségének átlaga, sk a páros

adatok különbségének korrigált szórása.A különbségképzés során természetesen

adódhatnak di=0 értékek is. Megoszlanak a vélemények, hogy ezen 0 értékekkel kell-e számolni az átlagot és a korrigált szórást, vagy pedig el lehet hagyni őket (1, 0, 2 átlaga lehet 3/3, illetve 3/2 is). Ha a változó arányskálán mérhető, akkor inkább vegyük figyelembe a zérus értékeket is az átlag- és szórás kiszámításánál, egyébként nem szükséges.

7.6.1.1 Példák a páros t-próbára

Példa 1.: Kilenc házaspárt vizsgáltak abból a szempontból, hogy heti hány órát fordítanak tv-nézésre. Vizsgáljuk meg = 5%-os szinten, van-e szignifikáns különbség a házaspárok tv-előtt eltöltött idejében! A hipotézis felállítása:

H0: = 0 és nincs különbség, gyakorlatilag azonos időt tölt egy-egy házaspár tv-nézéssel;

H1: 0, és a házaspárok szignifikánsan eltérő időt töltenek el a tv előtt.

A mért adatok, illetve a belőlük számított statisztikák:

FérjFeleség

Különbség

(d)(dn– d )2

93

A korrigált szórás:

19,278,4

8

22,38

1

9

1

2

n

)d(d

s i

i

k

Page 94: Statisztika Jegyzet

14 15 -1 2,09

14 10 4 12,64

15 15 0 0,19

14 16 -2 5,97

12 15 -3 11,86

17 15 2 2,42

10 8 2 2,42

14 13 1 0,31

8 7 1 0,31

átlag ( d ) 0,44(xn- d )2

=38,22

korrigált szórás

2,19

A t-értékének kiszámítása:

61,03203,0919,2

44,0 n

s

dt

k

Kétoldali eltérést vizsgálunk, a kritikus érték 8-as szabadságfoknál: t.975 = 2,31. A számított t értékünk ennél kisebb, azaz az elfogadási tartományba tartozik, ezért megtartjuk a null-hipotézis, s kijelenthetjük: nagy valószínűséggel gyakorlatilag azonos időt tölt egy házaspár tv-nézéssel.

Példa 2.: Egy új fogyókúrás program hatásosságát vizsgáljuk. A kísérletben rész vevők kúra előtti és kúra utáni testsúlyát a táblázat tartalmazza. Valóban hatásos-e a kúra, vagy az eltérés nem olyan mértékű, hogy annak javára írhatnánk!

A hipotézis felállítása:H0: =0 és a kezelés nem hatásosH1: <0, és a kezelés hatásos

Kísérleti személye

k

Kezelés előtt

Kezelés után

Különbség(d)

(dn– d )2

x1 96 91 5 1,44

94

Page 95: Statisztika Jegyzet

x2 102 99 3 0,64

x3 85 82 3 0,64

x4 92 86 6 4,84

x5 88 85 3 0,64

x6 86 87 -1 23,04

x7 90 81 9 27,04

x8 95 89 6 4,84

x9 84 83 1 7,84

x10 92 89 3 0,64

átlag ( d ) 3,8(xn- d )2

=71,6

korrigált szórás 2,82

26,416,335,11082,2

8,3 n

s

dt

k

=0,05, és 9-es szabadságfokhoz tartozó kritikus érték a t-eloszlás táblázatából (egyoldali eltérés vizsgálva) t,95=1,83

Mivel a számított t nagyobb mint az 5%-os szignifikanciaszinthez tartozó érték, elvethetjük a H0-t, azaz a kezelés hatásos. Még 1%-os szignifikansziaszinten is azonos döntésre jutunk, mivel t,95 = 3,25.

Példa 3.: Házasságot kötő párok közül véletlenszerűen kiválasztottak 13 párt, és a mennyasszonyt és a vőlegényt is külön-külön megkérdezték, hogy hány gyermeket terveznek. A válaszokat a táblázat tartalmazza:

A tervezett gyermekek száma a 13 házaspár tagjainál:

95

A korrigált szórás:

82,295,7

9

6,71

1

10

1

2

n

)d(x

s i

i

k

Page 96: Statisztika Jegyzet

Házaspár1. 2. 3. 4. 5. 6. 7. 8. 9.

10.

11.

12.

13.

Menyasszony (xi)

4 2 2 2 0 2 3 3 2 5 2 2 1

Vőlegény(yi)

2 2 3 2 1 0 2 1 1 3 3 2 0

d=xi–yi 2 0 -1 0 -1 2 1 2 1 2 -1 0 1

Vizsgáljuk meg a H0 : d 0 nullhipotézis helyességét a H1 : d > 0 jobboldali alternatívával szemben 5 %-os szignifikanciaszinten, feltételként elfogadva, hogy a különbség normális eloszlású!

A hipotézisvizsgálat az egymintás t-próbával oldható meg, amennyiben képezzük a menyasszony és a vőlegény által tervezett gyermekszámok különbségét. A különbségekből számított átlag és szórás számításakor kétféle módon számolhatunk: bevesszük-e a 0 eredményű különbségeket a számításba, vagy sem. Látni fogjuk, esetünkben azonos eredményre jutunk.

Az átlag a 0 értékű különbségek figyelembevételével (alsó indexben 0-val jelölve:

Az átlag a 0 értékű különbségek figyelmen kívül hagyásával (alsó index nélkül):

Mivel nem ismerjük a sokasági szórást, ezért azt

megbecsüljük a korrigált szórással. A korrigált szórás a 0-értékű különbségek figyelembevételével:

A korrigált szórás a 0-értékű különbségek figyelmen kívül hagyásával:

A próbafüggvény értéke mindkét esetben:

96

Page 97: Statisztika Jegyzet

A t kritikus értéke egyoldali eltérést vizsgálva (tehát a t,95 oszlopot figyelve: =13-1=12 szabadságfoknál 1,78;=10-1=9 szabadságfoknál 1,83.

Mivel 1,31<1,78, illetve 1,39<1,83, ezért elfogadjuk azt a 0-hipotézist, hogy a házasulandó párok gyermekvállalási szándékában nincs szignifikáns különbség

7.7. Két független mintát igénylő próbák

Ha két valóban független, s akár eltérő elemszámú minta áll rendelkezésünkre, akkor először is arra keressük a választ, hogy a két minta (átlagaik 1, és 2) két különböző sokaságból származik-e, vagy pedig ugyanabból. Ekkor az alábbi hipotézisek közül választhatunk:

H0 : = és a különbség csak a véletlennek tulajdonítható, s mindkét minta azonos sokaságból származik;

H1 : szignifikáns a különbség a két minta között, azaz két külön sokaságból valók.

Illetve:H0 : – ahol tetszőleges, de előre

megadott érték (így lehet 0 is), és azt a különbséget fejezi ki, ami feltételezésünk szerint a két változó érték között lehetséges.

7.7.1. Kétmintás z-próba

Az egymintás z-próbához hasonlóan itt is feltétele a próbának, hogy ismerjük a normál eloszlású sokasági szórásokat. Amennyiben a két sokaság normális eloszlású és szórásaik 1 és 2, akkor a z-

97

Page 98: Statisztika Jegyzet

próbafüggvény a null-hipotézis helyessége esetén N(0,1) eloszlású:

2

22

1

21

021

N

σ

N

σ

)X-X(z

7.7.1.1 Példák a kétmintás z-próbára

Példa 1.: a pécsi és a budapesti piacokon össze akarták hasonlítani az alma árát; megegyeznek-e vagy lényegesen különböznek? Van-e szignifikáns különbség vagy nincs?

A pécsi piacokon n1 = 100, a budapestieken pedig n2 = 144 árusnál írták fel az almaárakat. Pécsett 85 Ft volt átlagosan az alma kilónkénti ára 15 forintos szórással, Budapesten pedig 90 Ft, a pécsinél kisebb 12 Ft-os szórással.

A hipotézis felállítása:

H0 :

H1 :

Szignifikanciaszint: 5%.

5%-os szignifikanciszintnél, kétoldali eltérést vizsgálva az elfogadási tartomány határa 1,96 (0,5–0,05/2=0,475 területhez tartozó z-érték); azaz 2,78>1,96.

Elutasítjuk a null hipotézisünket, hogy a két piacon az alma ára megegyezik. Szignifikánsan különbség van a két piac almaárai között.

98

Page 99: Statisztika Jegyzet

Ha át 2 forintban állapítjuk meg, azaz ezzel figyelembe vesszük a fővárosi magasabb bér- és ezzel együtt árszínvonalat, akkor:

Ez a számított z-érték viszont már kisebb mint 1,96, azaz elfogadhatjuk az almaárak azonosságára vonatkozó, valamilyen okkal magyarázott elfogadható különbségű nullhipotézisünket.

Példa 2.: Egy korábbi évfolyamon statisztikából 5 csoport vizsgázott. Mindegyik csoport azonos arányban kétféle, A- és B-tesztet kapott, melyek maximálisan elérhető pontszáma 60 volt.

Vizsgáljuk meg, hogy szingnifikáns különbség van-e a két teszt között (azazhogy az A-teszt tényleg nehezebb volt-e mint a másik, vagy csupán a gyengébb felkészültségű hallgatók többségében az egyforma nehézségű tesztek közül véletlenül az A-tesztet kapták).

Az összesített eredményeket e táblázat mutatja:

Össze

s

A-

teszt

B-

teszt

I.cs. II.cs. III.cs. IV.cs. V.cs.

pont-átlag 34,33 32,35 36,08 32,96 34,87 35,53 34,78 31,64

pont-szórás 9,60 9,40 9,44 10,89 8,41 8,56 9,43 11,15

létszám 364 171 193 110 108 30 83 33

A hipotézis felállítása:H0 : = azaz , és a különbség csak a

véletlennek tulajdonítható;H1 : szignifikáns a különbség a két teszt

között.

Behelyettesítve az adatokat:

99

Page 100: Statisztika Jegyzet

77,399,0

73,3

171

36,88

193

11,89

73,3

171

4,9

193

44,9

35,3208,36

2222

A

A

B

B

AB

N

σ

N

σ

)X-X(z

Kétoldali próba esetén 5%-os szignifikanciaszinten az eredmény akkor szignifikáns, ha z a 1,96 tartományon kívül esik, s mivel 3,77>1,96, ezért kijelenthetjük, hogy 5%-os szinten szignifikáns különbség van a két teszt között, és valószínűleg az A-teszt nehezebben volt megoldható (azonos felkészültségű hallgatókat feltételezve), mint a B-teszt, azaz elvethetjük a null-hipotézist.

Példa 3. Nézzük meg, hogy az átlagban leginkább eltérő két csoport esetében mi a helyzet!

A hipotézis felállítása:H0 : = V és a különbség csak a véletlennek

tulajdonítható;H1 : III V szignifikáns a különbség a két csoport

között.

56,149,2

89,3

33

32,124

30

27,73

89,3

33

15,11

30

56,8

64,3153,35

2222

V

V

III

III

VIII

N

σ

N

σ

X-Xz

Ebben az esetben a z=1,56 belül esik az 1,96-os tartományhatáron, s ezért kijelenthetjük, a két csoport közti különbség csak a véletlennek tulajdonítható (feltételezve, hogy hasonló arányban írták mindkét csoportban a kétféle tesztet).

7.7.2. Szórásnégyzetekre irányuló próba (F-próba)

Sok esetben azt kell eldöntenünk, hogy az Y-sokaság és az X-sokaság tekinthető-e azonos eloszlásúnak. Így például feltehetjük azt a kérdést, hogy két

100

Page 101: Statisztika Jegyzet

népességcsoport magasságeloszlása azonos-e. Ellenőrzést igényelhet olyan feltevés is, hogy két csoporton belül azonos-e a jeles eredményt elértek aránya, azaz, hogy a megfigyelt különbségek a véletlennek tulajdoníthatók-e vagy sem.

A két független mintás próbákkal megválaszolhatók ezen és hasonló kérdések, ám nem árt először elvégezni a szórásnégyzetekre irányuló próbát.

Az F-próba a két sokaság szórásnégyzetének (vagy szórásának) egyezésére vonatkozó H0 : 22

YX

(vagy X = Y) nullhipotézis ellenőrzésére – mindkét sokaság normális eloszlását feltételezve – az

2

2

Y

XF

próbafüggvény használható.

A H0 helyessége esetén F 1=NX–1 és 2=NY–1 szabadságfokú ún. Fischer-féle F-eloszlást követ, amennyiben 22

YX .

Mivel az F-eloszlás nem szimmetrikus, a táblázat használatakor ügyelnünk kell arra, hogy 1 a számláló, 2 pedig a nevező szabadságfoka! Az egyszerűség kedvéért a nagyobb értékű szórásnégyzet kerüljön a számlálóba, a kisebb pedig a nevezőbe.

7.7.2.1 Példa az F-próbára

Példa 1.: végezzük el az F-próbát a III. (30 fő, szórás: 8,56) és V. csoport (33 fő, szórás 11,15) eredményeire!

A nullhipotézis, hogy a két csoport szórása (varianciája) megegyezik, az eltérés csak a véletlenből adódik.

Ellenhipotézis: a két csoport szórása lényegesen eltér (szignifikánsan különbözik) egymástól.

7,127,73

32,124

56,8

15,112

2

2

2

Y

XF

101

Page 102: Statisztika Jegyzet

A számláló szabadságfoka 33–1=32, a nevezőé pedig: 30–1=29

Az 5%-os szignifikanciaszintű F-eloszlás táblázatban a 2=29-es sorban a 1-nek megfelelő oszlop csak 30 és 40 szabadságfokú osztásban található 1,85 és 1,81 értékkel: mindkettő nagyobb mint a számított F-érték, azaz megtarthatjuk a null-hipotézist.

7.7.3. Kétmintás t-próba

A kétmintás t-próba kontrollcsoportos vizsgálatok jellegzetes vizsgálati módszere. Amennyiben két, normális eloszlású sokaságból vett mintánk van (N1 N2) elemszámmal, és feltételezve, hogy a két sokaság szórása közel azonos (), akkor a 1 és 2 átlagú és s1, illetve s2 szórású minta annak a null-hipotézisnek a vizsgálatára alkalmas, hogy a két minta azonos sokaságból származik (azaz azaz , és ), az alábbi t-próbafüggvény használandó:

ahol:

A próba feltétele, hogy a két csoport varianciái között nincs jelentős különbség. Ennek vizsgálata az F-próbával történik:

(ha s1>s2)

Ha F<Ftáblázat, akkor nincs nagy különbség a varianciák között és elvégezhető a kétmintás t-próba.

7.7.3.1 Kétmintás t-próba

Példa 1.: Az Aaaa és a Bbbb típusú személygépkocsi benzinfogyasztása névlegesen egyforma. Ennek

102

Page 103: Statisztika Jegyzet

ellenőrzésére az Aaaa típusú autók közül véletlenszerűen kiválasztottunk 16 darabot: ezen gépkocsik átlagfogyasztása: 6,4 l/100 km-nek adódott 0,8 l/100 km szórással. A Bbbb típusúból 9 elemű mintát vettünk, ezen gépkocsik átlagos fogyasztása: 6,8 l/100 km volt, szórása pedig 0,9 l/100 km.

A hipotézis felállítása:H0 : = azaz , a két gépkocsitípus fogyasztása között nincs különbség, a mérési különbség csak a véletlennek tulajdonítható;H0 : ≠ a két gépkocsitípus fogyasztása eltér egymástól.

Szignifikanciaszint: 5%

A szabadságfok: 16+9-2=23. Mivel kétoldali eltérést vizsgálunk a t.975 oszlopot kell néznünk a t-eloszlás táblázatban. A táblázatbeli érték: ttábl= 2,07

Mivel |-1,198| < 2,07 A null hipotézist elfogadjuk, nincs szignifikáns különbség a szkg.-k fogyasztása között

Példa 3.: Nem messze egymástól két hasonló áruválasztékú üzlet található. A két tulajdonos a barátságos üzleti rivalizálás keretében szeretné eldönteni, hogy a vásárlók körében melyik üzlet a népszerűbb. Ezért ugyanabban az időszakban felmérték, hogy hány vásárlójuk volt és azok mennyit költöttek. Az eredményeket az alábbi táblázat tartalmazza:

Vásárlók száma

(fő)

A vásárol áruk árának

átlaga (Ft) szórása (Ft)

A-üzlet 17 1230 225

103

Page 104: Statisztika Jegyzet

B-üzlet 11 1060 310

A hipotézis felállításaH0 : = azaz , a két bolt forgalma között

nincs különbség, az csak a véletlennek tulajdonítható;H0 : ≠ a két bolt forgalma eltér egymástólSzignifikanciaszint: 5%Kis mintákról és a mintákból becsült szórások okán

a kétmintás t-próba elvégzése célszerű. Ehhez előbb meg kell vizsgálni, hogy a két forgalom varianciája lényegesen különbözik-e egymástól. Ha igen, akkor más módszerrel kell vizsgálódni, ha nem, akkor elvégezhető a t-próba.

A számláló szabadságfoka 11-1=10, a nevezőé pedig 17-1=16

Az F-eloszlás táblázatban a 10 szabadságfokú oszlop és a 16 szabadságfokú sor kereszteződésében 2,49 érték található, melynél kisebb a számított F-érték. Ez azt jelenti, hogy 5%-os szinten nem tér el jelentősen egymástól a két variancia, tehát elvégezhető a t-próba.

Ehhez először a két üzlet közös varianciáját

becsüljük meg:t-értéke pedig:

A III. mellékletben a t.975 oszlopot nézzük, mert a hipotézis felállítása értelmében kétoldali eltérést

vizsgálunk. A közös szabadságfok 17+11-2=26 – az ennek megfelelő sorban és a kiválasztott oszlop

104

Page 105: Statisztika Jegyzet

kereszteződésében 2,06 érték található mint az elfogadási intervallum határa.

Számított t-értékünk ennél kisebb, azaz az elfogadási tartományban van (1,683<2,06), ezért magát a 0-hipotézist is elfogadjuk, azt tehát, hogy a két bolt forgalma között nincs szignifikáns különbség: egyformán népszerűek a vásárlók körében.

7.8. Több sokaság várható értékének összehasonlítása

7.8.1. Variancia-analízis

A leíró statisztika is foglalkozott már a részsokaságok vizsgálatával, illetve a vegyes kapcsolat szorosságának mérésekor a belső és külső variancia fogalmával.

Most kiterjesztjük az ott megismerteket a részsokaságok, illetve két egydimenziós minta ugyanazon változója közötti különbözőség szignifikanciaszintjének meghatározására.

A próba feltétele (0-hipotézis): a különböző minták ugyanazon populációból valók (mindegyik minta ugyanazon populációt reprezentálja)

A varianciaanalízis: a „képzelt” populációnak két, egymástól teljesen független módon megbecsült varianciájának összehasonlításával állapítjuk meg, hogy létezhet-e ilyen populáció.

Ha a két variancia nem különbözik lényegesen egymástól, akkor a 0-hipotézis elfogadható; azaz van ilyen „képzelt” populáció, azaz nincs szignifikáns különbség a minták között (mindegyik reprezentálja a sokaságot).

Ha a két variancia szignifikánsan különbözik, akkor nem létezik a „képzelt” populáció, azaz a minták

105

Page 106: Statisztika Jegyzet

szignifikánsan különböznek, vagy a részsokaságok közötti eltérés valós, nem a véletlen következménye.

7.8.2. Belső variancia

Feltételezés: a minták között nincsenek lényeges különbségek, az esetleges eltérések a mintákon belüli egyes elemek eltéréséből fakadnak (más-más módszerek között nincs különbség). Nem veszi figyelembe az egyes minták egymáshoz való viszonyát:

hN

YY

s

Nj

i

jij

M

jB

1

2

12

)(

(Jelölések: a j-edik minta átlaga, Yij a j-edik minta i-edik eleme, i = az elem adott mintán belüli sorszáma; j = az adott elemet tartalmazó minta sorszáma; összelemszám = N; minták száma = h)

7.8.3. Külső variancia

Feltételezés: az egyes elemek között nincsenek különbségek, az eltérések a minták között vannak (a módszer okozza az eltérést). A minták belső szóródása helyett a minták egymáshoz való viszonyát számszerűsítjük.

A két variancia különbözőségének szignifikanciája határozza meg az egydimenziós minták középértékei közötti különbözőséget: ha a varianciák nem a véletlennek köszönhetően, azaz szignifikánsan különböznek, akkor a vizsgált minták tulajdonságai is jelentősen eltérnek egymástól.

Ennek próbája az F-próba

F= sk2/sb

2, illetve F= sx2/sy

2

106

Page 107: Statisztika Jegyzet

Ha F< Ftáblázat = a két variancia nem lényegesen különbözik, van „képzelt” populáció,

ha F>Ftáblázat a minták nem a véletlennek köszönhetően különböznek egymástól, nincs „képzelt” populáció.

7.8.3.1 Példa a varianciaanalízisre

Kettőnél több azonos szórású és normális eloszlású valószínűségi változó várható értékének vizsgálatára alkalmas. A vizsgálat eszköze az F-próba.

F= sx2/sy

2 A képletet így is felírhatjuk:

ahol: SSK = külső eltérés

négyzetösszegeSSB = belső eltérés

négyzetösszege

Példa 1.: Négy dolgozó 15 napon át figyelt teljesítményadatait hasonlítjuk össze. Feladat annak megállapítása, hogy a 4 munkás teljesítménye között van-e szignifikáns eltérés? Szignifikanciaszint 5%. A belső eltérés négyzetösszegét az egyszerűség kedvéért már megadtuk (minden munkásnál a napi teljesítményének és saját teljesítményátlagának a négyzetes különbsége):

nj

egyéni átlagteljesítmé

ny

A munkás

12 59,3 117,6

B munkás

13 57,9 173,4

C 15 60,8 228,2

107

Page 108: Statisztika Jegyzet

munkás

D munkás

14 60,3 86,4

j= 4 n = 54 (összes napok száma)A négy munkás együttes teljesítményátlagát a

napokkal súlyozott egyéni átlagokból számoljuk ki:

A

számláló szabadságfoka ν1=j-1=3, a nevezőé: ν2=n-j=54-4=50

Az F-eloszlás táblázat (V.) 3 jelű oszlopa és 60 jelű sora (50 nincs feltüntetve) metszésében a 2,76-es érték található – ez az elfogadási tartomány határa. Mivel 1,85<2,76, ezért elfogadjuk null hipotézisünket, azaz hogy nincs szignifikáns különbség a 4 munkás teljesítménye között.

7.9. Függetlenségvizsgálat

A sokaság több ismérv szerinti vizsgálatával szintén foglalkozik a leíró statisztika. Ott csupán azt vizsgáltuk, hogy milyen szoros a csoportképző ismérvek közötti kapcsolat. A vizsgálat eszköze a kontingencia-tábla volt:

„A” ismérvszerinti osztályok

„B” ismérvszerinti

osztályokA1 A2 … Ak … As

Sor-összegek

B1 f11 f12 … f1k … f1s f1

B2 f21 f22 … f2k … f2s f2

… … … … … …

108

85,1454/6,60514/11,67

F

Page 109: Statisztika Jegyzet

Bk fi1 fi2 … fkk … fis

… … … … … …Bi ft1 ft2 … ftk … fts ft

Oszlop-összegek

f1 f2 … fk … fs N

Ha azonban a kontingencia-tábla nem a teljes sokaságot írja le, hanem a sokaságból vett reprezentatív mintának tekintjük – s a gyakorlatban ez a jellemzőbb, akkor a függetlenségvizsgálat valószínűsíti, hogy két ismérv valamely adott sokaságon belül független-e egymástól.

A függetlenségvizsgálat azon nullhipotézis helyességének vizsgálatára szolgál tehát, hogy a csoportképző ismérvek függetlenek egymástól. Ezzel a null-hipotézissel szemben az az alternatív hipotézis áll, hogy a két ismérv nem független egymástól. Ez az alternatív hipotézis a két ismérv közötti sztochasztikus vagy függvényszerű kapcsolatot enged meg.

A két ismérv közötti kapcsolat vizsgálata a tábla belsejében szereplő gyakoriságok és az ezekből meghatározható ún. feltételezett gyakoriságok (várható értékek) egybevetésével mutatható ki.

o

j ij

ijijs

i f

ff

1

2

1

)(

ahol: összes

egoszlopösszsorösszegfij

N

fff

jiij*

Már láttuk, hogy a nek sajátos függvényszerű eloszlása van, most ezt a tulajdonságát hasznosítjuk.

A eloszlás paramétere a szabadságfok, mely a sorok és oszlopok számából adódik: (s-1)×(o-1). A 2

értékének szignifikanciavizsgálata a IV. melléklet táblázatának segítségével történik. Amennyiben 2 > 2

táblázat szignifikáns a különbség, ha pedig 2 < 2táblázat,

109

Page 110: Statisztika Jegyzet

akkor nem szignifikáns a különbség, az eltérést csak a véletlen okozta: azaz elfogadjuk a 0-hipotézist.

7.9.1. Szórásnégyzetre irányuló próba

Bizonyos esetekben kontingencia-tábla hiányában, pl. amikor a kiinduló értékek már nem ismertek, de ismeretes azok szórása, és N elemszámú s szórású minta áll rendelkezésünkre a khi-négyzet értéke ezen képlettel is számítható:

2

22

Ns

7.9.1.1 Példák a khi-négyzet próbára

Példa 1.: Vizsgáljuk újra a statisztika vizsga eredményeit: az I.–V. csoport (nominális skála) a következő eredményeket érte el (ordinális skála). Kérdés: a csoportképző ismérvek függetlenek-e egymástól, vagy pedig egy adott csoporthoz való tartozás valószínűsíti a jobb vagy rosszabb eredményt? Lehetséges, hogy a csoportok közötti különbség csak a véletlen műve, de az is lehetséges, például a III. csoport jobb eredménye azt sugallja, hogy egy-egy csoport közösen készült, rendszeresen konzultált – azaz nem véletlenül jobban az eredmények.

Az fij -gyakoriságok:

1-es 2-es 3-as 4-es 5-ös összI. 20 36 35 13 6 110II. 13 42 39 13 1 108III. 0 11 11 5 3 30IV. 13 35 24 8 3 83V. 2 11 14 5 1 33

Összes

48 135 123 44 14 364

Függetlenség feltételezésével kapott várt gyakoriságok:

110

Page 111: Statisztika Jegyzet

1-es 2-es 3-as 4-es 5-ös össz

I. 14,51 40,80 37,17 13,30 4,23 110

II. 14,24 40,05 36,49 13,05 4,15 108

III. 3,96 11,13 10,14 3,63 1,15 30

IV. 10,95 30,78 28,05 10,03 3,19 83

V. 4,35 12,24 11,15 3,99 1,27 33

Össze

s

48 135 123 44 14 364

Az első oszlop és első sor kereszteződésben levő 20-as értéknek megfelelő várt érték: 110×48/364=14,51 stb.

A 0-hipotézis: a csoporthoz való tartozás és az elért jegyek között nincs összefüggés, függetlenek a csoportképző ismérvek.

Alternatív hipotézis: a csoporthoz való tartozás sztochasztikus kapcsolatban van az elért jeggyel.

Elvégezve a számításokat:

Elemzés: mivel a sorok és az oszlopok száma egyaránt 5, a szabadságfok (5–1)×(5–1)=16

A =16 szabadságfoknál 5%-os szignifikanciaszinten: kétoldali eltérést vizsgálva

8,282.975 ; egyoldalinál pedig 3,262

.95 – mindkettő

nagyobb mint a számított érték, azaz megtartjuk a 0-hipotézist, s kijelenthetjük: nagy valószínűséggel függetlenek egymástól a csoportképző ismérvek, azaz az elért jegyek nem függtek attól, hogy melyik csoportba tartoztak a vizsgázók, a csoportok közötti különbségek pusztán a véletlennek tulajdoníthatók.

Ezt megerősíti, ha a kapott 2 értékből a Cramer-mutatót számítunk (lásd: Pintér József: Bevezetés a statisztika módszereibe 156. oldal):

111

Page 112: Statisztika Jegyzet

Azaz a Cramer-mutató 11,18%-os valószínűséggel meglehetősen gyenge függőségre utal a csoportképző ismérvek között.

Példa 2.. A táblázat 250 db véletlengenerátorral gerjesztett 0–9 közötti egész szám eloszlását tartalmazza. Azt akarjuk ellenőrizni, hogy tényleg véletlenszerűen állítja elő a számokat a generátor, vagy a kapott eloszlás szignifikánsan eltér-e a várható eloszlástól?

A várható eloszlás ebben a példában az elméleti eloszlással azonos: egyaránt 1/10-ed a valószínűsége minden egyes számnak – ezért 250×1/10=25 a várható valószínűség.

Számjegy 0 1 2 3 4 5 6 7 8 9

Kapott 17 31 29 18 14 20 35 30 20 36

Várható 25 25 25 25 25 25 25 25 25 25

Vizsgájuk meg 1 és 5 százalékos szinten az alábbi hipotézist:

H0 : kapott = várt és a generátor jól működikH1 : kapott ≠ várt és a generátor nem jól működik

2 =

20,99 kritikus értéke 9 szabadságfok mellett 1%-os

szignifikanciaszinten: 21,7, ami kisebb mint 23,3, azaz a kapott eloszlás szignifikánsan eltér a várttól: ne fogadjuk el a véletlenszám-sort.

0,5% százalékos szinten 23,6 a táblázat értéke, ekkor tehát elfogadhatjuk a 0-hipotézist.

Példa 3.: Egy dobókocka szabályosságát kívánjuk ellenőrizni, azaz, hogy valóban 1/6 valószínűséggel

112

Page 113: Statisztika Jegyzet

rendelkezik mindegyik oldala. Az ellenőrzés módszere, hogy 120-szor feldobtuk a kockát. Ha szabályos, akkor minden dobás egyformán valószínű, tehát ideális esetben minden egyes számra 20-20 gyakoriságot várunk.

A kapott eredmények a következők:

  1 2 3 4 5 6

Megfigyeltgyakoriságok 24 15 15 19 25 22

Várt gyakoriság 20 20 20 20 20 20

A hipotézis felállítása:H0 : a kocka szabályos, az eltérés a várt

gyakoriságtól csak a véletlen műve,H1 a kocka szabálytalan.

A szabadságfok 6-1=5, a táblabeli kritikus érték 2

.5=11,1.Mivel a mi próbastatisztikánk, 4.8 <11,1 nem vetjük

el H0-t, elfogadjuk, hogy a kocka szabályos (nincs elegendő bizonyítékunk arra, hogy nem szabályos).

Példa 4. A táblázat X, Y és Z tanár vizsgaeredményeit mutatja. Teszteljük azt a 0-hipotézist, hogy mindegyik tanár egyenlő arányban buktatott.A H0 az, hogy nincs különbség a tanári szigorok között.

X Y Z Össz

Átment 50 47 56 153

Bukott 5 14 8 27

Összes 55 61 64 180

A várható gyakoriságok táblája:

113

Page 114: Statisztika Jegyzet

X Y Z Össz

Átment 46,75 51,85 54,40 153

Bukott 8,25 9,25 9,60 27

Összes 55 61 64 180

2 =

A szabadságfok= (s-1)×(o-1)=(2-1)(3-1)=2Mivel 2

0,95-ös szinten 5,99 így H0 nem vethető el, azaz szignifikánsan azonos arányban buktatott a három tanár.

20,9-es szinten 4,61, így 10 százalékos szinten már

elutasíthatjuk H0-t.

7.9.1.2 Szórásnégyzetre irányuló2- próba

Példa 1.: A csomagológép által töltött 1 kg-os cukorcsomagok súlyának szórása korábban 11 g volt. A csomagológép ellenőrzésekor egy 19 db véletlenül kiválasztott csomag súlyának szórása 14 g-nak adódott. Vizsgáljuk meg 5%-os és 1%-os szinten, hogy szignifikánsan nőtt- e meg a szórás!

H0 : g és a minta eltérése csak a véletlennek tulajdonítható;

g, és valóban nőtt a szórás, azaz a gép beállításra szorul.

78,30121

3724

11

14192

2

2

22

Ns

Egyoldali próbát használva 5%-os szinten akkor vethetjük el a H0-t, ha a mintából számított khi-négyzet érték nagyobb mint a 19–1=18 szabadságfokhoz tartozó 9,282

.95 . Mivel ténylegesen is

nagyobb, ezért 5%-os szinten elutasítjuk a H0-t, azaz a gép beállításra szorul.

Az 1%-os szinten 8,342.99 – ebben az esetben a

számított érték kisebb, azaz megtartjuk a H0-t.

114

Page 115: Statisztika Jegyzet

Ha H0 megítélése ellentétes az 1%-os és 5%-os szinten, a számunkra kedvezőtlenebbet tanácsos elfogadni.

115

Page 116: Statisztika Jegyzet

8. A hipotézisvizsgálat összefoglalása

1. A hipotézisvizsgálat arra szolgál, hogy egy vagy több sokaságra vonatkozó olyan feltevések helyességét ellenőrizzük egy vagy több minta adatai alapján, melyek helyességéről nem vagyunk teljes mértékben meggyőződve. A hipotézisvizsgálat eszközei a próbák.

2. A hipotézisvizsgálat lényege az, hogy a rendelkezésre álló egy vagy több minta adataiból kiszámítjuk egy ún. próbafüggvény értékét, és megnézzük hogy az egy előre kijelölt elfogadási tartományba, vagy egy másik tartományba, az ún. kritikus tartományba esik-e. Előbbi esetben elfogadjuk, utóbbiban pedig elvetjük a hipotézist. Azt a hipotézist, melynek helyességét közvetlenül vizsgáljuk, null-hipotézisnek (H0) nevezzük. A null-hipotézis mindig konkrét (egyszerű) hipotézis kell hogy legyen. A null-hipotézis helyességét mindig egy azzal szembeállított konkrét vagy általános hipotézissel szemben vizsgáljuk. A H0-lal szembeállított hipotézist alternatív hipotézisnek nevezzük és H1-gyel jelöljük. A H0 és H1 hipotézist úgy kell megfogalmazni, hogy azok egyszerre ne lehessenek igazak. Ez biztosítja azt, hogy H0 elfogadása egyben H1 elvetését, H0 elvetése pedig egyben H1 elfogadását jelentse.

3. Az elfogadási tartomány határait mindig úgy jelöljük ki, hogy a próbafüggvény H0 helyességét feltételezve bizonyos más feltételek fennállását pedig kikötve előre meghatározott nagy (1–) valószínűséggel e tartományba essen. A próbafüggvény kritikus tartományba esésének valószínűsége ennek megfelelően és kicsi. Az értéket szignifikanciaszintnek nevezzük.

116

Page 117: Statisztika Jegyzet

4. Ha H0 helyességét egy olyan H1-gyel szemben vizsgáljuk, melynek fennállása a próbafüggvény értékét kicsivé (naggyá) teszi, akkor az egész kritikus tartományt a próbafüggvény eloszlásának bal (jobb) szélére helyezzük. Az ilyen próbákat egyoldali próbáknak nevezzük. Ha ezzel szemben H1 fennállása a próbafüggvény értékét akár kicsivé, akár naggyá képes tenni, akkor a próbát kétoldali módon azaz a próbafüggvény eloszlásának mindkét szélére tett kritikus tartományt kijelölve hajtjuk végre.

5. A 2. pontban leírt módon eljárva kétféle hiba követhető el. Az ún. elsőfajú hibát akkor követjük el, ha elvetjük H0-t, pedig az a valóságban igaz. A másodfajú hiba elkövetése ezzel szemben azt jelenti, hogy elfogadjuk H0-t, pedig az nem igaz. Az elsőfajú hiba elkövetésének valószínűsége megegyezik a szignifikanciaszinttel, -val. A másodfajú hiba elkövetésének -val jelölt valószínűsége ezzel szemben csak akkor számítható ki, ha pontosan tudjuk, hogy a valóságban H0-lal szemben milyen konkrét alternatíva áll fenn. Az 1– kiegészítő valószínűséget a próba erejének hívjuk. Ez annak valószínűsége, hogy a hamis H0-t visszautasítjuk.

6. Adott H0 és H1, adott mintanagyság és a H0-lal szemben ténylegesen fennállónak gondolt adott egyszerű alternatíva mellett és csak egymás rovására változtatható. Adott szignifikanciaszint és előbb felsorolt feltételek mellett viszont a mintanagyság növelése általában csökkenti -t. Rendszerint ugyanilyen hatása van annak is, ha a próbafüggvény szórását sikerül valamilyen módon csökkenteni.

7. Az 5. pontban mondottak miatt a hipotézis-vizsgálaton belül H0 elvetése erős döntésnek, H0 elfogadása pedig gyenge döntésnek minősíthető. H0 és H1 megfogalmazásakor ezt mindig célszerű szem előtt tartani.

8. Az egyes próbák csak abban különböznek egymástól, hogy

117

Page 118: Statisztika Jegyzet

– más-más null-hipotézis vizsgálatára használhatók,

– mások az alkalmazási feltételeik és– más a próbafüggvényük.

9. Adott mintanagyság mellett a szignifikancia szint csökkentése a próba erejének csökkenésével jár együtt. Vagyis az elsőfajú hiba valószínűségének csökkentése növeli a másodfajú hiba valószínűségét; emiatt nem választhatjuk túl alacsonyra (pl. p<0.00001) a szignifikancia szinteket.

10. Az első- és másodfajú hiba valószínűsége együttesen csak a minta nagyságának növelésével csökkenthető.

11. Ha a próbánk szignifikáns eredményt ad, akkor nincs gond. Nem szignifikáns különbség esetén azonban vizsgálni kell a próba erejét is ui. ha ez kicsi akkor lehet, hogy csak a kis mintanagyság miatt nem kaptunk szignifikáns eredményt.

118

Page 119: Statisztika Jegyzet

9. Felhasznált, egyúttal ajánlott irodalom

Alkalmazott statisztika (B. KRÖPFL), Bp.: Műszaki Könyvk., 2000.

BABBIE, EARL: A társadalomtudományi kutatás gyakorlata, Bp., Balassi, ELTE Szociológiai Int., 1995.CSERNÉ DR. ADERMANN GIZELLA: A tanulás- és

kutatásmódszertan alapjai, JPTE-FEEFI, Pécs, 1999.

HAJTMAN BÉLA: Bevezetés a matematikai statisztikába: pszichológusok számára, Budapest, Akadémiai K., 1968

HOÓZ ISTVÁN: Előadások a társadalmi statisztika köréből, Pécs: Janus Pannonius Tudományegyetem, 1994.

HOÓZ ISTVÁN: Statisztika, Budapest: Tankönyvkiadó.

HUNYADI LÁSZLÓ: A mintavétel alapjai, Egyetemi jegyzet,] Budapesti Közgazdaságtudományi és Államigazgatási Egyetem Statisztika Tanszék. - Bp., Számalk, 2001.

HUNYADI LÁSZLÓ, MUNDRUCZÓ GYÖRGY, VITA LÁSZLÓ: Statisztika, Budapest: Aula, 2000

KORINEK LÁSZLÓ: Statisztika: Korszerű statisztikai módszerek és alkalmazásuk a gyakorlati közgazdasági munkában (KORINEK LÁSZLÓ, PINTÉR JÓZSEF, SZŰCS ANDRÁSNÉ), PTE Közgazdaságtudományi Kar, Egyetemi jegyzet, Budapest, Tankönyvkiadó.

KORPÁS ATTILÁNÉ dr.: Általános statisztika II., Nemzeti Tankönyvkiadó, Bp., 1997

NYITRAI FERENCNÉ: Statisztika: Korszerű statisztikai módszerek és alkalmazásuk a gyakorlati közgazdasági munkában, Budapest: Tankönyvkiadó.

OBÁDOVICS JÓZSEF GYULA: Valószínűségszámítás és matematikai statisztika: Középiskolai tanulók, főiskolai és egyetemi hallgatók, valamint műszaki és gazdasági szakemberek számára, gyakorlati alkalmazásokkal, Budapest: Scolar, 1995

119

Page 120: Statisztika Jegyzet

PINTÉR JÓZSEF: Bevezetés a statisztika módszereibe (Pintér József , Pécs: Pécsi Tudományegyetem Felnőttképzési és Emberi Erőforrás Fejlesztési Intézet, 2001

PINTÉR JÓZSEF: Fejezetek a statisztika tárgyköréből, Pécs, Janus Pannonius Tudományegyetem, 1994-1996

RUDAS TAMÁS: Hogyan olvassunk közvélemény-kutatásokat? Új Mandátum Könyvkiadó, Budapest, 1998.

SPIEGEL, MURRAY R.: Statisztika: Elmélet és gyakorlat, Bp., Maidenhead: Panem Kft. ; McGraw-Hill, 1995.

Statisztika (közread. a Janus Pannonius Tudományegyetem Közgazdaságtudományi Kara, Pécs, JPTE KTK, 1999.

Statisztikai feladatok gyűjteménye (HERMAN SÁNDOR et al.), Pécs, Pécsi Tudományegyetem, 2002.

http://human.kando.hu/pedlexhttp://rs1.szif.hu/http://statisztika.lap.hu/http://www.gdf-ri.hu/targy/gazdstat/http://www.kfki.hu/~cheminfo/hun/eloado/stat/http://www.komal.hu/cikkek/statszaml/statisztika.h.shtmlhttp://www.ksh.hu/http://www.math.bme.hu/~kela/ind3.html

(A honlapok 2004. április 5-i letöltések)

120

Page 121: Statisztika Jegyzet

10. Melléklet —táblázatok

121