310
Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László Created by XMLmind XSL-FO Converter.

tankonyvtar.hu · Web viewfogalmát. Ennek jelentőségét az adja, hogy a mintából számított jellemzők nagy részének (pl. mintaátlag, mintabeli arány) eloszlása nagy minta

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Tárgymutató

Tárgymutató

Általános statisztika II

Kriszt, Éva

Varga, Edit

Kenyeres, Erika

Korpás, Attiláné

Csernyák, László

Általános statisztika II

Kriszt, Éva

Varga, Edit

Kenyeres, Erika

Korpás, Attiláné

Csernyák, László

Publication date 1997

Szerzői jog © 1997 dr. Korpás Attiláné, Sándorné dr. Kriszt Éva, Varga Edit, Veitzné Kenyeres Erika, Nemzeti Tankönyvkiadó Rt.

Dr. Korpás Attiláné- főiskolai docens

Sándorné Dr. Kriszt Éva - főiskolai docens (9. és 10. fejezet)

Varga Edit - főiskolai adjunktus (11. fejezet)

Veitzné Kenyeres Erika - főiskolai tanársegéd (6., 7. és 8. fejezet)

A gyakorlófeladatokat:

Dr. Korpás Attiláné állította össze.

Szakmai lektor:

Dr. Csernyák László - egyetemi tanár, tanszékvezető, a matematikatudomány kandidátusa

A mű más kiadványban való részleges vagy teljes felhasználása, illetve utánközlése a kiadó engedélye nélkül tilos!

Created by XMLmind XSL-FO Converter.

Created by XMLmind XSL-FO Converter.

Created by XMLmind XSL-FO Converter.

Tartalom

6. Mintavétel 0

1. 6.1. Alapfogalmak, jelölések 0

2. 6.2. Véletlen mintavételi eljárások 0

2.1. 6.2.1. Független, azonos eloszlású minta kiválasztása 0

2.2. 6.2.2. Egyszerű véletlen mintavétel 0

2.3. 6.2.3. Szisztematikus mintavétel 0

2.4. 6.2.4. Rétegzett mintavétel 0

2.5. 6.2.5. Csoportos mintavétel 0

2.6. 6.2.6. Többlépcsős mintavétel 0

2.7. 6.2.7. Kombinált eljárások 0

3. 6.3. Nem véletlen mintavételi eljárások 0

4. 6.4. A mintajellemzők fontosabb tulajdonságai 0

5. 6.5. Gyakorlófeladatok 0

7. Statisztikai becslések 0

1. 7.1. Alapfogalmak 0

2. 7.2. A becslőfüggvényekkel szemben támasztott követelmények 0

2.1. 7.2.1. Torzítatlanság 0

2.2. 7.2.2. Konzisztencia 0

2.3. 7.2.3. Hatásosság 0

2.4. 7.2.4. Elégségesség 0

3. 7.3. Intervallumbecslés 0

3.1. 7.3.1. A sokaság várható értékének becslése 0

3.2. 7.3.2. A sokasági értékösszeg becslése 0

3.3. 7.3.3. A sokasági arány becslése 0

3.4. 7.3.4. A sokasági szórásnégyzet becslése 0

4. 7.4. A konfidenciaintervallum meghatározása rétegzett mintavétel esetén 0

5. 7.5. A minta elemszámának meghatározása 0

6. 7.6. Gyakorlófeladatok 0

8. Hipotézisvizsgálat 0

1. 8.1. A hipotézisvizsgálat alapfogalmai 0

2. 8.2. A hipotézisvizsgálat során elkövethető hibák 0

3. 8.3. A statisztikai hipotézisvizsgálat menete 0

4. 8.4. Egymintás statisztikai próbák 0

4.1. 8.4.1. A várható értékkel kapcsolatos próbák 0

4.2. 8.4.2. A sokasági szórásra vonatkozó próba 0

4.3. 8.4.3. A sokasági arányszámmal (valószínűséggel) kapcsolatos próba 0

5. 8.5. Kétmintás statisztikai próbák 0

5.1. 8.5.1. Két sokasági várható érték különbségének vizsgálata 0

5.2. 8.5.2. Két sokasági arányra (valószínűségre) vonatkozó próba 0

5.3. 8.5.3. Két sokasági szórás egyezőségére vonatkozó statisztikai próba 0

6. 8.6. Egyéb hipotézisvizsgálatok 0

6.1. 8.6.1. Illeszkedésvizsgálat 0

6.2. 8.6.2. Függetlenségvizsgálat 0

6.3. 8.6.3. Varianciaanalízis 0

7. 8.7. Gyakorlófeladatok 0

9. Kétváltozós korreláció- és regressziószámítás 0

1. 9.1. Kétváltozós korrelációszámítás 0

1.1. 9.1.1. A kovariancia 0

1.2. 9.1.2. A lineáris korrelációs együttható 0

1.3. 9.1.3. A rangkorrelációs együttható 0

2. 9.2. Kétváltozós regressziószámítás 0

2.1. 9.2.1. Az elméleti regresszió 0

2.2. 9.2.2. A tapasztalati regresszió 0

2.3. 9.2.3. A regressziófüggvény paramétereinek meghatározása 0

2.4. 9.2.4. A változók felcserélhetősége 0

2.5. 9.2.5. A rugalmassági együttható 0

3. 9.3. Statisztikai következtetések a kétváltozós lineáris regresszió alapján 0

3.1. 9.3.1. A regressziós modell feltételrendszere 0

3.2. 9.3.2. A regressziós becslés pontosságának mérése 0

3.3. 9.3.3. A regressziófüggvény paramétereinek intervallumbecslése 0

3.4. 9.3.4. Regressziós becslések és prognózisok 0

3.5. 9.3.5. A regressziófüggvény eredményeinek hipotézis-ellenőrzése 0

3.6. 9.3.6. A reziduális változó vizsgálata 0

3.7. 9.3.7. A paraméterek robusztus becslése 0

4. 9.4. Nemlineáris regresszió 0

5. 9.5. Gyakorlófeladatok 0

10. Többváltozós korreláció- és regressziószámítás 0

1. 10.1. A lineáris regressziófüggvény meghatározása 0

1.1. 10.1.1. A háromváltozós lineáris regressziófüggvény 0

1.2. 10.1.2. A legkisebb négyzetek módszere és tulajdonságai 0

1.3. 10.1.3. A regressziófüggvény paramétereinek intervallumbecslése 0

1.4. 10.1.4. A regressziófüggvény eredményeinek ellenőrzése 0

1.5. 10.1.5. A varianciaanalízis alkalmazása a többváltozós regressziószámításban 0

2. 10.2. Többváltozós korrelációszámítás 0

2.1. 10.2.1. Páronkénti korrelációs együttható 0

2.2. 10.2.2. Parciális korrelációs együttható 0

2.3. 10.2.3. Többszörös korrelációs és determinációs együttható 0

2.4. 10.2.4. A multikollinearitás és mérése 0

3. 10.3. Néhány kiegészítés a regressziószámításhoz 0

3.1. 10.3.1. Minőségi ismérvek kezelése a regressziós modellben 0

3.2. 10.3.2. A tényezőváltozók kiválasztása 0

4. 10.4. Gyakorlófeladatok 0

11. Az idősorok összetevőinek vizsgálata 0

1. 11.1. Az idősorok összetevői 0

1.1. 11.1.1. Additív és multiplikatív komponensek 0

2. 11.2. Trendszámítás 0

2.1. 11.2.1. Trendszámítás mozgóátlagolással 0

2.2. 11.2.2. Analitikus trendszámítás 0

3. 11.3. A szezonalitás vizsgálata 0

3.1. 11.3.1. Szezonális eltérések számítása 0

3.2. 11.3.2. Szezonindexek számítása 0

4. 11.4. Előrejelzés az eredmények alapján 0

5. 11.5. Gyakorlófeladatok 0

A. Függelék 0

B. Tárgymutató 0

Általános statisztika II

Általános statisztika II

Created by XMLmind XSL-FO Converter.

Created by XMLmind XSL-FO Converter.

Created by XMLmind XSL-FO Converter.

Az ábrák listája

6,1. A képviselők életkor szerinti megoszlásának hisztogramja 0

6,2. A mintaátlagok megoszlásának hisztogramja 100 db 30 elemű minta alapján 0

6,3. A mintaátlagok megoszlásának hisztogramja 100 db 100 elemű minta alapján 0

7,1. A és becslőfüggvény eloszlás 0

7,2. A konfidenciaintervallum ábrázolása 0

7,3. A konfidenciaintervallum elhelyezkedése a mintavétel többszöri végrehajtása esetén 0

7,4. A standard normális és a Student-féle t-eloszlás 0

7,5. A sűrűségfüggvénye különböző szabadságfokok esetén 0

8,1. Az elfogadási és a kritikus tartomány lehetséges elhelyezkedés 0

8,2. ábra a. Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél 0

8,2. ábra b. Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél 0

8,2. ábra c. Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél 0

8,3. Az elfogadási és a kritikus tartomány elhelyezkedés 0

8,4. Az α és a β grafikus meghatározása különböző alternatívhipotézisek esetén 0

8,5. Az α és a β grafikus meghatározása különböző kritikus értékek esetén 0

8,6. Az F-eloszlás sűrűségfüggvénye különböző szabadságfokok esetén 0

9,1. Pontdiagramok különböző korrelációs együtthatókkal 0

9,2. Rangszámpárok ábrázolása 0

9,3. A munkában töltött évek számának és a bruttó kereseteknek megfelelő pontok 0

9,4. A bruttó átlagkereset a munkában töltött évek számának függvényében a középfokú végzettségű nőknél 0

9,5. Korrrelálatlanság 0

9,6. Függvényszerű kapcsolat 0

9,7. A függvénytípus kiválasztását segítő grafikus ábrák 0

9,8. A legkisebb négyzetek módszere 0

9,9. A megfigyelt adatok és a különböző módon számolt regressziófüggvények 0

9,10. A szállítási távolság és a szállítás időtartamának pontdiagramja 0

9,11. A koordináta-rendszer transzformációja 0

9,12. A változók felcserélése 0

9,13. A hibatényező eloszlásának vizsgálata 0

9,14. A mérési hiba hatása a regressziófüggvényre 0

10,1. A regressziós együtthatók közötti összefüggések 0

10,2. Útdiagram 0

11,1. Az idősorok komponensei 0

11,2. A háztartások gázfelhasználásának alakulása Nógrád megyében 1990 és 1994 között 0

11,3. A népesség természetes fogyásának alakulása Nógrád megyében 0

11,4. Az ellátatlan munkanélküliek létszámának alakulása 0

11,5. A kiemelt üdülőövezet vendéglétszámának idősora és exponenciális trendje 0

11,6. Az urántermelés parabolikus trendje 0

Általános statisztika II

Általános statisztika II

Created by XMLmind XSL-FO Converter.

Created by XMLmind XSL-FO Converter.

Created by XMLmind XSL-FO Converter.

A táblázatok listája

6.1. A sokaság típusa, a mintavétel módja és a mintaelemek kapcsolata 0

6.2. 30 elemű minták mintaátlagainak megoszlása 0

6.3. A 100 elemű minták átlagai 0

6.4. 100 elemű minták mintaátlagainak megoszlása 0

7.1. A mintába került üvegek nettó töltési tömeg szerinti megoszlása 0

7.2. A mintába került kávécsomagok megoszlása 0

7.3. A rétegzett mintából történő becslés jelölésrendszere 0

7.4. A számításhoz szükséges adatok 0

7.5. A sokaság és a minta elemszámának megoszlása 0

7.6. 1000 elemű minta adatai 0

8.1. A hipotézisvizsgálat során hozott döntések és bekövetkezésük valószínűsége 0

8.2. A másodfajú hiba elkövetésének valószínűsége különböző ellenhipotézisek esetén 0

8.3. Az z-próba elfogadási tartományának határai szignifikanciaszint mellett 0

8.4. A t-próba elfogadási tartományának határai α szignifikanciaszint mellett 0

8.5. A elfogadási tartományának határai α szignifikanciaszint mellett 0

8.6. Két mintát igénylő próbák esetén alkalmazott jelölések 0

8.7. A 10 elemű minta mérési eredményei 0

8.8. Az F-próba elfogadási tartományai α szignifikanciaszint mellett 0

8.9. A minta valamilyen ismérv szerinti megoszlása 0

8.10. A kiválasztott vendégek kiszolgálási idő szerinti megoszlása 0

8.11. A próbafüggvény számított értékének meghatározására szolgáló munkatábla 0

8.12. A megkérdezett személyek nemhez való tartozás és beosztás szerinti megoszlása 0

8.13. Munkatábla a próbafüggvény aktuális értékének meghatározásához 0

8.14. Varianciaanalízis-tábla sémája 0

8.15. Az egyes dolgozók teljesítményadatai 0

9.1. Az olvasók megoszlása kölcsönzési idő és a kölcsönzött kötetek szerint 0

9.2. Az olvasók megoszlása kölcsönzési idő és a kölcsönzött kötetek szerint 0

9.4. Munkatábla a lineáris korrelációs együttható kiszámításához 0

9.5. A versenyen elért helyezések 0

9.6. Munkatábla a rangkorrelációs együttható kiszámításához 0

9.7. Munkatábla a rangkorrelációs együttható kiszámításához 0

9.8. A hallgatók létszámmegoszlása 0

9.9. A hallgatók matematika- és statisztika-vizsgaeredményei közötti kapcsolat tapasztalati regressziófüggvénye 0

9.11. A munkában töltött évek száma és a havi átlagkereset tapasztalati regressziófüggvénye a középfokú végzettségű nőknél 0

9.12. Munkatábla az analitikus regressziófüggvény meghatározásához 0

9.13. Munkatábla a normálegyenletekkel történő megoldáshoz 0

9.14. Munkatábla a transzformált normálegyenletekkel történő megoldáshoz 0

9.15. A maradék-négyzetösszeg kiszámításának táblázata 0

9.16. Varianciaanalízis-tábla 0

9.17. Varianciaanalízis-tábla 0

9.18. Eredménytábla a szállítási távolság és a szállítási idő közötti összefüggés vizsgálatához 0

9.19. A feljegyzett adatok táblázata 0

9.20. Munkatábla a reziduumok számítására 0

9.21. A megmaradó adatok táblázata a 0

9.22. Munkatábla a hatványkitevős regressziófüggvény meghatározásához 0

9.23. A tokaji aszú életkora és eladási ára közötti összefüggés 0

9.24. Munkatábla az exponenciális regressziófüggvény meghatározásához 0

10.1. A szállítási idő vizsgálatára vonatkozó adatok 0

10.2. Számítások a transzformált változók alapján 0

10.3. A maradéktag négyzetösszegének kiszámítása 0

10.4. Az eddigi részeredmények 0

10.5. A regressziófüggvény paramétereinek ellenőrzéséhez szükséges részeredmények 0

10.6. A varianciaanalízis-tábla többváltozós regressziószámítás esetén 0

10.7. A varianciaanalízis-tábla 0

10.8. A 20 elemű minta adatai 0

10.9. Az felbontása 0

10.10. Az felbontása 0

11.1. Háromtagú mozgóátlagok számítása () 0

11.2. Négytagú mozgóátlagok számítása () 0

11.3. A háztartások számára értékesített gázmennyiség Nógrád megyében 1990 és 1994 között negyedéves bontásban 0

11.4. A mozgóátlagolású trendszámítás munkatáblája () 0

11.5. A népesség természetes fogyásának alakulása Nógrád megyében 0

11.6. Munkatábla a paraméterek meghatározásához 0

11.7. Munkatábla a paraméterek meghatározásához 0

11.8. A legkisebb négyzetek módszerének megfelelő négyzetösszeg kiszámítása 0

11.9. Az ellátatlan munkanélküliek létszámának alakulása Nógrád megyében 1991 és 1994 között (ezer fő) 0

11.10. Munkatábla az ellátatlan munkanélküliek létszámának alakulását kifejező lineáris trendfüggvény kiszámításához 0

11.11. A legkisebb négyzetek módszerének megfelelő négyzetösszeg kiszámításának munkatáblája 0

11.12. Egy kiemelt üdülőövezet vendégeinek létszáma 1982 és 1992 között 0

11.13. A legkisebb négyzetek módszerének megfelelő négyzetösszeg számítása 0

11.14. A trendtől való eltérések összehasonlítása 0

11.15. Az urántermelés alakulása Magyarországon 0

11.16. Az egyedi szezonális eltérések számítási táblázata 0

11.17. Egy márkakereskedő személygépkocsi-értékesítésének adatai 0

11.18. Munkatábla az egyedi szezonindexek kiszámításához 0

11.19. A személygépkocsi-értékesítés szezonalitását jellemző szezonindexek 0

11.20. A trend és a szezonhatás előrejezése 0

1. A standard normális eloszlású valószínűségi változó eloszlásfüggvényének táblázata 0

1. A standard normális eloszlású valószínűségi változó eloszlásfüggvényének táblázata (folytatás) 0

2. A -eloszlás táblázata 0

2. A -eloszlás táblázata (folytatás) 0

3. AzF-eloszlás táblázata 0

3. Az F-eloszlás táblázata (folytatás) 0

3. Az F-eloszlás táblázata (folytatás) 0

3. Az F-eloszlás táblázata (folytatás) 0

3. Az F-eloszlás táblázata (folytatás) 0

3. Az F-eloszlás táblázata (folytatás) 0

4. A Student-féle t-eloszlás táblázata 0

Általános statisztika II

Általános statisztika II

Created by XMLmind XSL-FO Converter.

Created by XMLmind XSL-FO Converter.

Created by XMLmind XSL-FO Converter.

6. fejezet - Mintavétel

1. 6.1. Alapfogalmak, jelölések

Tankönyvünk első kötetében a megfigyelt statisztikai sokaság elemzésére szolgáló különböző eszközökkel, mutatószámokkal ismerkedtünk meg. A sokaságot ismertnek feltételezve, figyelmünket csak arra fordítottuk, hogyan lehet annak összetételét, változását, törvényszerűségeit megvizsgálni. Nem tértünk ki részletesen arra, hogy az alapadatokhoz teljes körű vagy részleges felvétellel jutottunk. Utólag azt mondhatjuk, hogy az eddigiek során megfigyelésünk a sokaság minden elemére kiterjedt, tehát elemzéseink a sokaság teljes körű megfigyelésén alapultak. Ebben a kötetben olyan módszerekkel ismerkedünk meg, amelyekhez nem szükséges a sokaság minden egyes elemének megfigyelése, mivel erre gyakran nincs is lehetőségünk.

A társadalmi-gazdasági statisztikában azonban az adatokhoz való hozzájutás gyakori formája a részleges adatgyűjtés, melynek egyik módja a reprezentatív megfigyelés. Reprezentatív megfigyelésre vagy más néven mintavételes megfigyelésre van szükség pl. a lakosság életkörülményeivel kapcsolatos kérdések (jövedelem, fogyasztási szokások stb.) megválaszolásához, a tömegtermelés minőség-ellenőrzési eljárásaihoz vagy a közvélemény-kutatásokhoz. Ily módon becsüljük pl. a várható termés mennyiségét a mezőgazdaságban vagy a kisvállalkozások tevékenységének eredményeit is. (Ilyen jellegű kérdésekkel már a Valószínűségszámítás c. tárgyban is foglalkoztunk.)

A reprezentatív megfigyelés, röviden szólva a mintavétel célja, hogy valamely sokaság egy részének megfigyelése révén következtetéseket tudjunk levonni a sokaság egészére, annak jellemzőire, összetételére vonatkozóan.

Azt a sokaságot, amelyre a mintavétel segítségével következtetni szeretnénk, alap sokaságnak, az alapsokaság azon részét, amely alapján a következtetéseket levonjuk, mintasokaságnak nevezzük .

A továbbiakban az alapsokaságot röviden sokaságnak, a mintasokaságot pedig mintának fogjuk nevezni.

Tekintsük át először a sokaság megadásának módjait és a legfontosabb sokasági jellemzőket. A sokaság elemszáma lehet véges vagy végtelen.

Legyen X a sokaság egy ismérve. Ha a sokaságból véletlenszerűen kiemelünk egy egyedet, ennek ismérvértéke a véletlentől függ, ezért valószínűségi változó, ezt a véletlentől függő ismérvértéket jelölje Ekkor eloszlásfüggvénye

Véges sokaság esetén az egyedeket, illetve azok ismérvértékeit nagyság szerint sorba rendezhetjük. Az ismérvértékek legyenek

(N az egyedek száma). Ekkor

A várható értéke, vagy másképpen a sokaság ismérvértékének várható értéke véges sokaság esetén – mint ismeretes – az átlaggal egyenlő:

szórásnégyzete

Végtelen elemszámú sokaság esetén két esetet különböztetünk meg. Ha diszkrét valószínűségi változó, ami azt jelenti, hogy az ismérvértékek véges vagy megszámlálhatóan végtelen halmazt alkotnak, akkor az F eloszlásfüggvény szintén egy „lépcsősfüggvény” (az intervallumban állandó), várható értéke

Ha folytonos és létezik a sűrűségfüggvénye, akkor a várható értéke

(ha ez az improprius integrál is létezik).

A szórásnégyzetet a szokásos módon kapjuk:

(A jobb oldalon szereplő várható értékeknek is létezniük kell.)

A gyakorlatban a mintavétel általában véges sokaságból történik. Ugyanakkor a nagy elemszámú sokaságokat tekinthetjük végtelennek, így a végtelen elemszámú sokaságra kidolgozott eszközök jól használhatók ezen sokaságok esetén is.

Ezek után tekintsük át a mintával kapcsolatos alapfogalmakat. A minta elemszáma, tekintet nélkül arra, hogy véges vagy végtelen sokaságból származik, mindig véges. Elemszámát n-nel jelöljük. Az egyes mintaelemek valószínűségi változók, értékük mintáról mintára változhat. Ezeket célszerű-nel jelölni. A minta elemei csak addig tekinthetők változóknak, míg a mintavétel nem történt meg, a minta elemeinek kiválasztása után konkrét számértékek lesznek:

A mintából különböző mintajellemzők (átlag, szórás, értékösszeg, arány stb.) számíthatók. Miután a minta elemei valószínűségi változók, az ezekből számított mintajellemzők is valószínűségi változók lesznek, értékük mintáról mintára változhat attól függően, hogy mely sokasági elemek kerültek a mintába. Ez a mintajellemzőknek nagyon fontos tulajdonsága.

A véges elemszámú sokaságból történő mintavételnél alapvető fontosságú, hogy rendelkezésre álljon egy ún. mintavételi keret, amely egyenként tartalmazza a vizsgálni kívánt sokaság elemeit, mégpedig mindegyiket, és mindegyiket csak egyszer. Egy ilyen teljes keret biztosítása sokszor nem könnyű feladat, mert vannak olyan sokaságok, amelyeknél az elemek száma és összetétele napról napra változik, s bármilyen jó is a megszűnő és az újonnan létrejövő egységek nyilvántartása, ez szükségszerűen különbözik a mintavételi keret összeállításakor létező sokaságtól. (Ilyen nehézség léphet fel a mintavételi keret összeállításánál, ha a sokaságot pl. Magyarország népessége vagy a Magyarországon működő kisvállalkozások stb. képezik.)

A mintavétel tervezése, a mintavételi eljárás megválasztása során két egymásnak ellentmondó követelményt kell figyelembe vennünk. Az egyik követelmény a pontosság, a másik az olcsóság. Mivel az egyik követelmény előtérbe helyezése a másik háttérbe szorulását jelenti, lényeges a mintavétel tervezése során az elvárt célok és a lehetséges eszközök pontos megfogalmazása, számbavétele. Az, hogy ezen követelményeket mennyire vesszük figyelembe a mintavétel tervezése során, lényegesen befolyásolja a mintaelemek kiválasztási eljárását. A következőkben a mintaelemek kiválasztási módjait tekintjük át.

A mintaelemek kiválasztása visszatevéssel vagy visszatevés nélkül történhet. Végtelen (vagy végtelennek tekintett) elemszámú sokaságból akár visszatevéssel, akár visszatevés nélkül választjuk ki a minta elemeit, azok mint valószínűségi változók minden esetben függetlenek lesznek egymástól. Véges sokaság esetén csak a visszatevéses mintavétel eredményez független mintaelemeket. A mintaelemek ezen tulajdonságára a későbbiek során még visszatérünk. Az elmondottakat a 6.1. táblázatban foglaltuk össze.

6.1. táblázat - A sokaság típusa, a mintavétel módja és a mintaelemek kapcsolata

A sokaság elemszáma

A mintavétel módja

A mintaelemek

végtelen

visszatevéses

 

 

visszatevés nélküli

függetlenek

véges

visszatevéses

 

 

visszatevés nélküli

nem függetlenek

Az elmondottak alapján különbséget teszünk független mintavételi eljárások és nem független mintavételi eljárások között.

Véges sokaság esetén a minta fontos jellemzője a kiválasztási arány, amely azt mutatja meg, hogy a sokaság elemeinek mekkora hányada kerül a mintába. Adott N mellett annál nagyobb valószínűséggel lehet a mintából a sokaságra következtetni, minél nagyobb a kiválasztási arány. Az n-nek, a minta elemszámának azonban nagyobb jelentősége van a kiválasztási aránynál, mert ez határozza meg a mintából való következtetésnél használható módszereket.

A mintavétel során és a mintából történő következtetésnél meg kell különböztetnünk a kis és a nagy minta fogalmát. Ennek jelentőségét az adja, hogy a mintából számított jellemzők nagy részének (pl. mintaátlag, mintabeli arány) eloszlása nagy minta esetén közelítőleg normális eloszlásúvá válik, ennélfogva kezelésük egyszerűsödik. (Ezen megállapításra a későbbiek során még visszatérünk.) Felvetődik a kérdés, hogy mi tekinthető kis, illetve nagy mintának. Azt mondhatjuk, hogy már nagy mintának tekinthető, azaz egyes mintajellemzők eloszlásfüggvényei ezen mintaelemszám fölött már közelítőleg normális eloszlásúvá válnak.

A mintanagysághoz szorosan kapcsolódik a mintavételi hiba fogalma. A mintavételi hiba abból adódik, hogy a sokaság egy részéből következtetünk az egészre. Meghatározásának módszerei matematikailag kidolgozottak. Nagysága, illetve annak valószínűsége – a sokaság jellege, az alkalmazott mintavételi eljárás és a mutató fajtája mellett – alapvetően a mintanagyságtól függ, hiszen a mintanagyság növelésével a sokaság egyre nagyobb részét vizsgáljuk meg, s így egyre kisebbé válik a mintavételből eredő nagy hiba valószínűsége.

A mintaelemek kiválasztása során elkövethetünk ún. nem mintavételi hibát is, amely több forrásból adódhat: többek között a sokaságot nem tökéletesen fedi le a mintavételi keret (pl. ilyen fordulhat elő, ha a megfigyelt sokaság a Magyarországon működő kisvállalkozások), nem sikerül a megfigyeléseket a terv szerint végrehajtani, válaszmegtagadás vagy egyéb okok miatt hiányoznak adatok. Hiba adódhat abból is, hogy a kérdésekre kapott válaszok nem egészen pontosak (tudatosan vagy önhibáján kívül téves adatot szolgáltat a válaszadó), vagy hibákat követhetnek el a kódolás, táblázás stb. során.

Az ilyen típusú hibák nagyságát nehéz meghatározni. Vizsgálatuknak, feltárásuknak elsődlegesen az a célja, hogy a mintavétel tervezésének és végrehajtásának különböző fázisaiban hatásukat csökkenteni lehessen.

Egy mintából csak akkor lehet számítható megbízhatóságú következtetéseket levonni a sokaságra vonatkozóan, ha a minta elemeit nem önkényesen, hanem véletlenszerűen választjuk ki. A véletlenszerűség nem feltétlenül jelenti azt, hogy a sokaság minden egyes elemének egyenlő esélye van a mintába történő kerülésre, hanem csak azt jelenti, hogy minden elemhez egy előre meghatározott ismert valószínűség tartozik, és biztosítjuk, hogy ezzel a valószínűséggel kerüljön be a mintába az adott elem, továbbá azt, hogy a mintaelemek kiválasztási eljárásának előre meghatározottnak és egyértelműnek kell lennie.

Ha a minta elemeit véletlenszerűen választjuk ki a sokaságból, véletlen (vagy valószínűségi) mintát kapunk. Attól függően, hogy a mintavétel során biztosítjuk-e a véletlenszerűséget vagy sem, különböző mintavételi eljárásokról beszélhetünk.

2. 6.2. Véletlen mintavételi eljárások

2.1. 6.2.1. Független, azonos eloszlású minta kiválasztása

Független, azonos eloszlású mintát akkor kapunk, ha homogén és végtelen (vagy nagyon nagy) sokaságból veszünk véletlen (visszatevéses vagy visszatevés nélküli) mintát, illetve amikor véges sokaságból visszatevéssel választjuk ki a minta elemeit. Tehát független mintát veszünk. Ilyenkor a minta elemei független (vagy függetlennek tekinthető), azonos eloszlású valószínűségi változók lesznek.

Ugyanis az i-edik mintaelem ismérvértékére nyilvánvalóan igaz, hogy tehát az egyes mintaelemek mint valószínűségi változók eloszlása a ismérvérték sokaságbeli eloszlásával azonos.

Alkalmazása elsősorban a tömegtermelés minőség-ellenőrzésénél célszerű. Például azonos eloszlású, független mintához jutunk, ha az 1 kg-os liszt töltési tömegének ellenőrzéséhez mintát veszünk. Ekkor a sokaság végtelennek tekinthető, így a minta elemei minden esetben függetlenek lesznek.

A gyakorlatban azonban nem túl gyakran jutunk független, azonos eloszlású mintához, mivel a valóságban ritkán áll rendelkezésünkre végtelen vagy végtelennek tekinthető sokaság, vagy véges sokaság esetén nem minden esetben van lehetőség a mintaelemek megvizsgálása után a sokaságba történő visszatevésre (pl. egy adott cégtől vásárolt gumiabroncsok elhasználódásának minőségi vizsgálatakor).

Ennek ellenére ez a mintavételi eljárás későbbi vizsgálataink során kiemelt szerepet kap, mert matematikailag rendkívül könnyen kezelhető, és ezen a mintatípuson keresztül lehet a legkönnyebben megmutatni a sokasági és a mintajellemzők kapcsolatát.

2.2. 6.2.2. Egyszerű véletlen mintavétel

Egyszerű véletlen mintavételt hajtunk végre homogén, véges elemszámú sokaság esetén, amikor a mintát visszatevés nélkül választjuk ki, elemenként egyenlő valószínűséggel. (Ezt az esetet a valószínűségszámításban is vizsgáltuk.)

A végrehajtásához egy, a mintavételi keret minden elemét, de mindegyiket csak egyszer tartalmazó komplex lista szükséges. Ezen listából a mintaelemek kiválasztása történhet sorsolással, ún. véletlenszám-táblázattal, illetve számítógépes véletlenszám-generálással. A visszatevés nélküliség követelményét a sorsolásnál oly módon biztosíthatjuk, hogy a kihúzott cédulákat nem tesszük vissza az urnába, míg a véletlenszám-táblázatnál, illetve a számítógépes véletlenszám-generálásnál az ismételten előforduló sorszámot átugorjuk, és haladunk tovább a táblázatban, illetve a számítógép által előállított listában.

Az egyszerű véletlen mintavétel során különböző összetételű mintát kaphatunk. Minden n elemű minta előfordulásának a valószínűsége ugyanakkora. Természetesen a mintavétel végrehajtása után csak egyetlenegy mintánk lesz, s ebből következtetünk a sokaság jellemzőire.

A gyakorlatban a sokaságok ritkán homogének, ezért az egyszerű véletlen mintavétel tiszta alkalmazása sem fordul elő gyakran, de ugyanakkor kiindulópontként szolgál a bonyolultabb eljárásokhoz.

2.3. 6.2.3. Szisztematikus mintavétel

A gyakorlatban a véletlen kiválasztást a szisztematikus mintavétellel lehet legegyszerűbben megvalósítani. Az eljárás lényege a következő: egy n elemű mintát kívánunk venni egy N elemű sokaságból. Ehhez először a sokaságot valamely szempont szerint sorba rendezzük – általában eleve adott egy sorrend –, majd meghatározzuk a számértéket, ahol a szám egész részét jelenti. Az első k elem közül egyenlő valószínűséggel kiválasztjuk a kiindulópontot, s ezután szisztematikusan az erre következő minden k-adik elem kerül be a mintába.

A szisztematikus mintavétel végrehajtása rendkívül egyszerű, nem igényel szakismeretet, ellenőrzése is könnyű. Ezen mintavételi eljárás azonban csak akkor eredményez véletlen mintát, ha a listaképző ismérv és a megfigyelt ismérv között nincs sztochasztikus kapcsolat. Súlyos torzítást okozhat az is, ha a lista rejtett trendet vagy periodicitást tartalmaz.

Tekintsük a következő példát. Valamely főiskola hallgatóinak – akikről rendelkezésre áll egy ábécé szerinti lista – a tandíjfizetéssel kapcsolatos véleményére vagyunk kíváncsiak. Ekkor a szisztematikus mintavétel nagy valószínűséggel véletlen mintát fog eredményezni, hiszen nagyon valószínű, hogy a hallgató nevének kezdőbetűje és a tandíj fizetéséről alkotott véleménye között nincs sztochasztikus kapcsolat. Ebben az esetben a szisztematikus kiválasztás egyszerűsíti a munkát.

2.4. 6.2.4. Rétegzett mintavétel

Minden mintavételnél felmerül az a kérdés, hogyan lehet a mintaelemek kiválasztását úgy végrehajtani, hogy az meghatározott mintanagyság mellett minél jobban reprezentálja a vizsgálni kívánt sokaságot. Célszerű továbbá olyan becslési eljárásokat alkalmazni, amelyek minél kisebb hibával becsülik az ismeretlen sokasági jellemzőt. A leggyakrabban alkalmazott ilyen eljárás az ún. rétegzett mintavétel.

A rétegzett mintavétel során a vizsgált ismérv szempontjából heterogén sokaságot több homogén (minél kisebb szórású) részsokaságra (rétegekre) bontjuk úgy, hogy a csoportok kiadják a teljes sokaságot, továbbá egyetlen sokasági elem se tartozzon két vagy több csoportba. Az egyes rétegeken belül a minta elemeinek a kiválasztása egyszerű véletlen mintavétellel történik.

A rétegzett mintavétel eredményeként egyrészt jobb keresztmetszetet kapunk a vizsgált sokaság összetételéről, másrészt az egyes rétegek nagyobb homogenitása miatt ezeken belüli kisebb mintákból is megfelelő pontosságú következtetést vonhatunk le. Ilyen módon az eredetileg heterogén sokaságra ugyanakkora minta esetén pontosabb következtetést tudunk levonni rétegzett mintából, mint ha egyszerű véletlen mintavételt alkalmaztunk volna.

A rétegzés nem csupán pontosságnövelő hatása miatt elterjedt mintavételi eljárás. A rétegzett kiválasztást arra is felhasználhatjuk, hogy az egyes rétegek sokasági jellemzőire megbízható becslést adjunk. Pl. az egyik kisvárosunkban a háztartások jövedelemviszonyait szeretnénk megvizsgálni. Ehhez a város háztartásait a gyermekszám alapján rétegekbe soroljuk. A mintavétel végrehajtása után lehetőség van egyrészt a kisvárosban lévő háztartások egy főre jutó jövedelmének, másrészt az egyes rétegek – tehát a gyermektelen, az 1 gyermekes, a 2 gyermekes stb. háztartások – esetén az egy főre jutó jövedelemnek a becslésére.

Rétegzett mintavételt alkalmaz többek között a Központi Statisztikai Hivatal – negyedéves rendszerességgel – az 50 vagy kevesebb főt foglalkoztató iparba és a kivitelező építőiparba sorolt kisszervezetek reprezentatív megfigyelésére. (Az 50 főt meghaladó létszámú szervezetek megfigyelése teljes körű és folyamatos.) A rétegzés során több szempontot is figyelembe vettek: jogi személyiségű-e a gazdasági társaság; a jogi személyiségű társaságokon belül 21 és 50 fő közötti vagy 21 fő alatti létszámkategóriába tartozik-e; budapesti vagy vidéki székhelyű-e, illetve azt, hogy mikor alakult meg a gazdasági társaság. Ezen szempontok alapján a feldolgozóiparban 16, a kivitelező építőiparban 12 réteget alakítottak ki [footnoteRef:1]1 a vizsgálat végrehajtásához. [1: 1 A módszer részletes leírása Dr. Telegdi László: Az ipari és építőipari kisszervezetek reprezentatív megfigyelése (Statisztikai Szemle 1993. március) c. tanulmányában olvasható.]

A továbbiak megértéséhez néhány újabb jelölés bevezetésére van szükség.

A sokaság rétegeinek számát M-mel jelöljük, az egyes rétegeken belül a sokaság elemszáma pedig:

ekkor:

Rétegenként elemű mintákat veszünk, és a mintákra igaz, hogy

Felvetődik a kérdés, hogy hogyan osszuk el a minta elemeit az egyes rétegek között. A mintaelemek szétosztása történhet arányos elosztással, illetve nem arányos elosztással.

a) Az arányos elosztás lényege, hogy a mintában a sokasági rétegarányoknak megfelelően választjuk meg a minta elemszámát, tehát adott réteg aránya a mintában és a sokaságban megegyezik, azaz

Ezt a kedvező tulajdonságot a későbbi számításoknál fogjuk felhasználni.

A j-edik réteg mintaelemszámát ekkor a következő összefüggéssel állapíthatjuk meg:

b) A nem arányos elosztás során a mintában a rétegarányok nem egyeznek meg a sokaságbeli arányokkal. Tehát

A következőkben – a nem arányos elosztáshoz tartozó – néhány, a statisztikai gyakorlatban legtöbbször előforduló eljárást mutatunk be.

– Egyenletes elosztás során minden egyes rétegbe azonos számú mintaelem kerül. Így a j-edik réteg mintaelemszáma lesz. Előnyös tulajdonsága, hogy egyszerű, semmilyen tervezési előkészítést nem igényel, végrehajtása kényelmes. Hátránya pedig, hogy az egyes rétegek nagyságát, szórását stb. nem veszi figyelembe a szükséges mintaelemszám meghatározásához. Így nagyfokú torzítást okozhat.

– A Neyman-féle optimális elosztás végrehajtásához szükséges, hogy előre ismerjük (vagy legalább hozzávetőlegesen becsülni tudjuk) a sokaság rétegenkénti szórásait. Ekkor rögzített mintaelemszám mellett kedvezőbb tulajdonságú mintát kapunk, ha nagyobb szórású rétegből aránylag nagyobb, kisebb szórásúból pedig kisebb mintát veszünk. Ezt az eljárást a rendszeres időközönként megismétlődő megfigyeléseknél alkalmazzák. Így a megelőző időszak eredményei felhasználhatók az egyes rétegek mintaelemszámának meghatározásához.

A j-edik réteg mintaelemszáma az alábbi összefüggés alapján határozható meg:

ahol a j-edik réteg elemszáma a sokaságban,

a j-edik réteg szórása a sokaságban,

n: a minta elemszáma.

2.5. 6.2.5. Csoportos mintavétel

Az egyszerű véletlen, a szisztematikus és a rétegzett mintavétel során feltételeztük, hogy rendelkezésünkre áll egy olyan lista – a mintavételi keret –, amely a sokaság összes elemét tartalmazza, s ebből választjuk ki a mintát. A gyakorlati feladatok egy részénél azonban ilyen lista nem áll rendelkezésre, bár elkészíthető volna, de előállítása költséges és munkaigényes lenne. Más esetekben rendelkezésre áll ugyan a lista, de ha abból választanánk ki közvetlenül a mintaelemeket, a felvétel végrehajtása rendkívül költséges lenne. Ezen feladatoknál célszerű a sokaság elemeit nem közvetlenül kiválasztani, hanem ezek természetes vagy mesterséges csoportjait megfigyelni.

A csoportos mintavétel során a homogén sokaság elemeinek (természetes vagy mesterséges) csoportjai közül egyszerű véletlen mintát veszünk, majd a kiválasztott csoportokon belül minden egyes egyedet megfigyelünk.

A csoportos mintavétel esetén a költségtakarékosságot tartjuk elsődleges szempontnak, míg a megfigyelés megbízhatósága némileg háttérbe szorul. Bizonyos esetekben a csoportos mintavétel segítségével, ugyanazon költségkeret mellett lényegesen nagyobb mintához juthatunk, mint egyszerű véletlen mintavétellel.

Nézzünk néhány példát a csoportos mintavétel alkalmazására.

Egy adott évben vizsgálni kívánjuk a szakközépiskolában végzettek továbbtanulását, illetve munkába állását az érettségi után 3 hónappal. Ha egyszerű véletlen mintavételt hajtanánk végre, akkor az országban található valamennyi szakközépiskola végzős évfolyamának tanulóiról teljes körű listát kellene összeállítani. A mintát ebből a listából kellene kiválasztani. Egy ilyen lista összeállítása rendkívül nehézkes és költséges lenne. További jelentős költséget jelentene, hogy az így kiválasztott diákok területileg is rendkívül szétszórtan helyezkednek el, így az információk begyűjtése is hosszadalmas lenne. Ha azonban csoportos mintavételt végzünk, akkor a középiskolák rendelkezésre álló országos listájából egyszerű véletlen mintavétellel kiválaszthatunk néhány középiskolát. Ilyenkor a kiválasztott iskola végzős évfolyamának valamennyi hallgatója belekerül a mintába, s a felvétel során mindannyiukat meg kell kérdezni. Ebben az esetben a csoportok területi koncentráltsága miatt a csoportos mintavétel olcsóbb, mint az egyszerű véletlen mintavétel.

Az egyik nagy országos politikai párt valamely döntés meghozatala előtt kíváncsi a tagság véleményére. Ekkor egyszerűbb és olcsóbb a helyi pártszervezetek közül néhányat egyszerű véletlen mintavétellel kiválasztani, s ezeknél minden párttagot megkérdezni, mint egy részletes címlistát összeállítani a párt tagságáról. Csak akkor célszerű a csoportos mintavétel alkalmazása, ha a helyi szervezeteken belül a párt tagjainak véleménye nem azonos a vizsgált kérdésről. Ellenkező esetben a csoportos mintavétel torz eredményre vezethet.

A fenti példákból is kitűnik, hogy a csoportos mintavétel során kétféle egység különül el: elsődleges mintavételi egység, amelyre a felvétel közvetlenül irányul (iskolák, helyi szervezetek), végső mintavételi egység, amelyre vonatkozóan következtetéseket akarunk levonni a kapott mintából (tanulók, párttagok).

2.6. 6.2.6. Többlépcsős mintavétel

A többlépcsős mintavételt hasonló esetekben alkalmazzuk, mint a csoportos mintavételt – amelyet egylépcsősnek is szoktak nevezni –, azzal a különbséggel, hogy többször ismételjük meg egymás után az egyszerű véletlen mintavételt, tehát a mintaelemek kiválasztása több fokozatban, több lépcsőben történik.

A mintavétel végrehajtása során először kiválasztjuk az elsődleges mintavételi egységeket. Attól függően, hogy hányszor ismételjük meg egymás után az egyszerű véletlen kiválasztást, két-, három- vagy többlépcsős mintavételről beszélhetünk. Ha az elsődleges mintavételi egységeken belül rögtön a megfigyelni kívánt elemeket választjuk ki (egyszerű véletlen mintavétellel), akkor kétlépcsős a mintavétel. Ha az elsődleges mintavételi egységeken belül először újabb nagyobb csoportokat választunk ki, majd az így képzett csoportokból választjuk ki a mintaelemeket, akkor a mintavétel három- (vagy több-) lépcsős lesz.

A többlépcsős mintavétel előnye a csoportos kiválasztással szemben, hogy homogén elsődleges mintavételi egységek homogenitása esetén a teljes körű megfigyelés helyett mintára támaszkodik, s ezáltal csökken a fölösleges adatfelvételek száma, s így ugyanakkora elemszámú minta esetén kisebb a mintavételi hiba valószínűsége, mint a csoportos mintavételnél.

Előző példánkat folytatva, ha a helyi szervezetekben nem kérdeznek meg minden párttagot, hanem egyszerű véletlen mintavétellel kiválasztanak néhányat, s csak ezeknek teszik fel a megfelelő kérdéseket, akkor kétlépcsős mintavételi eljárást hajtanak végre. Ebben az esetben az első lépcső a helyi szervezetek (elsődleges mintavételi egységek) kiválasztása, a második lépcső pedig a megkérdezésre kerülő tagok (végső mintavételi egységek) kiválasztása.

2.7. 6.2.7. Kombinált eljárások

A kombinált eljárások gyakorta egy lépésben alkalmaznak több, eddig megismert mintavételi módszert. Ily módon ötvözhető például a rétegzés pontosságnövelő előnye a csoportos vagy többlépcsős mintavétel költségmegtakarításával. A KSH pl. az egységes lakossági adatfelvételi rendszerben (ELAR) egyszerre alkalmaz rétegzést és lépcsőzést.

A kombinált eljárások külön csoportját képezik a ismétlődő felvételek, illetve panelfelvételek. Ezen felvételek alkalmazására akkor van szükség, ha a vizsgált sokaság szerkezetét vagy az egyes egyedek jellemzőinek időbeni változását akarjuk vizsgálni.

Az ismétlődő felvételek esetén nem szükséges, hogy a mintában szereplő egyedek azonosak legyenek. E módszer legfőbb erénye, hogy egy-egy időpontban a vizsgált sokaság keresztmetszetéről megbízható képet ad. Az ismétlődő felvételek általában úgy történnek (például a legtöbb országban a munkaerő-felvételek), hogy a minta elemei néhány egymás után következő megkérdezéskor azonosak, majd előírt rend szerint cserélődnek.

A panelfelvételeknél a minta elemeinek a lehetőségek keretei között azonosaknak kell lenniük, s ezáltal alkalmasak az egyes egyedek jellemzőinek időbeni vizsgálatára. A panelfelvétel előnye, hogy számos társadalmi jelenségre vonatkozóan pontosabb információkat ad, mint a szerkezeti változásokból levonható következtetések. Ezeket az előnyöket már az 1940-es években felismerték, és törekedtek a panelfelvételek alkalmazására. Az eljárás hátránya, hogy a mintába került egyedek nyomon követése nehéz, és a válasz megtagadása miatti torzítás gyorsan növekszik. Ilyen panelfelvételnek tekinthető például a KSH háztartás-statisztikája, amelyben ELAR mintára támaszkodva nyernek kétévenként összehasonlító adatokat a lakosság jövedelmére és fogyasztási szokásaira vonatkozóan.

A gyakorlatban sokszor előfordul a teljes körű felvétel és a mintavétel összekapcsolása. Pl. Magyarországon jelenleg 3-4 évente tartanak teljes körű állatszámlálást, amikor a kisgazdaságok teljes állatállományát összeírják. Ezen információ kiegészítéseként negyedévente reprezentatív felvételt végeznek egyes fontosabb állatfajták állományának becslése érdekében. A teljes körű felvételek közötti időszakban a reprezentatív felvételből és a megelőző teljes körű felvételből következtetnek a sokaság állapotára, a teljes állatállományra. Ez úgy történik, hogy kiválasztják a sokaságnak a reprezentatív felvétel során a mintába került egyedeit, majd ezeknél a teljes körű és a reprezentatív megfigyelés során nyert eredményeket összehasonlítják. A tapasztalt változásokat a sokaságra matematikai módszerek segítségével általánosítják.

3. 6.3. Nem véletlen mintavételi eljárások

Az eddigiek során áttekintettük a véletlenen alapuló mintavételi eljárásokat. Vannak azonban olyan mintavételi eljárások, amelyekre a véletlen kiválasztás nem jellemző, így ezen eljárásokkal létrejövő minták nem tekinthetők véletlen avagy valószínűségi mintáknak. Az eddig ismertetett mintavételi eljárásoknak számtalan hátrányos tulajdonsága van. Ezek közül a leglényegesebb, hogy nincs biztosítva, a minta a sokaságra valóban jellemző legyen, így félrevezető következtetések forrása lehet. Továbbá a nem véletlen minták esetén nem lehetséges a mintából számított jellemzők hibájának a meghatározása, tehát nem tudjuk a bizonytalanság, a tévedés várható hibáját becsülni. Ennek ellenére a nem véletlen mintavételi eljárásokat széles körben alkalmazzák, mivel végrehajtásuk egyszerűbb és esetenként lényegesen olcsóbb, mint a korrektül megtervezett és végrehajtott véletlen mintavétel. Főleg igénytelen felvételeknél (gyors elővizsgálatoknál) használják, korlátozott következtetési lehetőségekkel.

A szisztematikus kiválasztásról a véletlen mintavételi eljárások között már esett szó. Láttuk, ha a listaképző ismérv és a megfigyelt ismérv között nincs sztochasztikus kapcsolat, akkor ez az eljárás véletlen mintát eredményez. Ellenkező esetben a kapott mintaelemek nem lesznek függetlenek egymástól, így a következtetések levonása során figyelembe kell venni a mintaelemek függőségéből adódó torzítást is. Időbeni megfigyeléseknél a periodicitás veszélye miatt alkalmazása nem célszerű.

Eléggé elterjedt mintavételi eljárás a kvóta szerinti kiválasztás. Ennek lényege, hogy a felvételt végző személyek (kérdezőbiztosok) előre megkapják, hogy milyen összetételű mintához kell jutniuk, de az előre adott kereteken belül rájuk van bízva a véletlenszerű kitöltés. A kvóta szerinti kiválasztás legnagyobb hátránya, hogy a kapott minta a kérdezőbiztosok szimpátiája, illetve ítélőképessége szerint áll össze. Ez a statisztikailag nem számszerűsíthető szubjektivitás jelentős mértékben befolyásolja a kapott eredményeket.

Az önkormányzati választások várható eredményét mintavételes eljárással kívánják meghatározni. Kvóta szerinti kiválasztás esetén a kérdezőbiztos úgy kapja meg a feladatát, hogy kérdezzen meg az adott választókörzetben öt 18 és 30 év, tíz 31 és 40 év közötti férfit, három 18 és 30 közötti nőt stb. Ezeken a határokon belül saját maga választja ki a megkérdezett személyeket, elvben véletlenszerűen, gyakorlatban azonban szubjektíven, ötletszerűen. Annak ellenére, hogy a kérdezőbiztos korrektül jár el, előfordulhat, ha kora délutáni órában végzi a felmérést, hogy a felvett mintában nagyobb lesz pl. a munkanélküliek aránya, mint a sokaságban. Továbbá gyakori, hogy a kérdezőbiztos saját ismeretségi köréből igyekszik „véletlen mintát” biztosítani, ez viszont bizonyos szempontból homogén csoportok megfigyelését jelenti.

Az önkényes kiválasztás során a felvételt végző személy szakmai ismereteire támaszkodva – a véletlent figyelmen kívül hagyva – választja ki a sokaságra jellemző (vagy legalábbis általa jellemzőnek tartott) mintát. Sokéves tapasztalatok mutatják, hogy az ilyen kiválasztáson alapuló megfigyelés sokszor erősen torzított eredményt ad. Meg kell említenünk, hogy az önkényes kiválasztás a mintavétel történelmileg elsőként alkalmazott módszere volt, mára azonban eléggé visszaszorult. Az utóbbi időben elterjedt az ún. exit pool eljárás, amelyet elsősorban a választási eredmények előrejelzésére alkalmaznak. A módszer lényege, hogy a szavazóhelyiségből kijövő választót megkérdezik arról, hogy kire adta a voksát, s az így kapott minta alapján következtetnek a választási eredményekre.

4. 6.4. A mintajellemzők fontosabb tulajdonságai

Ha a minta elemeit véletlen mintavételi eljárással választjuk ki, akkor a mintaelemek ismérvértékei és a mintajellemzők valószínűségi változók lesznek.

A következőkben a mintajellemzők közül a minta átlagával foglalkozunk részletesen. Kiszámítása a

összefüggéssel történik, ahol az i-edik mintaelem ismérvértéke. Egy konkrét mintavételnél, ha adódik, akkor a mintaátlag

A mintaátlag tulajdonságait független, azonos eloszlású minta esetén mutatjuk be, mivel ezen mintavételi mód kezelése matematikailag egyszerűbb. Néhány esetben gyakorlati jelentősége miatt kitérünk az egyszerű véletlen mintavétel esetére is.

Tekintsük először a mintaelemek eloszlását. A független, azonos eloszlású minta esetén a minta elemeinek eloszlása megegyezik a sokaság eloszlásával. A mintaelemek várható értéke és szórása pedig a sokaság várható értékével és szórásával fog megegyezni. Hiszen

és

Feladatunk azonban a mintaátlag vizsgálata. A mintaátlagot mint valószínűségi változót várható értékével, szórásával és eloszlásával jellemezhetjük.

Vizsgáljuk meg először a mintaátlag mint valószínűségi változó várható értékét. Valószínűségszámításból ismeretes, hogy

Így a minta átlagának várható értéke:

vagyis megegyezik a sokaságra vonatkozó várható értékkel.

A mintaátlag szórásnégyzete a mintaelemek függetlensége miatt

Így a mintaátlag szórásnégyzete

azaz a mintaátlag szórása

A mintaátlag szórását, a -ot a mintaátlag standard hibájának nevezzük. A standard hiba megmutatja, hogy mekkora a mintaátlagok sokasági várható értéktől való átlagos (négyzetes) eltérésének várható értéke. Nagysága a sokasági szórástól és a mintanagyságtól (n) függ. Egyszerűbben fogalmazva a standard hiba arra ad választ, hogy egyetlen mintavétel esetén mekkora hibát követünk el „átlagosan”. Mivel a hiba elkövetésének „oka” maga a reprezentatív mintavétel, szokásos ezt a hibát a reprezentatív megfigyelés hibájának is nevezni.

Ha a mintaelemek kiválasztása egyszerű véletlen mintavétellel történt, akkor a mintaátlag standard hibájának meghatározása (bizonyítás nélkül) a következő összefüggéssel történik:

ahol a -t korrekciós tényezőnek vagy véges szorzónak nevezzük.

A fenti összefüggésben a korrekciós tényező alkalmazása egyszerű véletlen mintavételnél abból következik, hogy ezen eljárás esetén a mintaelemek nem függetlenek, és ezért a standard hiba levezetésekor a mintaelemek közötti kapcsolatszorosságról tájékoztató kovarianciát is figyelembe kell venni. Az összefüggésből jól látható, hogy egyszerű véletlen mintavétel esetén a mintaátlag szórása jelentős mértékben függhet a kiválasztási aránytól.

A korrekciós tényező értéke 0 és 1 között lehet. Alacsony (pl. 1% alatti) kiválasztási arány esetén értéke közel esik 1-hez, ezért elhagyása lényegesen nem befolyásolja a kapott eredményt. Ha viszonylag magas a kiválasztási arány (5 és 10% közötti vagy ennél nagyobb), akkor a korrekciós tényező alkalmazására feltétlenül szükség van.

Konkrét mintavételnél a standard hibát -gal fogjuk jelölni, és a

összefüggéssel határozzuk meg.

Végül vizsgáljuk meg a mintaátlag eloszlását.

Független, azonos eloszlású minta esetén a mintaátlag () eloszlásáról a következők mondhatók (a bizonyításokat nem részletezzük, de felhívjuk a figyelmet arra, hogy a a valószínűségi változók összegének konstansszorosa):

1. Normális eloszlású sokaság esetén a mintaátlag is normális eloszlású, függetlenül a minta nagyságától. (Normális eloszlású valószínűségi változók összege is normális eloszlású.)

2. Ha a sokaság eloszlása nem ismert, de nagy mintát veszünk, akkor a mintaátlag közelítőleg normális eloszlású lesz, a centrális határeloszlás-tétel [footnoteRef:2]2 következményeként. [2: 2 Matematika üzemgazdászoknak. Valószínűségszámítás. (Szerk: dr. Csernyák László.) Nemzeti Tankönyvkiadó, Budapest, 1990. 187. oldal. (A további hivatkozásoknál: Valószínűségszámítás.)]

3. Ha a sokaság eloszlása nem ismert és kis mintát veszünk, akkor a mintaátlag eloszlása függ a sokaság eloszlásától, ezért általánosan semmit sem tudunk mondani.

A mintaátlag egy-egy mintavételnél megvalósuló konkrét értékeinek eloszlását is szemléltethetjük. Erre vonatkozóan nézzük a következő példát.

Az 1994-ben megválasztott 371 országgyűlési képviselő életkor szerinti megoszlása a következő hisztogrammal szemléltethető [footnoteRef:3]3 (6.1. ábra): [3: 3 Az alapadatokat nem közöljük.]

6,1. ábra - A képviselők életkor szerinti megoszlásának hisztogramja

A mintaátlag eloszlásának vizsgálatához a 371 elemű sokaságból először 30, majd 100 elemű mintákat vettünk számítógépes véletlenszám-generálás segítségével, visszatevéssel, így független, azonos eloszlású mintához jutottunk. A mintavételt mindkét esetben 100-szor ismételtük meg, majd minden egyes mintára vonatkozóan kiszámítottuk a mintaátlagot. A 30 elemű minták mintaátlagainak megoszlása a következő volt (6.2. táblázat):

6.2. táblázat - 30 elemű minták mintaátlagainak megoszlása

A mintaátlag értéke (év)

A mintaátlagok megoszlása (%)

– 43,90

43,91 – 45,00

45,01 – 46,10

46,11 – 47,20

47,21 – 48,30

48,31 – 49,40

49,41 – 50,50

50,51 – 51,60

51,61 – 52,70

52,71 – 53,80

1

5

13

15

22

25

15

2

1

1

Összesen

100

Ezt követően a 100 elemű mintákat választottuk ki a 30 elemű mintákhoz hasonló módon. A kiszámított mintaátlagokat a 6.3. táblázat tartalmazza:

6.3. táblázat - A 100 elemű minták átlagai

47,08

49,51

51,25

48,99

49,45

49,34

46,09

47,97

48,27

48,49

48,64

47,78

47,71

46,74

48,71

47,05

47,87

46,88

49,10

48,44

48,38

46,94

47,55

46,62

46,08

48,13

46,07

47,92

46,17

46,66

46,54

49,34

47,57

47,83

47,16

47,14

47,69

47,48

47,77

50,24

48,68

46,25

47,21

46,70

47,14

50,17

47,79

46,77

48,14

48,05

47,74

47,48

47,78

48,04

48,52

47,54

50,11

47,91

47,16

48,64

46,29

48,21

47,82

47,33

49,47

48,07

47,89

47,35

49,45

47,22

47,52

47,71

46,13

45,68

47,06

48,45

48,68

47,32

46,86

48,17

48,46

46,78

48,58

48,13

48,33

47,98

46,99

46,70

48,96

46,08

48,02

46,03

48,32

47,39

47,65

48,37

47,80

46,73

48,49

46,94

A kapott mintaátlagokat osztályközös relatív gyakorisági sorba rendeztük (6.4. táblázat).

6.4. táblázat - 100 elemű minták mintaátlagainak megoszlása

A mintaátlag értéke (év)

A mintaátlagok megoszlása (%)

– 46,10

46,11 – 47,20

47,21 – 48,30

48,31 – 49,40

49,41 – 50,50

50,51 – 51,60

6

25

40

21

7

1

Összesen

100

A mintaátlagok megoszlásait hisztogrammal szemléltethetjük (6.2. és 6.3. ábra).

6,2. ábra - A mintaátlagok megoszlásának hisztogramja 100 db 30 elemű minta alapján

6,3. ábra - A mintaátlagok megoszlásának hisztogramja 100 db 100 elemű minta alapján

A grafikus ábrákat összehasonlítva azt láthatjuk, hogy a tapasztalati eloszlás 100 elemű minták esetén jobban közelíti a normális eloszlást, mint 30 elemű minták esetén. (A mintaátlag eloszlására tett 2. megállapításunk is ezt mondja ki.) A relatív gyakorisági sorokból és a hisztogramokból az is kitűnik, hogy a mintaátlagok kisebb intervallumban szóródnak 100 elemű minták esetén, mint 30 eleműeknél. Ez egyben azt is jelenti, hogy a 100 elemű minták esetén kisebb a standard hiba.

A példánkban mindkét esetben meghatározhatjuk − a mintaelemek függetlenségének feltételezésével − a mintaátlag standard hibáját. (A sokasági szórás 9,84 év.)

a) 30 elemű minták esetén:

b) 100 elemű minták esetén: év.

S mint vártuk, 100 elemű minták esetén valóban kisebb a mintaátlagok sokasági átlagtól vett átlagos négyzetes eltérésének várható értéke, mint 30 elemű minták esetén.

A mintaátlagok átlagát is kiszámíthatjuk:

a) 30 elemű minták esetén:

b) 100 elemű minták esetén:

Természetesen egyik esetben sem kaphatjuk eredményül a sokasági átlagot (ami 47,776 év), mert a 100 kísérlet lényegesen kisebb, mint az összes lehetséges minta száma, mely de ennek ellenére a b) esetben a mintaátlagok átlaga nagyon jól megközelíti a sokasági átlagot.

Meg kell jegyeznünk, hogy csak a könnyebb megértés érdekében határoztuk meg a sokasági várható értéket. A gyakorlatban éppen ezen érték mintából történő becslése a cél, ezért ez természetesen ismeretlen.

5. 6.5. Gyakorlófeladatok

1. Az alábbi adatokat, információkat ismerjük:

a) A BKV által szállított utasok száma 1992-ben Budapesten 1481 ezer fő volt.

b) A Budapestre hullott csapadék mennyisége 1996 februárjában 28 mm volt.

c) Egy édességbolt kávéforgalma 1996 decemberében.

d) A magyar lakosság egy főre jutó húsfogyasztása (kg/fő).

e) A dohányzók aránya a 14–18 éves fiatalok körében.

f) A kiszolgálási idő átlagos nagysága egy ARAL benzinkútnál.

g) A fogyasztói árak alakulása.

h) A lakossági tulajdonban lévő személygépkocsik átlagos életkora 8,2 év volt 1992-ben.

i) A magyar háztartások jövedelmüknek átlagosan 30%-át fordítják élelmiszer-vásárlásra.

j) A felsőfokú intézményekben végzettek száma 1995-ben.

Feladat:

Gondoljuk át, hogy a fenti információkból melyek azok, amelyek reprezentatív megfigyelésből származnak!

2. Tételezzünk fel egy mindössze 5 elemű sokaságot, amelyben egy mennyiségi ismérv értékei a következők:

A sokaság elemei

értékei

A

B

C

D

E

2

6

8

10

15

Feladat:

a) Számítsuk ki az összes lehetséges kételemű és háromelemű – visszatevés nélküli kiválasztással kapható – mintákat és mintaátlagokat!

b) Határozzuk meg a standard hibát:

1. a kételemű minták alapján,

2. a háromelemű minták alapján!

c) Hasonlítsuk össze a kapott eredményeket!

3. Néhány, a fejezetben található jelölés:

a j-edik réteg nagysága a sokaságban,

a sokaság szórásnégyzete,

a mintaátlag szórása,

a sokaság átlaga,

a minta átlaga.

Feladat:

Párosítsuk a fenti jelöléseket a helyes megnevezéssel!

4. Tételezzük fel, hogy egy sokaság 10 elemből áll. Egy tetszőleges mennyiségi ismérv értékei a sokasági egységeknél:

Sokasági egység

Ismérv értéke

Feladat:

a) Számítsuk ki a sokaság átlagát és szórását!

b) Határozzuk meg az ismétlés nélkül kiválasztható kételeműminták átlagait!

c) Rendezzük a kapott mintaátlagokat osztályközös gyakorisági sorba! Készítsünk az adatokból gyakorisági poligont!

d) Vizsgáljuk meg a mintaátlagok sokasági átlag körüli szóródását!

5. A katonai sorozáson megjelenő fiúk átlagos testmagassága 175 cm, a testmagasság szórása 8 cm. (A testmagasság szerinti eloszlás normálisnak tekinthető.)

Feladat:

A sokaságból 20 elemű mintát véve, mekkora a valószínűsége annak, hogy a mintaátlag a sokasági átlag 3 cm-es környezetében lesz?

6. A felnőtt korú népesség testtömege szerint normális eloszlású, 78 kg-os várható értékkel, 8 kg-os szórással. A sokaságból 10 fős véletlen mintát veszünk.

Feladat:

a) Mi a valószínűsége annak, hogy

1. a mintába kerülők mindegyikének a testtömege meghaladja a 80 kg-ot,

2. a mintaátlag nagyobb, mint 80 kg?

b) Magyarázzuk meg a kapott eredményeket!

7. Valamely termék gyártásánál az éves termelésben a szabvány-előírásnak megfelelő termékek aránya 90%.

Feladat:

Számítsuk ki annak a valószínűségét, hogy egy 200 elemű egyszerű véletlen mintában legalább 95% a szabványnak megfelelő termékek aránya! (Megjegyzés: a mintabeli arányok normális eloszlásúak!)

8. Hosszú évek tapasztalata alapján feltételezhetjük, hogy a hallgatók statisztikadolgozatainak pontszáma normális eloszlást követ. Az átlagos pontszám: pont, a szórás: pont. (A dolgozatok elérhető maximális pontszáma 100 pont.)

Feladat:

a) Számítsuk ki annak a valószínűségét, hogy egy 40 fős tanulócsoportban az átlagos pontszám 72 pont felett lesz!

b) Mekkora a valószínűsége annak, hogy egy véletlenszerűen kiválasztott hallgató 72 pont felett teljesít?

Mintavétel

Mintavétel

Created by XMLmind XSL-FO Converter.

Created by XMLmind XSL-FO Converter.

Created by XMLmind XSL-FO Converter.

7. fejezet - Statisztikai becslések

1. 7.1. Alapfogalmak

Az előző fejezetben a mintavétel alapfogalmaival, a mintavételi eljárásokkal és a mintaátlag tulajdonságaival ismerkedtünk meg. Ebben a fejezetben valamely sokasági jellemző (várható érték, szórás, értékösszeg, arány stb.) mintából történő közelítő meghatározásával foglalkozunk.

A mintából való következtetés fontos alapfogalma a becslőfüggvény.

Becslőfüggvényen a mintaelemek olyan n-változós függvényét értjük, amelynek értéke a sokaság valamely paraméterének mintából történő becslésére szolgál. [footnoteRef:4]1 [4: 1 A mintaelemek ezen függvényét statisztikának is szokták nevezni.]

Becslőfüggvény lehet például a mintaelemek átlaga amellyel a sokasági várható értéket vagy a mintabeli arány, amellyel a sokasági arányt becsülhetjük. Ugyanazon sokasági jellemző értékének közelítő meghatározásához több becslőfüggvény is használható. Például a sokasági várható érték becslésére a mintaelemek számtani átlagán kívül szimmetrikus eloszlás esetén a mediánt, a harmonikus átlagot, a négyzetes átlagot stb. is használhatjuk.

A sokasági szórásnégyzet becslésére is több becslőfüggvényt konstruálhatunk. Ezek közül a legfontosabbakat emeljük ki. Becsülhetjük a

statisztikával, amelynek egy konkrét mintavételnél az értéke az

összefüggéssel határozható meg. A fenti becslőfüggvényt tapasztalati szórásnégyzetnek nevezzük. A sokasági szórásnégyzet becslésére használhatjuk a korrigált tapasztalati szórásnégyzetet, a

becslőfüggvényt is, amelynek egy adott mintánál az értéke

Mivel a legtöbb sokasági jellemző becslésére több becslőfüggvény is konstruálható, ezért felvetődik a kérdés, hogy melyiket használjuk. Ehhez nyújtanak támpontot a becslőfüggvényekkel szemben támasztott követelmények, amelyek alapján el tudjuk dönteni, hogy melyik becslőfüggvény mondható jónak, jobbnak, illetve bizonyos esetben a legjobbnak.

A becslőfüggvény értéke valószínűségi változó, értéke mintáról mintára változhat, de egyetlen n elemű mintához csak egyetlenegy értéket rendel. Ezt az értéket nevezzük valamely sokasági jellemző pontbecslésének. Például -nek pontbecslése az és -nak az s* vagy az s. Ezzel szemben az intervallumbecslésnél egyetlenegy minta alapján olyan intervallumot határozunk meg, amely előre megadott (nagy) valószínűséggel tartalmazza az ismeretlen sokasági jellemzőt. Ezt az intervallumot konfidenciaintervallumnak vagy megbízhatósági intervallumnak nevezzük.

2. 7.2. A becslőfüggvényekkel szemben támasztott követelmények

2.1. 7.2.1. Torzítatlanság

Torzítatlannak nevezünk egy becslőfüggvényt, ha annak várható értéke megegyezik a becsülni kívánt sokasági jellemző értékével.

Jelöljük a sokasági jellemzőt -val, a becslőfüggvényét pedig továbbra is -pal. E követelmény szerint akkor tekinthető torzítatlan becslőfüggvényének, ha

Véges sokaság esetén a torzítatlanság tulajdonsága azt jelenti, hogy ha az összes lehetséges módon kiválasztjuk az n elemű mintákat, és minden egyes minta esetén kiszámítjuk a becslőfüggvény értékét, majd ezek számtani átlagát képezzük, akkor e követelmény szerint a sokasági jellemző értékét kell kapnunk. Vagyis az összes lehetséges pontbecslés átlaga a tényleges érték.

Ennél kevésbé szigorú, ám a gyakorlatban mégis sokszor elfogadható az aszimptotikus torzítatlanság követelményének teljesülése is. Eszerint

azaz a minta elemszámának növelésével a becsülni kívánt paraméter és a becslőfüggvény várható értékének különbsége egyre kisebb lesz.

Nézzük meg e követelmények teljesülését néhány becslőfüggvény esetén.

A mintaátlag a sokasági várható érték torzítatlan becslőfüggvénye.

E tulajdonság teljesülését már a 6.4. pontban bizonyítottuk. Vagyis beláttuk, hogy ha a azonos eloszlású, független valószínűségi változók alkotják a mintát, akkor

ahol a sokaság (egyben a ) várható értéke.

Ha konkrétan egy mintavételre sor kerül, és adódik, akkor az értékeknek ugyanazon függvénye, mint a valószínűségi változóknak, vagyis az úgy tekinthető, mint e minta esetén felvett értéke (azaz olyan valószínűségi változó által felvett érték az , amelynek várható értéke ).

Most vizsgáljuk meg, hogy a szórásnégyzetekre teljesül-e ez a követelmény. Tekintsük először a tapasztalati szórásnégyzet várható értékét:

Mivel , továbbá , így

Vagyis a tapasztalati szórásnégyzet a sokasági szórásnégyzet torzítottbecslőfüggvénye. Igaz viszont, hogy

a tapasztalati szórásnégyzet tehát a sokasági szórásnégyzet aszimptotikusan torzítatlan becslőfüggvénye.

A korrigált tapasztalati szórásnégyzet viszont már torzítás nélkül becsüli a -et. Ezt könnyen igazolhatjuk. A korrigált tapasztalati szórásnégyzetet a tapasztalati szórásnégyzet felhasználásával a következőképpen írhatjuk fel:

Ezen összefüggést és a tapasztalati szórásnégyzet várható értékének levezetésénél leírtakat felhasználva

tehát a becslőfüggvény torzítatlan. Ezért a gyakorlatban a korrigált tapasztalati szórásnégyzetet használjuk a sokasági szórásnégyzet becslésére.

2.2. 7.2.2. Konzisztencia

A konzisztencia követelménye azt írja elő, hogy a becslés torzítatlan (vagy legalább aszimptotikusan torzítatlan) legyen, és a mintanagyság minden határon túl történő növelése esetén annak a valószínűsége, hogy a becsülni kívánt paraméter és a becslőfüggvény eltérése kisebb egy számnál, 1 legyen. Képlettel felírva:

Másképpen megfogalmazva: a konzisztencia azt a követelményt támasztja a becslőfüggvényekkel szemben, hogy nagyon nagy minta esetén a becslőfüggvény mintából számított értéke nagy valószínűséggel közelítse meg a sokasági jellemző értékét. Véges (N elemű) sokaság és visszatevés nélküli mintavétel (tehát egyszerű véletlen mintavétel) esetén a konzisztencia azt jelenti, hogy esetén a becslőfüggvény „mintából” számított értéke megegyezik a sokasági paraméter értékével.

2.3. 7.2.3. Hatásosság

Ha a és a torzítatlan becslőfüggvénye -nak, és akkor azt mondhatjuk, hogy hatásosabb becslőfüggvénye -nak, mint Más szavakkal: az a becslőfüggvény hatásosabb, amelynél a becslőfüggvény mintából számított értékeinek a sokasági paramétertől számított átlagos négyzetes eltérésének várható értéke (tehát szórása) kisebb.

A 7.1. ábrán két torzítatlan (, ) becslőfüggvény sűrűségfüggvénye látható. A kettő közül azt tekintjük hatásosabb becslőfüggvényének, amelynek szórása (standard hibája) kisebb, mivel ez azt jelenti, hogy becslésünk nagyobb valószínűséggel áll közel a sokasági paraméterhez.

7,1. ábra - A és becslőfüggvény eloszlás

Ha egy sokasági paraméter összes becslőfüggvénye között létezik egy olyan, amelynek minimális a szórása, azt hatásos becslésnek nevezzük.

2.4. 7.2.4. Elégségesség

Ez a követelmény azt mondja ki, hogy az elégséges becslés minden mintából nyerhető információt tartalmaz a becsülni kívánt jellemzőről.

3. 7.3. Intervallumbecslés

Az alapfogalmak áttekintése után a becslések különböző eseteivel foglalkozunk. A becslés egyik célja egy olyan intervallum megadása, amely megadott nagy valószínűséggel tartalmazza a sokasági jellemzőt. Ekkor konfidenciaintervallumot határozunk meg.

A becslés során egyetlen n elemű minta alapján egyetlenegy értéket is adhatunk az ismeretlen sokasági jellemzőre. Ekkor – mint már említettük – pontbecslést hajtunk végre. Pl. pontbecslést adunk, ha azt mondjuk, hogy a sokaság várható értéke a mintaátlaggal (), vagy a sokasági arány a mintabeli aránnyal egyenlő stb.

Térjünk vissza ismét a konfidenciaintervallum meghatározására.

3.1. 7.3.1. A sokaság várható értékének becslése

A sokaság várható értékének becslőfüggvényeként a mintaátlagot használjuk. Mint azt már beláttuk, torzítatlan és konzisztens becslést eredményez. A sokasági várható értékre adott konfidenciaintervallum meghatározásánál a mintaátlag eloszlásáról elmondottak (6.4. pont) alapján a következő alpontokat fogjuk megkülönböztetni:

a) Normális eloszlású sokaság esetén, ha a sokaság szórása ismert.

b) Normális eloszlású sokaság esetén, ha a sokaság szórása nem ismert.

c) Nem normális, de ismert eloszlású sokaság esetén, ha nagy mintát vettünk.

d) Nem normális, de ismert eloszlású sokaság esetén, ha kis mintát vettünk, illetve ismeretlen eloszlású sokaság esetén.

A további tárgyalás során a minta elemszáma legyen n, és az előre rögzített (magas) valószínűségi szint .

a) Normális eloszlású sokaság esetén, ha a sokaság szórása ismert

Ha a sokaság normális eloszlású, a minta elemei és a mintaátlag is normális eloszlású lesz, a minta elemszámától függetlenül. Mivel a sokasági szórás ismert, definiálhatunk egy valószínűségi változót oly módon, hogy a normális eloszlású mintaátlagból kivonjuk annak várható értékét és elosztjuk a szórásával Jelöljük ezt a változót Z-vel, tehát

Így Z standard normális eloszlású valószínűségi változó lesz. A konfidenciaintervallum meghatározása során keressük azt a intervallumot, amely valószínűséggel tartalmazza a Z változót, azaz

és valószínűséggel nem tartalmazza azt. A keresett intervallumot úgy határozzuk meg, hogy ugyanakkora valószínűsége legyen annak, hogy a Z változó kisebb, mint az intervallum alsó határa, mint annak, hogy a Z nagyobb, mint annak felső határa. Ez a valószínűség -vel egyenlő, mivel a keresett intervallum a Z valószínűségi változót valószínűséggel nem tartalmazza, azaz

Mivel a Z változó standard normális eloszlású (és ezen eloszlás szimmetrikus az Y tengelyre), ezért az intervallum is szimmetrikus lesz a Y tengelyre, így helyett határokat használhatunk. A keresett intervallumba esés valószínűsége (Z standard normális eloszlású, az ismert összefüggések felhasználásával [footnoteRef:5]2 ) pedig: [5: 2 Valószínűségszámítás 142. oldal]

Előre megadott magas valószínűségi szint esetén a Z valószínűségi változónak a konfidenciaintervallumba valószínűséggel kell esnie. Ekkor

azaz

Ebből z meghatározható táblázat (Függelék 1. táblázat) alapján, a megoldás legyen . A tehát az az érték, amely mellett a intervallum kimetszi a standard normális eloszlás sűrűségfüggvénye alatti terület %-át. Ezt szemlélteti a 7.2. ábra.

7,2. ábra - A konfidenciaintervallum ábrázolása

Mivel a sokaság várható értékére (μ-re) akarunk egy intervallumot adni, rendezzük át a egyenlőtlenséget oly módon, hogy az intervallum középpontjában a sokaság várható értéke (μ) álljon. Tehát azt jelenti, hogy Ebből

Vagyis a konfidenciaintervallum

Egy konkrét mintaesetén a konfidenciaintervallum

A mennyiséget hibahatárnak vagy maximális hibának nevezzük és Δ-val jelöljük. Ez az érték azt mutatja meg, hogy a becslés során valószínűséggel Δ-nál kevesebbet tévedünk.

A becslés hibahatárának csökkentésére több lehetőség is adódik. Csökkenthetjük a standard hibát, a értéket, illetve mindkettőt. A standard hiba, a mintaátlag szórása csak a minta elemszámától függ (a sokasági szórás () adott), mégpedig annak gyökével fordítottan arányos. Így a standard hiba, s ezáltal a hibahatár csökkentésének egyik módja a minta elemszámának növelése. A értéke a megbízhatósági szinttől, az (1 – μ)-tól függ. Tehát a megbízhatósági szint csökkentésével (az intervallumunk kisebb valószínűséggel tartalmazza a sokasági paramétert) a hibahatárt is csökkentjük. Összefoglalva az elmondottakat, a becslési pontosságot a minta elemszámának növelésével vagy a megbízhatósági szint csökkentésével javíthatjuk. De ez utóbbi csak látszateredmény, mert hiába adunk meg kis intervallumot, ha kis valószínűséggel esik csak bele a μ.

Jól látható, hogy az intervallum határai valószínűségi változók, értékük függ a minta átlagától. Mivel csak egyetlenegy minta áll a rendelkezésünkre, ezért a konfidenciaintervallum határai is konkrét számértékek lesznek. Ekkor a konfidenciaintervallumot úgy értelmezhetjük, hogy a sokaság várható értéke valószínűséggel határok közé esik.

Tekintsünk vissza a 6. fejezetben elkezdett számpéldára. Határozzuk meg, hogy milyen határok közé esik 95%-os valószínűséggel a 371 országgyűlési képviselő átlagéletkora, ha csak egyetlen 100 elemű mintát vettünk.

A konfidenciaintervallum megadásához tételezzük fel, hogy a sokaság normális eloszlású, és a minta elemeit visszatevéssel választottuk ki (tehát függetleneknek tekinthetjük). A kiválasztott 100 elemű minta átlaga 47,08 év. A 371 képviselő életkorának szórása (sokasági szórás) 9,85 év. Tehát:

A becslőfüggvény értéke a 100 elemű minta alapján:

A mintaátlag standard hibája:

Ezek után határozzuk meg a hibahatárt. Ehhez szükség van a értékére – a meghatározásához így –, amely a standard normális eloszlás táblázatából kereshető ki. . A hibahatár:

Tehát 95%-os valószínűséggel 1,93 évnél kevesebbet tévedünk a becslés során. A konfidenciaintervallum határai: 47,08 ± 1,93, így a 371 képviselő átlagéletkora 95%-os valószínűséggel 45,15 év és 49,01 év között van.

7,3. ábra - A konfidenciaintervallum elhelyezkedése a mintavétel többszöri végrehajtása esetén

Már említettük, hogy a konfidenciaintervallum határait befolyásolja a minta átlaga, vagyis az a tény, hogy a kiválasztás során melyik sokasági elem kerül be a mintába. Mivel a sokaság szórása ismert, továbbá változatlan a konfidenciaintervallumba esés valószínűsége (95%), ezért a maximális hiba, s ezáltal a konfidenciaintervallum hossza is ugyanaz lesz minden esetben. Tehát az intervallum elhelyezkedése csak egyetlen tényezőtől, a mintaátlagtól függ. A 7.3 ábra 5 különböző minta esetén – amelyek mintaátlagai a 6.3. táblázatban találhatók és amelyek rendre 47,08 év, 49,51 év, 51,25 év, 48,99 év és 49,45 év – a konfidenciaintervallum elhelyezkedését szemlélteti.

b) Normális eloszlású sokaság esetén, ha a sokaság szórása () nem ismert

A becslés célja továbbra is az, hogy konfidenciaintervallumot készítsünk a sokaság várható értékére, Mivel a sokaság szórása (σ) nem ismert, ezért azt a mintából a korrigált tapasztalati szórás () segítségével kell becsülni. Ennek következtében a

változót lehet csak használni az intervallum meghatározásához. Ez a változó (Student-féle) t-eloszlású valószínűségi változó szabadságfokkal. [footnoteRef:6]3 (Azért a szabadságfok, mert a számlálóban lévő valószínűségi változó nem független a valószínűségi változóktól.) [6: 3 A Student-féle t-eloszlás sűrűség- és eloszlásfüggvénye a Valószínűségszámítás 196. oldalán található.]

7,4. ábra - A standard normális és a Student-féle t-eloszlás

A t-eloszlással kapcsolatban meg kell említenünk, hogy a standard normális eloszláshoz hasonlóan szimmetrikus az Y tengelyre, továbbá a szabadságfok növelésével a t-eloszlás egyre inkább közelít a standard normális eloszláshoz, 100 feletti szabadságfok esetén (azaz jelen esetben 100-nál több elemű minta esetén) [footnoteRef:7]4 a két eloszlás eltérése minimális lesz. A 7.4. ábrán a standard normális és a Student t-eloszlás sűrűségfüggvényét szemléltetjük. (Az N(0, 1) jelölés a standard normális eloszlásra utal.) [7: 4 Ez az egyik magyarázata annak, hogy a 100-nál nagyobb elemű mintákat már nagy mintáknak tekintjük.]

A konfidenciaintervallum az a) pontban megfogalmazott esethez hasonlóan vezethető le, azzal a különbséggel, hogy a Z helyett a változót használjuk, továbbá az egyenlet megoldása helyett lesz, amely a Student t-eloszlás táblázatából kereshető ki (Függelék 4. táblázat).

Az elmondottaknak megfelelően a konfidenciaintervallum határai:

Konkrét minta esetén:

ahol és

Folytassuk a példánkat azzal a feltevéssel, hogy a sokaság szórása (σ) nem ismert. Ekkor mintából kell becsülnünk. A minta elemeiből számított korrigált tapasztalati szórás A mintaátlag standard hibája:

(Mivel a standard hiba kiszámításához a korrigált tapasztalati szórást használtuk fel, ezért konkrét minta esetén az jelölést használjuk a helyett.)

A hibahatár kiszámításához a Student t-eloszlás táblázatából kell kikeresni a -t, amelynek értéke a példában Ennek megfelelően a hibahatár:

A konfidenciaintervallum pedig: (47,77 ± 2,0) év. Tehát a 371 képviselő átlagéletkora 95%-os valószínűséggel 45,77 év és 49,77 év között van.

c) Nem normális, de ismert eloszlású sokaság esetén, ha nagy mintát vettünk

Nagy minta esetén – a 6.4. fejezetben elmondottak alapján – a mintaátlag a centrális határeloszlás tétele értelmében közelítőleg normális eloszlású lesz, így a sokaság várható értékére adott konfidenciaintervallum alsó és felső határa konkrét minta esetén az

illetve a

összefüggés alapján határozható meg attól függően, hogy ismert vagy sem a sokasági szórás.

Mivel nagy mintánk van – és nagy mintához tartozó szabadságfok esetén a Student t-eloszlás megközelítőleg egybeesik a standard normális eloszlással –, a konfidenciaintervallum meghatározásához ismeretlen sokasági szórás esetén is használhatjuk a standard normális eloszlás táblázatát. (A fentiek közül az első intervallumot azzal a különbséggel, hogy a sokasági szórás (σ) helyett a mintabeli korrigált tapasztalati szórást (s) használjuk.)

d) Nem normális, de ismert eloszlású sokaság esetén, ha kis mintát vettünk, illetve ismeretlen eloszlású sokaság esetén

Mivel ekkor a minta átlagának eloszlásáról általánosan semmit sem tudunk mondani, ezért a konfidenciaintervallum meghatározása a valószínűségszámításból megismert Csebisev-egyenlőtlenség [footnoteRef:8]5 alapján történik, amely a következő formában írható fel: [8: 5 Valószínűségszámítás 108. oldal]

Tegyük fel, hogy valószínűségi változónk amelynek várható értéke szórása pedig ekkor a fenti egyenlőtlenség felírható a következő módon:

A felírt egyenlőtlenség nagyon hasonlít a korábban meghatározott konfidenciaintervallumra azzal a különbséggel, hogy itt a „szorzószám” nem egy eloszlás táblázatából vett érték, hanem az összefüggésből határozható meg. Tehát a Csebisev-egyenlőtlenség azt mutatja meg, hogy az intervallumba esés valószínűsége legalább. Természetesen, ha a sokaság szórása nem ismert, a helyett használható a is.

Konkrét mintánál a Csebisev-egyenlőtlenség

formában írható fel, amelynél, ha a sokaság szórása nem ismert, a helyett az is használható.

Tekintsük a következő példát! Egy biztosítótársaság központjában az átlagkereset meghatározása céljából egy 20 elemű mintát vettek. A mintában az átlagkereset a keresetek korrigált tapasztalati szórása pedig s = 21 300 Ft. Becsüljük meg legalább 95%-os valószínűséggel, hogy milyen határok között van a központ dolgozóinak átlagkeresete!

Először határozzuk meg a k értékét!

A mintaátlag standard hibája:

Ezek után kiszámíthatjuk a konfidenciaintervallum határait:

A központ dolgozóinak átlagkeresete legalább 95%-os valószínűséggel 26 910,3 Ft és 69 489,7 Ft között lesz.

Az eddigiek során feltételeztük – a pontos matematikai tárgyalás érdekében –, hogy független, azonos eloszlású minta áll a rendelkezésünkre. Ha a minta elemei egyszerű véletlen mintavételből származtak, akkor a konfidenciaintervallum meghatározása némiképp módosul az eddigiekhez képest.

A sokaság várható értékének a becslésére továbbra is a mintaátlag használható. A mintaátlag standard hibája (ami független, azonos eloszlású minta esetén illetve volt, konkrét minta esetén pedig , illetve ) a 6.4. fejezetben leírtaknak megfelelően illetve a korrigált tapasztalati szórás felhasználásával lesz. Az egyszerű véletlen mintavételnek számtalan jó tulajdonsága mellett hátránya, hogy kismintás vizsgálatoknál csak közelítő módon tudunk konfidenciaintervallumot adni az átlagbecslésre. Szerencsére belátható, hogy nagy minták esetén a

változó standard normális eloszlást követ, így az intervallumbecslést az eddigiekben megismert módon lehet elvégezni. Egyetlen eltérés csupán, hogy a standard hiba kiszámításakor a korrekciós tényezőt is figyelembe kell venni. Mivel nagy mintánk van, a fenti valószínűségi változó akkor is standard normális eloszlású, ha a sokasági szórás (σ) helyett a mintából becsült korrigált tapasztalati szórást () használjuk.

Nézzünk néhány példát!

Tegyük fel, hogy az országgyűlési képviselők életkorának becslésére felhasznált minta elemeit nem visszatevéssel, hanem visszatevés nélkül választottuk ki (tehát egyszerű véletlen mintavétel történt). A minta elemei nem függetlenek, így a mintaátlag standard hibájának kiszámításánál alkalmaznunk kell a korrekciós tényezőt:

A hibahatár:

A konfidenciaintervallum pedig: (47,08 ± 1,65) év, azaz (45,43 ; 48,73) év.

Az a) pontban számított eredménnyel (45,15 ; 49,01) összehasonlítva megállapíthatjuk, hogy visszatevés nélküli mintavétel esetén a konfidenciaintervallum rövidebb – tehát pontosabb becslést eredményez –, mint visszatevéses mintavételnél. Ez az eltérés azzal magyarázható, hogy visszatevéses mintavétel esetén a „szélsőséges” mintaelemek ismét bekerülhetnek a mintába, így a becslési hiba nagyobb lehet.

Vegyünk egy másik példát!

Egy konzervipari vállalat 50 000 üvegből álló gyümölcskonzerv-szállítmány értékesítését tervezi. Minőség-ellenőrzés céljából egy 500 üvegből álló mintát vesznek egyszerű véletlen mintavétellel. A mintába került üvegek nettó töltőtömeg szerinti megoszlása a következő (7.1. táblázat):

7.1. táblázat - A mintába került üvegek nettó töltési tömeg szerinti megoszlása

Üvegek nettó töltési tömege, gramm

Üvegek száma

441 – 460

461 – 480

481 – 500

501 – 520

521 – 540

15

85

160

190

50

Összesen

500

Becsüljük meg 95%-os valószínűséggel, hogy milyen határok között van az üvegek átlagos nettó töltőtömege a szállítmányban!

Mivel a sokaság eloszlása nem ismert, de nagy mintát vettünk, a c) pontban megfogalmazott esettel van dolgunk. A feladat megoldása során első lépésként ki kell számolnunk a becslőfüggvény értékét, a mintaátlagot, majd a korrigált tapasztalati szórást kell meghatároznunk. A mintaátlag (súlyozott számtani átlag formát alkalmazva):

A korrigált tapasztalati szórás:

A mintaátlag standard hibája:

Az értékhez és az szabadságfokhoz tartozó Student t-eloszlású változó értéke és így a hibahatár:

A konfidenciaintervallum határai pedig:

az alsó határ: 497 – 1,7 = 495,3 gramm,

a felső határ: 497 + 1,7 = 498,7 gramm.

Tehát az 50 000 üveg átlagos nettó töltőtömege 95%-os valószínűséggel 495,3 és 498,7 gramm között van.

Megjegyzés: A hibahatár meghatározásához (tekintettel a nagy mintaelemszámra) használhatjuk a Student t-eloszlás helyett a standard normális eloszlás táblázatát is. Az esetén a standard normális eloszlású változó értéke . A és a érték megegyezik, ezért ugyanahhoz az eredményhez jutunk.

3.2. 7.3.2. A sokasági értékösszeg becsl