Matematikai statisztika - Param©terek becsl©se, hipot©zisvizsglat
-
Upload
others
-
View
0
-
Download
0
Embed Size (px)
Citation preview
Matematikai statisztikaCopyright © N auka Publishers, Moscow All
rights reserved Hungarian translation © Michaletzky György
ISBN 963 9132 38-1
E m az Oktatási Minszitérium támogatásával a Felsoktatási Pályá
zatok Irodája által lebonyolított felsoktatási tankönyvtámogatási
pro gram keretében jelent meg.
www.interkonyv.hu
aszimptotikus tulajdonságai
2. A tapasztalati eloszlás (egydimenziós
eset).............................. 26
3. Tapasztalati jellemzk. A statisztikák két
típusa.......................... 30
1. Példák a tapasztalati jellemzkre (30). 2. A statisztikák két
fajta típusa (31).
4. Többdimenziós minták . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . 34
1. Tapasztalati elosztás (34). 2. A Glivenko-Cantelli tétel még
általánosabb változatai. Az iterált logaritmus tétele (35). 3.
Tapasztalati jellemzk (36).
5. Folytonossági
tételek.................................................. 37
6*. A tapasztalati eloszlásfüggvény mint sztochasztikus folyamat.
Konvergenci- ája a Brown-hídhoz.............................. ... .
. . . . . . . . . . . . . . . . . . 41
1. Az nF~(t) folyamat eloszlása (41). 2. A wn(t) folyamat
aszimptotikus viselkedése (45).
7. Az els típusú statisztikák határeloszlása . . . . . .. . . . . .
. . . . . .. . . .. . . .. . . . . . 4 7
8*. A második típusú statisztikák
határeloszlása............................. 52
9*. Néhány megjegyzés a nemparaméteres
statisztikákról.................... 61
10*. A tapasztalati eloszlás simítása. Tapasztalati srségfüggvény.
. . . . . . . . . . . . 62
2. Fejezet Az ismeretlen paraméterek becslésének élmélete
1. Elzetes megjegyzések . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . 70
2. Paraméteres eloszláscsaládok és tulajdonságaik . . . . . . . . .
. . . . . . . . . . . . . . . . . 71
1. A normális "eloszlás (72). 2. A többdimenziós normális eloszlás
(72). 3. Gamma-eloszlás (73). 4. A k-szabadságfokú Hk-eloszlás
(74). 5. Exponen- ciális eloszlás (75). 6. k1, k2 szabadságfokú Fk1
,k2 Fisher-féle eloszlás (75).
www.interkonyv.hu
7. A k-szabadságfokú Tk Student-eloszlás (76). 8. Béta-eloszlás
(E-eloszlás) (78). 9. Egyenletes eloszlás (78). 10. Az Ka,O"
paraméter Cauchy-eloszlás (81). 11. Az La 0"2 lognormális eloszlás
(81). 12. Az elfajult eloszlás (82).
13. AB; binomiális eloszlás (82). 14. A Poisson°eloszlás (82). 15.
Polino miális eloszlás (82).
3. Pontbecslés. A becslések készítésének alapvet módszere.
Konzisztencia, aszimptotikus normalitás . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
1. A behelyettesítéses módszer.Konzisztencia (83). 2. Aszimptotikus
norma- litás. Egydimenziós eset (87). 3. Aszimptotikus normalitás.
Többdimenziós paraméter esete (87).
4. A behelyettesítéses módszer megvalósításai a paraméteres
esetben. A mo- mentum módszer. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. 88
1. A momentum módszer. Egydimenziós eset (89). 2. A momentum mód
szer. A többdimenziós eset (91). 3. Az általánosított momentum
módszer (92).
5*. A minimális távolság módszere . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . 92
6. A maximum likelihood becslés . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . 95
7. A becslések összehasonlítása . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . 103
1. A négyzetes középben vett eltérés. Egydimenziós eset (103). 2.
Az aszimptotikus módszer. Egydimenziós eset (106). 3. A négyzetes
eltérés és az aszimptotikus módszer a többdimenziós esetben
(109).
8. A becslések összehasonlítása a paraméteres esetben. Hatásos
becslések.... 113
1. Az egydimenziós eset (114). 2. A többdimenziós eset (119).
9. A feltételes várható
érték.............................................. 121
1. A f.v.é. definíciója (121). 2. A f.v.é. tulajdonságai
(25).
10. A feltételes eloszlás . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
127
11. Bayes-féle és minimax
becslések....................................... 131
12. Elégséges statisztikák. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
14. Hatásos becslések készítése az elégséges statisztikák
segítségével. Teljes sta- tisztikák .............. , . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . 152
1. Egydimenziós eset (152). 2. Többdimenziós eset (153). 3. Teljes
statisz tikák és hatásos becslések (154).
15. Exponenciális eloszláscsalád. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . 157
1. A Cramer-Rao-egyenltlenség és következményei (162). 2. R-hatásos
és aszimptotikusan R-hatásos becslések (168). 3. A Cramer-Rao
egyenltlen- ség a többdimenziós esetben (172). 4. Néhány
következtetés (178).
17. A Fisher-féle információ
tulajdonságai.................................. 179
1. Egydimenziós eset ( 179). 2. Többdimenziós eset ( 182). 3. A
Fisher-mátrix és a paramétertranszformáció (184).
www.interkonyv.hu
18. Az eltolás és a skálaparaméter becslése. Hatásos invariáns
becslések...... 185
1. Az eltolás- és a skálaparaméter becslése (186). 2. Az
eltolásparaméter hatásos becslése az ekvivalens becslések osztályán
belül (187). 3; A Pitman- féle becslés minimax volta (190). 4. A
skálaparaméter optimális becslése (192). . .
19. Az ekvivalens becslés általános feladata .................. ,
.. ,........... 195
20. Cramer-Rao típusú iritegrálegyenltlenségek. Aszimptotikusan
Bayes-féle és minimax becslések ................
:................................... 198
1. Hatásos és túlhatásos becslések (198). 2. Alapvet
egyenltlenségek
(200). 3: Egyenltlenségek abban az esetben; arnikora q(B)/ l(B)
függvény nem deriválható (204). 4. Néhány következmény.
Aszimptotikusan Bayes féle és minimax becslések (206). 5.
Többdimenziós eset (209).
21. A Kullback-Leibler, a Hellinger és a x2 távolság.
Tulajdonságaik......... 209
1. A távolságok definíciója és alapvet tulajdonságaik (209). 2. A
Hellinger és a többi távolság kapcsolata a Fisher-féle
információval (213). 3. Egyenle-
tes alsó határ az r(!).)/ !).2 mennyíségekre (214). 4.
Többdimenziós eset (215). 5. A vizsgált távolságok és a becslések
kapcsolata (217).
22. Cr~er-Rao-típusú differencia
egyenltlenségek......................... 218
23. A likelihood-hányadosra vonatkozó segédegyenltlenségek. A
maximum likelihood-becslés konzisztenciája
............................. ; . . . . .. . . 224
1. Alapegyenltlenségek (225). 2. A m.l.b. eloszlására és
momentumaira vonatkozó becslések. A m.1.b. konzisztenciája
(228).
24. A likelihood-hányados tulajdonságai. . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 229
25. A maximum likelihood-becslés tulajdonságai. Aszimptotikus
normalitás. Aszimptotikus optimalitás
.............................. , .......... , . . . . 238
1. A tn.l.b. aszimptotikus normalitása (238). 2. Aszimptotikus
hatásosság (239). 3. A m.l.b. aszimptotikusan Bayes-féle (241). 4.
A m.l.b. aszimptoti kusan rninimax becslés (242).
26. A maximum likelihood-becslés közelít kiszámítása ..
:................... 242
27. A Iilaxiirium likelihood-becslés tulajdonságai - regularitási
feltételek nélkül. Konzisztencia. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . 249
28. A 23-27. pontok eredményei a többdimenziós 'paraméter esetében
.. ; .. ; . . . 255
1. A likelihood-hányadosra vonatkozó egyenltlenségek (23. pont
eredmé- nyei) (255). 2. A likelihood-hányados aszimptotikus
tulajdonságai (á 24. pont erdményei) (256). 3. A m.l.b.
tulajdonságai {a 25. pont eredményei) (261). 4. A mJ.b. közelít
meghatározása (264). 5. A m.l.b. tulajdonságai regularitási
feltételek nélkül (a 27. pont eredményei) (264).
29. A likelihood-hányados és a maximum likelihood-becslés
aszimptotikus tu lajdonságainak () szerinti egyenletessége . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
1. Egyenletes nagy számok törvénye és a centrális határeloszlás
tétel (263). 2. A likelihood-hányados és a maximum
likelihood-becslés aszimptotikus
tulajdonságairól szóló tételek egyenletes variánsai (266). 3.
Néhány követ
kezmény (270).
31. Az intervallumbecslések .................... : . • . . . . . .
. . . . . .. . . . . . . . . . . . 272 1. Definíció (272). 2. A
konfidenciaintervallumok megszerkesztése a Bayes- féle esetben
(273). 3. Konfidenciaintervallumok konstruálása az általános
esetben. Aszimptotikus konfidenciaintervallumok.(274). 4. Pontos
konfiden ciaintervallum szerkesztése adott statisztika
alapjáÍi:'(277). 5. Más módszerek a konfidenciaintervallumok
szerkesztésére (281). 6. A többdimenziós eset (283).
32. Pontos tapasztalati eloszlások és konfidenciaintervallumok
normális elosz- láscsalád esetén
..................................................... ·, . 284 1.
Az x, 85 statisztikák pontos eloszlása (284); 2. Pontos
konfidenciainter vallum szerkesztése a normális eloszlás
paraméterére (287).
3. Fejezet Hipotézisvizsgálat
1. Véges sok egyszer hipotézis vizsgálata ................... ;
....... ,..... 291 1. A feladat megfogalmazása. A statisztikai
próba fogalma. Legersebb pró- bák (291). 2. A Bayes-féle
megközelítés (294). 3. A minimax i:negköleítési mód (299). 4.
Legersebb próbák (300). ·
2. Két egyszer hipotézis közötti döntés
............................... , . . . 302 3. A próbák
kiszámolásának kétfajta aszimptotikus megközelítése. Számszer
összehasonlítások ........ , ................... , . . . . . . . .
. . . . . . . . . . . . . . . . 306 L Elzetes megjegyzések (306).
2. Rögzített hipotézisek (307). 3. Köze li hipotézisek (312). 4.
Az aszimptotikus megközelítések összehasonlítása. Számpélda (315).
5. A l.e.p. kapcsolata a m.l.b. aszimptotikus hatásosságá val
(320).
4. Összetett hipotézisek vizsgálata. Az optimális próbák
osztályai............ 321 1. A feladat megfogalmazása és az
alapfogalmak (321). 2. Egyenletesen legersebb próbák (324). 3.
Bayes-féle próbák (325). 4. Minimax próbák (326).
5. Egyenletesen legersebb próbák. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 326 1. Egyoldali
hipotézisek. Monoton likelihood-hányados család (326). 2. Két
oldali nullhipotézis. Exponenciális eloszláscsalád (330). 3. A
vizsgált feladat egy másféle megközelítése (335). 4. A Bayes-féle
megközelítés és a legke vésbé kedvez apriori eloszlás használata a
l.e.p. és az e.l.e.p. konstrukció jában (336).
6. Torzítatlan becslések . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339 1.
Definíció. Torzítatlan e.l.e.p. (339). 2. Kétoldali
ellenhipotézisek. Expo nenciális eloszláscsalád (341).
7. Invariáns
próbák...................................................... 344 8.
Kapcsolat a konfidenciatartományokkal . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . 349
1. A statisztikai próbák és a konfidenciatartományokkapcsolata. Az
opti-
www.interkonyv.hu
11
9. Az összetett hipotézisek Bayes-féle és minimax
megközelítése............ 359
1. Bayes-féle és minimax próbák (359). 2. Minimax próba a normális
elosz- lás a paraméterére (363). 3. Elfajuló legkevésbé kedvez
eloszlások egyol- dali hipotézisek esetén (371).
10. A likelihood-hányados-próba.. .. .. . . . .. . .. . . . . .. ..
.. . . . . .. . . .. . . . .. .. . . 372
11. Szekvenciális analízis . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
1. Bevezet megjegyzések (376). 2. Bayes-féle szekvenciális próba
(377). 3. A kísérletek számának átlagértékét minimalizáló
szekvenciális próba (381). 4. A legjobb szekvenciális próba
paramétereinek kiszámolása (384).
12. Az összetett hipotézisek vizsgálata az általános esetben.. . .
. . . . . . . . . . . . . . . 387
13. Aszimptotikusan optimális próbák. A likelihood-hányados-próba
mint aszimptotikusan Bayes-féle próba egyszer nullhipotézis és
összetett ellen hipotézis esetén . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . 397
1. A l.h.p. és a Bayes-próba aszimptotikus tulajdonságai (397). 2.
A l.h.p. aszimptotikus Bayes-tulajdonsága (399). 3. l.h.p.
aszimptotikus torzítatlan- sága (403).
14. Közeli hipotézisek ellenrzésére szólgáló aszimptotikusan
optimális próbák 404
1. A feladat megfogalmazása és definíciók (404). 2. Az alapvet
állítások (408).
15. A likelihood-hányados-próba, az optimalitás aszimptotikus
jellemzjébl fa- kadó aszimptotikus optimalitása
........................... :.• . . . . . . . . . . . 413 1. A
e.1.e.p. közeli hipotézisek esetén egyoldalú ellenhipotézisekre,
többdi menziós paraméter esetén (413). 2. A e.1.e.p. kétoldali
ellenhipotézis esetén (414). 3. Aszimptotikusan minimax próba
közeli hipotézisekre, többdimen- ziós paraméter esetén (416). 4.
Aszimptotikusan minimax próba annak ellen rzésére, hogy a minta
egy adott paraméteres részcsaládhoz tartozik (419).
16. A :i próba. Hipotézisvizsgálat csoportosított adatok
alapján.............. 425
l. A x2 próba. Az aszimptotikus optimalitása (425). 2. A x2 próba
alkalma- zása. Hipotézisvizsgálat csoportosított adatok esetén
(429).
17. Hipotézisvizsgálat: a minta adott paraméteres eloszláscsaládba
tartozik-e. . . 433
1. Az { X ~Bli(a)} hipotézis vizsgálata. Az adatok csoportosítása
(433). 2. Az általános eset (437).
18. A statisztikai döntések stabilitása . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . 441
1. Szimmetrikus eloszlások várható értékének becslése (442). 2. A
Student- féle statisztika és az S5 (443). 3. A
likelihood-hányados-próba (444).
I. Függelék. Glivenko-Cantelli típusú
tételek.................................. 447
II. Függelék. A tapasztalati folyamatokra vonatkozó funkcionális
határelosztás tétel 450
III. Függelék. A feltételes várható érték tulajdonságai . . . . . .
. . . . . . . . . . . . . . . . . . . . 456
IV. Függelék. A Neyman-Fisher-féle faktorizációs
tétel........................ 459
www.interkonyv.hu
12 TARTALOMJEGYZÉK
V. Függelék. A nagyszámok ers törvénye és a centrális határelosztás
tétel. Egyen- letes változatok .................................. ,
. . . . . . . . . . . . . . . . . . . . 463
VI. Függelék. Néhány, a paramétertl függ integrálokkalkapcsolatos
állítás.... 468
VII. Függelék. A likelihood-hányados eloszlására vonatkozó
egyenltlenségek a többdimenziós
esetben................................................. 475
I. Táblázat. A <I>o, 1 normális eloszlás . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
481
II. Táblázat. A normális eloszlás kvantilisei . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . 482
III. Táblázat. A Hk x2-eloszlás . .. . . . .. .. . .. .. .. .. ..
.. . . . .. . .. . . .. .. . .. . . . . . . 483
IV. Táblázat. A Tk Student-eloszlás. . .. .. .. .. . .. . .. .. ..
. . . .. .. .. .. . .. . . . . .. . . 487
Bibliográfiai
megjegyzések..................................................
491
Tárgymutató ....................................... ; . . . . . . .
. . . . . . . . . . . . . . . . 505
A könyv alapjául azok a matematikai statisztikai eladások
szolgálnak, ame lyeket a szerz sok éven át tartott a
novoszibirszki egyetem matematikai fakultá sán. A lehetleg minél
jobban felépített, érthet, ugyanakkor a tudományág szint jének
megfelel variánsok keresése közben. az id folyamán az eladás anyaga
nem egyszer megváltozott. Különböz variánsokat próbáltunk ki,
kezdve az alap feladatok (becslések, próbák és tulajdonságaik)
fként receptúraszer kifejtésével és végezve az általános
játékelméleti jelleg felépítéssel, amelyben a becslésel mélet és a
hipotézis vizsgálat mint egy egységes megközelítés speciális esetei
je lennek meg. Az idbeli korlátok (egyetlen szemeszter) nem tették
lehetvé, hogy egyesítsük ezt a két, egymást kiegészít változatot,
amelyek mindegyike külön külön nyilvánvaló hiányosságokkal
rendelkezik. Az els esetben a sok konkrét adat zavarta az általános
felépítésmódot. A második változatból viszont hiányoz tak az
egyszer, konkrét eredmények, és úgy tnt, hogy túlságosan megterhel
a sok új, bonyolult, nehezen elsajátítható fogalom. Szemlátomást a
leginkább alkalmazhatónak az a variáns látszott, amelyben a
becsléselmélet és a hipotézis vizsgálat ismertetése után egyenes út
vezet az optimális eljárások megkeresésé hez
A könyv alapanyaga a különböz idpontokban tartott kurzusok·
anyagából áll össze - kibvítve azokat olyan részekkel, amelyek
jelenlétét maga a felépí tés logikája diktálta. A f cél a téma
modern eredményeinek tárgyalása volt, párosítva ezt a maximálisan
lehetséges érthetséggel és a logikus matematikai
felépítéssel.
A könyv tartalma 3 fejezetre és a Függelékre oszlik.
Az 1. fejezetben a matematikai statisztika alapjait képez empirikus
elosz lások tulajdonságait (fként aszimptotikus tulajdonsága,it)
vizsgáljuk.
www.interkonyv.hu
14 ELSZÓ
A 2., illetve 3. fejezetben a becsléselmélet és a hipotézis
vizsgálat elmélete szerepel. Ezen fejezetek mindegyikének els része
a kitzött feladatok megoldá saihoz és az optimális eljárások
megtalálásához vezet lehetséges utak leírását tartalmazza. A
második részek az aszimptotikusan optimális eljárások felépítését
tartalmazzák.
A könyv ezen felül 7 Függeléket tartalmaz. Ezek az alapszöveg azon
állí tásaival kapcsolatosak, amelyek bizonyításai vagy a
jellegüknél fogva, vagy a nehézségük miatt kívül esnek a felépítés
keretein.
Ezenkívül bibliografikus megjegyzések is szerepelnek a könyvben -
egyál talán nem törekedve a teljességre -; ezek lehetvé teszik,
hogy követni lehes sen a matematikai statisztika alapvet
irányvonalainak keletkezését és fejldését. Ennek során mindenütt,
ahol ez lehetséges volt, inkább a monográfiákra (mint könnyebben
elérhet irodalomra) hivatkoztunk, és nem az eredeti cikkekre.
Jelenleg elég sok matematikai statisztika könyv létezik. A következ
négyet választjuk ki közülük - ezekben nagy mennyiség, a tudomány
jelenlegi állá sát tükröz, anyag szerepel - ezek a könyvek G.
Cramer 37, E. Lehman 40, S. Zaks 30 és I. A. Ibragimov és R. Z.
Hasminszkij 31. A jelen könyv felé pítésére közülük legnagyobb
hatással a 31 monográfia (e könyv némely ötletét felhasználtuk a 2.
fejezet 23-35, 27-29 pontjaiban) és a 40 monográfia volt (a 3.
fejezet 5-8 pontjainak felépítése tartalmilag közel áll a 40
monográfia megfelel részeihez). A többi rész felépítésének
szerkezete nincs szoros összefüggésben az ismert könyvekkel.
Jelen könyv az ismert eredményekkel és eljárásokkal együtt olyan új
téma köröket is tartalmaz, amelyek egyszersítik a tárgyalásmódot;
ezenfelül egy sor metodológiai tökéletesítés és néhány új eredmény,
illetve a monografikus iroda~ lomban elször publikált eredmény is
szerepel benne. ·
Alább megadjuk a könyv metodológiai struktúrájának rövid leírását
(lásd ugyancsak a tartalomjegyzéket és az egyes fejezetek rövid
elszavát).
Az 1. fejezet L és 2. pontjában a minta, az empirikus eloszlás
fogalmát ve zetjük be, itt mondjuk ki a Glivenko-Cantelli tételt.
Ez utóbbit lehet a statisztikai következtetéseket megalapozó
állításnak tekinteni.
A 3. pontban kétfajta típusú statisztikát definiálunk (I és II
típusú statisz tikát), ezek magukban foglalják a gyakorlatilag
érdekes statisztikák túlnyomó többségét. Ezeket a statisztikákat
mint egy (bizonyos feltételeket kielégít) G funkcionálnak a P~
tapasztalati eloszlástól függ G(P~) értékeként definiáljuk. Késbb,
a 7. és 8. pontban ezen statisztikák határeloszlásáról szóló
tételek van nak. Ez megkönnyíti a téma további kifejtését és
szükségtelenné teszi, hogy minden egyes konkrét statisztika
esetében végigkövessük lényegében ugyanazt a gondolatmenetet, amely
akkor nem tartozik a dolog lényegéhez.
Az 5. pontban az eloszlások és a momentumaik konvergenciájáról
szóló se gédtételeket gyjtöttük össze. (Ezeket a könyvben
„folytonossági" tételeknek ne vezzük.) Ez szintén megkönnyíti a
késbbi tárgyalásmódot.
www.interkonyv.hu
15
A 6. pontban (els olvasáskor nem feltétlenül szükséges átnézni)
kimond juk, hogy az F7~(t) tapasztalati eloszlásfüggvény nem más,
mint egy feltételes Poisson-folyamat, és megfogalmazzuk (az I.
Függelékben szerepel a bizonyítás) a ,/n(F~(t) - F(t)) folyamat
Brown~hídhoz való konvergenciájáról szóló tételt.
A J 0. pontban vezetjü,k be a simított tapasztalati eloszlások
fogalmát, ame lyek lehetvé teszik, hogy ne csak magukat az
eloszlásokat, hanem a srség függvényüket is közelíteni
tudjuk.
A 2. Fejezet 3. pontjában, amely az ismeretlen paraméterek
becslésérl szól, a becslések gyártásának egyfajta egységes
eljárását mutatjuk be, ezt behelyette sítéses módszernek nevezzük.
Ez abból áll, hogy a minta P eloszlásától függ e= G(P) paraméter
becslését e* = G(P~) alakban keressük, ahol P~ az empiri kus
eloszlás. Mindegyik „ésszer" becslés, amelyet a gyakorlatban
használunk, behelyettesítéses becslés. A G funkcionál alkalmas
megválasztásával érhetjük el a becslés optimalitását; Ha a e* =
G(P~) statisztika I vagy II típusú statisztika, akkor az 1. Fejezet
eredményei alapján azonnal állíthatjuk a becslés konziszten ciáját
és aszimptotikus normalitását. A 4. és 5. pontban ezt az eljárást
olyan becs lésekkel illusztráljuk, amelyeket a momentum módszer és
a legkisebb távolság módszerének segítségével kapunk. Ugyanebbl a
nézpontból lehetne szemlélni a maximum likelihood becslést is (6.
pont), azonban ennek közvetlen vizsgála tával lehetvé válik, hogy
- késbbiekben szükséges -'- mélyebb eredményeket kapjunk.
A 2. Fejezetben lényegében két fajta módon hasonlítjuk össze a
becslése ket: négyzetes középben (az Ee(B* - e)2
összehasonlításával) és aszimptotiku san (az aszimptotikusan
normális becslések osztályán belül összehasonlítjuk a ,/n(B* - B)
mennyiség határeloszlásának szórását). Parametrikus esetben ennek
alapján lehetvé válik, hogy kiválasszuk az optimális becslések 3
féle osztályát: a b rögzített torzítással rendelkez becslések Kb
osztályán belül hatásos becs léseket, a Bayes-féle és a minimax
becsléseket. Ugyanezen alapelvek szerint lehet meghatározni az
aszin-iptotikusan optimális becslések osztályait. A hatá sös
becslések elkészítésekor a követhet tradicionális módszereket lehet
hasz nálni: közülük az elsnek minségi jellege van és az
elégségesség elvével van összefüggésben (12-14. pont) a második a
Crarner-Rao egyenltlenségbl adódó mennyiségi viszonyokon alapul
(16. pont), a harmadik az invarianciák szemügy revételével
kapcsolatos (17., 19. pont), amely lehetvé teszi, hogy leszkítsük a
figyelembe vett becslések osztályát. Az aszimptotikusan optimális
becslések megkeresésének, és a likelihood függvény aszimptotikus
tulajdonságai vizsgála tának szenteltük a 20-30. pontokat. A 20.
pont tartalmazza az integrál típusú Cramer-Rao-egyenltlenséget,
amely lehetvé teszi, hogy például egyszer fele. tételeket kapjunk
arra, hogy mikor aszimptotikusan Bayes-féle vagy minimax egy
becslés, és hogy megalapozza a becslések alkalmas Ko részhalmazának
ki választását; elegend erre korlátozódni, ha aszimptotikusan
hatásos becsléseket keresünk. Ez lehetvé teszi, hogy a maximum
likelihood becslés aszimptotikus tulajdonságainak tanulmányozása
útján (25. pont) a szóban forgó becslésekrl
www.interkonyv.hu
azonnal állíthassuk, hogy aszimptotikusan Bayes-félék és minimax
becslések,
és hogy aszimptotikusan hatásosak a Ko osz~ályon belül. A 21-24.
pontok a segédállításokat tartalmazzák. A paraméterek
intervallumbecslését a 31. és 32. pontban, illetve a 3. Fejezet 8.
pontjában vizsgáljuk.
A 3. Fejezetet a hipotézisvizsgálatnak szenteltük. Az 1. és 2.
pontokban a véges sok egyszer hipotézis esetét tekintjük.
Kiválasztjuk (a becsléselmélethez hasonlóan) az optimális próbák
három típusát - részosztályokon belül legersebb, Bayes-féle,
minimax. Összefüggéseket fedezünk fel ezek között a próbák között,
és megtaláljuk az általános alakjukat. Eközben a vizsgálat alapjául
a Bayes-féle elv szolgál (és nem a Neyman-Pearson-féle lemma),
amely - nézetünk szerint - leegyszersíti és világosabbá teszi a
tárgyalásmódot. A 3. pontban két egy szer hipotézis közötti döntés
alapjául szolgáló próbák aszimptotikus megköze lítése, illetve
ezek összehasonlítása szerepel. A 4; pontban a két összetett hi
potézis közötti döntés általános feladatát vizsgáljuk, és
definiáljuk az optimális próbák különféle osztályait (egyenletesen
legersebb, Bayes-féle, minimax). Az 5. pont foglalkozik az
egyenletesen legjobb próbák megkeresésével azokban az esetekben,
amikor ez egyáltalán lehetséges. A 6., 7. pontban ugyanezt a fela
datot oldjuk meg, azonban próbáknak a torzítatlanság és az
invariancia alapján leszkített osztályán belül. Eközben a vizsgálat
alapjául, ugyanúgy, mint az 1. és 2. pontban, a Bayes-féle elv
szolgál. A kapott eredmények segítségével a 8. pontban
megkonstruáljuk a legpontosabb konfidenciahalmazokat. A 9. pontban
a Bayes-féle és a minimax próbákat vizsgáljuk. A 10. és 13. pontok
likelihood hányados próbával foglalkoznak. Ez sok esetben
egyenletesen legjobb és telje sen általános feltételek mellett
aszimptotikusan Bayes-féle. A 15-17. pontokban folytatjuk a
likelihood hányados próba aszimptotikus optimalizálásának vizsgá
latát. A 11. pontban a szekvenciális analízis feladatkörében vett
optimalizálását mondjuk ki. A 14., 15. pont foglalkozik azzal, hogy
közeli hipotézisek közötti döntés feladatára keressen
aszimptotikusan optimális próbákat, és megadja ezek egyszer,
világos alakját az alapvet statisztikai feladatok esetében.
Az. igazi különlegessége ennek a könyvnek abban rejlik, hogy ebben
csak olyan statisztikai feladatok szerepelnek, amelyek egyetlen
minta felhasználásá val kapcsolatosak; a két vagy több mintával
kapcsolatos feladatok, valamint a statisztikai feladatok általános
játékelméleti megközelítése egy külön könyvben szerepelnek, amely
egyenes folytatása és kiegészítése a jelen könyvnek.
A könyvnek szerteágazó a célkitzése, Természetesen teljes
terjedelmében közelebb áll a matematikai statisztikával foglalkozó
specialisták kandidátusi mi nimumához, mint az égyetemi hallgatók
tankönyvéhez. Ugyanakkor igyekeztünk különféle jelzések
segítségével megkönnyíteni az els átolvasást is, ezek a hall gató
számára is hozzáférhetvé teszik a könyvet. A kiemelkeden nehéz és a
tar talmában nagyot ugró pontokat csillaggal jelöltük, ezeket els
olvasáskor át kell ugrani, mint · azokat a szövegeket is, amelyek
kisbetvel vannak szedve. Ezen felül a technikailag jóval
bonyolultabb - a többdimenziós paraméterhez kapcsa-
www.interkonyv.hu
17
lódó - esetek tárgyalását majdnem mindig külön részben és pontban
választot tunk szét; ezeket szintén el lehet hagyni.
A különböz egyetemek oktatói, akik már legalábbis részben ismersek
a témakörrel, kiválaszthatnak a könyvbl olyan pontokat (igen sok
variáns lehet séges), amelyek felhasználásával (nem szükségképpen
teljes felhasználásával) összeállíthatják egy matematikai
statisztikai kurzus anyagát. Például egy válto zat: az 1. Fejezet
1.,3.,5. pontja; a 2. Fejezet 2-4., 6-12., 14., 16. (21. 23-25.),
31., 32. pontja, a 3. Fejezet 1., 2., 4., 5., 12. (13., 16.)
pontja. A zárójelbe tett pontok az aszimptotikusan legjobb
eljárásokkal foglalkoznak. Ezeket a hallgatók felkészültségétl
függen vagy maximálisan könnyebbé kell tenni, vagy esetleg teljesen
elhagyni.
A könyv tanulmányozása feltételezi a valószínségszámítás
elméletének is meretét olyan mélységig, ahogy A. A. Borovkov
tankönyve [11] tartalmazza. Az erre a könyvre való hivatkozások,
ellentétben a többi hivatkozással, olyan he lyeken jelennek meg,
amelyekrl feltesszük, hogy az olvasó ismeri ket, és ily módon
inkább csak emlékeztetül szolgál.
Az egyes pontok számozása fejezeteken belül önálló, ugyancsak az
egyes tételek (lemmák és példák) számozása az egyes pontokon belül.
A kényelmesebb olvasás kedvéért különböz módon hivatkozunk a
tételekre, lemmákra, példákra, képletekre stb. attól függen, hogy
milyen messze találhatók az olvasott helytl. Ha hivatkozni kell az
1. Tételre vagy a 12 képletre az olvasott ponton belül, arra a
hivatkozás a következ alakot ölti: 1. Tétel, 12 képlet. Ha az 1.
Tételre vagy a 12 képletre a Fejezet valamely korábbi ·pontjából
kell hivatkozni, akkor ilyen alakú a hivatkozás: 13.1. Tétel, 13.12
képlet. Végezetül, ha a hivatkozás egy másik fejezetre vonatkozik,
akkor a fejezet számának mutatója is megjelenik (az els szám).
Például, a 2.13.1. Tétel a 2. fejezet 13. pontjának 1. tételét
jelzi, a 2.13.12. képlet a 2. fejezet 13. pontjának 12 képletét.
Ugyanez vonatkozik az egyes pontok jelzésére. A 13. pontra való
hivatkozás a szóban forgó fejezet 13. pontjára vonatkozik, a 2.13.
pontra való hivatkozás pedig a 2. fejezet 13. pontját jelzi.
A D jel a bizonyítások végét jelzi.
A könnyebbség kedvéért a könyv végén tárgymutató és jelölésjegyzék
van.
Ezen könyv megírása igen nehéz, sok lépésbl álló munka volt.
Az eredeti eladásjegyzet nyomdára való elkészítésében és a
hiányosságok megszüntetésében jelents segítséget nyújtott nekem I.
Sz. Boriszov. A kézirat második változatát kérésemre K. A. Borovkov
olvasta át, aki a hasznos tanácsok és az általa észrevett hibák
hosszú listáját adta át nekem. Újabb kritika után ku tatva A. I.
Szahanyenkohoz fordultam azzal a kéréssel, hogy ismerkedjék meg a
kézirattal. szintén hosszú listáját adta a felépítés megjobbítását
célzó megjegy zéseinek és javaslatainak, amelyek közül sokat fel
is használtam. A leglényege sebb változtatás a 2. Fejezet 16.,
21., 23., 29. pontjaiban, a 3. Fejezet 13-15.
www.interkonyv.hu
18 ELSZÓ
pontjaiban, a II. és V. Függelékben lév bizonyításokat érte (lásd a
bibliográfiai megjegyzéseket).
Igen sok értékes, a könyv megjobbítására szolgáló megjegyzést
kaptam D. M. Csibiszovtól. A kéziratot V. V. Jurinszkij és A. A.
Novikov nézte át, és egy sor hasznos megjegyzést tettek. Mindegyik
megnevezett kollégámnak és azoknak is, akik így vagy úgy segítettek
nekem a könyvvel kapcsolatos mun kámban, itt szeretném kifejezni
mély és szívbl jöv hálámat és köszönetemet a munkájukért és a könyv
megírásában való együttmködésükért.
1982. szeptember
BEVEZETÉS
Ez a könyv a matematika egyik ága alapjainak ismertetésével
foglalkozik, ezt az ágat matematikai statisztikának nevezik. Ez
utóbbit a rövidség· kedvéért gyakorta egyszeren statisztikának
nevezik. Ugyanakkor ügyelni kell arra, hogy ez a rövidítés csak
akkor megengedett, ha félreértéstl szó sem lehet, ugyanis maga a
statisztika szó rendszerint egy kicsit más fogalmat takar.
Mi is az a matematikai statisztika? Sokféle leíró „meghatározását"
lehetne megadni, melyek többé-kevésbé fednék a matematika ezen
ágának tartalmát. Az egyik legegyszerbb és legdurvább az általános
sokaságból történ mintavétel fogalmával, és a valószínségszámítási
kurzusok elején gyakran tárgyalt hiper geometrikus eloszlást
definiáló feladattal kapcsolatos összehasonlításon alapul. Ott a
véletlenül választott elemek összetételének eloszlásárvizsgálják,
ismerve a sokaság összetételét. Ez a tipikus valószínségszámítási
feladat. Ugyanakkor gyakran meg kell oldani a fordított feladatot
is, amikor isme~t a minta össze tétele, és ebbl kell meghatározni,
hogy milyen maga a sokaság. Az ilyenfajta fordított feladatok
alkotják, képletesen szólva, a matematikai statisztika
tárgyát.
Kicsit pontosítva ezt az összehasonlítást, azt mondhatjuk: a
valószínségszá mításban kiderítjük - ismerve bizonyos jelenségek
viselkedését -, hogyan visel kednek (hogyan oszlanak meg) egy és
más általunk tanulmányozott, a kísérle tekben megfigyelhet
jellemzk. A matematikai statisztikában éppen fordítva - a kísérleti
adatok a kiinduló pont (rendszerint ezek valószínségi változók meg
figyelései), é~ ebbl kell a vizsgált jelenség természetére
vonatkozó ilyen-olyan állít~sökat és döntéseket levezetni. Ily
módon itt az emberi tevékenység egyik ~legfontosabb válfajába
ütközünk - a megismerés folyamatába. Az az állítás, mi szerint az
„igazság kritériuma a gyakorlat" a legközvetlenebb kapcsolatban van
a matematikai statisztikával, mivel éppen ez a tudomány
tanulmányozza azokat az eljárásokat (a pontos matematikai modellek
keretein belül), amelyek lehetvé
www.interkonyv.hu
Eközben feltétlenül ki kell emelni, hogy - ugyanúgy, mint a
valószínség számítás esetében - nem azok a kísérletek érdekelnek
minket, amelyek alapján a vizsgált jelenségekre vonatkozóan
egyértelm, determinisztikus következtetések re juthatunk, hanem
azok a kísérletek, amelyek eredményei véletlen események. A
tudomány fejldésével az ilyenfajta feladatok szerepe egyre nagyobb
lesz, mi vel a kísérletek pontosságának növelésével együtt egyre
nehezebb lesz elkerülni a mérési és számítási lehetségeink
korlátaiból és nehézségeibl származó „vé letlen tényezket".
A matematikai statisztika a valószínségszámítás része abban az
értelemben, hogy minden egyes matematikai statisztika feladat
lényegében (néha teljesen sa játságos) valószínségszámítási
feladat. Ugyanakkor maga a matematikai statisz tika önálló helyet
foglal el a tudományok rendszerében. Amatematikai statiszti kát
úgy lehet tekinteni, mint azt a tudományágat, melynek tárgya az
ember (és nemcsak az ember) olyan feltételek melletti indukciós
viselkedése, amikor a sa ját nem determinisztikus tapasztalatai
alapján kényszerül a számára legkevesebb veszteséggel járó döntést
meghozni.*
A matematikai statisztikát a statisztikus döntések elméletének is
nevezik, mivel úgy is lehet jellemezni, mint a statisztikus
(kísérleti) adatokon alapuló op timális döntések (e két utóbbi
szót meg kell magyarázni) tudománya. A.feladatok pontos
megfogalmazását késbb, a könyv förészében fogjuk megadni. Most csak
an-a korlátozódunk, hogy bemutassuk a statisztikai feladatok három
egyszer és tipikus példáját.
1. példa. Sok termék esetében a minségét jellemz alapvet
paraméterek egyi ke az élettartama. Azonban egy termék élettartama
(mondjuk egy rádiócsé) rendszerint véletlenszer, elre meghatározni
nem lehetséges. A tapasztalat azt mutatja, hogy ha a gyártási
folyamat az ismert értelemben homogén, akkor az 1., 2., ... termék
~1, 6, ... élettartamát független, azonos eloszlású valószínsé gi
változóknak kell tekinteni. A minket érdekl paramétert, mely
meghatározza az élettartamot, természetes módon azonosíthatjuk a ()
= E~i értékkel. Az egyik standard feladat abban áll, hogy
tisztázzuk, vajon mivel egyenl (). Ahhoz, hogy meghatározzuk ezt az
értéket, vegyünk n készterméket és ellenrizzük ket. Le gyenek x 1,
x2, ... , Xn ezen ellenrzött termékek élettartamaí. Tudjuk,
hogy
1 n -I:~i--o, n m.m.
i=l . . 1 n
ha n--+ oo. Ezért természetes azt várni, hogy az x= - L Xi érték
elég nagy n n i=l
* Részletesebben errl lásd [56].
21
érték esetén közel lesz O-hoz, és ez lehetvé teszi, hogy valamilyen
mértékben
feleljünk a feltett kérdésre. Eközben világos, hogy mi érdekeltek
vagyunk abban,
hogy a szükséges megfigyelések n száma a lehetség szerinti
legkisebb legyen,
ugyanakkor a e érték becslése pedig a lehetség szerint minél
pontosabb legyen
(a e paraméter túlságos .növelése, illetve csökkentése anyagi
veszteségekhez ve
zet).
2. példa. Egy radar a t1, t2, ... , tn idpillanatokban
végigpásztázza a légtér
egy adott részét abból a célból, hogy bizonyos tárgyak jelenlétét
felfedje. Jelölje
x1, x2, ... , Xn a mszer által felfogott, visszavert jel értékét.
Ha az adott tér
részben nincsen számunkra érdekes objektum, akkor az Xi é1tékeket
tekinthetjük
független valószínségi változóknak, amelyek eloszlása ugyanolyan,
mint egy ~
valószínségi változóé, amelynek viselkedése különféle zavaró
tényezk termé
szetétl függ. Ha a megfigyelési periódus folyamán valamilyen
objektum találha
tó a látótérben, akkor az Xi értékek a zavarok értékeivel együtt
egy a „hasznos"
jelet is fognak tartalmazni, és így Xi eloszlása ugyanolyan lesz,
mint ~+a el
oszlása. Ily módon, ha az els esetben az Xi eloszlásfüggvénye F(x),
akkor a
második esetben az eloszlásfüggvényük F(x - a) alakú les.z. Az x1,
x2, ... , Xn
minta alapján kell dönteni arról, hogy a két eset közül éppen
melyik a helytálló,
azaz létezik-e az adott helyen számunkra érdekes objektum, vagy
sem.
Ebben a feladatban lehetségesnek látszik, hogy megadjunk egy
bizonyos ér
telemben „optimális döntési szabályt", amely minimális hibával
oldja meg a ki
tzött feladatot. A megfogalmazott feladatot a következ módon lehet
megnehe
zíteni. Az objektum elször nincs jelen, majd a megfigyelés
kezdetétl számított
ismeretlen e idpontban megjelenik. A lehet legpontosabban meg kell
határozni
az objektum megjelenésének e idpontját. Ez az úgynevezett
„riasztási feladat",
amelynek egész sor, az alkalmazások szempontjából fontos
interpretációja van.
3. példa. Valamilyen kísérletet elszr az „A" feltételek mellett
elvégeznek rq
szer, majd a „B" feltételek mellett n2-ször. Jelölje x1, ... , Xn1
és Yl, ... , Yn2 az
A és B feltételek mellett kapott kísérleti eredményeket. Kérdés:
vajon az ered
mények alapján fel lehet-e ismerni a kísérleti körülmények
megváltozását. Más
szavakkal, ha PA jelöli az Xi, 1 ~ i ~ n1 és PB az Yi, 1 ~ i ~ n2
eloszlását, akkor a kérdés lényege az, hogy teljesül.:.e a PA= PB
összefüggés, vagy nem.
Ha például azt kell megállapítani, hogy valamilyen preparátum
befolyásolja
e a fejldést, mondjuk növények vagy állatok fejldését, akkor
párhuzamosan két
sorozat kísérletet végeznek el (preparátum nélkül vagy azzal), és
ezek eredmé
nyeit kell tudni összehasonlítani.
Gyakran fellépnek ennél bonyolultabb feladatok is, amikor az ennek
megfe
lel kérdést sok, különböz feltételek mellett végzett
megfigyeléssorozat esetén
kell feltenni. Ha a kísérletek eredménye függ a feltételektl, akkor
általában meg
kell vizsgálni a függség jellemzit is (az úgynevezett regressziós
feladat).
www.interkonyv.hu
22 BEVEZETES
A 3. példa és az említett bonyolultabb problémák is a két vagy
többmin tás statisztikai feladatok osztályába tartoznak. Ezeket a
feladatokat egy külön könyvben fogjuk vizsgálni (lásd az
Elszót).
A bonyolultsági fok és a tartalmuk szerint különböz tipikus
statisztikai fela datok listáját tovább lehetne folytatni. Azonban
mindegyikükben közös az alábbi két körülmény:
1. Semmilyen probléma sem lenne elttünk, ha a megfigyelések
eredménye inek eloszlása, amelyek a feladatokban szerepelnek,
ismertek lennének.
2. Mindegyik feladatban a kísérletek eredményei alapján kell a
megfigyelé sek eloszlásaira vonatkozó valamiféle döntést hozni
(innen származik a korábban már említett „Statisztikus döntések
elmélete").
Ezzel a két megjegyzéssel összefüggésben minden további és
speciálisan a példaként említett feladatokban is alapvet jelentsége
van a következ ténynek. A~ valószínségi változó x1, ... , Xn
megfigyelései alapján nagy n értékek ese tén tetszleges
pontossággal helyre lehet állítani a szóban forgó valószínííségi
változó ismeretlen P eloszlását. Ugyanez az állítás igaz az
ismeretlen eloszlás tetszleges () = B(P) funkcionáljára.
Ez a tény a matematikai statisztika alapköve. Errl, illetve még
pontosabb állításokról szól az 1. Fejezet.
www.interkonyv.hu
tulajdonságai
Az 1-4. pontokban bevezetjük a minta és a tapasztalati eloszlás
fogalmát és
megvizsgáljuk a legegyszerbb, fként aszimptotikus tulajdonságaikat,
amelyek
a matematikai statisztika alapjait alkotják.
Az 5. pontban az úgynevezett folytonossági tételek szerepelnek
(valószín
ségi változók sorozatától függ eloszlásfüggvények konvergenciájáról
szólnak).
Ezeket az egész könyvben használni fogjuk.
A 6-10. pontban a tapasztalati eloszlás pontosabb aszimptotikus
tulajdonsá
gairól van szó, tanulmányozzuk a statisztikák alapvet típusainak
határeloszlását.
1. A minta fogalma
A legegyszerbb esetekben ezek egy~ valószínségi változó kísérleti
(a tapasz
talat eredményeként kapott) értékei. Már említettük, hogy a
statisztikai felada
tokban a valószínségi változó P eloszlása esetleg csak részben, de
ismeretlen.
Pontosabban, legyen G egy, a ~ valószínségi változóval kapcsolatos
kí
sérlet. Formálisan a ~ valószínségi változóval végzett kísérlethez
meg kellene
adnunk a matematikai modellt, amelyben szerepel a (fil!, ~ ?f, P)
valószínségi
mez, és meg kellene adnunk rajta egy mérhet függvényt, amelyet ~
valószí
nségi változónak nevezünk (lásd (11]). A (fil!, ~?f,P) mezrl az
általánosság
korlátozása nélkül feltehetjük, hogy maga a „mintatér" (lásd (11
]), azaz a fiJ! tér a
~(x) = x értékeinek tere. Ebben az esetben a P mértéket a~
eloszlásnak nevezhet
jük. Ha ~ valós érték valószínségi változó, akkor fi! az R valós
számegyenes,
ha ~ vektor, akkor fi! az Rm, m > 1. A továbbiakban rendszerint
csak ezt a két
esetet fogjuk figyelembe venni, azaz a fi! téren vagy az R-t
(egydimenziós eset),
www.interkonyv.hu
24 A minta 1.1
vagy az Rm-t, m > 1 (többdimenziós eset) fogjuk érteni. A
~&l"-algebrának a Borel-halmazok f!e* -algebráját fogjuk
választani.*
Ha elzetesen ismert, hogy a P mérték a ~ tér egy B E ~ 8l"
részhalmazára koncentrálódik, akkor esetleg kényelmesebb ~ -nak a
B-t tekinteni, és ~ &l"-nek az ~-algebra B-re történ
megszorítását.
Tekintsük a G kísérlet n független ismétlését (lásd [11], 38.
oldal), és jelölje x1, ... , Xn a kapott megfigyelések összességét.
Az
Xn=(x1, ... ,xn)
vektort a P eloszlású sokaságból vett n nagyságú mintának nevezzük.
Néha hasz náljuk ezen szakkifejezés rövidebb illetve teljesebb
változatait is: P eloszlásból vett minta vagy a P eloszlású
általános sokaságból vett egyszer minta.
Szimbolikusan az „Xn a P eloszlásból vett minta" összefüggést a ~
jellel fogjuk jelölni az alábbi módon:
(1)
Ezt a fajta jelölést fogjuk használni más valószínségi változókra
is. Például a
(2)
összefüggés azt fogja jelenteni, hogy ~ eloszlása P. A ~ szimbólum
ilyen hasz nálata összefér az (1) jelöléssel, mivel ez utóbbi
tetszleges n esetére definiált, speciálisan az n = 1 esetre
is.
Ha~ és rJ két (általában különböz tereken definiált) valószínségi
változó, amelyek eloszlása megegyezik, akkor ezt a tényt így fogjuk
jelölni ~ = '17, így
d ha Xn és Yn két, azonos nagyságú minta a P eloszlásból, akkor
írhatjuk, hogy Xn=Yn.
d
Az (1), (2) jobb oldalán a P eloszlás helyett néha a P-nek megfelel
elosz lásfüggvény állhat. Így, ha F(x)=P((-oo,x)), akkor az
Xn~F
Magával az „általános sokaságból vett minta" fogalmával a
legegyszerbb valószínségszámítási modellek vizsgálatakor is
találkozunk, annak kapcsán, amikor a valószínség klasszikus
meghatározása során egy urnából golyókat ve szünk ki (lásd [11],
1. fejezet 2. pont). Meg kell jegyezni, a minta fent bevezetett
fogalma teljes megegyezésben van ezzel a korábban bevezetett
fogalommal, st lényegében egybeesik vele. Ha x1 (vagy a ~
valószínségi változó) csak az a1,
* A könyv számos része érvényben marad abban az általánosabb
szituációban is, ami kor~ tetszleges metrikus tér, 123" 8l" pedig
a Borel halmazainak u-algerája, azaz a ff-beli nyílt halmazok által
generált CT-algebra.
www.interkonyv.hu
1.1 A minta fogalma 25
... , a3 s darab különböz értéket veheti fel, és ezek valószínségi
racionális számok, azaz
s '°' N·-N L., J- ' j=l
akkor az Xn mintát úgy képzelhetjük, mint egy N számú golyót
tartalmazó ur nából vett visszatevéses mintavétel (a [11] 1.
fejezete értelmében) eredményét, ahol az n golyó közül N1 számúra
a1 van ráírva, N2 golyóra a2 és így tovább.
Az X =Xn (az n indexet gyakran elhagyjuk) minta matematikailag nem
más, mint az (x1, ... , Xn) valószínségi változó, amely értékeit a
f!fn = f!f x f!f x x ... x f!f „n-dimenziós" térbl veszi fel, s
melynek eloszlását - tetszleges B = =B1 x B2 x ... x Bn, Bj E 938l"
esetén - a
(3) n
P(X EB) =P(x1 .E B1, ... , Xn E Bn) = IlP(xi E Bi), i=l
egyenlségek definiálják. Más szavakkal a P eloszlás a f!f téren
megegyezik az adott „egydimenziós" eloszlások n-szeres direkt
szorzatával.
A P és más eloszlásokkal kapcsolatos jelöléseket illeten a következ
megál lapodásokhoz fogjuk tartani magunkat- ezeket már részben
használtuk a (3)-ban, és amelyek sehol sem fognak félreértéshez
vezetni.
1. Egy és ugyanazon jelölést (például P) fogjuk használni a (f!f,
93 8l") téren lev eloszlás és az eloszlások direkt szorzatára a
(f!fn, 938f) téren (lásd (3)), ahol 938f a f!fn-beli Borel-halmazok
a-algebrája. Különbség csak a P függvény argumentumában
látható.
2. Annak valószínségét, hogy az X mennyiség értéke egy, a 938f-ben
lév B halmazba esik, néha kényelmesebb lesz P(B)-vel jelölni, néha
pedig P(X E E B)-vel jelölni. Ez egy és ugyanaz annak alapján, hogy
f!fn az X mintatere.
3. Végezetül a P jelet fogjuk használni a valószínség általános
fogalmának jelölésére is (azaz valamilyen más valószínségi
változóval kapcsolatos valószí nségre, anélkül, hogy
konkretizálnánk a valószínségi mezt).
(3) alapján az X mintát a (f!f, 93 8l", P) mintatérbeli elemi
eseménynek is tekinthetjük (lásd [11] 3. Fejezet, 2. pont).
Megjegyezzük az X mintával kap csolatban, hogy ennek a fogalomnak
és elnevezésnek ketts értelmezését is meg engedjük: mint
valószínségi változóét és mint ténylegesen megvalósított kísér
letek során kapott valós adatokból álló vektort. Azt mutatja a
tapasztalat, hogy ez a ketts értelem teljesen elfogadható, és nem
vezet félreértésekhez, ugyanak kor lehetvé teszi, hogy egyidejleg
írhassuk azt is, hogy P(x1 < t) = F(t) és azt, hogy x1 =0,74,
x2=0,83 és így tovább.
Megjegyezzük ugyanakkor azt is, hogy az X minta Xi koordinátáit
„álló" x betkkel jelöljük, meghagyva a „kurzív" x-et a változó
mennyiségek jelölésére. Az (x1, ... , Xn) E f!fn, Xi E f!f vektort
félkövér x = (x1, ... , Xn) betvel fogjuk jelölni.
www.interkonyv.hu
26 A minta 1.2
A matematikai statisztikai feladatokban a minta az alapvet kiinduló
pont. Azonban a gyakorlatban x1, x2, ... , Xn elemek messze nem
függetlenek. A vizs- . gálatainkban nem fogjuk kizárni ezt a
lehetséget sem. Ahhoz, hogy ne kellejen feleslegesen magyarázni az
ilyen esetekben az összefügg megfigyeléseket úgy fogjuk tekinteni,
mintha n = 1 elem mintával lenne dolgunk, a megfigyelések alkotják
a Xi vektor koordinátáit (hiszen a 8r tér tetszleges lehet).
Az elkövetkezend vizsgálatainkban gyakran foglalkoznunk kell az X~
min tával korlátlanul növekv n mintaelemszám mellett. Az ilyen
esetekben kényel mesebb feltenni azt, hogy az X 00 = (x1, x2, ...
) végtelen elem minta adott és X = Xn pedig az els n
koordinátájának összessége. Az X 00 végtelen nagyságú mintán az
(8r=, ~~' P) mintatér egy elemét értjük, ahol 8r00 - az (x1, x2,
...
. . . ) sorozatok tere, a~~ a-algebrát az n {xi E Bi}, Bi E
!B&e, N = 1, 2, .. ; i~N
alakú halmazok generálják; a P eloszlás rendelkezik a (3)
tulajdonsággal. Kol- mogorov tétele ([11]) alapján ilyen eloszlás
mindig létezik. Tehát az .általánosság korlátozása nélkül mindig
feltehetjük, hogy létezik a végtelen elem minta.
Magát az X= végtelen sorozatot (végtelen mintát) az
elméleti-valószínség számítási jelleg gondolatmenetekben elemi
eseménynek tekinthetjük (vö. [11]).
Azokban az esetekben, amikor az Xn mennyiségen az X 00 részvektorát
kell értenünk, azt fogjuk írni, hogy
Xn = [X=]n,
ahol [·ln a nyilvánvalóan definiált vetítés operátor a ;?J:00 térbl
grn_be. Az elzekkel összhangban az
Xoo~P
jelölés azt fogja jelenteni, hogy az X= a P eloszlásból vett
végtelen elem minta.
Ha szükségünk van arra, hogy különösen hangsúlyozzuk azt, hogy a
(;?J:00 , ~~) téren (vagy (8r, !Bff), n < oo esetén) értelmezett
eloszlásról (és nem a ( ;?J?, ~Be) téren értelmezettrl) van szó, a
P00 (Pn) jelöléseket fogjuk használ ni. Ormótlan jelölésekre
vezetett volna az, ha az egész szövegben megtartottuk volna a oo és
az n fels indexeket.
2. A tapasztalati eloszlás (egydimenziós eset)
Legyen adott az X = (x1, ... , Xn) ~p Xi E 8r = R minta. Vegyük az
R szá megyenest a ~ Borel-halmazok a-algebrájával, és az (R, ~)
téren értelmezett P~ diszkrét eloszlást, amely az xi, ... , Xn
pontokra koncentrálódik; az Xi ér ték valószínségét 1 / n-nek
vesszük. Más szavakkal, tetszleges B E ~ esetén definíció
szerint
(1) P~(B) = ~(B), n
www.interkonyv.hu
1.2 A tapasztalati eloszlás (egyct1menz1ós eset) 27
ahol v(B) az X minta azon elemeinek száma, amelyek a B halmazba
esnek. A P~ eloszlást az X minta alapján elkészített (vagy az X
mintának megfelel) tapasztalati eloszlásnak nevezik. A következ
alakban is el lehet ezt állítani. Legyen lx(B) az x pontba
koncentrált eloszlás:
lx(B)={ 1, xEB, 0, x~B.
n
Ekkor nyilvánvalóan v(B) = L 1;i (B), i=l
Világos, hogy tetszleges B Borel halmaz esetén a P7,,(B) mennyiség
mint a minta függvénye valószínségi változó. Ily módon véletlen
halmazfüggvénnyel vagy véletlen eloszlással van dolgunk.
Tegyük fel most, hogy X 00 ~P. Xn = [X00]n és n ---+ oo.
· Ekkor a P~ tapasztalati eloszlások sorozatát kapjuk.
Figyelemreméltó tény, hogy ez a sorozat egyre inkább megközelíti a
megfigyelt valószínségi változó P eloszlását. Ez a tény alapvet
jelentség az elkövetkezend fejtegetéseink szempontjából, mivel azt
mutatja, hogy elegend nagy elemszámú minta esetén tetszleges
pontossággal vissza lehet állítani az ismeretlen P eloszlást.
1. Tétel. Legyen BE Ti és Xn = [X00 ] ~P. Ekkor n- oo esetén
P~(B) --+ P(B). m.m.
Az 1 valószínségi konvergenciát az (R00 , T;00 , P) téren
értelmezett P = P00
eloszlás szerint kell érteni. Az Xn = [X00]n feltevés ahhoz kell,
hogy a P~(B) valószínségi változók egy közös valószínségi mezn
értelmezve legyenek.
Bizonyítás. Térjünk vissza a (2) meghatározáshoz, és jegyezzük meg,
hogy az lx/B) mennyiségek független · ázonos eloszlású valószí~ségi
változók, Elxi(B) =P(lxi(B) = 1) =P(xi EB) =P(B). Mivel P~(B) ezen
mennyiségek számtani közepe, már csak a nagy számok ers törvényét
kell használnunk.
Az 1. Tétel szerint P~(B) tetszleges B „pontban" a P(B)
mennyiséghez tart. Azonban egy ennél ersebb állítás is igaz; ez a
konvergencia B szerint egyenletes.
Jelöljük a véges vagy végtelen végpontokkal rendelkez [a, b] alakú
inter vallumok rendszerét J-vel, és ismét tegyük fel, hogy Xn =
[X00]n,
2. Tétel. (Glivenko-Cantelli)
www.interkonyv.hu
Tulajdonképpen Glivenko és Cantelli nevéhez egy kicsit másféle
állítás f zdik, amely a tapasztalati eloszlásfaggvény fontos
fogalmával kapcsolatos. De finíció szerint ez a P~ eloszlásnak
megfelel eloszlásfüggvény. Más szavakkal, empirikus
eloszlásfüggvénynek nevezzük az
F~(x) =P~((-oo, x))
függvényt. Az nF~(x) mennyiség az x-nél kisebb megfigyelések
számával egyenl. Gyakorlatilag az F~(x) megkonstruálására gyakran
használják a követ kez eljárást. Az x1, ... , Xn mintaelemeket
nagyság szerinti sorrendbe rendezik, azaz a rendezett mintának
nevezett
X(l) ~ X(2) ~ . , , ~ X(n)
k F~(x)= -,
n ha
ahol k végigfutja a O-tól n-ig tartó számokat, xco)=-oo, X(n+l)=oo.
Az F~(x) függvény nyilván lépcss függvény, amelynek 1/n nagyságú
ugrásai vannak az Xi pontokban, ha az Xi-k mind különbözek.
Legyen F(x) = P((-oo, x)) (vagy, ami ugyanaz, az x1
eloszlásfüggvénye), és Xn = [X00 ]n, Ekkor a Glivenko-Cantelli-féle
tétel az alábbit jelenti:
2A. Tétel. n ---+ oo esetén
sup IF~(x)-F(x)I-+ 0. x m.m.
Az alábbiakban az F~ jelölésbl elhagyjuk az n indexet, és egyszeren
F* - et írunk.
A 2A. Tétel bizonyítása. Elször feltesszük az egyszerség kedvéért,
hogy az F függvény folytonos. Legyen E> 0 egy olyan elre
megadott tetszleges kicsiny szám, amelyre N = 1 / E egész. Mivel F
folytonos, meg tudunk adni olyan zo = = -oo, z1, ... , z N-I, Zn =
oo számokat, amelyekre
Ekkor z E [zk, Zk+I) esetén teljesülnek az
(3) F*(z) - F(z) ~ F*(zk+I) - F(zk) = F*(zk+l) - F(zk+1) + E,
F*(z) - F(z) ~ F*(zk) - F(zk-1-1) = F*(zk) - F(zk) - s
összefüggések.
Jelöljük Ak-val azon w = X 00 események halmazát, amelyekben
F*(zk)---+ N
---+ F(zk)· Az 1. Tétel alapján P(.,--1k) = 1. Ily módon tetszleges
w E A= íl Ak k=O
www.interkonyv.hu
1.2 A tapasztalati eloszlás (egydimenziós eset)
esetén található olyan n(w) érték, hogy minden n;?: n(w) esetén,
hogy
(4) IF*(zk)-F(zk)l<E, k=O, 1, ... , N.
(5)
sup IF*(z) - F(z)I < 2c. z
29
Így tehát ez az összefüggés tetszleges E> 0, bármely w E A és
minden elég nagy
n;?: n(w) esetén teljesül. Mivel P(A) = 1, ezért a tételt folytonos
F függvény
esetére bebizonyítottuk.
A következ állítást kell csak felhasználni: tetszleges F(x) esetén
létezik véges
sok olyan -oo = zo < z1 < ... < z N-l < z N = oo pont,
amelyekre
(6) k =0, 1, ... , N -1
(az egyértelmség kedvéért feltehetjük, hogy a { Zj} halmaz
tartalmazza az F
függvény mondjuk E /2-nél nagyobb ugráshelyeit). (3)-hoz teljesen
hasonlóan azt
kapjuk, hogy z E (zk, zk+il esetén
(7) F*(z) - F(z) ( F*(zk+l) - F(zk+l) + E,
F*(z)-F(z);?: F*(zk +0)-F(zk +0)-E.
A korábban definiált Ak halmazokhoz vegyük még hozzá az Ak
halmazt,
k=O, 1, ... , N, amelyeken F*(zk+O)-,F(zk+O). Ekkor az 1. Tétel
alapján N
P(Ak) = P(At;) = 1, és az A= íl AkAk halmazon elég nagy n;?: w(n)
esetén tel
k=ü jesül (4) és az
k=O, 1, ... , N
(5). D
A 2A. Tétel speciális esete a 2. Tételnek, mivel a (-oo, x)
halmazok J-be
tartoznak; másik oldalról a 2. Tételt könnyen meg lehet kapni, mint
a 2A. Tétel
következményét, mivel B = [a, b) esetén
IP~(B)-P(B)I ( IF;(b)- F(b)I + IF;(a)- F(a)I,
és így
sup IP~(B) -P(B)I ( sup[IF;(b)-F(b)I + 1F;(a)-F(a)I]--+ 0. BEJ a,b
m.m.
1. Megjegyzés. Nem nehéz látni, hogy ugyanilyen fajta meggondolások
alapján
a 2. Tételben az .Yhalmazrendszer helyett vehetjük az (a, b)
intervallumok, [a, b]
www.interkonyv.hu
szakaszok, illetve véges (valamilyen N-nél nem nagyobb számú)
egyesítéseik: rendszerét.
Más oldalról, ha a 2. Tételben az Jhelyett egy eléggé b
halmazosztályt veszünk, akkor a tétel állítása továbbá már nem
marad igaz. Ha például Jtet-
n szleges véges számú intervallum egyesítését tartalmazza, akkor Bn
= LJ (xk -
k=l - 1/n2, Xk + 1/n2) EJ, és P~(Bn) = 1, ugyanakkor a [O, 1]
intervallumon egyen letes eloszlás esetén P(Bn)::;; 2/n, így
sup IP~(B)-P(B)I ~ P~(Bn)-P(Bn)--+ 1. BE.Y
A pont befejezéseként megjegyezzük, hogy a (2) elállítás lehetvé
teszi, hogy a Glivenko-Cantelli-tételnél pontosabb állításokat
kaphassunk a P~ aszinp totikus viselkedésérl (ezek a tételek
szerepelnek a 4., 6. pontokban). Illusztrá cióképpen az ott lév
lehetségekhez emlékeztetünk arra, hogy a (2) formulában
n
szerepl L lxi(B) mennyiség független azonos eloszlású valószínségi
változók i=l
összege,
Ezért a centrális határeloszlástételbl közvetlenül adódik a
következ állítás:
3. Tétel. P~(B) elállítható
(8) P~(B) =P(B) + (1n), 1 n
alakban, ahol (n(B) = y1n tr(lxJB) - P)B)) eloszlása a (0, P(B)(l -
P(B))
paraméter normális eloszláshoz tart.
A 6. pontban folytatjuk a P.~(B) mennyiség további ezirányú
vizsgálatát. Az 1 valószínségi konvergenciáról szóló pontosabb
állítások a 4. pontban találha tóak:.
3. Tapasztalati jellemzk. A statisztikák két típusa
1. Példák a tapasztalati jellemzó'kre. Tapasztalati jellemzknek
nevezik rend szerint a tapasztalati eloszlás különféle mérhet
funkcionáljait, vagy más sza vakkal a minta függvényeit, amelyekrl
feltesszük, hogy mérhetek. Ezek közül
www.interkonyv.hu
a legegyszerbbek - a minta momentumai (vagy tapasztalati
momentumok). A minta k-adrendí{ momentumainak nevezik az
at=at(X)=f· xkdF~(x)=..!:_ f=x7- n i=l
mennyiséget. A minta k-adik centrális momentuma az
at = ak*o(X) = j (x - aildF~(n) = ..!:_ f)xi - ai)k . n i=l
mennyiséggel egyenl. Az a1 és a2° tapasztalati momentumra az
irodalom az x és S2 speciális jelöléseket használja:
1 n
n i=l
A statisztikai feladatokban a legkülönfélébb, a minta alapján
számított jel lemzket használják. Például, a minta (* mediánja - a
rendezett minta középs értéke, azaz (* = X(m), ha n = 2m - 1
(páratlan) és (* = (x(m) + X(m+ 1)) /2, ha n = = 2m (páros).
Emlékeztetünk arra, hogy folytonos P eloszlás esetén a ( medián
jának az F( () = 1 /2 · egyenlet 'megoldását nevezzük.
Általánosabb fogalom a p-edrend (p kvantilis fogalma. Ez az a
szám,
amelyre F((p)=p. Így tehát a medián az 1/2-rend kvantilis. Ha F-nek
van szakadáspontja (diszkrét összetevje), akkor ez a definíció
értelmét veszti. Ezért az általános esetben a következ definíciót
fogjuk használni.
A P eloszlás p-edrend (p kvantilisének nevezzük a
(p=sup{x:F(x)~p} ,,
számot. A (p kvantilis mint p függvénye nem más, mint az F-1(p)
függvény, F(x) inverze.
A (p (vagy F-' 1(p)) ilyen meghatározásának, ellentétben az elztl,
tetsz leges F(x) esetén van értelme.
Világos, hogy a minta mediánjával együtt tekinthetjük a minta
p-edrend (;
kvantilisét is, amely definíció szerint megegyezik X(l) értékével,
ahol l = [np] + + 1, X(k) az X minta rendezett mintájának eleme, k
= 1, ... , n. A p = 1/2 esetre
megrizzük a fent adott(*= (f ;2 definíciót (ez csak páratlan n
esetén esik egybe
a korábban definiált alakkal).
2. A statisztikák két fajta típusa. Legyen adott egy n-változós S
mérhet függ vény. A minta alapján számított S(X) = S(x1, ... , Xn)
jellemzt gyakran sta
tisztikának is nevezik. A fent mondottakból világos, hogy
tetszleges statiszti ka valószínségi változó is egyben. Eloszlását
teljes mértékben meghatározza a P(B) = P(x1 EB) (emlékeztetünk
arra, hogy S(X)-et úgy is tekinthetjük, mint a
www.interkonyv.hu
32 A minta 1.3
(&en, ~ge, P) téren megadott valószínségi változót, ahol P az
x1 egydimenziós eloszlásának n-szeres direkt szorzata).
A statisztikák két osztályát jelöljük most ki. Ezekkel a
továbbiakban gyakran fognak találkozni. Az F tapasztalati
eloszlásfüggvény következ két fajta G(F) funkcionálja segítségével
épülnek fel:
I. A
G(F)=h (! g(x)dF(x))
típusú funkcionál, ahol g adott Borel-mérhet függvény, h az a= j
g(x)dFo(x)
pontban folytonos függvény, és F0-ra teljesül, hogy X ~F0 .
II. Azok a G(F) funkcionálok, amelyek az egyenletes metrikában
folytono sak az Fo pontban: G(F(n))-+ G(F'o), ha sup IFCn\x)-
Fo(x)I-+ 0, továbbá az
x
p(n) eloszlások tartói* az Fo tartójába esnek. Itt Fo ismét az a
függvény, amelyre X~Fo.
A statisztikák megfelel osztályait az
S(X)=G(F~)
I. Az I. osztályba tartozó statisztika elállítható
alakban. Nyilvánvaló, hogy mindegyik tapasztalati momentum ~ f
g(xi) alakú, n i=l ·
és így az I. típusú statisztikák közé tartoznak.
II. Ez a statisztikák azon osztálya, amelyeket II. típusú
statisztikáknak vagy az Fo pontban folytonos statisztikáknak fogunk
nevezni. ·
Világos, hogy például a tapasztalati medián az F pontban folytonos
statisz tika, ha létezik a ( medián, F(() = 1/2, és F folytonos és
szigorúan monoton növekv a ( pontban.
Az, hogy valamelyik funkcionál az egyik fent nevezett osztályba
tartozik, nem zárja ki azt, hogy a másikba is tartozzék. Egy G(F)
funkcionál egyszerre tartozhat mindkét osztályba, vagy esetleg
egyikbe sem. Például, ha G I. típusú funkcionál, F tartója az [a,
b] intervallumra korlátozódik (F(a) = 0, F(b) = 1),
* Az N F halmaz az F eloszlásfüggvénnyel rendelkez P eloszlás
tartója, ha P(NF)= 1.
www.interkonyv.hu
1.3 Tapasztalati jellemzk 33
és a g függvény az [a, b] intervallumon korlátos variációjú
függvény, akkor G egyben II. típusú funkcionál is, mivel ebben az
esetben a
b
j g(x)dF(x) = g(b) - j F(x)dg(x) a
funkcionál folytonos az F szerint az egyenletes konvergencia
metrikájában. A mondottak az jelentik, hogy az x és S 2 I. típusú
statisztikák II. típusúak is, ha X €:;P és P véges intervallumra
koncentrálódik.
A 2.1 és 2.2 Tételeket kiegészítjük a tapasztalati jellemzk majdnem
min denütt való konvergenciájáról szóló következ állítással.
1. Tétel. Ugyanúgy, mint korábban, legyen Xn = [X00 ]n €:;F. Ekkor,
ha S(X) = = G(F~) I. vagy II. típusú statisztika, akkor n--+ oo
esetén
G(F~) -- G(F). m.m.
Természetesen feltesszük, hogy a G(F) érték létezik. Ily módon, a
nagy elemszámú minta nemcsak magának a P eloszlásnak a becsl&ea