68
Neven Elezovi´ c Redoviti profesor Fakulteta elektrotehnike i raˇ cunarstva Zavod za primijenjenu matematiku VJEROJATNOST I STATISTIKA Matemati ˇ cka statistika Stohasti ˇ cki procesi 0. izdanje Zagreb, 2007

ViS - 3. Ciklus - Elezovic - Mat Statistika i Stohasticki Procesi (2007) (2x1)

Embed Size (px)

DESCRIPTION

ViS

Citation preview

  • Neven Elezovic

    Redoviti profesor Fakulteta elektrotehnike i racunarstvaZavod za primijenjenu matematiku

    VJEROJATNOST I STATISTIKA

    Matematicka statistikaStohasticki procesi

    0. izdanje

    Zagreb, 2007

  • c Prof. dr. sc. Neven Elezovic, 2007.

    UrednikSandra Gracan, dipl. inz.

    NakladnikElement, Zagreb

    Dizajn ovitkaEdo Kadic

    TisakElement, Zagreb

    Nijedan dio ove knjige ne smije se preslikavati niti umnazatina bilo koji nacin, bez pismenog dopustenja nakladnika

    SADRZAJ

    10. Matematicka statistike . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110.1. Tockaste procjene parametara . . . . . . . . . . . . . . . . . . . . . . . . . 110.2. Kriterij najvece izglednosti . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    Zadatci za vjezbu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2011. Intervalne procjene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    11.1. Intervali povjerenja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2111.2. Intervalne procjene za parametre normalne razdiobe . . . . . . . . . 2411.3. Intervalne procjene za razdiobe razlicite od normalne . . . . . . . . 36

    Zadatci za vjezbu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4212. Testiranje hipoteza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    12.1. Hipoteze. Kriteriji i pogreske odlucivanja . . . . . . . . . . . . . . . . 4312.2. Testiranje parametarskih hipoteza . . . . . . . . . . . . . . . . . . . . . . 4812.3. Usporedbe dviju populacija . . . . . . . . . . . . . . . . . . . . . . . . . . 6212.4. Testovi prilagodbe razdiobama . . . . . . . . . . . . . . . . . . . . . . . . 66

    Zadatci za vjezbu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7513. Stohasticki procesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    13.1. Stohasticki procesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7713.3. Markovljevi lanci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

    14. Poissonov proces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9814.1. Poissonov proces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9814.2. Kolmogorovljeve jednadzbe . . . . . . . . . . . . . . . . . . . . . . . . . . 10814.3. Procesi ra -danja i umiranja . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

    Odgovori i rjesenja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119Tablice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

    Tablica normalne razdiobe, funkcija ) . . . . . . . . . . . . . . . . . 122Kvantili hi-kvadrat razdiobe F2p . . . . . . . . . . . . . . . . . . . . . . . 124Kvantili Studentove razdiobe t1D/2 . . . . . . . . . . . . . . . . . . . 126Kvantili standardne normalne razdiobe up . . . . . . . . . . . . . . . . 128Kvantili razdiobe Kolmogorova O1D . . . . . . . . . . . . . . . . . . 128

  • 10.Matematicka statistika

    1. Tockaste procjene parametara . . . . . . . . . . . . . . . . . 12. Kriterij najvece izglednosti . . . . . . . . . . . . . . . . . . . 12

    Zadatci za vjezbu . . . . . . . . . . . . . . . . . . . . . . . . . 20

    Novcic je bacen stotinu puta, pri cemu se pismo pojavilo 40 puta. Je li nacin bacanja biokorektan?

    Ako se pri 100 bacanja kocke sestica pojavi 10 puta, je li ta kocka ispravna?Pri ponavljanju identicnog pokusa slucajna varijabla poprimila je vrijednosti 6.1, 6.3, 6.4, 6.8,

    7.2. Ako je njezina razdioba normalna, a parametri te razdiobe nepoznati, koji cemo broj uzeti zaocekivanje a koji za disperziju te varijable?

    Slucajna varijabla poprima vrijednosti unutar intervala [0, 1] . Biljezenje rezultata dalo je po-datke: 0.11, 0.14, 0.28, 0.44, 0.48, 0.68, 0.76. O razdiobi ove varijable nemamo nikakvu informaciju.S kojom sigurnoscu mozemo tvrditi da je rijec o jednolikoj razdiobi?

    Na ova, i slicna pitanja, odgovor daje matematicka statistika.

    10.1. Tockaste procjene parametara

    Uvod

    Predmet svakog statistickog proucavanja jest neki (masovni) skup, kojeg nazivamopopulacija ili generalni skup. Populaciju mogu ciniti na primjer

    stanovnici drzave, opcine, mjesta; privredni potencijali drzave, regije, grada; proizvodnja neke tvornice u jednom danu, mjesecu ili godini

    i slicno. Podatak koji proucavamo u danoj populaciji nazivamo obiljezje. Kod iste po-pulacije mozemo promatrati vise obiljezja. Npr. ako je u pitanju stanovnistvo, mozemose zanimati za, recimo

    promjenu brojcanog stanja stanovnistva tijekom godina; broj stanovnika prema starosnom dobu; zaposlenost po vrstama zanimanja;

    1

  • 2 10. MATEMATI CKA STATISTIKA

    skolsku spremui za stotinjak drugih podataka. Promatramo li proizvodnju, obiljezja mogu biti

    broj (kolicina) proizvedenih dobara u nekom vremenu; proizvodnja po vrstama proizvoda; profit; broj (postotak) skartnih proizvoda u ukupnoj proizvodnji.

    Statisticki se mogu pratiti i mnoge druge pojave. Tako na primjer, analiziraju se meterooloske prilike, ucestalost i vrsta bolesti, ispitivanje kupovne moci, trzista i slicno.

    U modelu matematicke statistike, populacija cini skup : . Obiljezje je opisa-no vrijednoscu slucajne varijable X . Osnovni problem matematicke statistike je uodre -divanju razdiobe varijable X , ili pak nekih njezinih numerickih karakteristika.

    Statistika se moze baviti proucavanjem podataka koji tocno opisuju stanje u sva-koj populaciji. Ti se podaci dobivaju uglavnom popisom, redovitim evidencijama ipracenjima. Tako na primjer, svake desete godine se organiziraju popisi cjelokup-nog stanovnistva drzave. Analiziranjem i prikazivanjem takvih podataka bavi se tzv.deskriptivna statistika.

    Vrlo cesto je nemoguce (i nepotrebno!) statisticki obraditi citavu populaciju.Djelom zbog toga sto je ona prevelika da bi se taj postupak mogao sprovesti ili da bibio isplativ. Drugi moguci razlog jest sto se u nekim postupcima ispitivanja (recimou kontroli kvalitete proizvodnje) u samom postupku ispitivanja unistava taj elementpopulacije. Zamislimo na primjer ispitivanje duljine zivota zarulje!

    U tom slucaju se proucava samo jedan mali dio populacije koji nazivamo uzorak.Na osnovu tog uzorka, donosimo potom sud o citavoj populaciji. Predmet matema-ticke statistike jest statisticka obrada uzorka: nacin odabira uzorka (da bi on dobropredstavljao citavu populaciju) analiza obiljezja u uzorku i procjena u kojoj su mjeri tirezultati vjerodostojni za citavu populaciju. Kako zakljucci u ovom slucaju ne mogunikad biti apsolutno sigurni (oni se donose uvijek s nekim stupnjem vjerojatnosti),matematicka statistika se izrazava i koristi metodama teorije vjerojatnosti.

    Primjer 10.1. Rezultati opcih izbora postaju poznati (i sluzbeni) kad se zna za glassvakog biraca, tj. tek nakon sto se obradi citava populacija. Me -dutim, mnogo prijetoga se rezultati mogu predvidjeti (s velikom dozom sigurnosti) na osnovu glasanjanekog dobro izabranog uzorka, koji moze biti po velicini i 10 000 puta manji od citavepopulacije!

    Primjer 10.2. Jedna proizvodna traka proizvodi otpornike. Dozvoljena granicaskarta je 2%. Kako cemo kontrolirati je li proizvodnja ispravna, t.j. je li postotak skartaunutar tih granica?

    Bilo bi nerazumno, i skoro nemoguce za ovakav tip proizvoda, kontrolirati citavuproizvodnju. Umjesto toga, uzimamo relativno maleni uzorak, odabran na pogodannacin: recimo, svaki stoti proizvod. Ako je broj skartnih proizvoda u tom uzorku veciod odre -dene granice, uz veliku dozu sigurnosti mozemo zakljuciti da je broj skartova ucitavoj populaciji veci od 2%, tj. da je doslo do gresaka u proizvodnji koje treba ispra-viti. Kolika je ta dozvoljena granica skartnih proizvoda u uzorku i kolika je sigurnost unasem zakljucku, to je predmet izucavanja metematicke statistike.

    10.1. TO CKASTE PROCJENE PARAMETARA 3

    Populacija. Uzorak

    Upoznajmo se s oznakama i temeljnim pojmovima matematicke statistike. Sa Xcemo oznaciti slucajnu varijablu koja ce biti predmet proucavanja. Nju cemo zvatipopulacija. Njezinu funkciju distribucije oznacavat cemo sa F , funkciju gustoce (akopostoji) sa f , ocekivanje s a i disperziju sa V2 .

    U ovisnosti o problemu koji promatramo, neki parametri -1 , -2 ,. . . u ovoj raz-diobi mogu biti nepoznati. Najcesci zadatak matematicke statistike jest dati odgovara-jucu procjenu za te parametre. Ta se procjena postize na temelju poznatih realizacijax1, x2, . . . , xn slucajne varijable X .

    Informacije o nepoznatoj razdiobi populacije X dobivamo samo na temelju reali-zacija te slucajne varijable.

    UzorakNeka je X slucajna varijabla s razdiobom F . Za slucajne varijable X1, . . . , Xnkazemo da su nezavisne kopije slucajne varijable X , ako one imaju svojstva:

    1. me -dusobno su nezavisne,2. imaju razdiobu identicnu razdiobi slucajne varijable X .

    Tako dobivenu n -torku slucajnih varijabli (X1, . . . , Xn) nazivamo uzorak.Ako je x1 je realizacija varijable X1 , x2 realizacija varijable X2 i t.d., tadase (x1, . . . , xn) naziva vrijednost ili realizacija uzorka (X1, . . . , Xn) .Broj n oznacava velicinu (dimenziju ili volumen) uzorka.

    Mozemo zamisliti da varijable X1, . . . , Xn opisuju ponasanje slucajne varijable Xpri ponavljanju stohastickog eksperimenta u nepromijenjenim uvjetima.

    Radi jednostavnosti, pretpostavimo za sada da je u razdiobi varijable X nepoz-nat jedan parametar - . Funkciju gustoce varijable X oznacavat cemo s f- (x) ili sf (- , x) , jer ona ovisi o tom nepoznatom parametru - .

    Vrijednost parametra - trebamo procijeniti na temelju realizacija x1, x2, . . . , xnvarijable X . Bit ce definirana funkcija

    - = g(x1, x2, . . . , xn)

    koja ce dati procjenu - parametra - . Ta procjena ovisi, dakle, o realizacijamax1, x2, . . . , xn . Realizacije su slucajne, pa je prirodno da ce se pri ponavljanju pokusapojaviti neka druga n -torka, a onda i druga vrijednost za procjenu - . Zato je normalnasituacija da procjena - nije jednaka nepoznatom parametru - . (Jedan od zadatakamatematicke statistike jest da pruzi mjeru sigurnosti za tocnost ove procjene.)

    Buduci da su x1, x2, . . . , xn realizacije slucajnih varijabli X1, X2, . . . , Xn , onda cei - biti realizacija slucajne varijable

    4 := g(X1, X2, . . . , Xn).

  • 4 10. MATEMATI CKA STATISTIKA

    Statistika, procjenitelj i procjenaSlucajna varijabla

    4 := g(X1, X2, . . . , Xn). (10.1)naziva se statistika. Statistikom nazivamo svaku funkciju koja ovisi o uzorkuX1, X2, . . . , Xn , a ne ovisi (eksplicitno) o nepoznatom parametru.Neka je - nepoznati parametar u populaciji X . Za statistiku (10.1) kazemoda je procjenitelj parametra - . Vrijednost te statistike

    - = g(x1, x2, . . . , xn) (10.2)nazivamo procjenom parametra - .

    Prema tome, procjenitelj je slucajna varijabla. Nakon realizacije uzorka, vrijednostprocjenitelja daje nam procjenu nepoznatog parametra.

    Statistika za procjenu ocekivanja

    Zelimo procijeniti nepoznato ocekivanje a populacije X . Prirodno je onda odab-rati statistiku

    X :=X1 + X2 + . . . + Xn

    n.

    Ona se naziva sredina uzorka.Oznacimo nepoznato ocekivanje i disperziju populacije X :{

    E(X) = a,D(X) = V2.

    Varijabla X je slucajna. Izracunajmo njezino ocekivanje i disperziju! Premasvojstvima ocekivanja, vrijedi

    E(X) = E(

    X1 + X2 + . . . + Xnn

    )

    =1n

    [E(X1) + E(X2) + . . . + E(Xn)

    ]= a.

    Varijable X1, . . . , Xn su nezavisne, pa je

    D(X) = D(

    X1 + X2 + . . . + Xnn

    )

    =1n2

    [D(X1) + D(X2) + . . . + D(Xn)

    ]=V2

    n.

    10.1. TO CKASTE PROCJENE PARAMETARA 5

    Procjena ocekivanjaNepoznato ocekivanje a populacije X procjenjujemo pomocu sredine uzor-ka:

    X =1n

    ni=1

    Xi. (10.3)

    Za tu slucajnu varijablu vrijediE(X) = a, D(X) =

    V2

    n, (10.4)

    gdje je V2 varijanca (disperzija) populacije.

    Primjecujemo da je disperzija statistike X obrnuto proporcionalna velicini uzorka.Ako je uzorak dovoljno velik, vrijednosti varijable X bit ce koncentrirane oko srednjevrijednosti E(X) = a . Zato je jasno da ce X biti dobra procjena za a . O kvaliteti teprocjene bit ce vise rijeci u nastavku. Nepristrani procjenitelji

    Me -du svim statistikama zelimo odabrati one koje su, po nekim kriterijima, bolje oddrugih. Zato cemo izdvojiti neka pozeljna svojstva statistika te dati kriterij za usporedburazlicitih statistika.

    U prethodnom primjeru, statistika X za parametar a imala je svojstvo:E(X) = a.

    Dakle, ocekivanje statistike podudara se s vrijednoscu parametra. Statistike koje pos-jeduju to pozeljno svojstvo nazvat cemo posebnim imenom.

    Nepristrani procjeniteljiZa statistiku 4 kazemo da je nepristrani procjenitelj ili nepristrana sta-tistika parametra - , ukoliko vrijedi

    E(4) = - .

    Kriterij nepristranosti svakako je pozeljan, ali nije jedini odlucujuci za odabir sta-tistike. Upoznat cemo primjere kod kojih pristrani procjenitelji mogu bolja svojstva odnepristranih. (Na primjer, njihova disperzija moze biti manja.)Usporedba statistika

    Usporedba statistikaNeka je (X1, . . . , Xn) uzorak, - nepoznati parametar te 41(X1, . . . , Xn) ,42(X1, . . . , Xn) dvije nepristrane statistike za - . Kazemo da je 41 bolja(efikasnija) od 42 ako je D(41) < D(42) .

  • 6 10. MATEMATI CKA STATISTIKA

    Jos je jedno pozeljno svojstvo koje bi dobra statistika trebala imati: povecanjemuzorka statistika mora davati sve bolju aproksimaciju nepoznatog parametra.

    Valjane statistikeStatistiku 4n = 4(X1, X2, . . . , Xn) nazivamo valjanom procjenom parame-tra - ako za svaki H > 0 slucajna varijabla 4n konvergira prema - povjerojatnosti:

    limnP (|4n - | < H) 1.

    Teorem 10.1. Da bi nepristrana statistika bila valjana, dovoljno je da joj disperzijatezi u nulu (kad n tezi u beskonacnost).DOKAZ. Ta tvrdnja slijedi iz Cebisevljeve nejednakosti:

    P (|4n - | < H) 1 E[(4n -)2]

    H2= 1 D(4n)

    H2 1.

    Procjena disperzije, uz poznato ocekivanjePretpostavimo sad da nam je ocekivanje populacije poznato, a disperzija V2 nije.

    Za procjenu disperzije biramo statistiku

    D2 =1n

    ni=1

    (Xi a)2.

    Ocekivanje ove statistike je:

    E(D2) =1n

    ni=1

    E(Xi a)2 = 1n

    ni=1

    D(Xi) = D(X) = V2.

    Dakle, ova je statistika nepristrana.O kvaliteti procjene odlucivat ce disperzija statistike. Zbog nezavisnosti i jednake

    distribuiranosti slucajnih varijabli Xi bit ce:

    D(D2) =1n2

    ni=1

    D[(Xi a)2

    ]=

    1nD[(X a)2

    ]

    =1n

    (E[(X a)4

    ][E(X a)2

    ]2)=

    1n

    (P4 V4

    )(10.5)

    Ovdje jeP4 = E

    [(X a)4

    ]cetvrti centralni moment populacije X .

    Vidimo da disperzija statistike D2 opada obrnuto proporcionalno velicini uzorka.Prema Teoremu 10.1, ova je statistika valjana.

    10.1. TO CKASTE PROCJENE PARAMETARA 7

    Procjena disperzije, uz nepoznato ocekivanje

    Ako je ocekivanje poznato, tada je statistika

    D2 =1n

    ni=1

    (Xi a)2

    nepristrani procjenitelj za disperziju. Koju cemo statistiku koristiti ako je i ocekivanjea nepoznato? Prirodno je zamijeniti ga u ovoj formuli s X . Tako dobivamo statistiku

    4 =1n

    ni=1

    (Xi X)2.

    Provjerimo je li ona nepristrana. Njezino ocekivanje je

    E(4) = E(

    1n

    ni=1

    (Xi X)2)

    =1n

    ni=1

    E(Xi X)2.

    Vrijedi E(Xi X) = a a = 0 , pa je E(Xi X)2 = D(Xi X) . Sada je, zbognezavisnosti varijabli X1, X2, . . . , Xn ,

    E(4) =1n

    ni=1

    D(Xi X)

    =1n

    ni=1

    D

    [Xi 1

    n

    nj=1

    Xj]

    =1n

    ni=1

    D

    [n 1

    nXi 1

    n

    j =i

    Xj]

    =1n

    ni=1

    [(n 1

    n

    )2D(Xi) +

    1n2

    j =i

    D(Xj)]

    =1n n[(

    n 1n

    )2V2 +

    1n2 (n 1)V2

    ]

    =n 1

    nV2.

    Prema tome, ocekivanje statistike 4 ne podudara se s parametrom V2 . Ovajprocjenitelj nije nepristran. Primjetimo ipak da se razlika ocekivanja procjenitelja iparametra smanjuje povecavanjem velicine uzorka n .

    Me -dutim, mnozenjem s konstantnim faktorom nn 1 ovaj se procjenitelj moze

    uciniti nepristranim:

  • 8 10. MATEMATI CKA STATISTIKA

    Procjene disperzijeAko je ocekivanje a populacije X poznato, nepristrana procjena nepoznatedisperzije V2 racuna se formulom

    D2 :=1n

    ni=1

    (Xi a)2. (10.6)

    Ako su ocekivanje a i disperzija V2 populacije X nepoznati, onda se nepri-strani procjenitelj za disperziju racuna formulom

    S2 := 1n 1

    ni=1

    (Xi X)2. (10.7)

    Statistika S2 je valjana, jer joj disperzija tezi k nuli. Vrijedi naimeD(S2) = E[(S2 V2)2]

    = E(S4) 2V2E(S2) + V4 = E(S4) V4.Iz prikaza

    S2 = 1n

    ni=1

    (Xi a)2 1n(n 1)

    ni,j=1i =j

    (Xi a)(Xj a)

    nakon kvadriranja ovog izraza i racunanja ocekivanja svakog clana, dobivamo izrazslican (10.5):

    D(S2) = 1n

    (P4 n 3

    n 1V4)

    . (10.8)

    Primjer 10.3. Da bi se utvrdila preciznost mjernog geodetskog ure -daja koji nemasistematske pogreske, nacinjeno je sest mjerenja. Dobiveni su rezultati (u metrima):3540, 3582, 3555, 3578, 3564, 3548. Odredi nepristranu procjenu za varijancu, uslucajevima (a) ako je poznato da iznos mjerene velicine iznosi 3560 m, (b) ako nijepoznat iznos mjerene velicine.

    (a) U ovom je slucaju poznato ocekivanje slucajne varijable, jer ono mora bitijednako mjerenoj vrijednosti (zbog odsustva sistematske pogreske): a = 3560 . Zatoprocjenu za varijancu racunamo ovako:

    d2 = 1n

    ni=1

    (xi a)2 = 232.17 m2.

    (b) Ocekivanje je nepoznato, pa ga racunamo iz uzorka:

    x =1n

    ni=1

    xi = 3561.17 m .

    10.1. TO CKASTE PROCJENE PARAMETARA 9

    Nepristranu procjenu varijance racunamo ovako:

    s2 =1

    n 1n

    i=1(xi x)2 = 276.97 m2.

    Uporaba dzepnog racunala

    Formula

    s2 =1

    n 1n

    i=1(xi x)2

    nije najprikladnija za racun dzepnim racunalom. Ona zahtjeva izvo -denje tocno 5n + 1operacija (za racunala s inverznom notacijom, inace je broj neznatno veci). Pod operaci-jom se smatra svako unosenje podataka ili njihov poziv iz memorije, te svaka funkcijskaili aritmeticka operacija.

    Transformirajmo ovaj izraz na sljedeci nacin:

    s2 =1

    n 1( n

    i=1x2i 2x

    ni=1

    xi + nx2)

    =1

    n 1( n

    i=1x2i nx

    )

    Sad je nuzno napraviti tocno 3n + 5 operacija. Zato cemo procjenu disperzije racunatiovom formulom.

    Prakticki svi dzepni kalkulatori imaju ugra -dene elementarne statisticke funkcije.Neki me -du njima specijalizirani su upravo za rjesavanje statistickih zadataka. Na raz-licitim racunalima mogu postojati razliciti nacini koristenja tih funkcija, ali zajednickiprincipi mogu se opisati ovako.

    Niz podataka x1, x2, . . . , xn unosi se posebnom tipkom, obicno oznacenom s 6 .Na koncu unosa, u posebnim registrima spremljeni su sljedeci podatci:

    volumen uzorka n ; zbroj elemenata uzorka, xi ; zbroj kvadrata elemenata uzorka, x2i .

    U posebnim su registrima tako -der spremljene izracunate statisticke funkcije. Naboljim racunalima, pozivi tih registara nalaze se na posebnim tipkama oznacenim s x ,s i V .

    Racunanje s grupiranim podatcima

    Podatci dani u uzorku vrlo su cesto grupirani u razrede. Uzorak tada ima ovakavoblik

    x1 n1x2 n2.

    .

    .

    .

    .

    .

    xr nr

  • 10 10. MATEMATI CKA STATISTIKA

    Ovdje je n = n1 + . . . + nr volumen uzorka. Sredina i disperzija uzorka racunajuse tada formulama

    x =1n

    ri=1

    nixi,

    s =1

    n 1r

    i=1ni(xi x)2 = 1

    n 1( r

    i=1nix

    2i nx2

    ).

    Primjer 10.4. Odredimo procjenu za ocekivanje i disperziju na temelju uzorkanormalne populacije:

    xi 2560 2600 2620 2650 2700

    ni 2 3 10 4 1

    Volumen uzorka jen = n1 + . . . + n5 = 20.

    Racunanje ocekivanja i disperzije olaksano je ako vrijednosti slucajne varijable trans-latiramo za isti iznos C . Tu je C po volji odabrani broj. Pri tom vrijedi

    E(X) = C + E(X C), D(X) = D(X C)(U racunu koji slijedi koristit cemo samo prvo svojstvo.) Za pogodnu konstantu u ovomprimjeru mozemo uzeti C = 2620 :

    x = 2620 + 1n

    5i=1

    ni(xi 2620)

    = 2620 + 120

    [60 2 + (20) 3 + 30 4 + 80

    ]= 2620 + 1 = 2621.

    s2 =1

    n 1( 5

    i=1nix

    2i nx2

    )= 967.4

    Primjer 10.5. (Odre -divanje varijance na temelju zadanog uzorka varijanci)Pri kontroli kvalitete nekog proizvoda, ispituje se varijanca na kontrolnim uzorcima ti-jekom svakog dana. Dobivene su vrijednosti s21, s22, . . . , s2k , na temelju uzoraka velicinan1, n2, . . . , nk . Kako cemo odrediti procjenu varijance ove populacije?

    Trebamo odrediti nepristrani procjenitelj za nepoznatu varijancu V2 . Izabratcemo statistiku

    4 =a1S21 + a2S22 + . . . + akS2k

    Agdje su a1, a2, . . . , ak i A konstante koje treba odrediti.

    Ocekivanje ove statistike jeE( 4) =

    a1E(S21) + . . . + akE(S2k)A

    =a1 + . . . + ak

    A V2

    10.1. TO CKASTE PROCJENE PARAMETARA 11

    Statistika ce biti nepristrana ako je A = a1 + . . . + ak . Konstante a1, . . . , ak mozemobirati po volji, ali je prirodno da one odgovaraju velicinama pojedinih uzoraka. Takoce dnevne procjene temeljene na vecem uzorku imati vecu tezinu u konacnoj procjeni.Prema tome, trazena procjena je

    - =n1s

    21 + n2s

    22 + . . . + nks

    2k

    n1 + n2 + . . . + nk.

    Nepristrana procjena standardnog odstupanjaPokazali smo da je

    D2 =1n

    ni=1

    (Xi a)2

    nepristrana procjena disperzije V2 . Standardno odstupanje (devijacija) definira sekao korijen disperzije, V = V2 .

    Logicno je postaviti pitanje: je li velicina

    D =

    D2 =(

    1n

    ni=1

    (Xi a)2)1/2

    nepristrana procjena za standardno odstupanje?Moze izgledati neobicno, ali odgovor je negativan. Razlog tome je sto funkcija

    drugog korijena jace skuplja velike brojeve od malih. Za bilo koju nedegeneriranupozitivnu slucajnu varijablu Y opcenito vrijedi

    E(Y) H) D(41)H2 =

    V2

    H2n 0

    kad n . Dakle, 41 = X je valjana procjena za ocekivanje.Za statistiku 42 vrijedi pak

    P (|42 - | < H) = P (|X1 - | < H) > 0cim je razdioba od X1 netrivijalna. Zato 42 nije valjana statistika.

  • 20 10. MATEMATI CKA STATISTIKA

    10. Zadatci za vjezbu

    1. Rezultati mjerenja su 4.3, 4.5, 4.2, 4.6, 4.5, 4.4,4.5, 4.4. Odredi procjene ocekivanja i varijance.2. Procjena disperzije varijable s poznatim oceki-vanjem a racuna se iz uzorka formulom

    D2 = 1n

    nXi=1

    (xi a)2.

    Dzepna racunala programirana su na racunanje dis-perzije ukoliko ocekivanje nije poznato:

    V2 = 1n

    nXi=1

    (xi x)2.

    Dokazi sljedecu korisnu formulu:D2 = V2 + (x a)2.

    3. Visina tornja je 164.32 m. U deset nezavisnihmjerenja visine tog tornja, ure -dajem koji nema sis-tematske pogreske, dobiveni su sljedeci rezultati:164.16, 164.33, 164.38, 164.44, 164.12, 164.30,164.56, 164.47, 164.55, 164.22. Uz pretpostavkuda je pogreska distribuirana po normalnom zakonu,odredi nepristranu procjenu za odstupanje4. Pretpostavimo da umjerenjima iz prethodnog za-datka stvarna velicina nije poznata. Uz pretpostavkuda je pogreska distribuirana po normalnom zakonu,odredi nepristranu procjenu za odstupanje.5. Mjerenje kapaciteta kondenzatora (u PF ) uprob-nom uzorku dalo je sljedece rezultate:

    interval nk21.021.3 221.321.6 821.621.9 1521.922.2 2622.222.5 4322.522.8 3822.823.1 2423.123.4 1523.423.7 623.724.1 3

    Izracunaj sredinu i varijancu uzorka.6. Nacinjeno je n nezavisnih pokusa da bi se utvr-dila frekvencija pojavljivanja doga -daja A . Kolika jedisperzija te frekvencije? Za koju vrijednost vjero-jatnosti p = P (A) ce ta disperzija biti maksimalna?

    7. Nepoznata velicina mjerena je u n navrata mje-renjima razlicitih preciznosti. Neka su pri tom do-bivene vrijednosti x1, . . . , xn , uz standardne devija-cije V1, . . . ,Vn . Procjenu mjerene velicine trazimou obliku

    x =nX

    i=1tixi,

    gdje su ti tezinski koeficijenti, kojima je zbroj jed-nak 1. kako treba odrediti te koeficijente, da bidisperzija velicine x bila minimalna?8. n brojeva odabrano je na srecu iz nepoznatog in-tervala [a, b] i dobivene su vrijednosti x1, . . . , xn .Da bismo procjenili sredinu c tog intervala, odab-rali smo vrijednostixm = min{x1, . . . , xn}, xM = max{x1, . . . , xn}i stavili

    c =xm + xM

    2.

    (a) Dokazi da je c nepristrana procjena za c .(b) Dokazi da je ta procjena valjana.

    9. Vjerojatnost p doga -daja A je nepoznata. Pokusje ponovljen pet puta i A se dogodio triput. Nakontoga, pokus je ponovljen sest puta i A se dogodio ucetiri navrata. Koristeci kriterij najvece izglednosti,odredi procjenu za p .10. Slucajna varijabla ima eksponencijalnu razdi-obu X E(O ) . Ona je poprimila vrijednost x1 .Koristeci kriterij najvece izglednosti, koja je proc-jena za parametar O ?11. Registrirana su vremena (u minutama) izme -duuzastopnih poziva u telefonskoj centrali: 8, 12, 7,10, 5. Kolika je vjerojatnost da ce se na sljedecipoziv cekati vise od 5 minuta?12. Poissonova slucajna varijabla X P(O ) u trinezavisna pokusa poprimila je vrijednosti x1 = 5 ,x2 = 7 , x3 = 3 . Koristeci kriterij najvece izgled-nosti, odredi procjenu parametra O .13. Uzorak x1, . . . , xn izvucen je iz populacije kojaima gustocu razdiobe

    f (x) = OxO1, 0 < x < 1.Pomocu kriterija najvece izglednosti, odredi procje-nu za parametar O .

    11.Intervalne procjene

    1. Intervali povjerenja . . . . . . . . . . . . . . . . . . . . . . . . 212. Intervalne procjene za parametre normalne razdiobe . . . 243. Intervalne procjene za razdiobe razlicite od normalne . . 36

    Zadatci za vjezbu . . . . . . . . . . . . . . . . . . . . . . . . . 42

    11.1. Intervali povjerenja

    Kvantili

    Zbog primjena koje ce uslijediti, upoznajmo detaljnije neke karakteristicne tockevezane uz funkciju razdiobe i funkciju gustoce slucajne varijable X .

    Neka je F funkcija razdiobe, a f gustoca te varijable. Da bismo izbjegli nepot-rebnu slozenost, pretpostavit cemo da postoji interval a, b takav da je f (x) pozitivanbroj u svakoj tocki x tog intervala, a jednak nuli za x < a i za x > b . Ovakav se intervalnaziva nosac funkcije gustoce. Vrijednosti a = ili b = + su dopustene.

    Tamo gdje je gustoca pozitivna, funkcija razdiobe je rastuca. Dakle, za nju vrijediF(a) = 0 , F(b) = 1 i F je rastuca na intervalu a, b .

    Izaberimo realan broj p , 0 < p < 1 . Onda jednadzba F(x) = p ima jedincatorjesenje.

    KvantilRelan broj xp za koji vrijedi

    F(xp) = pto jest xp

    f (t)dt = p

    naziva se kvantil reda p .

    21

  • 22 11. INTERVALNE PROCJENE

    Sl. 11.1. Kvantil reda p .

    U primjenama u statistici vrlo se cesto postavlja pitanje odre -divanja kvantila xp zaneke specificne vrijednosti od p ; npr. za 0.001 , 0.01 , 0.05 , 0.95 , 0.99 ili pak 0.999 .

    Za neke posebne vrijednosti od p kvantili dobivaju posebna imena. Tako, naprimjer, za p = 0.25 , 0.50 i 0.75 zovemo ih kvartilima, za p = 0.1 , 0.2 ,. . . , 0.9zovemo ih decilima, a za p = 0.01 , 0.02 ,. . . , 0.99 zovemo ih percentilima.

    Intervali povjerenja slucajne varijableRazdioba slucajne varijable u problemima matematicke statistike najcesce nije

    potpuno poznata, jer ovisi o jednom ili vise nepoznatih parametara. U prethodnomsmo poglavlju naucili kako na temelju realizacija dobivenih iz uzorka mozemo odredititockastu procjenu nepoznatog parametra. Ta je procjena vise ili manje pouzdana. Poz-navanje razdiobe trazenog parametra omogucava nam da utvrdimo interval povjerenjaoko dobivene procjene. Velicina tog intervala govori o pouzdanosti dobivene procjene.

    Radi jednostavnosti, najprije cemo promotriti problematiku intervala povjerenja

    za slucajnu varijablu X kojoj je razdioba poznata.Interval povjerenja slucajne varijable

    Neka je 0 < p < 1 . Interval [c1, c2] za koji vrijediP (c1 < X < c2) = p

    naziva se interval povjerenja reda p za slucajnu varijablu X .

    Ako je p zadan, odre -divanje intervala povjerenja nije uvijek jednostavan posao.Ukoliko je lijevi rub intervala c1 = , onda za desni rub mozemo uzeti kvantil

    c2 = xp .Analogno, ako za desni rub odaberemo c2 = , onda je lijevi rub odre -den

    kvantilom c1 = x1p .U statistici najcesce zelimo odrediti interval povjerenja najmanje duljine. Time se

    zadatak svodi na problem minimizacije:c2 c1 min c2

    c1

    f (t) dt = p.

    11.1. INTERVALI POVJERENJA 23

    Ova se zadaca ne moze uvijek rijesiti eksplicitnim formulama.Pretpostavimo da funkcija f ima dodatno svojstvo, koje je u primjenama vrlo

    cesto ispunjeno: f posjeduje samo jednu tocku lokalnog maksimuma. Takvu funkcijugustoce nazivamo unimodalna. Lako je onda pokazati da zadaca minimizacije imajednoznacno rjesenje, te da za rub intervala povjerenja vrijedi

    f (c1) = f (c2). (11.1)

    Sl. 11.2. Interval povjerenja za unimodalnu funkciju gustoce.

    Cak niti s tim dodatnim uvjetom problem odre -divanja rubnih tocaka nije olaksan.Zato se najcesce zadovoljavamo bilo kojim intervalom povjerenja reda p , ili pak nje-gove rubove odre -dujemo pomocu odabranih kvantila. Na primjer rubne tocke mozemoodabrati ovako:

    c1 = x 12 (1p), c2 = x 12 (1+p) (11.2)

    Zaista, u tom slucaju vrijediP (c1 X c2) =

    12(1 + p) 1

    2(1 p) = p.

    U vecini literature koristi se sljedeca standardna oznaka:

    Nivo znacajnostiZa zadani broj p , 0 < p < 1 koji odre -duje interval povjerenja, velici-na D = 1 p naziva se nivo znacajnosti (signifikantnosti). Pri tom zajednostrane kvantile vrijedi:

    xp = x1D , x1p = xD ,a za dvostrane:

    x 12 (1p) = xD/2, x 12 (1+p) = x1D/2.

    Sl. 11.3. Jedan od nacina odre -divanja intervala povjerenja.

  • 24 11. INTERVALNE PROCJENE

    Ukoliko funkcija gustoce posjeduje svojstvo simetrije (s obzirom na pravac

    x = m ):f (m x) = f (m + x), za sve x R, (11.3)

    tada ce za odabir (11.2) biti ispunjen uvjet (11.1).

    Sl. 11.4. Interval povjerenja za simetricnu funkciju gustoce.

    Interval povjerenja za nepoznati parametarNeka je sad razdioba varijable X ovisna o nepoznatom parametru - . Taj cemo

    parametar procjeniti pomocu neke tockovne procjene. Pokazimo sad kako se odre -dujekvaliteta te procjene. Ona ce biti iskazana duljinom intervala povjerenja za nepoznatiparametar.

    Interval povjerenja za nepoznati parametarPretpostavimo da postoje funkcije 4(X1, . . . , Xn) i 4(X1, . . . , Xn) takve daza sve realizacije x1, . . . , xn uzorka vrijedi

    P{4(x1, . . . , xn) < - < 4(x1, . . . , xn)

    }= p.

    Interval 4,4 se zove interval povjerenja za parametar - reda p .

    Ovdje valja napomenuti da je interval 4,4 slucajan, jer njegovi rubovi oviseo realizaciji uzorka. Me -dutim, vjerojatnost da parametar - padne unutar tog intervalajednaka je p i ne ovisi o tim realizacijama.

    11.2. Intervalne procjene za parametre normalne razdiobe

    Pretpostavimo da X ima normalnu razdiobu N (a,V2) kod koje su neki od para-metara, a moguce i oba, nepoznati.

    11.2. INTERVALNE PROCJENE ZA PARAMETRE NORMALNE RAZDIOBE 25

    1. Intervalna procjena ocekivanja uz poznatu disperziju 2

    Statistika za ocekivanje jeX =

    X1 + . . . + Xnn

    .

    Ova statistika nam daje tockastu procjenu ocekivanja.Slucajna varijabla X je zbroj nezavisnih normalnih varijabli, pa zato i sama ima

    normalu razdiobu. Njezini su parametriE(X) =

    1n[E(X1) + . . . + E(Xn)] = E(X) = a,

    D(X) =1n2

    [D(X1) + . . . + D(Xn)] =D(X)

    n=V2

    n.

    Dakle, X N (a, V2

    n) .

    Istaknimo i zapamtimo ovaj vazni rezultat.

    Razdioba sredine uzorka

    Teorem 11.1. Ako populacija X ima normalnu razdiobu N (a,V2) , onda zasredinu uzorka vrijedi

    X =X1 + . . . + Xn

    n N (a, V

    2

    n). (11.4)

    Ovdje je vazno uociti efekt povecanja volumena uzorka. Sto je n veci, to cedisperzija sredine X biti manja.

    Sl. 11.5. Funkcija gustoce populacije i pripadne sredine, za dva razlicita volumena uzorka.

  • 26 11. INTERVALNE PROCJENE

    Prema zakonu velikih brojeva, znamo da ce slucajna varijabla X teziti k ocekivanjua . Sad smo u mogucnosti precizno opisati kvalitetu i brzinu te konvergencije.

    S obzirom da poznajemo tocnu razdiobu statistike X , mozemo lako odrediti inter-val povjerenja za ocekivanje a . U tu svrhu, oznacimo s

    U =X aV/

    n

    pripadnu jedinicnu normalnu razdiobu. Neka je sad zadan p , 0 < p < 1 . OznacimoD = 1 p i promotrimo uvjet

    P (|U| < c) = p.Broj c , dobiven kao rjesenje ove jednadzbe, dat ce interval povjerenja [c, c] za va-rijablu U . Odaberimo za c kvantil normalne razdiobe. Uobicajeno je taj kvantiloznacavati slovom u : c = u1D/2 . Onda je

    P (|U| < u1D/2) = 1 D = p.

    Sl. 11.6. Kvantili jedinicne normalne razdiobe

    Sad dobivamo

    P

    (X aV/n < u1D/2

    )= 1 D,

    t.j.

    P

    (X V

    nu1D/2 < a < X +

    Vn

    u1D/2

    )= 1 D.

    Algoritam za odre -divanje intervala povjerenja napisat cemo u sljedecem obliku:

    11.2. INTERVALNE PROCJENE ZA PARAMETRE NORMALNE RAZDIOBE 27

    Intervali povjerenja za ocekivanje normalne razdiobe, uz poznati 21. Zadaje se nivo pouzdanosti p i odredi D = 1 p .2. Iz tablica kvantila normalne razdiobe, odredi se kvantil u1D/2 . Najcescevrijednosti su:

    p 0.9 0.95 0.99 0.999

    u1D/2 1.645 1.960 2.576 3.291

    3. Izracuna se sredina x uzorka x1, . . . , xn .4. Izracuna se u1D/2

    Vn.

    Interval povjerenja jeP

    (x u1D/2

    Vn a x + u1D/2

    Vn

    )= p. (11.5)

    Primjer 11.1. Iz populacije N (a, 4) izvucen je uzorakxj 0 1 2 3 4nj 1 4 6 12 2

    Odredi procjenu i 90%-tni interval za ocekivanje a .

    Imamo X N (a, 425) . Iz uzorka racunamo procjenu sredine:x =

    0 1 + 1 4 + 2 6 + 3 12 + 4 225 = 2.40.

    Sad je D = 1 p = 0.1 . Iz tablica procitamo vrijednost kvantilau1D/2 = u0.95 = 1.645.

    Dalje jeu1D/2

    Vn

    = 1.645 25 = 0.658.

    Dakle, P (1.742 < a < 3.058) = 0.9 .

    2. Intervalna procjena za disperziju, uz poznato ocekivanje aStatistika za nepoznatu disperziju, uz poznatu vrijednost ocekivanja a je

    D2 =1n

    nk=1

    (Xk a)2 = V2

    n

    nk=1

    (Xk aV

    )2.

    Varijabla Xk aV

    ima jedinicnu normalnu razdiobu. Kvadrat te slucajne varijableima gama razdiobu s parametrima ( 12 ,

    12) .

  • 28 11. INTERVALNE PROCJENE

    Zbroj n nezavisnih jedinicnih razdioba ima gama razdiobu s parametrima ( 12n, 12) .Tu razdiobu nazivamo hi kvadrat razdioba s n stupnjeva slobode. Oznacavamo je sF2n . Njezina je gustoca

    f F2n (x) =1

    2n/2*( 12n)x

    12 n1e

    12 x.

    Ocekivanje i disperzija suE(F2n) = n, D(F

    2n) = 2n.

    Eksplicitna formula za nekoliko pocetnih vrijednosti indeksa n i graf te gustocedani su u poglavlju 8.3 .

    Vratimo se na pocetni problem. Promatramo statistiku

    D2 =V2

    n

    nk=1

    (Xk aV

    )2.

    Prema dokazanom, slucajna varijabla nD2

    V2ima hi hvadrat razdiobu s n stupnjeva

    slobode. Odavde mozemo odrediti interval povjerenja za disperziju.

    Disperzija je velicina koja je uvijek pozitivna. Zato interval povjerenja mozemotraziti bilo kao jednostrani (u kojem je lijeva granica fiksna, jednaka nuli, a desnanepoznata), bilo kao dvostrani, u kojima trazimo i lijevu i desnu granicu.

    Jednostrani interval povjerenja. To je interval [0, t] takav da vrijediP (V2 t) = p,

    za zadanu vrrijednost p (obicno blisku jedinici). Krenimo od uvjetaP(F2n < x1p

    )= 1 p

    i potrazimo kvantil x1p za koji je ovaj uvjet ispunjen. Taj kvantil se za interesantnevrijednosti od p cita iz tablica hi kvadrat razdiobe. U tim tablicama on je najcesceoznacen sa F2n,1p . Dakle, vrijedi

    P(F2n F2n,1p

    )= p

    Sl. 11.7. Kvantil hi kvadrat razdiobe za jednostrani interval povjerenja.

    11.2. INTERVALNE PROCJENE ZA PARAMETRE NORMALNE RAZDIOBE 29

    Varijabla nD2

    V2ima F2n razdiobu. Zato vrijedi

    P

    (nD2

    V2 F2n,1p

    )= p,

    t.j.P

    (V2 nD

    2

    F2n,1p

    )= p.

    Jednostrani interval povjerenja za disperziju, uz poznato ocekivanje a1. Zadaje se nivo pouzdanosti p .2. Iz tablica kvantila hi kvadrat razdiobe s n stupnjeva slobode, odredi seodgovarajuci kvantil F2n,1p .3. Izracuna se procjena disperzija d2 iz uzorka x1, . . . , xn .4. Izracuna se n

    d2

    F2n,1p.

    Jednostrani interval povjerenja je

    P

    (0 V2 n

    d2

    F2n,1p

    )= p. (11.6)

    Dvostrani interval povjerenja. Odredimo sad dvostrani interval povjerenja zadisperziju V2 , dakle, interval [E1,E2] sa svojstvom P (E1 < V2 < E2) = p .

    Postupit cemo na sljedeci nacin.

    Sl. 11.8. Kvantili hi kvadrat razdiobe za dvostrani interval povjerenja.

    Oznacimo D = 1 p i odredimo kvantile c1 = F2n,D/2 i c2 = F2n,1D/2 . Sadimamo

    P (F2n < c1) = D/2, P (F2n < c2) = 1 D/2,pa je

    P (c1 F2n c2) = 1 D/2 D/2 = 1 D = p.Dakle, povrsina ispod funkcije gustoce, a izme -du ovih kvantila, jednaka je p .

  • 30 11. INTERVALNE PROCJENE

    Slucajna varijabla nD2

    V2ima F2n razdiobu. Tako dobivamo

    P (c1 nD2

    V2 c2) = p

    odnosno

    P

    (nD2

    c2< V2 0.

  • 40 11. INTERVALNE PROCJENE

    Zato sredina X ima gustocu

    g(x) =nnO nxn1

    (n 1)! eOnx, x > 0.

    Teorijski, odavde bismo mogli izracunati interval povjerenja, na temelju poznate reali-zacije x = x .

    Ovakav bi racun imao smisla za maleni volumen uzorka. Me -dutim, ako je ndovoljno velik, mnogo je jednostavnije aproksimirati zbroj X1 + . . . + Xn normalnomrazdiobom s parametrima n

    Oi

    n

    O 2. Tako sredina ima priblizno razdiobu

    X N(

    1O

    ,1

    nO 2

    ).

    Neka je p zadani nivo pouzdanosti, D = 1p i u1D/2 kvantil normalne razdiobe.Onda je

    P

    (1O u1D/2

    1O

    n< x -0 ), ili2. Kvantil xD za jednostranu alternativu - < -0 ,Hipoteza H0 se odbacuje ukoliko vrijednost x varijable izracunate iz uzorkapadne van intervala povjerenja reda 1 D :

    x > x1D ,u prvom slucaju, odnosno

    x < xD ,

    u drugom slucaju. U protivnom se hipoteza ne moze odbaciti (t.j. prihvacase).

    Za dvostrane hipoteze, nacin izbora kvantila se podrucje odbacivanja se mijenja:

    Testiranje parametarskih hipoteza dvostrani testZadaje se nivo znacajnosti D . Na temelju poznate razdiobe uz pretpostav-ljenu istinitost hipoteze H0 odrede se kvantili xD/2 i x1D/2 . za dvostranualternativu - = -0 .Hipoteza H0 se odbacuje, ukoliko vrijednost x varijable izracunate iz uzorkapadne van intervala povjerenja reda 1 D :

    x > x1D/2 ili x < xD/2.U protivnom se hipoteza ne moze odbaciti (t.j. prihvaca se).

    Ove su situacije ilustrirane na sljedecoj slici:

  • 52 12. TESTIRANJE HIPOTEZA

    Sl. 12.8. Podrucje prihvacanja hipoteze H0 .

    Racun koji treba naciniti pri provjeri hipoteza nalikuje onom u odre -divanju inter-

    vala povjerenja. Uvjerimo se u to na primjeru testova koji slijede.U -test: nepoznato ocekivanje i poznata disperzija

    Razdioba populacije je normalna, s poznatom disperzijom V2 . Hipoteza se odnosina vrijednost ocekivanja:

    H0 . . . a = a0Statistika na temelju koje ce se napraviti test je

    U =X a0V/

    n

    Ako je hipoteza H0 istinita, onda je razdioba ove statistike normalna, U N (0, 1) .U -test

    Zadaje se nivo znacajnosti D . Na temelju njega, odredi se kvantil1. u1D , u slucaju jednostranih alternativa, te2. u1D/2 , u slucaju dvostranih alternativa.Izracuna se vrijednost u statistike dobivena iz uzorka. Test glasi:1. Ako je u > u1D (za desnu alternativu), ili u < u1D (za lijevualternativu), hipoteza H0 se odbacuje.2. Ako je |u| > u1D/2 (za dvostranu alternativu), hipoteza H0 se odbacuje.U protivnom se ta hipoteza ne moze odbaciti.

    Primjer 12.5. Gradska je uprava dobila ponudu za nabavu jeftinijih zarulja za javnurasvjetu. Srednji vijek trajanja postojecih zarulja je 1200 sati, uz standardnu devija-ciju od 150 sati. Gradska uprava ce odabrati na novi tip zarulja, osim ako se uz nivoznacajnosti D = 0.05 pokaze da su losije kvalitete.

    Testirano je 100 zarulja i dobivena je srednja vrijednost x = 1160 . Pretpostavlase da je standardna devijacija nepromijenjena. Hoce li se uprava odluciti za kupovinunovih zarulja?

    12.2. TESTIRANJE PARAMETARSKIH HIPOTEZA 53

    Hipoteza koju testiramo jeH0 . . . a = a0 = 1200.

    Njoj je alternativaH1 . . . a = a1 < a0.

    Rijec je o jednostranom testu sa zadanom pogreskom prve vrste D = 0.05 . Razdiobakoja odgovara hipotezi H0 je N (1200, 1502) . U tom slucaju, slucajna varijabla

    X a0V/

    n

    ima jednicnu normalnu razdiobu.Za vrijednost dobivenu iz uzorka je

    u =x a0V/

    n=

    1160 1200150

    100 = 2.67 .

    Kriticna vrijednost za zadani nivo znacajnosti je uD = u1a = u0.95 = 1.645 .Dobivena vrijednost je ispod kriticne, pa se hipoteza H0 treba odbaciti. Nove su

    zarulje losije kvalitete.

    Primjer 12.6. Ure -daj za pakiranje secera radi sa standardnom devijacijom 2 gra-ma. Povremeno se obavlja kontrola s ciljem korekcije ure -daja ukoliko neto sadrzaj neodgovara nominali. Uzorak od 100 paketa dao je srednju vrijednost x = 999 grama.Provjeri uz D = 0.01 hipotezu o ispravnosti ure -daja.

    Hipoteza o ispravnosti jeH0 . . . a = a0 = 1000.

    Alternativa je dvostrana:H1 . . . a = a0.

    Zato racunamo kriticni kvantilu1D/2 = u0.995 = 2.58 .

    Vrijednost statistike jeU =

    x a0V/

    n=

    999 10002

    100 = 5 < uD/2.

    Hipoteza o ispravnosti mora se odbaciti.

    T -test: nepoznato ocekivanje i nepoznata disperzijaRazdioba populacije je normalna, s nepoznatom disperzijom V2 . Hipoteza se

    odnosi na vrijednost ocekivanja:H0 . . . a = a0

    Statistika na temelju koje ce se napraviti test jeT =

    X a0S/

    n

  • 54 12. TESTIRANJE HIPOTEZA

    Ako je hipoteza H0 istinita, onda je razdioba ove statistike Studentova, s n1 stupnjemslobode.

    Studentova je razdioba simetricna, pa su i kvantili simetricni:tD = t1D .

    Zato je oblik testa identican onom za normalnu razdiobu, s tim da se kvantili uDnormalne razdiobe zamijene s kvantilima tD Studentove razdiobe s n 1 stupnjemslobode.

    Primjer 12.7. Centar za medicinska istrazivanja najavio je da raspolaze s takvimnacinom lijecenja visokog krvnog pritiska kojim se ovaj moze smanjiti za 20 jedinica.Lijecnik je isprobao postupak na 10 pacijenata i ustanovio da je prosjecno smanjenjepritiska x = 18 jedinica, uz odstupanje s = 4.2 . Provjeri uz nivo znacajnosti D = 0.05je li tvrdnja o postupku istinita.

    Radi se o jednostranoj hipotezi uz nepoznatu disperziju. Temeljna je hipotezaH0 . . . a = a0 = 20,

    a njezina alternativaH1 . . . a < a0.

    Slucajna varijablaT =

    X a0S

    n

    ima Studentovu razdiobu s 9 stupnjeva slobode. Odgovarajuci kvantil jet0.05 = t0.95 = 1.83.

    Vrijednost dobivena iz uzorka, uz istinitost hipoteze H0 , jet =

    x a0s

    n =

    18 204.2

    10 = 1.51 .

    Ova je vrijednost veca od kriticne. Zato se hipoteza ne moze odbaciti. Ako bismoodbacili hipotezu, ucinjena pogreska mogla bi biti veca od 0.05 .

    Hipoteza o proporcijiNepoznata vjerojatnost p nekog svojstva populacije pokusava se odrediti na te-

    melju uzorka. Ako u uzorku od n elemenata m od njih ima to svojstvo, tada za puzimamo vrijednost m/n .

    Osnovna hipoteza jeH0 . . . p = p0

    a alternative biramo, na primjer, u oblikuH1 . . . p = p1 > p0

    (desna) jednostrana alternativa.Vrijednost m ima binomnu razdiobu B(n, p) N (np, npq) . Zato slucajna

    varijabla X = mn

    ima razdiobu X N(

    p,pqn

    ).

    12.2. TESTIRANJE PARAMETARSKIH HIPOTEZA 55

    Pretpostavimo da je H0 istinita i odaberimo statistiku

    U =X p0V/

    n=

    m

    n p0p0q0

    n

    =(

    m

    n p0

    )n

    p0q0.

    Ukoliko je H0 istinita, ova statistika ima priblizno razdiobu N (0, 1) .Hipotezu H0 cemo odbaciti, ukoliko se ostvari u > u1D .Za slucaj lijeve jednostrane hipoteze, ili dvostrane hipoteze, ovaj se test korigira

    na istovjetan nacin kao u U -testu.Primjer 12.8. Uprava velike pivovare razmatra prijedlog da se na trziste plasira ve-

    leboca piva sadrzine 2.5 L. U proizvodnju ce se krenuti ako najmanje 60% potrosaca tozeli. Napravljena je anketa me -du 200 potrosaca, od kojih se 95 izjasnilo u prilog novojambalazi. Uz nivo znacajnosti D = 0.05 utvrdite hoce li se pokrenuti ta proizvodnja.

    Ovdje je n = 200 , m = 95 , p0 = 0.6 . Alternativa je lijeva jednostrana,p < p0 . Statistika poprima vrijednost:

    U =(

    m

    n p0

    )n

    p0q0= 3.61.

    Kriticna vrijednost kvantila jeuD = u1 D = u0.95 = 1.645 .

    Hipoteza H0 mora se odbaciti. Veleboca ce pricekati.

    Snaga U -testa

    Ponovimo osnovne pretpostavke o U -testu.Osnovna populacija ima normalnu razdiobu N (a,V2) , disperzija V2 je poznata.

    Osnovna hipoteza jeH0 . . . a = a0.

    Statistika testa:U =

    X a0V/

    n.

    Razdioba statistike je N (0, 1) , ukoliko je hipoteza H0 istinita. Za alternativuH1 . . . a > a0

    podrucje odbacivanja hipoteze H0 glasi: u > u1D , gdje je D zadana pogreska prvevrste.

    Odredimo snagu ovog jednostranog testa. Ona ovisi o nepoznatom parametru a .Prema definiciji snage testa,

    S(a) = P ({prihvaca se H1, ako je ocekivanje jednako a})= P (U > u1D | a)

    S je ocito rastuca funkcija. Za a < a0 vrijedi stoga S(a) < S(a0) pa za pogreskuprve vrste D vrijedi

    D = supaH0

    S(a) = S(a0).

  • 56 12. TESTIRANJE HIPOTEZA

    Pretpostavimo sad da je prava vrijednost ocekivanja jednaka a . Ocekivanje statis-tike U u ovom slucaju je

    E(U) = E(

    X a0V/

    n

    )=

    a a0V/

    n.

    Oznacimo broj zdesna sa z , E(U) = z . razdioba statistike je sada

    U =X a0V/

    n N (z, 1).

    Alternativa H1 bit ce prihvacena ako statistika poprimi vrijednost vecu od kriticneu1D .

    Na sljedecoj slici nacrtane su gustoce razdioba N (0, 1) , koja odgovara hipoteziH0 , i razdiobe N (z, 1) , koja odgovara alterantivi E(X) = a .

    Sl. 12.9. Gustoca razdioba statistike za vrijednost a = a0 i bilo koji a .

    Vjerojatnost doga -daja {U > u1D} , uz uvjet E(X) = a vidi se iz grafa gus-toce razdiobe N (z, 1) . To je naznaceno podrucje ispod grafa te funkcije, desno odu1D . Tom podrucju odgovara istovjetno isod grafa gustoce razdiobe N (0, 1) , desnood u1D z . To cemo koristiti u sljedecem racunu:

    S(a) = P (U > u1D) = P (U z = u1D z) = P (N (0, 1) > u1D z)= 1)(u1D z) = 1)(u1D a a0V/n ).

    Ovdje je ) funkcija razdiobe jedinicne normalne slucajne varijable.Na primjer, za a = a0 dobivamo:

    S(a0) = 1 )(u1D) = 1 (1 D) = D,

    sto je u skladu s prije izvedenim.Graf ove snage dan je na sljedecoj slici:

    12.2. TESTIRANJE PARAMETARSKIH HIPOTEZA 57

    Sl. 12.10. Snaga U -testa.

    Snaga dvostranog U -testa moze se izracunati ovako:

    S(a) = P (|U| > u1D/2 | a) = P (U < uD/2 | a) + P (U > u1D/2 | a).

    Posljednju vjerojatnost znamo:

    P (U > u1D/2 | a) = 1 )(u1D/2 a a0V/

    n)

    Zbog svojstva simetrije normalne razdiobe, prvu pribrojnik dobivamo zrcaljenjem ovefunkcije oko pravca a = a0 :

    Sl. 12.11. Simetrija doprinosa snage dvostranog testa.

    Zbrajanjem ove dvije funkcije dobiva se snaga za dvostrani U -test.

  • 58 12. TESTIRANJE HIPOTEZA

    Sl. 12.12. Snaga dvostranog U -testa.

    Pogreske prve i druge vrste i velicina uzorka

    U statistickim testovima obicno se zadaje maksimalna velicina pogreske prve vrsteD . To moze imati za posljedicu veliku pogresku druge vrste E . Ova situacija vidi sena sljedecoj slici:

    Sl. 12.13. Pogreske prve i druge vrste u slucaju bliskih hipoteza.

    Pretpostavimo da se radi o uzorku iz normalne populacije.Povecanje volumena uzorka ima za posljedicu smanjenje odgovarajuce disperzije.

    Standardna devijacija smanjuje se proporcionalno korijenu velicine uzorka.Prema tome, povecanje volumena ima za posljedicu jace razgranicenje odgovara-

    jucih gustoca pojedinih hipoteza.

    12.2. TESTIRANJE PARAMETARSKIH HIPOTEZA 59

    Sl. 12.14. Utjecaj povecanja volumena uzorka.

    Promotrimo dvije situacije u kojima se pojavljuje ovo pitanje.

    Primjer 12.9. U uzorku iz normalne populacije pretpostavljena vrijednost sredineje H0 . . . a = a0 . Alternativa ovome je H1 . . . a = a1 > a0 .

    Vjerojatnosti pogresaka prve i druge vrste su zadane i iznose D i E . Koliko velikmora biti uzorak da bi se te pogreske mogle postovati?

    Kako ce glasiti test, ukoliko je a0 = 50 , a1 = 52 , V = 5 te D = 0.01 iE = 0.05?

    Ukoliko vrijedi hipoteza a = a0 , sredina uzorka X ima normalnu razdiobuN (a0,V2/n) . To znaci da statistika

    4 =X a0V/

    n

    ima jedinicnu normalnu razdiobu. Me -dutim, ako je istinita alternativa a = a1 , onda jerazdioba te statistike tako -der normalna s istom disperzijom, ali joj je ocekivanje

    E(4 | a = a1) = E(X | a = a1) a0V/n =a1 a0V/

    n.

    Grafovi gustoca ovih dviju razdoba dani su na slici. Graf desno, koji odgovaraalternativi H1 , dobiven je iz grafa koji odgovara hipotezi H0 translacijom za iznosa1 a0V/

    n.

  • 60 12. TESTIRANJE HIPOTEZA

    Sl. 12.15. Gustoce vjerojatnosti za hipotezu i alternativu.

    Sa slike vidimo da je veza me -du kvantilima sljedeca:u1D a1 a0V/n = u1E .

    Odavde dobivamo minimalnu vrijednost za volumen n :

    n =(

    u1D + u1Ea1 a0 V

    )2, (12.1)

    koju treba zaokruziti na veci prirodni broj.U zadanom primjeru, vrijednosti kvantila su u1D = u0.99 = 2.33 i u1E =

    u0.95 = 1.64 pa vrijedi

    n (

    2.33 + 1.6452 20 5

    )2= 98.5 .

    Minimalan broj pokusa mora biti 99. Hipoteza H0 ce se prihvatiti ukoliko budex a0V/

    n< u1D

    t.j.x < a0 +

    Vn u1D = 51.17 .

    Primjer 12.10. Zelimo testirati ispravnost bacanja novcica. Temeljna hipoteza jeda je nacin bacanja ispravan: p = 0.5 .

    1. Vjerojatnost odbacivanja te hipoteza, kad je ona ispravna, mora biti najvise0.05.

    2. Formiramo alternativu: |p 0.5| > 0.1 . Vjerojatnost prihvacanja temeljnehipoteze, kad je alternativa istinita, mora biti najvise 0.05.

    Koliki je minimalni broj bacanja potreban da bi se postivali ovi uvjeti? Kako ceglasiti test?

    12.2. TESTIRANJE PARAMETARSKIH HIPOTEZA 61

    Ovdje se radi o dvostranom testu. Neka je X broj pisama koji ce se pojavitiu n bacanja. Onda je X B(np, npq) . Vjerojatnost cemo racunati pomocu relativnefrekvencije

    p =Xn.

    Ova varijabla ima priblizno normalnu razdiobu p N(

    p,pqn

    ).

    Neka je p0 vjerojatnost koja odgovara hipotezi H0 , a p1 ona koja odgovaraalternativi.

    Ako je istinita H0 , onda vrijedi p N(

    p0,p0q0

    n

    ). Ako je istinita H1 , onda je

    p N(

    p1,p1q1

    n

    ).

    Nacrtajmo grafove gustoca ovih razdioba:

    Sl. 12.16. Gustoce vjerojatnosti za hipotezu i alternativu.

    Sa slike vidimo:x p0

    p0q0n

    = u1D/2,x p1

    p1q1n

    = u1E .

    Eliminacijom varijable x dobivamo vezu:

    x = p0 + u1D/2

    p0q0

    n= p1 u1/E

    p1q1

    n.

    Odavde jen =

    (u1D/2

    p0q0 + u1Ep1q1p1 p0

    )2

    U konkretnom je primjeru p0 = 0.5 , p1 = 0.6 , u1D/2 = u0.975 = 1.96 ,u1E = u0.95 = 1.64 . Uvrstavanjem dobivamo n = 318.06 . Minimalni broj bacanjaje n = 319 . Za taj broj dobivamo

    p = p0 u1D/2

    p0q0n

    = 0.5 0.0549 .Sada je np = 159.517.5 . Prema tome, prihvatit cemo hipotezu ako broj pisama budeizme -du 142 i 177.

  • 62 12. TESTIRANJE HIPOTEZA

    12.3. Usporedbe dviju populacija

    Preciznim ure -dajemmjerena su svojstva nekog elementa. Radi vaznosti ispitivanja,ta su ista svojstva mjerena drugim ure -dajem. Tako su dobivena dva niza podataka.

    Kako cemo analizirati te podatke? Na primjer, kako cemo odrediti sredinu i dis-perziju populacije? Ako se pojavila razlika u sredinama pri ta dva mjerenja, je li onaukazuje na razlicita svojstva mjernih ure -daja, ili je posljedica slucajnosti koja se trebatolerirati?

    Na ta i na jos neka pitanja odgovorit cemo u ovom poglavlju.

    Hipoteza o sredinama, uz poznatu disperzijuTeorijski cemo model postaviti ovako. Zadane su dvije slucajne varijable, X s

    razdiobom F1 i Y s razdiobom F2 . Pretpostavljat cemo da su te varijable nezavisne.Te varijable generiraju uzorke:

    X1, X2, . . . , Xn, s razdiobom F1,Y1, Y2, . . . , Ym, s razdiobom F2.

    Prvo pitanje na koje cemo djelomicno odgovoriti jest: kako se moze provjeriti jesuli neki parametri razdioba F1 i F2 identicni?

    Promotrit cemo sljedecu situaciju: X N (P,V2X) , Y N (Q,V2Y) . Osnovnahipoteza je:

    H0 . . . P = Q.

    U postupku analize koristit cemo statistiku X Y .Znamo da X ima normalnu razdiobu N

    (P,V2Xn

    ). Tako -der, Y ima normalnu

    razdiobu N(Q,V2Ym

    ). Slucajne varijable X1, . . . , Xn i Y1, . . . , Ym su nezavisne, pa

    vrijediE(X Y) = E(X)E(Y) = P Q,

    D(X Y) = D(X) + D(Y) = V2X

    n+V2Ym

    .

    Oznacimo zbog kratkoce ovu zajednicku disperziju s

    V2z =V2Xn

    +V2Ym

    .

    Zbroj nezavisnih normalnih varijabla ima normalnu razdiobu. Zato vrijedi:X Y N (P Q,V2z ).

    U testu cemo koristiti statistiku

    U =X YVz

    .

    12.3. USPOREDBE DVIJU POPULACIJA 63

    Njezina je teorijska razdiobaU N

    (P QVz

    , 1)

    Ako je hipoteza H0 istinita, tada je U N (0, 1) . Zato se u testu moze pri-mjenjivati uobicajeni U -test. Za moguce alternative, kriterij za odbacivanje hipotezeglasi:

    H1 . . . Q < P (desna) u > u1D ,H1 . . . Q > P (lijeva) u < u1D ,H1 . . . Q > P (obostrana) |u| > u1D/2,

    Da bi rezultati bili smisleni, oba uzorka moraju biti istog reda velicine.Primjer 12.11. Uzorak od m = 40 celicnih zica proizvo -daca A imao je srednju

    cvrstocu na kidanje x = 1190 kg. Uzorak od m = 50 celicnih zica proizvo -daca B daoje srednju cvrstocu y = 1220 kg. Standardna devijacija za oba uzorka je poznata i iz-nosi 90 kg. Postoji li razlika u cvrstoci ovih zica? Ocjenu treba dati uz nivo znacajnostiD = 0.05 .

    Postupimo prema uputama. Primjenit cemo test o dvostranoj alternativi, zane-marujuci rezultate dobivene uzorkom. 1

    Standardno odstupanje zajednickog uzorka je

    Vz = V

    1n

    +1m

    = 19.09

    Vrijednost statistike, uz pretpostavljenu uspravnost hipoteze o jednakim ocekivanjem,je

    u =x yVz

    = 1.57 .

    Kriticna vrijednost kvantila je u1D/2 = u0.975 = 1.96 Buduci da je |u| < 1.96 ,hipoteza o jednakosti ne moze se odbaciti.

    Hipoteza o sredinama, uz nepoznatu disperzijuPretpostavimo sad da su uzorci X1, . . . , Xn i Y1, . . . , Ym nezavisni s normalnom

    razdiobom uz jednaku disperziju ciji iznos nije poznat.U tom slucaju racunamo procjenu disperziju iz uzorka:

    S2X =1

    n 1n

    i=1(Xi X)2, S2Y =

    1m 1

    mj=1

    (Yj Y)2.

    Zajednicka disperzija uzorka racuna se kao tezinska sredina ovih disperzija:S2Z =

    1n + m 2

    [(n 1)S2X + (m 1)S2Y

    ].

    1 Ova je strategija jedina ispravna, jer rezultat dobiven uzorkom ne smije modificirati izricanje hipoteza. Izistog razloga u principu unaprijed zadajemo nivo znacajnosti, a ne prilago -davamo ga dobivenim rezultatima.

  • 64 12. TESTIRANJE HIPOTEZA

    Slucajna varijablaU =

    (X P) (Y Q)

    V

    1n

    +1m

    ima jedinicnu normalnu varijablu.Slucajna varijabla

    W2 =(n 1)S2X + (m 1)S2Y

    V2

    ima hi kvadrat razdiobu s m + n 2 stupnjeva slobode. Zato slucajna varijablaU

    n + m 2W

    ima Studentovu razdiobu s m + n 2 stupnjeva slobode.Time smo pokazali da je distribucija slucajne varijable

    (X Y) (P Q)(n 1)S2X + (m 1)S2Y

    nm(n + m 2)

    n + m

    Studentova razdioba s m + n 2 stupnjeva slobode.Pretpostavimo da je hipoteza H0 o jednakosti ocekivanja istinita. U tom slucaju

    mozemo koristiti statistiku

    T =X Y

    SZ

    nm

    n + m.

    Njezina je razdioba Studentova, s n + m 2 stupnjeva slobode.

    Hipoteza o jednakosti proporcijaU uzorcima velicina n1 i n2 broj objekata s danim svojstvima iznosi m1 odnosno

    m2 . Time dobivamo relativne frekvencijep1 =

    m1

    n1, p2 =

    m2

    n2.

    Zelimo odrediti test za hipotezu o jednakosti ovih proporcija.Varijabla m1 ima binomnu razdiobu B(n1, p) , varijabla m2 ima binomnu raz-

    diobu B(n2, p) . Temeljna hipoteza jest da je vjerojatnost realizacije u oba uzorkajednaka:

    H0 . . . p = p

    Pretpostavimo da je ta hipoteza istinita i oznacimo s p zajednicku vjerojatnost. Nekaje V2 = p(1 p) . Sada imamo

    m1

    n1 1

    n1B(n1, p) N

    (p,V2

    n1

    ),

    m2

    n2 1

    n2B(n2, p) N

    (p,V2

    n2

    ).

    12.3. USPOREDBE DVIJU POPULACIJA 65

    Zato za razliku proporcija vrijedip1 p2 N

    (0, V

    2

    n1+V2

    n2

    ).

    Time mozemo definirati statistiku

    U =p1 p2V2

    n1+V2

    n2

    .

    Njezina je distribucija N (0, 1) .Vrijednost disperzije V2 nije poznata, pa je aproksimiramo pomocu cjelokupnog

    uzorka:p =

    m1 + m2n1 + n2

    , V2 = p(1 p).

    Primjer 12.12. Od 100 anketiranih muskaraca 30 je gledalo televizijsku emisiju.Tu istu emisiju gledalo je 45 od 120 anketiranih zena. Uz nivo znacajnosti D = 0.05provjerite hipotezu da je jednak postotak muskaraca i zena koji su gledali tu emisiju.

    Izracunajmo potrebne velicine. Zadano je m1 = 30 , n1 = 100 , m2 = 45 ,n2 = 120 pa je p1 = 0.3 i p2 = 0.375 . Nadalje

    p =m1 + m2n1 + n2

    =75220 = 0.34, V =

    p(1 p) = 0.474 .

    Vrijednost statistike jeU =

    p1 p2V

    1n1

    +1n2

    =0.3 0.375

    0.474

    1100 +

    1120

    = 1.16 .

    Kriticna vrijednost kvantila za dvostrani test je u1D/2 = u0.975 = 1.96 .Hipoteza o jednakosti proporcija ne moze se odbaciti. Primjer 12.13. Poljoprivredni institut ispituje utjecaj gnojiva na novi nasad. U tu

    svrhu, 150 parcela od 400 ostalo je nezagnojeno. Na 77 me -du njima prinos je biozadovoljavajuci. Preostalih 250 je gnojeno, a zadovoljavajuci prinos se dobio na 158parcela.

    Uz nivo znacajnosti D = 0.05 testirajmo hipotezu da gnojenje ne utjece na prinoste kulture.

    Sada je m1 = 77 , n1 = 150 , m2 = 158 , n2 = 250 . Racunamo:p1 = 0.513, p2 = 0.632, p = 0.588, V = 0.492.

    Vrijednost statistike jeu =

    p1 p2V

    n1n2

    n1 + n2= 2.34

    Rijec je o jednostranoj (lijevoj) hipotezi, jer se pretpostavlja da gnojenje povecavaprinos. Zato je kvantil uD = u1D = u0.95 = 1.645 .

    Rezultat pokazuje da se hipoteza mora odbaciti.

  • 66 12. TESTIRANJE HIPOTEZA

    12.4. Testovi prilagodbe razdiobama

    U svim dosadasnjim razmatranjima odre -divali smo procjene ili intervale povjerenjaza nepoznate parametre poznate razdiobe.

    Ako razdioba slucajne varijable nije poznata, mozemo li na temelju vrijednostiuzorka otkriti o kojoj se razdiobi radi? Kolika je pouzdanost takvog zakljucka?

    Na ta pitanja najbolji odgovor daje F2 -test (Pearsonov test).

    2 -test

    Pretpostavimo da slucajna varijabla X ima nepoznatu razdiobu F . Cilj hi kvadrattesta jest provjeriti hipotezu o vrsti te razdiobe. Ideja testa temelji se na sljedecem.

    Podrucje vrijednosti slucajne varijable X razbije se na disjunktne intervale Ak ,k = 1, . . . , m . Uz pretpostavku da je hipoteza o razdiobi istinita, odrede se teorijskevjerojatnosti

    pk = P (X Ak).Zbroj ovih vjerojatnosti iznosi

    p1 + . . . + pm = 1.Na temelju realizacija slucajne varijable X , odredi se broj realizacija nk koji

    pripada pojedinom razredu. Zbroj svih tih realizacija jednak je volumenu uzorka:n1 + . . . + nm = n.

    Oznacimo s Yk slucajnu varijablu koja mjeri broj realizacija unutar razreda Ak .To je binomna slucajna varijabla Yk B(n, pk) . Njezina ocekivana vrijednost je npk .na taj nacin mozemo uspore -divati dvije vjerojatnosti:

    pk teorijska vjerojatnost k-tog razreda,nkn

    vjerojatnost k-tog razreda dobivena iz uzorka.

    Ukoliko je hipoteza o razdiobi tocna, tada razlike nkn pk moraju biti malene.

    Zato je prirodno uzeti kao mjeru odstupanja od teorijske razdiobe sljedecu tezinskuvarijantu zbroja najmanjih kvadrata:

    mk=1

    tk

    (nkn pk

    )2.

    Tezinske faktore cemo odabrati tako da bude tk = n/pk . Razlog za ovaj odabir jest stoce ova suma dobiti oblik.

    mk=1

    (nk npk)2npk

    .

    Pearson 1 je pokazao da ova slucajna varijabla (vrijednosti brojeva nk ovise o realizacijiuzorka) ima priblizno F2 -razdiobu, s n 1 stupnjeva slobode.

    1 Karl Pearson (1857.1936.), engleski matematicar

    12.4. TESTOVI PRILAGODBE RAZDIOBAMA 67

    Dokaz te tvrdnje moze se naslutiti iz oblika pribrojnika. Slucajna varijablaYk npknpk(1 pk)

    ima ocekivanje 0 i disperziju 1 , pa se moze aproksimirati razdiobom U N (0, 1) .To znaci da kvadrat te varijable ima priblizno U2 razdiobu, pa je onda i

    (nk npk)2npk

    U2.Zbroj ovakvih slucajnih varijabli ima F2 razdiobu. Broj stupnjeva slobode smanjenje za 1, jer varijable Y1, . . . , Ym nisu nezavisne, njihov zbroj iznosi n . Nazivniknpk(1 pk) zamijenjen je s npk da bi se dobila bolja aproksimacija.

    Dokaz ovog teorema o aproksimaciji ne mozemo navesti na ovommjestu. Umjestotoga, izvest cemo transformaciju u najjednostavnijem slucaju m = 2 . Tu je n = n1+n2i 1 = p1 + p2 pa imamo

    (n1 np1)2np1

    +(n2 np2)2

    np2=

    (n1 np1)2np1

    +[n n1 n(1 p1)]2

    np2

    =(n1 np1)2

    n

    (1p1

    +1p2

    )=

    (n1 np1)2np1(1 p1) .

    Dobivena slucajna varijabla ima priblizno razdiobu U2 , sto je i trebalo pokazati u ovomslucaju.

    U primjenama vrlo cesto poznajemo samo tip razdiobe, ali ne i sve njezine para-

    metre. Tada nepoznate parametre racunamo iz uzorka. To ima za posljedicu smanjenjestupnjeva slobode odgovarajuce F2 razdiobe.

    Opisimo sad algoritam.

    Hi kvadrat test1. Uzorak {x1, x2, . . . , xn} podijelimo u m razreda. Neka je nk broj re-

    alizacija u pojedinom razredu, te pk teorijska vjerojatnost pojedinog razreda.Minimalni volumen pojedinog razreda treba biti 5, razrede za koje je nj < 5spajamo s njima susjednim.

    2. Statistika F2 -testa dana je s

    F2q =m

    k=1

    (nj npj)2npj

    Slucajna varijabla F2q ima priblizno F2 razdiobu s f = m r 1 stupnjevaslobode. Tu je r broj parametara razdiobe izracunatih iz uzorka.

    3. U tablicama procitamo kvantil F2krit = F2f ,1D , za zadani nivo znacaj-nosti D i broj stupnjeva slobode f .

    4. Ako je F2q < F2krit , prihvaca se hipoteza da se razdioba varijable Xpodvrgava doticnom zakonu. U protivnom, ta se hipoteza odbacuje.

  • 68 12. TESTIRANJE HIPOTEZA

    Primjer 12.14. Na jednom strelistu ga -dano je u 100 meta, u svaku s po 10 metaka.Biljezen je broj pogodaka u svaku od meta:

    j 0 1 2 3 4 5 6 7 8 9 10nj 0 2 4 10 22 26 18 12 4 2 0

    S kojom vjerojatnoscu se moze tvrditi da se on ravna po binomnom zakonu?

    Spojit cemo prva tri i posljednja tri razreda. Prvi parametar binomne razdiobeje 10 . Nepoznati parametar p binomne razdiobe odredit cemo iz uzorka. U tu svrhu,iskoristit cemo vezu parametra s ocekivanjem: E(X) = 10p . Vrijedi

    x =1n

    10j=0

    nj j = 5.0 .

    Zato je p = x10 = 0.5 .Prema tome, hipoteza koju testiramo glasi X B(10, 12) . Teorijske frekvencije

    pojedinog razreda su

    pj =( 10

    j)(1

    2

    )j(12

    )10j=( 10

    j) 1210

    .

    Sad mozemo popuniti tablicu:

    j nj pj nj npj (njnpj)2

    npj0 01 2

    }0.0546 0.540 0.053

    2 43 10 0.1172 1, 720 0.2524 22 0.2051 1, 490 0.1085 26 0.2466 1.340 0.0736 18 0.2051 2.510 0.3077 12 0.1172 0.280 0.0078 49 2

    }0.0546 0.540 0.053

    10 0100 F2q = 0.854

    S obzirom da je u ovoj tablici preostalo 7 razreda, a jedan parametar je dobiven izuzorka, broj stupnjeva slobode je k = 7 1 1 = 5 .

    Uvidom u tablicu kvantila hi kvadrat razdiobe s 5 stupnjeva slobode citamo:F20.02 = 0.75 , F20.05 = 1.14 . Prema tome X se ravna po binomnoj razdiobi uz ni-vo znacajnosti D = 0.95 .

    12.4. TESTOVI PRILAGODBE RAZDIOBAMA 69

    Primjer 12.15. Provjeravaju se dimenzije iz uzorka nacinjenog na preciznom to-karskom automatu, s tocnoscu od 1 Pm. U tablici su dana odstupanja od nominalnevrijednosti, svrstani u intervale [aj, aj+1] zadanih duljina. Provjeri hipotezu da seodstupanja ravnaju po normalnoj razdiobi, uz nivo znacajnosti 5% .

    aj aj+1 nj 15 915 10 1210 5 145 0 170 5 435 10 4510 15 2315 20 1520 25 1425 + 8

    Volumen uzorka iznosi n = 200 . Svi razredi su dovoljne velicine, pa jem = 10 .

    Parametre razdiobe izracunat cemo iz uzorka. S obzirom da je varijabla nepreki-nutog tipa (razbijena u razrede), svaki cemo razred predstaviti reprezentantom, brojemxj koji lezi u sredini intervala. Za prvi i posljednji interval uzet cemo ekvidistantnebrojeve x1 = 17.5 i x10 = 27.5 .

    x =1n

    njxj = 5.375

    Na isti nacin racunamo i disperziju uzorka:m2 =

    1n

    njx2j = 148.25

    Odavde jeV2 = m2 x2 = 119.36,

    pa je nepristrana procjena za disperzijus2 =

    n

    n 1 V2 = 119.96 .

    Odavde je s = 10.95 .Prema tome, testiramo hipotezu X N (5.375, 10.952) .Da bismo odredili teorijske frekvencije razreda, izracunat cemo i upisati u tablicu

    iznos brojeva zj , koji odgovaraju granicama intervala aj , ali za odgovarajucu jedinicnunormalnu razdiobu Z :

    zj =aj x

    s.

    Zatim se u tablicama potraze vrijednosti normalne razdiobe u tim tockama. te se vri-jednosti upisu u sljedeci stupac tablice. One su potrebne da bi se izracunale teorijskevjerojatnosti:

    pj = P (aj X aj+1) = P (zj Z zj+1) =12[)(zj+1) )(zj)]

  • 70 12. TESTIRANJE HIPOTEZA

    Ostali stupci tablice popune se odgovarajucim vrijednostima.

    aj nj xj zj )(zj) pj(njnpj)2

    npj 115 9 17.5 1.86 0.937 0.031 1, 1710 12 12.5 1.40 0.840 0.049 0.525 14 7.5 0.947 0.657 0.092 1.020 17 2.5 0.491 0.376 0.140 4.335 43 2.5 0.034 0.027 0.175 1.88

    10 45 7.5 0.422 0.327 0.177 2.5715 23 12.5 0.879 0.620 0.147 1.3720 15 17.5 1.34 0.818 0.099 1.1525 14 22.5 1.79 0.927 0.054 0.91

    + 8 27.5 + 1 0.037 0.06200 1 14.97

    U ovoj tablici rub prvog intervala a0 = 20 zamijenjen je s , a rub posljed-njeg intervala a10 zamijenjen je s + . Tako je vrijednost funkcije ) u tim tockamajenaka 1 odnosno 1 . To je ucinjeno da bi zbroj svih teorijskih vjerojatnosti iznosio1.

    Broj stupnjeva slobode je k = m r 1 = 7 . Kriticna vrijednost kvantila F2razdiobe je F20.95 = 14.1 . Dobivena vrijednost je veca od granicne, pa se hipoteza onormalnoj razdiobi mora odbaciti.

    Racun u ovoj tablici nacinjen je programom Excell. Vecina statistickih izracunamoze se vrlo jednostavno racunati uporabom tog programa. To se pogotovo odnosi naprograme specijalizirane za primjenu u matematickoj statistici. Relativne frekvencije i rekonstrukcija funkcije razdiobe

    Pretpostavimo da nam je nepoznata funkcija razdiobe populacije X . Mozemo litu funkciju odrediti na temelju vrijednosti koje slucajna varijabla poprima?

    Neka je x bilo koji realni broj. Definirajmo funkcijuFn(x) =

    Pn(x)n

    pri cemu jePn(x) = broj elemenata uzorka {X1, . . . , Xn} koji su manji od x.

    Primjer 12.16. Nacrtajmo graf funkcije Fn , ako je uzorak poprimio vrijednosti2, 3, 1.5, 0.4, 2, 5, 1, 2.2, 0.3, 1.7 .

    Volumen uzorka n iznosi 10. Vrijednosti u uzorku poredamo u rastucemporetku:

    2, 1.5, 1, 0.3, 0.4, 1.7, 2, 2.2, 3, 5 .Prema definiciji funkcije Fn , ona ce biti stepenasta funkcija sa skokovima iznosa1n

    =110

    u ovim tockama.

    12.4. TESTOVI PRILAGODBE RAZDIOBAMA 71

    Sl. 12.17. Funkcija razdiobe uzorka (skokovi ne odgovaraju podatcima iz primjera).

    Vrijednosti funkcije Fn ovise o realizaciji uzorka. Ona je slucajna varijabla toguzorka.

    Teorem 12.1. Statistika Fn(x) je nepristrana i valjana procjena za vrijednost slu-cajne varijable F(x) .

    Dokaz. Oznacimo, za svaki k iz skupa {1, . . . , n} :p = P (Xk < x) = F(x),q = P (Xk x) = 1 F(x).

    Tada slucajna varijabla Pn(x) ima binomnu razdiobu B(n, p) . Stoga vrijediE(Fn(x)) =

    1nE(Pn(x)) =

    1n np = p = F(x).

    Nadalje, prema slabom zakonu velikih brojeva, vrijediB(n, p) npn P 0

    pa dobivamo|Fn(x) F(x)| P 0.

    Dakle, Fn(x) je valjana procjena za F(x) .Iskoristimo li jaki zakon velikih brojeva, zakljucit cemo da u ovom slucaju vrijedi

    i mnogo jaca tvrdnja:Teorem Glivenko-Cantellija

    Teorem 12.2. Neka su (Xn) nezavisne kopije slucajne varijable X s razdiobomF . tada vrijedi

    limnP

    (sup

    x

    Pn(x)n F(x) = 0

    )= 1.

    Dakle, Pn(x)n

    konvergira ka F(x) skoro sigurno.

  • 72 12. TESTIRANJE HIPOTEZA

    Kolmogorovljev kriterijOvim testom provjeravamo hipotezu o ravnanju podataka dobivenih uzorkom pre-

    ma nekoj razdiobi s poznatom funkcijom razdiobe F .Kriterij se temelji na teoremu Glivenko-Cantellija prema kojem niz (Fn(x)) funk-

    cija razdioba dobivenih iz uzorka konvergira prema funkciji razdiobe F(x) . To znacida ce maksimum razlike tih dviju funkcija teziti u nulu, ukoliko je F(x) zaista funkcijarazdiobe koja odgovara uzorku.

    Definirajmo slucajnu varijabluO :=

    n sup

    x

    |F(x) Fn(x)|.

    Kolmogorov je odredio zakon razdiobe ove slucajne varijable. Njezini kvantili suizracunati i zapisani u tablicama.

    Za zadani nivo pouzdanosti p , kvantil ove razdiobe Op procita se u tablicama. Hi-potezu o ravnanju uzorka prema teorijskoj razdiobi cemo odbaciti, ukoliko je dobivenavrijednost veca od kriticne:

    O > Op.

    U protivnom, hipotezu prihvacamo (ili je ne mozemo odbaciti).

    Primjer 12.17. Znamenke 0,1,2,. . . ,9 me -du prvih 800 decimala broja S pojavljujuse 74-92-83-79-80-73-77-75-76-91 puta. Kad bi te znamenke bile slucajne, s kojomvjerojatnoscu bi mogli prihvatiti tvrdnju da se svaka me -du njima moze pojaviti nanekom mjestu decimalnog zapisa s jednakom vjerojatnoscu?

    Funkcije Fn(x) i F(x) su stepenaste, sa skokovima u tockama 0, 1, 2, . . . , 9 ,Iznos skoka funkcije F iznosi 0.1 , a iznos skoka funkcije Fn omjer je broja realizacijapojedine znamenke i ukupnog broja znamenaka. Eksplicitne formule su:

    F(x) =j + 110

    , j x < j + 1,

    Fn(x) =1n

    ij+1

    ni, j x < j + 1.

    Vrijednosti tih funkcija iscitavaju se iz ove tablice:xj nj Fn(x) F(x)0 74 0.093 0.11 92 0.208 0.22 83 0.311 0.33 79 0.410 0.44 80 0.510 0.55 73 0.601 0.66 77 0.698 0.77 75 0.791 0.88 76 0.886 0.99 91 1.000 1.0

    12.4. TESTOVI PRILAGODBE RAZDIOBAMA 73

    Za ovu realizaciju, slucajna varijabla O poprima vrijednostO =

    n max

    x|F(x) Fn(x)| =

    800 0.014 = 0.396 .

    Iz tablica se ocitavaju kvantili:O0.001 = 0.38, O0.005 = 0.42.

    Dakle, vjerojatnost prihvacanja hipoteze po ovom kriteriju je veca od 0.995 .

    Ispitivanje nezavisnosti slucajnih varijabla

    Pretpostavit cemo da su slucajne varijable X i Y diskretnog tipa, ili je podrucjenjihovih vrijednosti razbijeno u disjunktne razrede, i to:

    vrijednosti varijable X u r razreda, vrijednosti varijable Y u s razreda.Slucajne varijable definirane su na istom vjerojatnosnom prostoru i poprimaju

    istovremeno vrijednosti na svakom elementarnom doga -daju. Oznacimo:kij = broj realizacija za koje je X = xi, Y = yj

    Marginalne frekvencije dobivamo zbrajanjem. Ukupan broj realizacija za koje je X = xioznacavamo s:

    ki0 =s

    j=1kij.

    Analogno, ukupan broj realizacija za koje je Y = yj oznacavamo s:

    k0j =r

    i=1kij.

    Ako su slucajne varijable nezavisne, tad bi frekvencija kij trebala biti proporci-onalna s ki0 k0j . Zato je prirodno kao mjeru za odstupanje od nezavisnosti definiratisumu

    F2q =r

    i=1

    sj=1

    (kij nij)2nij

    .

    Tu jenij =

    ki0k0jN

    , N =

    i,jkij.

    Slucajna varijabla F2q ima priblizno F2 razdiobu sk = (r 1)(s 1)

    stupnjeva slobode. Hipoteza o nezavisnosti ce se prihvatiti ukoliko je izracunata vri-jednost F2q manja od kriticnog kvantila za tu hi kvadrat razdiobu.

  • 74 12. TESTIRANJE HIPOTEZA

    Primjer 12.18. Izmjereno je 600 detalja, pri cemu su za svaki od njih provjeravanedimenzije, duzina X i sirina Y .

    podbacaj u granicama prebacajpodbacaj 6 48 8u granicama 52 402 36prebacaj 6 38 4

    Pomocu F2 -testa provjerimo da li su otkloni dimenzija X i Y me -dusobno neza-visni, uz nivo znacajnosti D = 0.1 .

    Postupak racunanja pratimo u sljedecim tablicama:podbacaj u granicama prebacaj ki0

    podbacaj 6 48 8 62u granicama 52 402 36 490prebacaj 6 38 4 48k0j 64 488 48 600

    nij j = 1 j = 2 j = 3i = 1 6.61 50.43 4.96i = 2 52.27 398.53 39.20i = 3 5.12 39.04 3.84

    (kijnij)2nij

    j = 1 j = 2 j = 3i = 1 0.06 0.12 1.86i = 2 0.00 0.03 0.26i = 3 0.15 0.03 0.01

    Zbroj elemenata u ovoj tablici daje F2q = 2.52 . Kriticna vrijednost hi kvadratrazdiobe za k = (r 1)(s 1) = 4 stupnja slobode je F20.9 = 7.78 .

    Prema tome, hipoteza o nezavisnosti ne moze se odbaciti.

    12. ZADATCI ZA VJE ZBU 75

    12. Zadatci za vjezbu

    1. Slucajna varijabla X je normalno distribuiranas nepoznatim ocekivanjem i disperzijom V2 = 6 .Uzorak od n = 100 mjerenja dao je srednju vri-jednost x = 16.2 . Uz nivo znacajnosti D = 0.05testirajte hipotezu H0 . . . a = 15 , uz alternativuH1 . . . a = 15 .2. Slucajna varijabla X je normalno distribuiranas nepoznatim ocekivanjem i nepoznatom disperzi-jom. Uzorak od n = 50 mjerenja dao je srednjuvrijednost x = 24.2 i s2 = 4.8 . Uz nivo znacaj-nosti D = 0.05 testirajte hipotezu H0 . . . a = 25 ,uz alternativu H1 . . . a < 25 .3. Pseudoslucajnim generatorom simulirano je ba-canje novcica 10000 puta. Pismo je registrirano5120 puta. S kojim nivoom znacajnosti mozemopotvrditi hipotezu o ispravnosti generatora?4. Pri proizvodnji u normalnim uvjetima, stroj daje2% skarta. Na uzorku od 500 proizvoda primje-ceno je 16 skartnih proizvoda. Provjeri hipotezu oispravnosti deklaracije, uz nivo znacajnosti 5%.5. Srednja vrijednost uzorka volumena 50 iznosix = 12.6 , uz devijaciju s = .53 . provjeri hipotezuH0 . . . a = 12 , uz nivo znacajnosti D = 0.05 .6. U tablici su dana odstupanja promjera valjakaobra -divanih na preciznom tokarskom stroju u P mod nominalePm 05 510 1015 1520 +20

    nj 15 75 100 50 10

    Pomocu F2testa, uz nivo znacajnosti D = 0.2 ,provjeri suglasnost ovih podataka sa normalnomrazdiobom.7. Proizvo -dac tvrdi da je vrijeme rada nekog ure -dajabarem 200 dana. Izabran je uzorak od 8 proizvodakoji je dao rezultate:165 , 170 , 182 , 185 , 193 , 200 , 203 , 210Provjeri ispravnost tvrdnje proizvo -daca uz nivo zna-cajnosti D = 0.05 .8. Rezultati nekog mjerenja dani su u tablici:

    j 0 1 2 3 4 5 6 7 8mj 12 62 129 172 150 80 28 5 2

    Pomocu F2testa provjeri hipotezu da se ovi poda-ci pokoravaju binomnom zakonu B(8, 0.4) uz nivoznacajnosti D = 0.90 .

    9. Rezultati mjerenja slucajne varijable X dani suu tablici:

    xj 0 1 2 3 4

    mj 132 48 20 3 2

    S pomocu F2testa provjeri hipotezu da se ovi po-daci ravnaju po Poissonovoj razdiobi, uz nivo zna-cajnosti 0.05 .10. Uzastopnim ponavljanjem nekog pokusa dobi-vene su sljedece vrijednosti neprekidne slucajne va-rijable X

    [a, b] 05 510 1015 1520 2025

    mj 15 60 90 50 10

    Pomocu F2testa provjeri suglasnost ovih podata-ka sa normalnom razdiobom, uz nivo znacajnostiD = 0.8 .11. Proizvo -dac tvrdi da je tvornicka tezina nekogproizvoda 100 p. Uzorak od 20 proizvoda dao jerezultate:

    tezina 98 99 100 101 102

    broj uzoraka 4 6 6 3 1Provjeri ispravnost tvrdnje proizvo -daca uz nivo zna-cajnosti D = 0.05 .12. Rezultati mjerenja slucajne varijable X dani suu tablici:

    xj 0 1 2 3 4 5

    mj 505 336 125 24 8 2Provjeri, uz nivo znacajnosti D = 0.05 , hipotezu daslucajna varijabla X ima Poissonov zakon razdiobe.13. Ispitaj suglasnost podataka u tablici

    xj 0 1 2 3 4 5 6 7

    nj 21 62 50 40 22 0 5 0sPoissonovom razdiobom, uz nivo znacajnosti 0.05 .14. Realizacije slucajne varijable X zadane su tab-licom:

    xj 0 1 2 3 4 5

    mj 6 10 20 10 6 0

    Pomocu F2testa, uz nivo znacajnosti 0.05 , pro-vjeri suglasnost tih podataka s Poissonovom razdi-obom.

  • 76 12. TESTIRANJE HIPOTEZA

    15. Rezultati mjerenja slucajne varijable X dani suu tablici:

    xj 0 1 2 3 4

    mj 130 52 18 4 1Pomocu F2texta provjeri hipotezu da se ovi podaciravnaju poPoissonovoj razdiobi, uz nivo znacajnosti0.05 .16. Rezultati nekog pokusa u kojem se u 1000 is-pitivanja biljezio broj xj pojavljivanja nekog doga--daja, dani su u tablici:

    xj 0 1 2 3 4 5

    nj 505 336 125 24 8 2Provjeri pomocu F2testa, uz nivo znacajnosti 0.05 ,suglasnost ovih podataka sPoissonovom razdiobom.17. 100 puta su bacena cetiri novcica i biljezen jebroj X pojavljivanja grbova:

    xi 0 1 2 3 4

    ni 8 20 42 22 8

    Pomocu F2testa provjeri hipotezu da X ima bi-nomnu razdiobu s parametrom p = 0.5 , uz nivoznacajnosti D = 0.05 .18. Rezultati mjerenja slucajne varijable X dani suu tablici

    xj 0 1 2 3 4

    nj 120 56 18 4 2Pomocu F2testa provjeri hipotezu da se ovi podaciravnaju poPoissonovoj razdiobi, uz nivo znacajnosti0,05 .19. 220 puta je baceno 5 novcica i biljezen je brojX pojavljivanja grbova:

    xi 0 1 2 3 4 5

    ni 6 32 71 69 35 7Pomocu F2testa provjeri hipotezu da X ima bi-nomnu razdiobu s parametrom p = 12 , uz nivoznacajnosti 0.95 .20. U 320 obitelji sa petoro djece izbrojena sumus-ka odnosno zenska djeca, i dobiven je rezultat prematabeli

    muska dj. 5 4 3 2 1 0zenska dj. 0 1 2 3 4 5broj obitelji 18 56 110 88 40 8

    S nivoom znacajnosti 5% testiraj hipotezu da sumuska i zenska djeca jednako vjerojatna!21. U Mendeljejevim eksperimentima sa graskomispitano je 560 zrna i dobiveno je

    317 okruglih i zutih109 okruglih i zelenih102 smezuranih i zutih32 smezurana i zelena

    Prema njegovoj teoriji o naslije -divanju, ovi brojevibi morali biti u omjeru 9 : 3 : 3 : 1 . S nivoom zna-cajnosti 5% odgovori treba li prihvatiti ili odbacitiovu pretpostavku.22. 4 kovana novcica bacena su istovremeno 96puta i svaki put je zabiljezen broj grbova:

    i 0 1 2 3 4

    f i 5 26 34 24 7S nivoom znacajnosti 5% provjeri da li se dobi-veni rezultati slazu s hipotezom o ispravnosti svihnovcica.23. Igraca kocka bacena je 180 puta i dobiveni susljedeci rezultati:

    broj 1 2 3 4 5 6nj 34 28 26 32 27 33

    Pomocu F2testa provjeri da li se ovi podaci rav-naju po jednolikoj razdiobi, uz nivo znacajnostiD = 0.90 .24. Ispitaj suglasnost podataka u tablici

    xj 0 1 2 3 4 5

    nj 20 55 48 35 18 10sPoissonovom razdiobom, uz nivo znacajnosti 0.05 .25. Kocka je bacena 180 puta i dobiveni su sljedecirezultati

    1 2 3 4 5 6

    34 28 26 32 27 33

    Pomocu F2 testa provjeri da li se ovi podaci ravna-ju po jednolikoj razdiobi, uz nivo znacajnosti 0.1 .26. U prvih 800 znamenaka decimalnog prikazabroja S znamenke 0, 1, . . . , 9 pojavljuju se 74,92, 83, 79, 80, 73, 77, 75, 76, 91 put. ProvjeriF2 testom hipotezu da je pojava svih znamenaka utom prikazu jednako vjerojatna, uz nivo znacajnostiD = 0.1 .

    13.Stohasticki procesi

    1. Stohasticki procesi . . . . . . . . . . . . . . . . . . . . 772. Markovljevi lanci . . . . . . . . . . . . . . . . . . . . . 85

    13.1. Stohasticki procesi

    Uvod

    Slucajna varijabla je preslikavanje X : : R . Za svaku realizaciju elemen-tarnog doga -daja Z ona poprima vrijednost X(Z) u skupu realnih brojueva. Pri tomzahtijevamo da skup

    {Z : : X(Z) < a}bude doga -daj, za svaki izbor realnog broja a . Tad je odre -dena njegova vjerojatnost itime je definirana funkcija

    F(a) := P (X < a)

    koju nazivamo funkcija razdiobe slucajne varijable X .Pojam slucajne varijable neovisan je o vremenu. Me -dutim, mnogi procesi ciji

    je ishod neizvjestan a koji se odvijaju u vremenu zahtijevaju da se koncept slucajnevarijable poopci tako da ukljucuje i vremensku komponentu. Na taj nacin, promatrajucifamiliju slucajnih varijabli koja ovisi o vremenu, doci cemo do pojma stohastickogprocesa.

    Neka je T R skup vremena u kojima promatramo stohasticki proces. Za svakovrijeme t T odre -dena je slucajna varijabla koju cemo oznacavati s Xt ili pak s X(t) .Familija tih slucajnih varijabli definira stohasticki proces X :

    X = {Xt, t T}.Stohasticki proces mozemo shvatiti kao funkciju dviju varijabli

    X : T : S.

    77

  • 78 13. STOHASTI CKI PROCESI

    Ovdje je S skup stanja, skup unutar kojeg proces poprima vrijednosti. Kod nas ce bitiuvijek S Z , ili S R ili, najopcenitije, S C . Za izabrano vrijeme t i elementarnidoga -daj Z , X(t,Z) jest realizacija procesa.

    Fiksiramo li vrijeme t T , tada je Z X(t,Z) slucajna varijabla, koja opisujemoguce realizacije procesa u buducem trenutku t . Da bismo poznavali proces, moramopoznavati ne samo razdiobu svih tih slucajnih varijabli, vec i njihovu me -duovisnost.

    Ako izaberemo fiksni Z : , tada preslikavanje t X(t,Z) opisuje realizacijeprocesa X tijekom vremena. Tu funkciju realne varijable T nazivamo trajektorija.Izgled trajektorije mijenja se za svaku drugu realizaciju elementarnog doga -daja.

    t

    t X ( )t

    Z

    Z

    tX ( )Z

    Sl. 13.1. Trajektorije procesa realne su funkcije definirane na skupu T R . Za fiksno vrijemet , moguce realizacije procesa opisane su slucajnim varijablama Xt

    Podjela procesaPri proucavanju procesa obicno ih dijelimo po njihovim svojstvima u razlicite

    skupine. Jednu podjelu mozemo naciniti po prirodi skupova T i S .Ukoliko je skup T diskretan, T = {t1, t2, . . .} , tad je primjerenije govoriti o

    nizu slucajnih varijabli. Teorija Markovljevih lanaca proucava tekve nizove slucajnihvarijabli kod kojih je i skup stanja S diskretan.

    Kod ostalih stohastickih procesa vrijeme T je kontinuirano. Skup stanja S mozebiti bilo diskretan bilo kontinuiran. Tako npr., Poissonov proces, koji mjeri broj reali-zacija negog doga -daja, primjer je procesa s kontinuiranim vremenom T i diskretnimskupom stanja S . Tipicna trajektorija Poissonovog procesa prikazana je na slici 13.2.

    1

    2

    3

    t

    Sl. 13.2. Trajektorija Poissonovog procesa. U trenutcima u kojima se realizirao doga -daj koji sepromatra, trajektorija procesa ima skok iznosa 1

    13.1. STOHASTI CKI PROCESI 79

    Drugi je vazni primjer stohastickog procesa Brownowo gibanje 1 . Godine 1827.Brown je promatrao kaoticno gibanje zrnaca peludi u tekucoj otopini. Uslijed termic-kog gibanja molekula dolazi do njihova sudaranja sa zrncem peludi koje se giba po vrlonepravilnim putanjama. Gibanje je to kaoticnije sto je temperatura veca. Zbog jed-nostavnijeg prikaza, u pocetku je bolje promatrati jednodimenzionalni model, u kojemzamisljamo da cestica u svakom trenutku moze krenuti bilo lijevo, bilo desno sto na-likuje na slucajno pomicanje po pravcu. Trajektorija jednodimenzionalnog Brownovoggibanja neprekinuta je funkcija.

    Sl. 13.3. Trajektorija Brownovog gibanja neprekinuta je funkciuja

    Konacnodimenzionalne razdiobe

    Slucajna je varijabla odre -dena svojim jednodimenzionalnim razdiobama. Neka jet1 T , funkcija razdiobe slucajne varijable Xt1 je

    Ft1(x1) := P (Xt1 < x1).Familiju {Ft, t T} nazivamo familija jednodimenzionalnih razdioba. Ako pozna-jemo sve jednodimenzionalne razdiobe, ipak ne poznajemo proces X jer moramo znatii me -duovisnosti slucajnih varijabli. Za poznavanje procesa X moramo znati razdiobeslucajnih vektora (Xt1 , Xt2 , . . . , Xtn) za svaki izbor vremena t1, t2, . . . , tn T . Funkcijakoja opisuje razdiobu nekog ovakvog vektora naziva se n -dimenzionalna razdioba.

    Ft1,...,tn(x1, . . . , xn) := P (Xt1 < x1, . . . , Xtn < xn).Proces je jednoznacno odre -den ako poznajemo familiju svih njegovih n -dimenzional-nih razdioba, za svaki n N i svaki moguci izbor t1, . . . , tn T . Kazemo da tadpoznajemo familiju konacnodimenzionalnih razdioba.

    Konacnodimenzionalne razdiobe mogu biti odre -dene i svojim gustocama:f t1,...,tn(x1, . . . , xn) =

    n

    x1 xn Ft1,...,tn(x1, . . . , xn).

    Poznavanje familije konacnodimenzionalnih razdioba je u praksi vrlo zahtjevan

    uvjet. Mi cemo uglavnom proucavati one klase procesa kod kojih je dovoljno poznavatisamo jednodimenzionalne i dvodimenzionalne razdiobe, jer im neka dodatna svojstva

    1 Robert Brown (17731858), Skotski botanicar

  • 80 13. STOHASTI CKI PROCESI

    osiguravaju da se iz tih podataka moze odrediti familija konacnodimenzionalnih razdi-oba. Dvije velike klase stohastickih procesa koje se posebno izucavaju su Markovljeviprocesi i stacionarni procesi.

    Markovljevi procesiX je Markovljev proces ako za sve t1 < t2 < . . . < tn < t vrijedi

    P (a < Xt < b | Xt1 =x1, Xt2 = x2, . . . , xtn = xn)= P (a < Xt < b | Xtn = xn). (13.1)

    Kazemo da Markovljevi procesi nemaju pamcenje. Vjerojatnost nekog doga--daja koji ce se zbiti u buducnosti (u trenutku t ) ne ovisi o proslosti (trenutcimat1, t2, . . . , tn1 ) vec samo o sadasnjosti (trenutku tn ).

    t

    a

    W

    b

    t t t1 2 n

    Sl. 13.4. Markovljevo svojstvo odsustva pamcenja: vjerojatnost da trajektorija procesa pro -dekroz okvir [a, b] u buducem trenutku t ovisi samo o polozaju xn u sadasnjosti, a ne i o nacinu

    kako je proces stigao u tu tocku.

    Mnogi procesi interesantni u primjenama zadovoljavaju sljedece jace svojstvo:Procesi s nezavisnim prirastima

    Za proces X kazemo da je proces s nezavisnim prirastima ako su za svet1 < t2 < . . . < tn slucajne varijable X(t2) X(t1) , X(t3) X(t2) ,. . . ,X(tn) X(tn1) nezavisne.

    Sljedeca vazna klasa stohastickih procesa definirana je sljedecim uvjetom:Staconarni procesi

    X je stacionaran (u uzem smislu) ako za svaki h slucajni vektori (X(t1), . . . , X(tn))i (X(t1 + h), . . . , X(tn + h)) imaju istu distribuciju. To su procesi cije sukonacnodimenzionalne razdiobe invarijantne na pomake u vremenu.

    Uvjet stacionarnosti jaki je uvjet. U mnogim je slucajevima dovoljno zahti jevatiizvjesnu mjeru vremenske invarijantnosti ali ne za sve konacnodimenzionalne razdiobe,

    13.1. STOHASTI CKI PROCESI 81

    vec samo za dvije funkcije koje ovise samo o jedno i dvodimenzionalnim razdiobama.Te su dvije funkcije ocekivanje i korelacijska funkcija.

    Moment prvog reda definiramo ovako:

    m(t) := E[X(t)] =

    xf t(x)dx.Znajuci dvodimenzionalne razdiobe procesa mozemo racunati korelacijsku funkciju

    R(t, s) := E[X(t)X(s)] =

    x1x2f t,s(x1, x2)dx1dx2.

    Ako je X stacionaran u uzem smislu, onda vrijedim(t+h) = E[X(t+h)] =

    xf t+h(x)dx =

    xf t(x)dx = E[X(t)] = m(t), h.

    Stoga je ocekivanje stacionarnog procesa (ukoliko postoji) konstantno. Slicno, vrijediza sve t , s i h :

    R(t + h, s + h) = E[X(t + h)X(s + h)] = E[X(t)X(s)] = R(t, s).Funkcija dviju varijabli s ovim svojstvom ovisi zapravo samo o razlici argumenata

    t i s . Neka je t > s . Onda imamo, stavljajuci h = s ,R(t, s) = R(t s, s s) = R(t s, 0) = E[X(t s)X(0)].

    Zato smijemo pisati, koristeci isto slovo za funkciju razlike argumenata:R(t s) := E[X(t)X(s)].

    Tu cemo formulu cesce pisati ovako:R(h) = E[X(t)X(t + h)]

    jer desna strana ne ovisi o trenutku t vec samo o razlici vremena h .

    Stacionarni procesiKazemo da je proces X stacionaran (u sirem smislu) ako vrijedi

    (1) ocekivanje je konstantno: m(t) = const,(2) korelacijska funkcija R(t, s) ovisi samo o razlici vremena t s .

    Osim korelacijske funkcije, ponekad se promatra i kovarijacijska funkcija C(t, s)definirana s

    C(t, s) := E[(X(t) m(t))(X(s) m(s))].Zbog linearnosti ocekivanja, desnu stranu mozemo napisati i ovako:

    C(t, s) = E[X(t)X(s)] m(t)m(s) = R(t, s) m(t)m(s).Vidimo da se kovarijacijska funkcija podudara s korelacijskom kod centriranih procesa,cije je ocekivanje jednako nuli. Me -dutim, mi mozemo svaki proces vrlo jednostavnocentrirati. Dovoljno je da mu oduzmemo deterministicku funkciju m(t) . StavimoX(t) := X(t) m(t) . Za ovakav proces vrijedi E[X(t)] = 0 , ali

    CXX(t, s) = RXX(t, s) = CXX(t, s).

  • 82 13. STOHASTI CKI PROCESI

    Ovdje je CXX kovarijacijska funkcija procesa X , a CXX kovarijacijska funkcijaprocesa X .

    Napomenimo jos da se iz korelacijske funkcije i ocekivanja disperzija slucajnevarijable X(t) racuna ovako:

    D[X(t)] = E[X(t)2] m(t)2 = R(t, t