27
Verovatno´ ca i Statistika II deo. Osnovi Statistike Beleˇ ske Prof. Aleksandra Ivi´ ca 0.1 Osnovne statistiˇ cke veliˇ cine Osnovni zadatak matematiˇ cke statistike sastoji se u tome da se iz jednog dela neke generalne kolekcije (skupa) predmeta zakljuˇ ci o nekom kvantitativnom svojstvu cele kolekcije. Deo koji se ispituje zove se uzorak, a naˇ s cilj ovde je da se upoznamo sa nekim osnovnim uzoraˇ ckim statistikama. Neka je izvrˇ seno n posmatranja uzoraka pri ˇ cemu je n 1 puta registrovana vrednost x 1 , n 2 puta vrednost x 2 ,...,n k puta vrednost x k , pri ˇ cemu je n 1 + n 2 + ··· + n k = n. Oznaˇ cimo sa n x broj posmatranja sluˇ cajne veliˇ cine X u kojima je zabeleˇ zena vrednost manja od x. Funkcija F n (x)= n x /n je empirijska funkcija raspodele X , a povezana je sa teorijskom funkcijom raspodele F (x) preko relacije P ( sup x(-∞, ) |F n (x) - F (x)|→ 0, n →∞ ) =1, (1) koja predstavlja jedan od oblika centralne graniˇ cne teoreme. Iz (1) sledi da se za “veliko” n funkcija raspodele F (x) moˇ ze “dobro” aproksimirati sa empirijskom funkcijom F (x), u ˇ cemu se i ogleda jedan od osnovnih principa statistike, a utvr - divanje oblika funkcije raspodele ispitivane sluˇ cajne promenljive X je jedan od osnovnih problema statistike. Primer 4.1. Na´ ci empirijsku funkciju raspodele za slede´ ci uzorak: x i -1 3 8 n i 10 15 25 Ovde je obim uzoraka n = n 1 + n 2 + n 3 = 50, a kako je x i ≥-1 to je F n (x)= n x /n =0 za x ≤-1. Izme - du x = -1i x< 3 je samo vrednost x = -1, te je F n (x)/n = 10/50 = 0, 2 za -1 <x 3. Nastavljaju´ ci tako dobija se F n (x)= 0 x ≤-1, 0, 2 -1 <x 3, 0, 5 3 <x 8, 1 x> 8. Ukoliko je mogu´ ce saznati da se radi o nekoj raspodeli kao ˇ sto je binomna, normalna, Pua- sonova itd., onda se kao vaˇ zan problem javlja ocena pojedinih parametara kao npr. parametra 1

Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

Embed Size (px)

Citation preview

Page 1: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

Verovatnoca i Statistika

II deo. Osnovi Statistike

Beleske Prof. Aleksandra Ivica

0.1 Osnovne statisticke velicine

Osnovni zadatak matematicke statistike sastoji se u tome da se iz jednog dela neke generalnekolekcije (skupa) predmeta zakljuci o nekom kvantitativnom svojstvu cele kolekcije. Deo kojise ispituje zove se uzorak, a nas cilj ovde je da se upoznamo sa nekim osnovnim uzorackimstatistikama.

Neka je izvrseno n posmatranja uzoraka pri cemu je n1 puta registrovana vrednost x1, n2

puta vrednost x2, . . . , nk puta vrednost xk, pri cemu je n1+n2+ · · ·+nk = n. Oznacimo sa nx

broj posmatranja slucajne velicine X u kojima je zabelezena vrednost manja od x. FunkcijaFn(x) = nx/n je empirijska funkcija raspodele X, a povezana je sa teorijskom funkcijomraspodele F (x) preko relacije

P

{sup

x∈(−∞,∞)|Fn(x)− F (x)| → 0, n →∞

}= 1, (1)

koja predstavlja jedan od oblika centralne granicne teoreme. Iz (1) sledi da se za “veliko”n funkcija raspodele F (x) moze “dobro” aproksimirati sa empirijskom funkcijom F (x), ucemu se i ogleda jedan od osnovnih principa statistike, a utvr -divanje oblika funkcije raspodeleispitivane slucajne promenljive X je jedan od osnovnih problema statistike.

Primer 4.1.

Naci empirijsku funkciju raspodele za sledeci uzorak:

xi -1 3 8ni 10 15 25

Ovde je obim uzoraka n = n1 + n2 + n3 = 50, a kako je xi ≥ −1 to je Fn(x) = nx/n = 0za x ≤ −1. Izme -du x = −1 i x < 3 je samo vrednost x = −1, te je Fn(x)/n = 10/50 = 0, 2za −1 < x ≤ 3. Nastavljajuci tako dobija se

Fn(x) =

0 x ≤ −1,0, 2 −1 < x ≤ 3,0, 5 3 < x ≤ 8,1 x > 8.

Ukoliko je moguce saznati da se radi o nekoj raspodeli kao sto je binomna, normalna, Pua-sonova itd., onda se kao vazan problem javlja ocena pojedinih parametara kao npr. parametra

1

Page 2: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

λ u Puasonovoj raspodeli ili parametara µ i σ u normalnoj raspodeli. Ako se uocene vred-nosti x1, x2, . . . , xn interpretiraju kao vrednosti slucajnih promenljivih X1, X2, . . . , Xn, tadacemo smatrati da su te slucajne promenljive nezavisne i da sve imaju istu raspodelu, tj. dase radi o prostom slucajnom uzorku. Da bi smo ocenili parametar θ koji se pojavljuju ufunkciji raspodele posmatracemo funkciju θn = f(X1, X2, . . . , Xn), koja sluzi kao tackastastatisticka ocena nepoznatog parametra. Ovde funkcija f treba da bude podesno izabranatako da zadovoljava neka svojstva, kao sto su:

a) centriranost: E(θ∗n) = θ,

b) efikasnost: σ2(θ∗n) = minσ2(θ′n),

gde je θ′n bilo koja druga ocena parametra θ,

c) stabilnost: P (sup |θ∗n − θ| → 0, n →∞) = 1,

pri cemu je θ∗n vrednost slucajne promenljive θn koja je registrovana u uzorku, a σ2 je varijansa,kao sto je uvedeno u glavi o verovatnoci, dok je E matematicko ocekivanje.

Ovde cemo pomenuti neke osnovne uzoracke sredine i statistike. Opet pretpostavimoda ima k velicina x1, x2, . . . , xk koje se javljaju n1, n2, . . . , odnosno nk puta, pri cemu jex1 < x2 < · · · < xk.

Aritmeticka sredina x1, x2, . . . , xk je

A = x =x1 + x2 + · · ·+ xk

k, (2)

dok je aritmeticka sredina sa tezinama (tzv. ponderisana sredina)

A = x =n1x1 + n2x2 + · · ·+ nkxk

n1 + n2 + · · ·+ nk. (3)

Geometrijska tezina x1, x2, . . . , xk (x1, x2, . . . , xk ≥ 0) je

G = k√

x1x2 · · ·xk, (4)

dok je geometrijska sredina sa tezinama (ponderisana geometrijska sredina)

G =(xn1

1 xn22 · · ·xnk

k

) 1n1+n2+···+nk (5)

Najzad, harmonijska sredina x1, x2, . . . , xk je

H =k

1x1

+1x2

+ · · ·+ 1xk

, (6)

dok je harmonijska sredina sa tezinama (ponderisana harmonijska sredina)

2

Page 3: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

H =n1 + n2 + · · ·+ nkn1

x1+

n2

x2+ · · ·+ nk

xk

. (7)

Za odgovarajuce sredine (sa ili bez tezina) vazi uvek

x1 < H < G < A < xk, (8)

sto znaci da je svaka sredina veca od najmanjeg, a manja od najveceg me -du brojevimax1, x2, . . . , xk. Prva i poslednja nejednakost u (8) su ocigledne, a ostale nejednakosti sledeiz A ≤ G, pri cemu znak jednakosti vazi samo ako su svi brojevi xi jednaki. Da se to vidi,primetimo da za f(x) = ex − x − 1 vazi f ′(x) = ex − 1, f ′′(x) = ex ≥ 0 (∀x), pa za x = 0funkcija f(x) dostize minimum f(0) = 0. Stoga je

f(x) = ex − x− 1 ≥ f(0) = 0, ex−1 ≥ x (∀x),

smenom x sa x−1 u prvoj nejednakosti. Ako se stavi x = xi/A i izmnoze nastale nejednakostiza i = 1, . . . , k, dobice se

k∏

i=1

e(xi/A−1) ≥k∏

i=1

xi

A.

No zbog A = (x1 + · · · xk)/k leva strana je jednaka

e(x1+...+xk)/A−k = e0 = 1,

pa sledi 1 ≥ (x1 · · ·xk)/Ak, tj. A ≥ (x1 · · ·xk)1/k = G, sto je i trebalo pokazati.

Pored navedenih sredina koriste se i druge srednje vrednosti. Medijana (centralna vred-nost) je ona srednja vrednost promenljive X koja deli celokupnu masu raspodela na dvajednaka dela, tj. zadovoljava jednacinu F (x) = 1/2, gde je F (x) funkcija raspodele X. Medi-jana se obelezava sa µe i uvek postoji. Ako F (x) ima gustinu f(x), onda je

µe∫

−∞f(x) dx =

∞∫

µe

f(x) dx. (9)

Srednje apsolutno odstupanje slucajne promenljive X od ocekivane vrednosti µ = EXje em = E(|X − µ|). Ukoliko je X neprekidna slucajna promenljiva sa gustinom f(x), ondaje

em =∞∫

−∞|x− µ| f(x) dx, (10)

a u slucaju diskretne slucajne promenljive obicno srednje apsolutno odstupanje je

em =1k

(|x1 − x|+ |x2 − x|+ · · ·+ |xk − x|) , (11)

3

Page 4: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

dok je srednje apsolutno odstupanje sa tezinom

em =n1 |x1 − x|+ n2 |x2 − x|+ · · ·+ nk |xk − x|

n1 + n2 + · · ·+ nk, (12)

pri cemu je x odgovarajuca aritmeticka sredina.Ako su X1, X2, . . . , Xn nezavisne slucajne promenljive sa istom raspodelom, onda su os-

novne statisticke sledece:

a) uzoracka sredina Xn

Xn =X1 + X2 + · · ·+ Xn

n, (13)

b) uzoracka disperzija S2n

S2n =

(X1 − Xn

)2 +(X2 − Xn

)2 + · · ·+ (Xn − Xn

)2

n, (14)

c) korigovana disperzija S′2n

S′2n =n

n− 1S2

n. (15)

0.2 Neke raspodele statistike

U delu ovoga teksta o verovatnoci upoznali smo se sa nekim od osnovnih raspodela slucajnihpromenljivih. Sem tih, postoji jos i odre -den broj raspodela koje su od izuzetnog znacaja ustatistici, te cemo ovde dati pregled nekih od njih.

1. Log–normalna raspodela. Funkcija gustine je

f(x) =

1ax√

2πe−

(ln x−b)2

2a2 x > 0 (a > 0),

0 x ≤ 0.

(16)

Da se pokaze da je ovo doista gustina primetimo da je, smenom

lnx− b√2a

= y,dx√2ax

= dy,

∫ ∞

−∞f(x) dx =

∫ ∞

0

1ax√

2πe−

(ln x−b)2

2a2 dx =1√π

∫ ∞

−∞e−y2

dy = 1.

Ovde je k−ti moment EXk = ebk+ 12a2k2

, pa je

µ = EX = eb+ 12a2

, σ2 = VarX = µ2(e

12a2 − 1

).

4

Page 5: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

2. Vejbulova raspodela (Weibull). Za x > x0 funkcija gustine je

f(x) =b

x− x0

(x− x0

θ − x0

)b−1

e

(x0−x

θ−x0

)b

, (17)

gde su x0, θ i b parametri raspodele, a za x ≤ x0 ja f(x) = 0.

3. χ2n–raspodela (hi-kvadrat). Neka su X1, X2, . . . , Xn (n ≥ 2) nezavisne slucajne

promenljive sa normalnim raspodelama koje imaju parametre µi i σi (i = 1, 2, . . . , n) i nekaje

Z =(

X1 − µ1

σ1

)2

+(

X2 − µ2

σ2

)2

+ · · ·+(

Xn − µn

σn

)2

nova slucajna promenljiva. Tada Z ima raspodelu sa gustinom

f(z) =

12Γ(n

2 )(

z2

)n2−1 e−

z2 z ≥ 0,

0 z < 0,(18)

koja se zove χ2n–raspodela. Broj n naziva se broj stepena slobode i ukoliko izme -du slucajnih

promenljivih X1, X2, . . . , Xn postoji neka veza on se smanjuje za onoliko koliko postoji veza.Za dato n i α nalazi se vrednost χ2

nα tako da je P{χ2n ≥ χ2

nα} = α iz posebnih tablica. Takvetablice se najcesce prave do n = 30, jer za n > 30 promenljiva χ2

na ima priblizno normalnuraspodelu. Da se vidi da je (18) gustina, primetimo da je (z = 2x)

∫ ∞

−∞f(z) dz =

12Γ

(n2

)∫ ∞

0

(z

2

)n2−1

e−z2 dz =

(n2

)∫ ∞

0x

n2−1e−x dx = 1

po definiciji gama-funkcije.

4. Studentova raspodela. Dobila ime po hemicaru W.S. Gosset-u, koji je u svo-jim naucnim radovima koristio pseudonim “student”. Ako Y ima normalnu raspodelu saparametrima µ = 0 i σ2 = 1, a Z ima χ2

n raspodelu i Y i Z su nezavisne promenljive, tadapromenljiva tn = Y/

√Z/n ima Studentovu raspodelu sa gustinom

f(x) =1√nπ

Γ(

n+12

)

Γ(

n2

)(

1 +x2

n

)− (n+1)2

, −∞ < x < ∞. (19)

Da se vidi da je (19) gustina po -dimo od

∫ ∞

−∞f(x) dx =

2√nπ

Γ(

n+12

)

Γ(

n2

)∫ ∞

0

(1 +

x2

n

)− (n+1)2

dx,

jer je f(x) parna funkcija. Ako se izvrsi smena

1 +x2

n=

1u

, x =√

n

(1u− 1

)1/2

, dx = −√

n

2(1− u)−1/2u−3/2 du,

5

Page 6: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

sledi da je integral na desnoj strani jednak√

n

2

∫ 1

0un/2−1(1− u)1/2−1 du =

√n

2Γ(n

2 )Γ(12)

Γ(n+12 )

=√

2Γ(n

2 )Γ(n+1

2 ),

jer je po svojstvu tzv. beta-integrala i gama-funkcije∫ 1

0xp−1(1− x)q−1 dx =

Γ(p)Γ(q)Γ(p + q)

(p, q > 0)

i Γ(12) =

√π. Stoga je ∫ ∞

−∞f(x) dx = 1,

pa je (19) zaista gustina. Ovde je µ = EX = 0, σ2 = nn−2 za n > 2, a n se zove stepen

slobode. Kao i za χ2n raspodelu i za Studentovu raspodelu se koriste posebne tablice.

5. Fiserova raspodela (Fisher). Gustina raspodele je, za date brojeve m,n ∈ N, n > 2,

fm,n(x) =

Γ(

m+n2

)

Γ(

m2

(n2

) xm2−1

(1 + x)m+n

2

, x > 0,

0 x ≤ 0.

(20)

Ovde jeµ =

m

n− 2(za n > 2),

σ2 =2m(m + n− 2)(n− 2)2(n− 4)

(za n > 4).

Promenljiva Fm,n koja ima gustinu (20) ima F -raspodelu sa (m,n) stepena slobode. Smenom

X =m

nFm,n

dobija se promenljiva koja ima tzv. Snedecor-ovu F -raspodelu sa ν1 i ν2 stepena slobode igustinom

f(x) = νν12

1 νν22

2

Γ(ν1+ν2

2

)

Γ(ν1

2

(ν22

)xν12−1 (ν2 + ν1x)−

ν1+ν22 , (x > 0). (21)

Da su funkcije u (20) i (21) zaista gustine, dokazuje se svo -denjem na beta-integral kao uslucaju Studentove raspodele.

6

Page 7: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

0.3 Intervali poveranja

U primeni statistike znacajne su tzv. intervalne ocene koje cemo prikazati u ovom odeljku.Ako je θ nepoznati parametar raspodele, a θ∗ njegova tackasta ocena, onda je verovatnoca

P {|θ∗ − θ| < δ} = P {θ∗ − δ < θ < θ∗ + δ} = α (22)

pouzdanost ocene parametra θ pomocu θ∗, a interval

I = (θ∗ − δ, θ + δ) (23)

je interval poverenja za parametar θ. Verovatnoca α u (22) se cesto naziva koeficijent sig-urnosti, a suprotna verovatnoca 1−α se zove koeficijent rizika. U praksi se javlja vise intervalapoverenja, od kojih cemo spomenuti neke znacajnije.

1. Interval poverenja za matematicko ocekivanje µ kada je poznata varijansa σ2

Koristi se cinjenica da kod velikog uzorka statistika Xn (v. (13)) ima asimptotski normalnuraspodelu sa parametrima µ i

σ√n

, a kod malog broja uzoraka pretpostavlja se da promenljiva

X ima normalnu raspodelu sa parametrima µ i σ. Tada vazi

P

{Xn − zα

σ√n

< µ < Xn + zασ√n

}= 2Φ (zα) ,

gde se vrednosti funkcije

Φ(z) =1√2π

z∫

0

e−x2

2 dx

ocitavaju iz posebnih tablica. Ovde je znaci interval poverenja oblika

I =(

Xn − zασ√n

, Xn + zασ√n

). (24)

Primer 4.2.

Pri analizi materijala utvr -deno je da je standarno odstupanje gvoz -da u njemu 18 %. Naci95%-tni interval poverenja za tacnu vrednost sadrzine gvoz -da u materijalu ako se na osnovu8 analiza dobije srednja sadrzanost gvoz -da od 43, 18%.

U ovom primeru je α = 0, 95, n = 8, σ = 0, 18, Xn = 43, 18, a potrebno je odrediti z0,95. Izrelacije 2Φ(z0,95) = 0, 95 i tablice nalazi se z0,95 = 1, 96, pa je na osnovu (24) trazeni intervalpoverenja

[43, 18− 1, 96

0, 18√8

; 43, 18 + 1, 960, 18√

8

]= [43, 055; 43, 305].

7

Page 8: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

2. Interval poverenja za matematicko ocekivanje µ kada je varijansa σ2 nepoznata

Pretpostavlja se da promenljiva X ima normalnu raspodelu sa parametrima µ i σ uvodistatistika

tn−1 =√

n− 1Xn − µ

Sn, (25)

koja ima Studentovu raspodelu sa gustinom (19) i n− 1 stepena slobode. Tada je

α = P

{∣∣∣∣∣Xn − µ

Sn

√n− 1

∣∣∣∣∣ ≤ t′n−1,α

},

gde je t′n−1,α = t′n−1,1−α velicina koja se odre -duje iz tablica za Studentovu raspodelu. Intervalpoverenja glasi ovde

I =

[Xn −

t′n−1,α√n− 1

Sn, Xn +t′n−1,α√n− 1

Sn

].

3. Interval poverenja za nepoznatu varijansa σ2

Ako su X1, X2, . . . , Xn promenljive sa normalnom raspodelom koja ima parametre µ i σ,onda statistika

nSn2

σ2

ima χ2n−1 raspodelu, te se iz tablica ove raspodele za dato n i α nalazi velicina χ2

n−1,α za kojuje

α = P

{nSn

2

σ2≥ χ2

n−1,α

}= P

{nSn

2

χ2n−1,α

≥ σ2

}.

Tada je tzv. jednostrani interval poverenja σ2 oblika

[0,

nSn2

χ2n−1,α

]. (26)

Ako je dalje

χ′2n−1,α = χn−1, α−1

2, χ

′′2n−1,α = χ2

n−1, α+12

,

8

Page 9: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

onda je

1− α

2= P

{nSn

2

σ2≥ χ

′2n−1,α

},

1− α

2= P

{nSn

2

σ2≤ χ

′′2n−1,α

},

pa je tzv. dvostrani interval poverenja za σ2 oblika[

nSn2

χ′′2n−1,α

,nSn

2

χ′2n−1,α

]. (27)

4. Interval poverenja za nepoznatu verovatnocu p

Neka je m broj realizacija doga -daja A u n nezavisnih opita, a p nepoznata verovatnocarealizacije doga -daja A u samo jednom opitu. Tada vazi

α = P

{∣∣∣∣∣m− np√np(1− p)

∣∣∣∣∣ ≤ zα

},

gde se kao u intervalu pomeranja (24) vrednost zα cita iz tablice za normalnu raspodelu, tj.2Φ (zα) = α, gde je isto kao i ranije

Φ(x) =1√2π

x∫

0

e−y2

2 dy. (28)

Interval poverenja za p glasi onda

I =

n

n + zα

m

n+

z2α

n− zα

√m(n−m)

n+

(zα

2n

)2

,

n

n + zα

m

n+

z2α

n+ zα

√m(n−m)

n+

(zα

2n

)2

.

0.4 Testiranje statistickih hipoteza

Na osnovu teorijskih ili intuitivnih razliga cesto se u toku raznih ispitivanja vrsi testiranjehipoteze H da vrednost parametra θ funkcije raspodele F (X, θ) promenljive X ima vrednostθ0, sto se oznacava kao H(θ = θ0). Drugi znacajan problem je testiranje hipoteze θ1 = θ2,gde su θ1 i θ2 parametri u funkcijama raspodele F1(X, θ1) i F2(Y, θ2) promenljive X odnosnoY . Postupak testiranja se sastoji u formiranju statistike U = U (X1, X2, . . . , Xn), gde je(X1, X2, . . . , Xn) prost uzorak obelezja X i registrovanju vrednosti statistike U iz dobijenoguzorka. Zatim se izracunava verovatnoca odstupanja registrovane vrednosti statistike U odocekivane vrednosti (pod uslovom da je hipoteza H(θ = θ0) tacna), pa ako je ta verovatnoca

9

Page 10: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

manja od izabrane verovatnoce (koja se naziva prag znacajnosti), onda se hipoteza H(θ = θ0)odbacuje, a ako je veca ili jednaka α, moze se konstatovati da uzorak ne protivreci hipoteziH(θ = θ0). Prag znacajnosti α se bira u zavisnosti od prirode problema, a najcesce seuzima α = 0, 01 ili α = 0, 05. Ovde ce biti opisan postupak za testiranje nekoliko najcescestatistickih hipoteza. Valja napomenuti da prilikom testiranja hipoteza dolazi do tzv. gresakaprve i druge vrste. Greske prve vrste nastaju kada se odbacuje hipoteza iako je ona ustvaritacna, a greske druge vrste nastaju kada se prihvata hipoteza iako je ona pogresna.

1. Testiranje hipoteze H(µ = µ0) ako je varijansa σ2 poznata

Pretpostavimo da promenljiva X ima normalnu raspodelu sa parametrima µ i σ (ako jen ≥ 30, tj. uzorak dovoljno veliki, onda ta pretpostavka nije potrebna) i formirajmo statistiku

Xn =1n

n∑

i=1

Xi,

gde je (X1, X2, . . . , Xn) prost uzorak obelezja X, a xn vrednost statistike Xn koja je reg-istrovana u uzorku. Iz teorije verovatnoce je poznato da tada vazi

P{∣∣∣Xn − µ0

∣∣∣ ≥ |xn − µ0|}

= 1− 2Φ

|xn − µ0|

σ√n

,

(29)

gde je Φ dato preko (28). Ako desnu stranu (29) oznacimo sa α∗, onda je zakljucak sledeci:ako je α∗ ≤ α gde je α dati prag znacajnosti, onda se hipoteza H(µ = µ0) odbacuje, a ako jeα∗ > α onda uzorak ne protivreci hipotezi. Ovde je verovatnoca nastanka greske prve vrstejednaka izabranom pragu znacajnosti α.

Sto se tice greske druge vrste, ona se ovde odre -duje na sledeci nacin. Ako Z ima normalnuraspodelu sa parametrima 0 i 1, tada se za dato x iz tablica odre -duje broj zα tako da vazi

P {|Z| < zα} = α.

Neka je sada tacna hipoteza H(µ = µ1), a mi smo prihvatili hipotezu H(µ = µ0), pricemu µ 6= µ1. Verovatnoca da se ovo dogodi (tj. verovatnoca greske druge vrste) iznosi

P{−zα − d

√n ≤ Z1 ≤ zα − d

√n}

,

gde je d =µ1 − µ0

σ, a Z1 je slucajna promenljiva koja ima normalnu raspodelu sa parametrima

0 i 1.

Primer 4.3.

Poznato je da se procenat metala u rudi p dobija sa odstupanjem σ = 0, 03. Ako suizmerene vrednosti procenata jednake 7, 14; 7, 17; 7, 15; 7, 12; 7, 14; 7, 16; testirati, sa pragomznacajnosti α = 0, 05, hipotezu µ = 7, 15.

10

Page 11: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

Ovde je n = 6, µ0 = 7, 15, σ = 0, 03, xn = 7, 1467. Stoga je

1− 2Φ( |xn − µ0|

σ/√

n

)= 1− 2Φ(0, 2694) = 1− 2· 0, 106 = 0, 788,

te stoga uzorak ne protivreci hipotezi.

2. Testiranje hipoteze H(µ = µ0) ako je varijansa σ2 nepoznata

Neka obelezje X ima normalnu raspodelu sa parametrima µ i σ i neka je

tn−1 =Xn − µ0

Sn

n− 1

,

pri cemu je Sn dato preko (14), a sa tn−1 ce se oznacavati registrovana vrednost statistiketn−1. Promenljiva tn−1 ima Studentovu raspodelu, i za dato n i α iz tablica se odre -dujevelicina tn−1,α za koju vazi

P {|tn−1| ≥ tn−1,α} = α.

Ako |tn−1| ≥ tn−1,α, tada se hipoteza H(µ = µ0) odbacuje, a ako je |tn−1| < tn−1,α, ondauzorak ne protivreci hipotezi H(µ = µ0).

3. Testiranje hipoteze H(µ1 = µ2) ako je σ21 = σ2

2

Pretpostavimo da obelezje X ima normalnu raspodelu sa parametrima µ1 i σ1, a obelezjeY normalnu raspodelu sa parametrima µ2 i σ2. Ako je σ2

1 = σ22, tada statistika

Xn1 − Yn2√n1S2

n1(X) + n2S2

n2(Y )

√n1n2

n1 + n2(n1 + n2 − 2)

ima raspodelu Studenta sa n1 + n2 − 2 stepena slobode, tj. tn1+n2−2. Ako se kao i malopresa tn1+n2−2 oznaci registrovana vrednost statistike tn1+n2−2, onda vazi sledeci zakljucak: akoje |tn1+n2−2| ≥ tn1+n2−2,α tada se hipoteza H(µ1 = µ2) odbacuje, a ako je |tn1+n2−2| <tn1+n2−2,α, onda uzorak ne protivreci hipotezi H(µ1 = µ2).

4. Testiranje hipoteze H(σ2 = σ20)

Neka je sn2 registrovana vrednost statistike Sn

2, a

α∗ = P{Sn

2 ≥ sn2}

= P

{χ2

n−1 ≥nsn

2

σ20

}.

11

Page 12: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

Ako je α∗ ≤ α, gde je α dati prag znacajnosti, hipoteza H(σ2 = σ2

0

)se odbacuje, a ako je

α∗ > α onda uzorak ne protivreci hipotezi H(σ2 = σ2

0

).

5. Testiranje hipoteze H(σ21 = σ2

2)

Pretpostavimo da X i Y imaju normalnu raspodelu sa parametrima µ1 i σ1, odnosno µ2

i σ2. Tada statistika

n1Sn1

2(X)n1 − 1

n2Sn2

2(Y )n2 − 1

= Fn1−1,n2−1

ima Snedekorovu F–raspodelu sa parametrima ν1 = n1 − 1, ν2 = n2 − 1. U tablicamaF–funkcije se za dato n1, n2 i α nalazi vrednost Fn1−1,n2−1,α tako da je

P {Fn1−1,n2−1 ≥ Fn1−1,n2−1,α} = α.

Ukoliko je Fn1−1,n2−1 ≥ Fn1−1,n2−1,α onda se hipoteza H(σ21 = σ2

2) odbacuje, a u pro-tivnom uzorak joj ne protivreci.

6. Testiranje hipoteze H(µ1 = µ2) ako je σ21 6= σ2

2

Formira se statistika

t′ =Xn1 − Yn2√

S′n1

2(X)n1

+S′n2

2(Y )n2

.Neka je n1 = n2 = n i t′ registrovana vrednost statistike t′. Ako je t′ ≥ tn−1,α (jer t′

ima Studentovu raspodelu) hipoteza H(µ1 = µ2) se odbacuje, a u suprotnom uzorak joj neprotivreci. Ako je n1 6= n2, vrednost t′ statistike t′ se upore -duje sa

t∗α =tn1−1,α

S′n1

2(X)n1

+ tn2−1,αS′n2

2(Y )n2

S′n1

2(X)n1

+S′n2

2(Y )n2

,

i ako je t′ ≥ t∗α hipoteza H(µ1 = µ2) se odbacuje, a u suprotnom joj uzorak ne protivreci.

12

Page 13: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

7. Testiranje hipoteze H(p = p0)

Ovo je tzv. testiranje pomocu proporcije uzoraka. Iz osnovnog skupa se uzima uzorak odn elemenata (n ≥ 30) i posmatra m od njih sa uocenim svojstvima. Ako se stavi p = m/n,tada slucajna promenljiva

t =p− p0√p(1− p)

n

ima normalnu raspodelu sa parametrima 0 i 1. Ako je t registrovana vrednost statistike t it > zα, gde je kao i ranije 2Φ(zα) = α, onda se hipoteza H(p = p0) odbacuje, dok u suprotnomuzorak ne protivreci hipotezi H(p = p0).

8. Testiranje hipoteze H(p1 = p2)

Postupak je slican kao u prethodnom slucaju. Neka su iz dva osnovna skupa sa nepoznatimproporcijama p1 i p2 nekog svojstva uzeta dva velika uzorka sa statistickim verovatnocama p1

i p2. Ako je p = m1+m2n1+n2

, tada slucajna promenljiva

t =p1 − p2√

p(1− p)(

1n1

+1n2

)

ima normalnu raspodelu sa parametrima 0 i 1. Ako je t ≥ zα hipoteza H(p1 = p2) se odbacuje,a u protivnom uzorak ne protivreci hipotezi H(p1 = p2).

9. Pearson-ov χ2 test

Ovaj test se koristi za testiranje hipoteze o tome da li je F (x) funkcija raspodele obelezjaX. Neka je (X1, X2, . . . , Xn) uzorak obelezja X, S1, S2, . . . , Sr disjunktni podskupovi skuparealnih brojeva R tako da je

r⋃

i=1

Si = R, pi = P{X ∈ Si} (i = 1, . . . , r)

pod pretpostavkom da je F (x) funkcija raspodele obelezja X. Dalje, neka je mi (i = 1, . . . , r)broj slucajnih promenljivih iz uzorka (x1, . . . , xn) cije su vrednosti Si,

∑ri=1 mi = n. Tada je

E(mi) = npi , a

χ2 =r∑

i=1

(mi − npi)2

npi

13

Page 14: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

Pearson–ova statistika. Njen znacaj je u tome sto je, za veliko n,

χ2 ≈ χ2r−1,

tj. χ2 raspodela sa r− 1 stepena slobode. Dalje se sa χ2 statistikom postupa kao sa obicnomχ2

r−1 promenljivom. Postoji jedan jednostavan test (tzv. test Romanovskog) i hipoteza oraspodeli F (x) se prihvata ako je

∣∣∣χ2 − (r − 1− k)∣∣∣ ≤ 3

√2(r − 1− k),

a u protivnom se odbacuje. Ovde se parametri θ1, θ2, . . . , θk koji figurisu u funkciji raspodeleF (x) zamenjuju odgovarajucim uzorackim ocenama.

0.5 Analiza varijanse

Ovde se javlja tzv. jednofaktorski, odnosno dvofaktorski (ili cak visefaktorski) problem.Matematicki model jednofaktorska problema je sledeci: jedan faktor ima k ≥ 2 nivoa kojise mogu opisati kvantitativno ili kvalitativno. Neka je X obelezje koje ispitujemo, i u j-tomnivou biramo prost uzorak velicine nj :

(Xj1 , Xj2 , . . . , Xjni

)j = 1, 2, . . . , k.

Ako se sa mj oznaci matematicko ocekivanje obelezja X u populaciji koja je pod dejstvomj-tog nivoa uocenog faktora, onda se µj = mj −EX naziva efekat j-tog nivoa. Pretpostavljase da je

Xji = m + µ + εij , (i = 1, . . . , nj = 1, . . . , k)

gde su εij nezavisne slucajne velicine koje imaju normalnu raspodelu sa parametrima 0 σ.Ovde se pretpostavlja da je dejstvo faktora aditivno (dodavanje µj pojedinim nivoima), a dasu slucajne velicine εij normalno raspore -dene sa istom varijansom.

Ovo poslednje cesto nije ispunjeno u praksi te su razra -deni razni postupci kojima se tajnedostatak otklanja. U praksi se cesto postupa na sledeci nacin: uvedu se oznake

Xj =1nj

nj∑

i=1

Xji, (j = 1, 2, . . . , k)

X =1n

k∑

j=1

nj∑

i=1

Xji, n =k∑

j=1

nj

B =k∑

j=1

nj∑

i=1

(Xji −X

)2, C =

k∑

j=1

njXj2 − nX

2.

Dalje se formira statistika

14

Page 15: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

Fk−l,n−k =(n− k)C(k − l)B

i vrsi upore -divanje registrovane vrednosti F k−l,n−k statistike Fk−l,n−k sa vrednoscu Fk−l,n−k,α

iz tablica. Ako je

F k−l,n−k ≥ Fk−l,n−k,α,

onda hipotezu H (µ1 = µ2 = · · · = µk = 0) odbacujemo, a u suprotnom uzorak ne protivrecihipotezi.

Kod dvofaktorskog problema imamo dva uzorka, recimo

x11, x12, . . . , x1n1 ix21, x22, . . . , x2n2 ,

na koje deluju faktori A1, odnosno A2. Aritmeticke sredine i varijanse posmatranih uzorakasu

x1 =1n1

n1∑

i=1

x1i, x2 =1n2

n2∑

j=1

x2j ,

odnosno

s21 =

1n1

n1∑

i=1

(x1i − x1)2 , s2

2 =1n2

n2∑

j=1

(x2j − x2)2 .

Ukupna aritmeticka sredina uzorka ce biti

x =n1x1 + n2x2

n1 + n2,

a totalna disperzija S2t ce biti

S2t =

n1∑

i=1

(x1i − x)2 +n2∑

j=1

(x2j − x)2 ,

sto se moze pisati kao

S2t = S2

r + S2A,

gde smo stavili

15

Page 16: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

S2r =

n1∑

i=1

(x1i − x1)2 +

n2∑

j=1

(x2j − x2)2 = n1s

21 + n2s

22,

S2A = n1 (x1 − x)2 + n2 (x2 − x)2 .

Ako se jos uvedu velicine

Wt =S2

r

n1 − n2 − 1, WA =

S2A

1, Wr =

S2r

n1 + n2 − 1,

onda je Wt ocena varijanse osnovnog skupa, WA je varijansa sredine dve grupe uzoraka i zovese faktorska varijansa, a Wr je ocena varijanse osnovnog skupa iz koga je eliminisan uticajfaktora A1 i A2, i zove se rezidualna varijansa.

Ako faktori A1 i A2nemaju razlicita dejstva, tada varijanse WA i Wr treba da predstavljajuistu varijansu tj. da se malo razlikuju, te njihov kolicnik treba da je blizak jedinici. U praksise formira statistika

F1,n1+n2−2 =WA

Wr= (n1 + n2 − 2)

S2A

S2r

koja ima F – raspodelu sa parametrima 1 i n1 + n2 − 2. Dalji postupak je onda isti kao kodjednofaktorskog problema.

0.6 Korelacija i regresija

Koeficijent korelacije dve slucajne promenljive X i Y definisan je u poglavlju o verovatnocikao

% =E(X −EX)(Y − EY )√

E(X −EX)2√

E(Y − EY )2=

E(X − EX)(Y − EY )σxσy

,

gde je σ2x varijansa X, a σ2

y varijansa Y .Za koeficijent korelacije vazi uvek −1 ≤ % ≤ 1. Dalje % = 1 ako izme -du X i Y postoji

linearna zavisnost, tj. Y = AX + B, dok je % = 0 ako su X i Y dve nezavisne slucajnepromenljive. Ako je 0 < |%| < 1, kazemo da izme -du X i Y postoji delimicna ili stohastickalinearna zavisnost. Ako je |%| blisko jedinici, onda se kaze da postoji visoka korelaciona ili jakastohasticka veza izme -du X i Y . Tako -de valja reci da se koeficijent korelacije % ne menja ako seX i Y zamene proizvoljnim linearnim funkcijama, odnosno ako se umesto X i Y posmatrajunove promenljive ξ = aX + b, η = cY + d.

Ako zelimo da procenimo ρ na osnovu izmerenog uzorka (x1, y1), . . . , (xn, yn) onda sekoriste uzoracke sredine

σ2x =

n∑

i=1

(xi − x)2

n, σ2

y =n∑

i=1

(yi − y)2

n,

16

Page 17: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

gde je

x =(x1 + . . . + xn)

n, y =

(y1 + . . . + yn)n

.

Za E(X −EX)(Y − EY ) = E(XY )− EX · EY koristi se izraz

n∑

i=1

(xi − x)(yi − y)n

,

pa se onda dobija tzv. uzoracki koeficijent korelacije

ρ =

n∑i=1

(xi − x)(yi − y)√

n∑i=1

(xi − x)2n∑

i=1(yi − y)2

.

Za gornji izraz nejednakost |ρ| ≤ 1 neposredno sledi iz nejednakosti Kosi–Svarca(

n∑

i=1

aibi

)2

≤n∑

i=1

a2i

n∑

i=1

b2i (ai, bi ≥ 0, i = 1, . . . , n).

Naime, kvadratna funkcija

f(x) =n∑

i=1

(ai − xbi)2 =n∑

i=1

b2i x

2 − 2n∑

i=1

aibix +n∑

i=1

a2i

je nenegativna, pa njena diskriminanta D = b2 − 4ac mora biti nepozitivna, tj.

D = 4

(n∑

i=1

aibi

)2

− 4n∑

i=1

a2i

n∑

i=1

b2i ≤ 0,

odakle sledi nejednakost Kosi–Svarca.

U praksi se cesto koristi tzv. Spearman-ov koeficijent korelacije ranga. To je dosta jed-nostavan postupak, koji se sastoji u sledecem. Pretpostavimo da smo za isti uzorak na dvanacina odredili dva rang mesta, tj. uzorak ai (i = 1, 2, . . . , N) ima u rang listi X rang (rednibroj) xi (i = 1, 2, . . . , N), a u rang listi Y rang yi (i = 1, 2, . . . , N). Ako se stavi di = xi − yi,onda je Spearman-ov koeficijent korelacije ranga dat preko formule

% = 1−6

N∑i=1

d2i

N3 −N. (30)

Ako su rang liste identicne xi = yi, pa je di = 0, tj. (30) daje % = 1, dok je % = −1 akosu rang liste identicne, ali inverzne jedna drugoj.

Primer 4.4.

Neka X oznacava rang gradova po dohotku u privredi, a Y po dohotku u vanprivrednimdelatnostima i neka je rang dat sledecom tabelom (1).

17

Page 18: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

Ovde je N = 8,N∑

i=1d2

i = 10, pa je

% = 1− 6· 10512− 8

= 0, 8809 . . . .

Spearman-ov koeficijent korelacije ranga u ovom slucaju. Vidi se da postoji dosta visokakorelacija ranga izme -du obe rang liste, ali ipak ne toliko da bismo jednu mogli zamenitidrugom.

Tabela 1

Rang po X Rang po Y di d2i

Krusevac 1 1 0 0Sombor 2 3 -1 1Nis 3 4 -1 1Beograd 4 2 2 4Novi Sad 5 6 -1 1Leskovac 6 5 1 1Zrenjanin 7 8 -1 1Negotin 8 7 1 1

Kod jednoznacne funkcionalne zavisnosti izme -du obelezja X i Y svakoj vrednosti X = xodgovara jedna potpuno odre -dena vrednost Y = y. Ukoliko je zavisnost izme -du slucajnihpromenljivih X i Y samo delimicna, odre -denoj vrednosti X = x odgovarajuce obelezje Ysa uslovnom raspodelom za X = x. U slucaju neprekidne raspodele Y ce za X = x imatiuslovnu gustinu f(y|x). Kako izme -du X i Y ne postoji sada odre -dena funkcionalna veza,to mozemo uspostaviti izme -du njih jedino ocekivanu vezu, uzimajuci da vrednosti X = xodgovara uslovna ocekivana vrednost, tj.

y = E(Y |X = x) = y(x).

Obrnuto se kaze da vrednosti Y = y odgovara ocekivana vrednost obelezja X za Y = y,tj.

x = E(X|Y = y) = x(y),

a grafici krivih y = y(x) i x = x(y) se nazivaju regresivne krive, i one se u opstem slucaju nepoklapaju.

U praksi se cesto javlja slucaj da je

y(x) = ax + b, (31)

pa se trazi da se odrede parametri a i b. Ovo je tzv. model linearne regresije. Neka suy1, y2, . . . , yn izmerene velicine skupa n nezavisnih promenljivih Y1, Y2, . . . , Yn, od kojih svaka

18

Page 19: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

ima normalnu raspodelu sa istom varijansom σ2 i parametrima µi = E(Yi|Xi) = axi + b(i = 1, 2, . . . , n). Tada se a i b mogu odrediti iz sistema linearnih jednacina

bn + an∑

i=1

xi =n∑

i=1

yi, (32)

bn∑

i=1

xi + an∑

i=1

x2i =

n∑

i=1

xiyi. (33)

Resavanjem sistema (32) i (33) dobija se

a =n

n∑i=1

xiyi −n∑

i=1xi

n∑i=1

yi

nn∑

i=1x2

i −(

n∑i=1

xi

)2 , (34)

b =n

n∑i=1

x2i

n∑i=1

yi −n∑

i=1xi

n∑i=1

xiyi

nn∑

i=1x2

i −(

n∑i=1

xi

)2 . (35)

Ovaj izbor parametra a i b ima osobinu da je suma kvadrata

n∑

i=1

(yi − b− axi)2

minimalna, pa se kaze da su a i b odre -deni metodom najmanjih kvadrata.

Primer 4.5.

Neka su iz 13 merenja dobivene vrednosti u zavisnosti od x putem sledece tabele 2:

Tabela 2

x 70 75 80 85 90 95 100 105 110 115 120 125 130y 30 26 51 48 40 46 61 76 61 50 64 53 71

Odrediti linearnu zavisnost izme -du y i x.Ovde se koriste jednacine (34) i (35) te se dobija a ≈ 0, 56, b ≈ −3, 9, tj. y = 0, 56x− 3, 9.Ilustraciju nelinearnog modela regresije imamo na sledecem primeru. Pretpostavimo

da imamo regresivnu funkciju

y(x) = E(Y |x) = a + be−cx

cije su vrednosti izmerene na skupu tacaka (xi, yi), i = 1, 2, . . . , n. Metod najmanjih kvadratakaze da se za a, b i c uzimaju one vrednosti za koje funkcija

19

Page 20: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

G(a, b, c) =n∑

i=1

(yi − a− becxi)2

dostize minimum. Trazenjem parcijalnih izvoda G po a, b i c i izjednacavanjem sa nulomsledi da a, b i c treba da zadovoljavaju sistem jednacina

an + bn∑

i=1

e−cxi =n∑

i=1

yi,

an∑

i=1

e−cxi + bn∑

i=1

e−2cxi =n∑

i=1

e−cxiyi,

an∑

i=1

xie−cxi + bn∑

i=1

xie−2cxi =n∑

i=1

xiyie−cxi .

Za razliku od sistema (32) i (33) ovaj sistem nije linearan u odnosu na parametre a, b i c injegovo resenje je dosta slozeno; dobri priblizni rezultati se mogu dobiti iterativnim metodamanumericke analize. Valja napomenuti da se neki problemi nelinearne regresije mogu, podesnimsmenama, svesti na probleme linearne regresije, kao sto ilustruju sledeci primeri.

1. Za y = a log x + b, smenom z = log x dobijamo y = az + b.2. Za y = a

x + b, smenom z = 1/x dobijamo y = az + b.3. Za y = 1

ax+b , smenom z = 1/y dobijamo z = ax + b.

4. Za y = axb logaritmovanjem sledi log y = log a + b log x, pa smenama z = log y, a′ =log a, x′ = log x dobijamo z = bx′ + a′.

5. Za y = abx logaritmovanjem sledi log y = log a + x log b, pa smenama z = log y, a′ =log a, b′ = log b sledi z = a′x + b′.

Od nelinearnih metoda treba navesti cesto koriscenu kvadratnu regresiju

y = ax2 + bx + c (a 6= 0).

Ovde se parametri a, b, c, shodnu Gausovom principu najmanjih kvadrata, odre -duju tako dase minimizira izraz

F (a, b, c) :=n∑

i=1

(yi − ax2i − bxi − c)2.

Iz uslova∂F (a, b, c)

∂a=

∂F (a, b, c)∂b

=∂F (a, b, c)

∂c= 0

dobija se sistem linearnih jednacina po a, b, c:

an∑

i=1

x2i + b

n∑

i=1

xi + nc =n∑

i=1

yi,

an∑

i=1

x3i + b

n∑

i=1

x2i + c

n∑

i=1

xi =n∑

i=1

xiyi,

20

Page 21: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

an∑

i=1

x4i + b

n∑

i=1

x3i + c

n∑

i=1

x2i =

n∑

i=1

x2i yi,

a slicnim postupkom (svo -denjem na komplikovaniji sistem od sistema n+1 linearnih jednacina)odre -duje se polinomna nelinearna regresija y = Pn(x), gde je Pn(x) polinom n-tog stepenacije koeficijente treba odrediti.

S druge strane, model linearne regresije se moze bez vecih teskoca upotrebiti za visestrukulinearnu regresiju, tj. recimo kada je regresiona funkcija

E(Y |x1, x2, x3) = a1x1 + a2x2 + a3x3 + x4

linearna u odnosu na promenljive x1, x2, x3. Ako se znaju vrednosti yi koje odgovaraju tro-jkama (xi1, xi2, xi3) (i = 1, 2, . . . , n), onda se a1, a2, a3, a4 nalaze kao vrednosti za koje funkcija

G(a1, a2, a3, a4) =n∑

i=1

(yi − a1xi1 − a2xi2 − a3xi3 − a4)2

dostize minimum, sto se svodi na resavanje sistema linearnih jednacina

n∑

i=1

(yi − a1xi1 − a2xi2 − a3xi3 − a4) = 0,

n∑

i=1

(yi − a1xi1 − a2xi2 − a3xi3 − a4) xi1 = 0,

n∑

i=1

(yi − a1xi1 − a2xi2 − a3xi3 − a4) xi2 = 0,

n∑

i=1

(yi − a1xi1 − a2xi2 − a3xi3 − a4) xi3 = 0.

U opstem modelu linearne regresije trazi se da je

E(Yi) = βixi1 + · · ·+ βkxik, (i = 1, 2, . . . , n)

sto predstavlja linearnu regresionu funkciju od k fiksnih promenljivih. U matricnom zapisuto postaje

E(Y ) = Xβ,

gde je

Y =

y1...

yn

, β =

β1...

βn

, X =

x11 . . . x1k...

. . ....

xn1 . . . xnk

,

21

Page 22: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

te se problem svodi na odre -divanje elemenata vektora kolone β, ako je poznata matrica Xformata n× k. Ako su yi (i = 1, . . . , n) izmerene vrednosti promenljivih Yi, onda treba da seodredi minimum funkcije

n∑

i=1

(yi − β1xi1 − · · · − βkxik)2

da bi se dobilo β metodom najmanjih kvadrata. Ako je y vektor sa komponentama yi (i =1, . . . , n), onda je trazeno resenje u matricnom obliku

β = (X ′X)−1X ′y,

pri cemu X ′ oznacava transponovanu matricu X, tj. matricu koja se dobija iz X zamenomvrsta sa kolonama.

Gornje resenje u matricnom obliku ima relativno jednostavan zapis, no prakticna izracunavanjaza veliko n i k mogu biti prakticno komplikovana.

1 Primena statistike

U dvadesetim godinama ovoga veka pojavile su se prve precizne formulacije osnova matematickestatistike. Smatra se da su tvorci savremene statisticke metodologije Nejman i Vold, koji usvojim radovima identifikuju i razvijaju osnove tri oblasti statistike: teoriju ocene, teorijuprovere statistickih hipoteza i teoriju planiranja eksperimenata.

Na kritici Fiserove teorije, Nejman je postavio osnove savremene teorije ocene, zasnivajucije na intervalima poverenja (pouzdanosti). Znacajan doprinos dali su Kolmogorov i Smirnovu istrazivanjima na ovom polju, narocito u oblasti neparametarske teorije ocene i izucavanjaintervala poverenja koji sa datom verovatnocom sadrze nepoznatu funkciju raspodele.

Veliki doprinos razvoju teorije provere statistickih parametarskih hipoteza pored Nejmanadao je i Pirson. U oblasti neparametarskih hipoteza svojim radovima uticali su na razvojteorije pored Kolmogorova i Smirnova, Sefe, Stejn, Lemon i drugi.

Teorija planiranja eksperimenata je najmla -da oblast statistike. Istrazivanja u ovoj oblastizapoceli su Fiser i Nejman, a Vold je svojim radovima znacajno doprineo daljem razvoju.

Znacajne doprinose razvoju matematicke statistike dali su osim navedenih i mnogi drugimatematicari.

Matematicka statistika je jedna od oblasti sa izuzetno velikim brojem primena. Brojprimena tesko je i pobrojati. Pored toga postoji ozbiljna opasnost od gresaka kod ocenenjene primenljivosti u raznim sferama drustvenih, biomedicinskih, prirodnomatematickih,tehnickih, skolskih, privrednih, vojnih i drugih delatnosti.

Savremeni nivo rudarstva i geologije u naucnom i privrednom smislu, karakterise neophod-nost postupne analize velike mase podataka i informacija i zahtev za pouzdanim, odnosno,naucno zasnovanim ulazima (input - ima).

Ispunjenje ovih zahteva siroko otvara vrata uvo -denju matematicke statistike u praksugeologije i rudarstva, a savremena racunarska tehnika sa izvanrednim mogucnostima ovajproces znacajno podupire i pospesuje.

Primena statistike u geologiji i rudarstvu ima slojevitost koja je posledica pre svegarazu -denosti i razlicitosti unutar ovih oblasti.

22

Page 23: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

Statistika se koristi od preliminarnih ocena i sagledavanja pa preko inzenjerskih analiza ivisih nivoa projektovanja do operativne primene u proizvodnim i tehnoloskim procesima.

Navescemo samo znacajnije geoloske i rudarske probleme i zadatke u cijem resavanjustatistika pruza adekvatne alate. To su:

◦ Obrada podataka dobijenih geoloskim istrazivanjima sa konacnim produktima: matematicko-statisticki opis geoloskih objekata, pore -denje i klasifikacija geoloskih objekata, opis za-visnosti izme -du obelezja geoloskih objekata i slicno.

◦ Intervalske ocene nestabilnosti promena geolosko-istraznih pokazatelja, obuhvataju: in-tervalsku ocenu srednje vrednosti slucajnih velicina, intervalsku ocenu srednje vrednostifunkcija slucajnih velicina - kompleksni modeli obelezja geoloskih objekata itd.

◦ Obrada podataka geohemijskih istrazivanja lezista mineralnih sirovina. Za definisanjegeohemijskih polja primenjuju se sledeci matematicko-modelski pristupi: aditivni, mul-tiplikativni i aditivno-multiplikativni.

Kod formiranja ovih modela, na matematickoj statistici pocivaju postupci izdvajanja de-terminisanih komponenata geohemijskih polja, zatim definisanje geohemijskih specificnostianomalnih geohemijskih polja, normiranje multiplikativnih geohemijskih pokazateljaitd.

◦ Razgranicavanje geoloskih objekata na osnovu kompleksa geoloskih obelezja. Jedna odosnovnih geoloskih radnji je kartiranje, odnosno modeliranje izucavanog dela zemljinekore u zadatoj razmeri. Ovaj zadatak resava se u svim stadijumima geoloskih is-trazivanja. Danas naglo narasli zahtevi za pouzdanim kartiranjem, u praksu kartiranjasve vise uvode statisticke metode.

◦ U inzenjerskoj analizi i projektovanju u rudarstvu i geologiji koriste se egzaktni po-daci iz proizvodnje ili procenjene iskustvene vrednosti. I u jednom i u drugom slucajustatisticki aparat pruza mogucnost pouzdane procene srednje vrednosti, mogucih odstu-panja, raspona odstupanja, gresaka i slicno.

◦ Operativno vo -denje tehnoloskih procesa u eksploataciji cvrstih mineralnih sirovina,nafte i gasa podrazumeva i stalno pracenje, registrovanje, obradu i analizu velikog brojapodataka i informacija vezanih za radnu sredinu, tehnoloski proces, trzisno - ekonomskei ekoloske uslove. Zahtevi u pogledu azurnosti pracenja i registrovanja ovih podatakakao i u pogledu brzine i pouzdanosti analitickih procena, namecu potrebu za uvo -denjemstatistickih metoda i racunarske tehnike u nadzor i upravljanje tehnoloskim procesimau mineralnoj industriji.

◦ Za laboratorijske opite u rudarstvu i geologiji (mehanika tla, mehanika stena, pripremamineralnih sirovina, ventilacija, ...) karakteristicno je da se eksperimenti i merenjaizvode sa mnogostrukim ponavljanjima ili merenjima na velikom broju uzoraka. Statis-tika se koristi u obradi eksperimentalnih rezultata radi utvr -divanja zakonitosti i veza,ali i kod planiranja eksperimenata.

Pobrojane primene matematicke statistike ne ome -duju prostore, vec ilustruju sirinu, mogucnostii znacaj njene primene u rudarstvu i geologiji. Mnogo je konkretnih problema i zadatakarazlicitih znacaja i lokacija u geologiji i rudarstvu, za cije delimicno ili potpuno resavanje

23

Page 24: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

statistika nudi alate. No primenljivost je jedno, a primena drugo. Za adekvatnu primenustatistickih metoda potrebno je dobro poznavanje problema koji je predmet paznje, zatimbrojnost i kvalitet ulaznih podataka kao i poznavanje matematicke filozofije statistickih pris-tupa koji se koriste. Ukoliko se ne vodi racuna o navedenim ciniocima greske su neminovne.Savremena racunarska poslovica: ”U racunar unesi smece iz racunara ces dobiti smece”, lepoilustruje zavisnosti i upucuje na zakljucak da je matematicka statistika mocno i korisno oru -deu rukama onoga ko zna da je koristi, ali je i vrlo opasna njena primena ukoliko se neadekvatnokoristi.

Naredni niz konkretnih primera citaocu treba da pruzi osnovna racunarsko-manipulativnaznanja o prakticnoj primeni statistike ali i da inspirise i pobudi razmisljanja o drugim prime-nama u geologiji i rudarstvu. S obzirom na prirodu, ciljeve i obim knjige, autori su ube -deni daje ovakav nacin prezentacije matematicke statistike primeren. Ukoliko zainteresovan citalaczeli vise informacija o nekom konkretnom problemu iz statistike, odgovore moze potraziti uvrlo bogatoj domacoj i stranoj literaturi iz statistike.

1.1 Izracunavanje sa malim brojem podataka

Leziste polimetalicne sirovine istrazuje se podzemnim istraznim radovima. U delu istraznoghodnika uzeto je 30 proba. Na slici 4.1 prikazani su polozaji uzimanja proba sa kumulativnimsadrzajima metala po probama.

Ucestalosti pojedinih kumulativnih sadrzaja metala dati su u tabeli 3.

Tabela 3

Sadrzaj Broj Ucestalostmetala [%] proba

1 4 0,132 3 0,103 3 0,104 3 0,105 5 0,176 3 0,107 4 0,138 2 0,079 3 0,10∑

30 1,00

Srednji aritmeticki sadrzaj metala u rudi iznosi:

x =n∑

i=1

xipi

x = 1· 0, 13 + 2· 0, 1 + 3· 0, 1 + 4· 0, 1 + 5· 0, 17 + 6· 0, 1 + 7· 0, 13 + 8· 0, 07 + 9· 0, 1 = 4, 85[%].

Disperzija sadrzaja metala odre -duje se:

24

Page 25: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

S2n =

n∑i=1

x2i

n− x2

n

n− 1,

S2n = [0, 13(1− 4, 85)2 + 0, 1(2− 4, 85)2 + 0, 1(3− 4, 85)2 +

0, 1(4− 4, 85)2 + 0, 17(5− 4, 85)2 + 0, 1(6− 4, 85)2 +

0, 13(7− 4, 85)2 + 0, 07(8− 4, 85)2 + 0, 1(9− 4, 85)2]· 3029

= 6, 525.

Standardno ili srednje kvadratno odstupanje je:

en =√

S2n =

√6, 525 = 2, 554.

Koeficijent varijacije je:

V =en

x100 =

2, 5544, 85

100 = 52, 66 [%].

Za definisanje osnovnih svojstava raspodela slucajnih velicina koriste se momenti. Mo-ment k-tog stepena je srednja vrednost k-tog stepena odstupanja velicine x od neke stalnevrednosti C

αk = (xi − C)k.

Ukoliko se pri izracunavanju momenta koristi ucestalost ili frekvenca, momenat se nazivaempirijskim, a ukoliko se koristi verovatnoca - naziva se teorijskim.

Empirijski moment k-tog stepena racuna se preko obarsca:

ak =

n∑i=1

(xi − C)kpi

n∑i=1

pi

.

Radi jednostavnijeg racunanja uzecemo C = 5 (blisko vrednosti x), tada uslovni 1 momentiprvog, drugog, treceg i cetvrtog stepena iznose:

α1 = (1− 5)0, 13 + (2− 5)0, 1 + (3− 5)0, 1 + (4− 5)0, 1 + (5− 5)0, 17 ++ (6− 5)0, 1 + (7− 5)0, 13 + (8− 5)0, 07 + (9− 5)0, 1 = −0, 15

1Momenat nazivamo uslovnim kada je vrednost za C proizvoljna, a kada je C = x momenat nazivamocentralnim.

25

Page 26: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

α2 = (1− 5)20, 13 + (2− 5)20, 1 + (3− 5)20, 1 + (4− 5)20, 1 + (5− 5)20, 17 +

+ (6− 5)20, 1 + (7− 5)20, 13 + (8− 5)20, 07 + (9− 5)20, 1 = 6, 33

α3 = (1− 5)30, 13 + (2− 5)30, 1 + (3− 5)30, 1 + (4− 5)30, 1 + (5− 5)30, 17 +

+ (6− 5)30, 1 + (7− 5)30, 13 + (8− 5)30, 07 + (9− 5)30, 1 = −2, 49

α4 = (1− 5)40, 13 + (2− 5)40, 1 + (3− 5)40, 1 + (4− 5)40, 1 + (5− 5)40, 17 +

+ (6− 5)40, 1 + (7− 5)40, 13 + (8− 5)40, 07 + (9− 5)40, 1 = 76, 43.

Izme -du centralnih i uslovnih momenata postoje sledece veze:

α02 = α2 − α2

1,

α03 = α3 − 3α1α2 + 2α3

1,

α04 = α4 − 4α1α3 + 6α2α

21 − 3α4

1.

Za nas primer centralni momenti su:

α02 = 6, 33− (−0, 15)2 = 6, 3075,

α03 = −2, 49− 3(−0, 15)6, 33 + 2(−0, 15)2 = 0, 3517,

α04 = 76, 43− 4(−0, 15)· (−2, 49) + 6· 6, 33(−0, 15)2 − 3(0, 15)4 = 75, 789.

Znajuci centralne momente, mozemo izracunati karakter odstupanja raspodele sadrzajametala od simetricne normalne raspodele u 30 proba.

Koeficijent simetrije iznosi

KA =α0

3

e3=

0, 351716, 659

= 0, 0211.

Ekces ili koeficijent spljostenosti

KE =α0

4

e4=

75, 78942, 548

= 1, 7812.

Na osnovu vrednosti za asimilaciju i ekces, moze se zakljuciti da raspodela ucestalostisadrzaja metala u probama nema asimetrije i spoljasnjost krive raspodele manju od normalne,odnosno izrazen vrh. Napomenimo ako je koeficijent asimetrije KA = 0, tada je raspodelafrekvencije simetricna u odnosu na pravu x = x. Ako je KA < 0 asimetrija je negativna- pomerena ulevo, a kada je KA > 0, asimetrija je pozitivna - pomerena udesno. Sto jekoeficijent asimetrije veci po apsolutnoj vrednosti, raspodela je vise asimetricna.

Ako je |KA| < 0, 1 smatra se da asimetrije nema, ako je 0, 1 < |KA| < 0, 25 asimetrija jemala.

Kada je 0, 25 < |KA| < 0, 5 asimetrija je srednja, a ukoliko je KA > 0, 5 asimetrija jevelika.

26

Page 27: Verovatnoca i Statistika II deo. Osnovi Statistike Beleške Prof

Ekces ili koeficijent spljostenosti KE jednak je nuli za normalnu raspodelu. Ako je KE > 0,tada je spljostenost krive raspodele manja od normalne, a kada je KE < 0 spljostenost je vecaod normalne.

Ako koeficijenti asimetrije i ekcesa bitno ne odstupaju od nule, smatra se da postoji osnovza pretpostavku da je uzorak deo celokupnosti u kojoj obelezje x kao slucajna promenljivaima normalnu raspodelu ucestanosti.

Prof. Aleksandar IvicKatedra Matematike RGF-aUniverzitet u Beogradu-Dusina 7, 11000 BeogradTel: 3219 147, [email protected]

27