28
Glava 4: U V O D U O P Š T U I M A T E M A T I Č K U S T A T I S T I K U § 4.1. Počeci, razvoj, značaj i definicija statistike Pri izučavanju Teorije vjerovatnoće upoznali smo se sa nekim pojmovima koje proučava ili na kojima se zasniva statistika. Oslanjajući se na već iznešeni razvijeni aparat teorije vjerovatnoće (TVJ), koja, inače, predstavlja matematičku strukturu na kojoj su zasnovane statističke metode, u ovom poglavlju date su osnove statistike u mjeri koja je neophodna za primjenu statistike u tehničkim naukama, posebno u saobraćaju, komunikacijama i informatici, ali i koja je neophodna za logički tok daljeg dubljeg izučavanja i odgovarajućih primjena. Riječ statistika potiče od latinske riječi status što znači stanje, država, ... . Kao nauka pojavljuje se u XVII vijeku, mada neki korijeni statističkih metoda potiču još iz vremena najstarijih civilizacija. Smatra se da je riječ statistika prvi upotrijebio naučnik Gotfrid Ahenval (Gottfried Achenwall, 1719-1772), unoseći ovaj naziv u svoje radove i u naziv jednog predmeta (pod nazivom „Notitia politica vulgo statistica”) na njemačkom univerzitetu u Getingenu. Dok je u Njemačkoj i ostalim razvijenim zemljama kontinentalne Evrope razvoj statističke djelatnosti bio pod snažnim uticajem osnivača univerzitetske škole-državopisa, dotle se u Engleskoj razvio drugi pravac, tzv. Politička aritmetika koja svoje teorijske osnove ima u racionalnoj filozofiji Leonarda da Vinčija, Dekarta i dr. Osnivač ove škole bio je Džon Graunt (John Graunt, 1602-1674), dok je osnivač pravca „univerzitetska statistika” bio prof. Hermann Conring (1606-1671) / profesor istraživača Gotfrida /. U XIX vijeku statistika se znatno razvila po sadržini i metodama, naročito korištenjem računa vjerovatnoće. Prve takve radove nalazimo kod Laplasa (Pierre Simon de Laplace) i (Jean Baptiste Joseph) Fouriera početkom XIX vijeka, kada su u Parizu i departmanima Sene vršili procjenu broja ukupnog stanovništva na bazi uzorka sa izračunavanjem najvjerovatnije greške. Međutim, najznačajnije ime u razvoju statistike XIX vijeka je belgijski fizičar i astronom (Lambert Adolphe Jacob) Ketle (Quetelet, 1796-1874), na čiju je inicijativu održan i kongres statističara u Briselu (Brussels, Belgique-Belgium) 1853. godine, a zatim još šest kongresa u zemljama srednje Evrope. Kao što je XX vijek postao vijek tehnike i hemije, a isto tako je to i vijek statistike koja prožima sav naš život, jer se danas statističke metode koriste u raznim istraživanjima (u fizici, tehnici, sociološko-političkim istraživanjima, ekonomiji itd.). Od kraja XIX vijeka na ovamo statistika se naglo razvija i kao nauka i kao djelatnost-praksa. Početkom ovog vijeka javljaju se različite „metrije” (biometrija, ekonometrija, sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl. Javlja se kao posebna disciplina i matematička statistika, koja je označila upotpunjavanje i dalje razvijanje teorije i metodologije kvantitativnog istraživanja masovnih pojava. U mnogim knjigama nalaze se razni pokušaji definiranja statistike. Tako npr., Silvio Elazar (u knjizi: Matematička statistika) daje ovu definiciju: „Matematička statistika je nauka koja se bavi proučavanjem zakona slučajnih događaja na osnovu teorije vjerovatnoće, matematičkom obradom podataka mjerenja masovnih pojava.”, dok neki drugi autori daju i ovu definiciju: „Nauka koja proučava pojave koje obuhvataju vrlo veliki broj elemenata koji imaju neko zajedničko svojstvo (obilježje) naziva se matematička statistika”. Matematička statistika javlja se u XVIII vijeku, prvenstveno u radovima D. Bernoullija i fizičara Maxwella. No, savremena učenja u XX vijeku mogla bi se izreći po pitanju definiranja statistike kao naučne discipline u smislu da se usvoji ova (opisna) definicija: „Statistika je nauka o varijacijama obilježja, zakonitostima razvoja i odnosa masovnih pojava i njihovih elemenata u

S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

Glava 4: U V O D U O P Š T U I M A T E M A T I Č K U S T A T I S T I K U

§ 4.1. Počeci, razvoj, značaj i definicija statistike

Pri izučavanju Teorije vjerovatnoće upoznali smo se sa nekim pojmovima koje proučava ili na kojima se zasniva statistika. Oslanjajući se na već iznešeni razvijeni aparat teorije vjerovatnoće (TVJ), koja, inače, predstavlja matematičku strukturu na kojoj su zasnovane statističke metode, u ovom poglavlju date su osnove statistike u mjeri koja je neophodna za primjenu statistike u tehničkim naukama, posebno u saobraćaju, komunikacijama i informatici, ali i koja je neophodna za logički tok daljeg dubljeg izučavanja i odgovarajućih primjena. Riječ statistika potiče od latinske riječi status što znači stanje, država, ... . Kao nauka pojavljuje se u XVII vijeku, mada neki korijeni statističkih metoda potiču još iz vremena najstarijih civilizacija. Smatra se da je riječ statistika prvi upotrijebio naučnik Gotfrid Ahenval (Gottfried Achenwall, 1719-1772), unoseći ovaj naziv u svoje radove i u naziv jednog predmeta (pod nazivom „Notitia politica vulgo statistica”) na njemačkom univerzitetu u Getingenu. Dok je u Njemačkoj i ostalim razvijenim zemljama kontinentalne Evrope razvoj statističke djelatnosti bio pod snažnim uticajem osnivača univerzitetske škole-državopisa, dotle se u Engleskoj razvio drugi pravac, tzv. Politička aritmetika koja svoje teorijske osnove ima u racionalnoj filozofiji Leonarda da Vinčija, Dekarta i dr. Osnivač ove škole bio je Džon Graunt (John Graunt, 1602-1674), dok je osnivač pravca „univerzitetska statistika” bio prof. Hermann Conring (1606-1671) / profesor istraživača Gotfrida /. U XIX vijeku statistika se znatno razvila po sadržini i metodama, naročito korištenjem računa vjerovatnoće. Prve takve radove nalazimo kod Laplasa (Pierre – Simon de Laplace) i (Jean Baptiste Joseph) Fouriera početkom XIX vijeka, kada su u Parizu i departmanima Sene vršili procjenu broja ukupnog stanovništva na bazi uzorka sa izračunavanjem najvjerovatnije greške.

Međutim, najznačajnije ime u razvoju statistike XIX vijeka je belgijski fizičar i astronom (Lambert Adolphe Jacob) Ketle (Quetelet, 1796-1874), na čiju je inicijativu održan i kongres statističara u Briselu (Brussels, Belgique-Belgium) 1853. godine, a zatim još šest kongresa u zemljama srednje Evrope. Kao što je XX vijek postao vijek tehnike i hemije, a isto tako je to i vijek statistike koja prožima sav naš život, jer se danas statističke metode koriste u raznim istraživanjima (u fizici, tehnici, sociološko-političkim istraživanjima, ekonomiji itd.). Od kraja XIX vijeka na ovamo statistika se naglo razvija i kao nauka i kao djelatnost-praksa. Početkom ovog vijeka javljaju se različite „metrije” (biometrija, ekonometrija, sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl. Javlja se kao posebna disciplina i matematička statistika, koja je označila upotpunjavanje i dalje razvijanje teorije i metodologije kvantitativnog istraživanja masovnih pojava. U mnogim knjigama nalaze se razni pokušaji definiranja statistike. Tako npr., Silvio Elazar (u knjizi: Matematička statistika) daje ovu definiciju: „Matematička statistika je nauka koja se bavi proučavanjem zakona slučajnih događaja na osnovu teorije vjerovatnoće, matematičkom obradom podataka mjerenja masovnih pojava.”, dok neki drugi autori daju i ovu definiciju: „Nauka koja proučava pojave koje obuhvataju vrlo veliki broj elemenata koji imaju neko zajedničko svojstvo (obilježje) naziva se matematička statistika”. Matematička statistika javlja se u XVIII vijeku, prvenstveno u radovima D. Bernoullija i fizičara Maxwella. No, savremena učenja u XX vijeku mogla bi se izreći po pitanju definiranja statistike kao naučne discipline u smislu da se usvoji ova (opisna) definicija: „Statistika je nauka o varijacijama obilježja, zakonitostima razvoja i odnosa masovnih pojava i njihovih elemenata u

Page 2: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

2

vremenu i prostoru.” (U vezi sa gore navedenim definicijama i u vezi sa osnovnim pojmovima opšte i ekonomske statistike može se naći u knjizi: Dr. Miloš Blažić, Opšta statistika, Sarvremena administracija, Beograd, 1982.) Statističke metode istraživanja primjenjuju se na gotovo sva područja ljudske djelatnosti, gdje god se javlja veliki broj posmatranja, eksperimentisanja i mjerenja (kao npr., pri izučavanju problema dohotka-profita, nataliteta, mortaliteta, te raznih mjerenja u fizici, hemiji, tehnici, ...). U statistici se prvo prikupe podaci o pojavama koje se istražuju pomoću opažanja, anketa, popisa i dr., pa se ti podaci obrađuju i izvode određeni zaključci i prognoze.

§ 4.2. Predmet i zadaci matematičke statistike. Osnovni skup i obilježje

U okviru matematičke statistike kao matematičke discipline razvijaju se i primjenjuju metode izučavanja (dobivanja, opisivanja i obrade) statističkih podataka s ciljem ustanovljavanja zakonitosti koje važe u određenim slučajnim masovnim pojavama i procesima masovnog karaktera. Pri tome se razlikuju sljedeća dva osnovna problema:

1) Razvoj metoda prikupljanja i grupisanja statističkih podataka koji se istražuju (dobijenih ili pomoću zapažanja odnosno na osnovu posmatranja ili kao rezultat specijalno izvedenih pokusa kao što su ankete, popisi, mjerenja i sl.).

2) Razrada i razvoj metoda analize statističkih podataka u zavisnosti od cilja istraživanja.

U okviru problema pod 2) mogu se identifikovati dvije grupe metoda: a) Metode za ocjenu funkcije distribucije i parametara distribucije (raspodjele,

razdiobe). Npr., na osnovu određenih statističkih podataka može se ocijeniti da oni pripadaju normalnoj (ili binomnoj) raspodjeli, a zatim se mogu odrediti i parametri μ (očekivanje) i σ (standardna devijacija) te distribucije.

b) Metode za provjeru (testiranje) tzv. statističkih hipoteza o obliku (vrsti) zakona distribucije ili ako je oblik zakona distribucije poznat, o parametrima zakona distribucije. Npr., može se provjeriti da je pretpostavka o normalnoj distribuciji ispravna ili pogrešna.

Osnovni predmet razmatranja u statistici su skupovi elemenata koji imaju izvjesne zajedničke karakteristike. Pri tome se, intuitivno, pojam osnovnog skupa najčešće uvodi na jedan od sljedećih (približno) ekvivalentnih načina:

(i) Osnovni skup (populacija, generalni skup, statistički skup, statistička masa) je skup (cjelina) svih istorodnih elemenata (objekata) koji podliježu (statističkom) ispitivanju.

(ii) Skup elemenata sa nekom zajedničkom osobinom čija mjera vrijednosti varira od elementa do elementa zove se statistički (ili osnovni skup i sl.).

(iii) Statistički skup predstavlja cjelinu sastavljenu od istorodnih međusobno uporedivih elemenata sa zajedničkim varijabilnim obilježjem što je u stvari tekuća varijabla (npr. ix ) slučajne promjenljive (npr. X ).

(iv) Skupovi elemenata koje proučava statistika zovu se osnovni skupovi (ili populacije i sl.).

U definicijama (i), (ii) i (iv) definira se još i pojam obilježja, tj. kaže se još da se zajedničko svojstvo elemenata određenog osnovnog skupa zove obilježje tog skupa. Obilježje može biti numeričkog ali i atributivnog karaktera. No, obilježja atributivnog karaktera mogu se svesti na obilježja numeričkog karaktera.  

Iz prethodnih definicija slijedi da osnovni skup mora biti homogen, tj., sastavljen od istovrsnih i međusobno uporedivih elemenata u odnosu na tekuću varijablu ( )ix slučajne

veličine ( )X zajedničkog obilježja, te mora biti i varijabilan, tj. elementi osnovnog skupa

Page 3: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

3

moraju biti istovrsni ali ne i istovjetni u odnosu na zajedničko svojstvo (obilježje) koje karakteriše skup istovrsnih objekata. Ako je na osnovnom skupu definirano samo jedno obilježje, skup je jednodimenzionalan. Ako su definirana dva obilježja, skup je dvodimenzionalan. Zavisno od toga da li je obilježje skupa kontinualno (neprekidno), diskretno ili mješovitog tipa, razlikuju se kontinualni, diskretni i mješovitog tipa statistički skup.

Definicija 4.2.1. Obimom osnovnog skupa nazivamo broj njegovih elemenata (objekata) u slučaju da je skup konačan, odnosno obim je kardinalni broj (moć skupa) u slučaju beskonačnog skupa.

Posmatrajmo osnovni skup (obima N ) kod kojeg se vrijednost 1x posmatra ili uzima u razmatranje ( )1 1n f= puta, vrijednost 2 ,x ( )2 2n f= puta, ... , vrijednost ,kx ( )k kn f= puta, pri čemu je

1

k

ii

n N=

=∑ ( )1 .

Posmatrane vrijednosti ix ( )1,i k= nazivaju se varijantama (varijansama), a niz

varijansi napisan u rastućem poretku zove se varijacioni red osnovnog skupa. Brojevi ( )i in f= zovu se učestanostima (frekvencijama) odnosno apsolutnim frekvencijama, a

njihov odnos prema obimu osnovnog skupa N se zove relativna frekvencija (relativna učestanost) i označava se često sa iω ( )ili ip , tj.

( ), 1,ii

n i kN

ω = = . ( )2 .

Definicija 4.2.2. Skup (uređenih) parova ( ) ( ) ( ){ }1 1 2 2, , , , , , ,n nx f x f x f

vrijednosti ix i njihovih frekvencija if obilježja X , uređen po rastućim vrijednostima

1, , nx x… obilježja X , zove se distribucija ili raspodjela (statistička raspodjela) frekvencija obilježja X osnovnog skupa.

Dakle, statistička raspodjela frekvencija (odnosno relativnih frekvencija) je

pridruživanje (preslikavanje) između vrijednosti obilježja (varijansi) i njihovih frekvencija (odnosno relativnih frekvencija). Takođe se uvodi i pojam statističke raspodjele osnovnog skupa kao zajednički naziv za statističku raspodjelu relativnih frekvencija i statističku raspodjelu apsolutnih frekvencija, tj. statistička raspodjela osnovnog skupa je pridruživanje između vrijednosti obilježja (varijansi) i njihovih frekvencija ili relativnih frekvencija. Najčešće se statistička raspodjela prikazuje tabelarno a ponekad i grafički. Tabela je obično u obliku:

Pri tome su vrijednosti 1, , kx x… uzete u rastućem poretku a osnovni skup je konačan. Međutim, grafički se statistička raspodjela prikazuje analogno kao i zakon raspodjele vjerovatnoće u Teoriji vjerovatnoće pomoću poligona, histograma i dr. Naime izlomljena linija koja povezuje uređene parove ( ),i ix f (odnosno ( )iix ω, zove se poligon frekvencija

x x1 x2 . . . xk

f f1 f2 . . . fk

Page 4: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

4

(odnosno, poligon relativnih frekvencija). Obično se pod histogramom frekvencija (relativnih frekvencija) podrazumijeva unija pravougaonika čije osnovice na osi apscisa x imaju mjerni broj dužine 1, a takođe su središta osnovica vrijednosti ix posmatranog obilježja X , a mjerni brojevi visina su jednaki vrijednosti pojedinih frekvencija (relativnih frekvencija). Pri tome se najčešće dijagram frekvencija produži do ose apcisa xO , tako da površina omeđena tim dijagramom i osom xO bude jednaka površini posmatranog histograma.

Primjer 4.2.1.a). U jednom razredu od 30 učenika uspjeh iz matematike prikazan je sljedećom tabelom:

Tabela 1

Ocjena iz matematike x Frekvencija f Relativna frekvencija f / 30

x1 = 1 1 3f = 1 0,1ω = x2 = 2

2 6f = 2 0,2ω = x3 = 3

3 10f = 3 0,3ω x4 = 4

4 8f = 4 0,3ω x5 = 5

5 3f = 5 0,1ω = Šta je ovdje osnovni skup? Nacrtati odgovarajući poligon i histogram frekvencija. Rješenje. Skup učenika u razredu je osnovni skup čiji je obim N = 30, a njihov uspjeh izražen ocjenom je obilježje koje se posmatra. U prvoj koloni unijete su vrijednosti koje poprima obilježje X . U drugoj koloni unijeti su brojevi if (i = 1, 2, ... , 5) učenika koji su postigli ocjenu ix ( if - su apsolutne frekvencije), u treću kolonu upisuju se relativne frekvencije elemenata osnovnog skupa.

Sl. 4.2.1.

0 1 2 3 4 5

3

6

8

10

Page 5: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

5

Primjer 4.2.1.b). Na jednoj stočnoj farmi je statistički posmatrana mliječnost stotinu krava, tj. broj X hl mlijeka koje svaka krava daje godišnje. Podaci su prvo sređeni, pa su onda napisani u Tabeli 2. Nacrtati odgovarajući dijagram frekvencija i histogram frekvencija, te izvesti odgovarajuće prirodne zaključke.

Tabela 2

Klase obilježja

x

Sredina Klase

Broj krava

f

Relativna frekvencija

f / 100 29 - 31 30 2 0,02 31 - 33 32 10 0,1 33 - 35 34 18 0,18 35 - 37 36 30 0,3 37 - 39 38 22 0,22 39 - 41 40 13 0,13 41 - 43 42 3 0,3 Ukupno 100 1

Rješenje. U ovom primjeru je osnovni skup krdo od 100 krava ( )100N = , a obilježje koje se posmatra je mliječnost tih krava. Pošto je broj elemenata populacije veliki (broj krava 100), a ima i puno vrijednosti obilježja X, ne bi bilo pregledno kada bi se dala raspodjela za svaku vrijednost obilježja posebno. Zato je segment [ ]43,29 , dužine 29 – 43 = 14 između najveće i najmanje vrijednosti podijeljen na sedam intervala dužine 2 ( )14 : 7 2=

(napomenimo da se često u praksi broj klasa uzima tako da on bude približno jednak n ; gdje je n broj elemenata osnovnog skupa (konačnog), ali se uz to često uzima da je tim brojem klasa djeljiva razlika između najveće i najmanje vrijednosti obilježja X). Aritmetička sredina donje i gornje granice jedne klase zove se sredina te klase. U statističkoj obradi podataka klasu može reprezentovati njena sredina. Na sljedećoj slici je prikazan dijagram raspodjele tih sredina, tj. dijagram raspodjele klasa kao i histogram frekvencija. Sl. 4.2.2. Sl 4.2.3.

0 29 31 33 35 37 39 41 43

3

10

18

30

x

(36,30)

(32,10)

f

f

x

Page 6: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

6

Još o pojmu statističkog skupa i statističke raspodjele

U statistici se posmatraju problemi sa vrlo mnogo podataka, tj. (vrijednosti obilježja), pa se javlja veliki broj intervala tih vrijednosti. Dužine tih intervala su male pa se poligon raspodjele frekvencija približava tzv. krivoj (krivulji) frekvencija kao na sl. 4.2.3.

Više formalno možemo ovako uvesti pojam osnovnog skupa i obilježja. Osnovni

predmet razmatranja u statistici je skup, recimo Ω (neprazan skup) elemenata, recimo ω , koji se zove osnovni skup ili populacija. Kod svakog elementa ω Ω∈ posmatra se neka numerička karakteristika, recimo ( )X ω , koja se zove obilježje (svojstvo, osobina) X. Dakle,

obilježje X je funkcija (preslikavanje) sa (ili iz ) Ω u skup R (ili u R ili u C ili u još opštiji skup). Za ovu funkciju pretpostavlja se da je F - izmjeriva, tj. da je

[ ]( ) { }( )1 , :X a b a X bω Ω− = ∈ ≤ ∈< F (tj. da je ovaj skup događaj) za svaki interval

[ a, b ) ⊂R, gdje je F σ - algebra (σ - polje) podskupova skupa Ω . Također smo mogli zahtijevati da je ( )( )1 ,X x− − ∞ ∈ F ( x R∀ ∈ ) jer je ( ){ }, :x xσ −∞ ∈R =

{ } { }, : , :x x x xσ σ= + ∞ ∈ = + ∞ ∈ =R R[ ) [ ) BR, gdje je BR σ - algebra Borelovih skupova na R (tj. najmanja σ - algebra podskupova iz R koja sadrži familiju svih otvorenih skupva na R). Svaki otvoren skup na R je prebrojiva unija otvorenih intervala

( ),B a b= ( ),a b a b∈R <, , tj. BR ( ){ }, : ,a b a b ,a bσ= ∈R < ( σ - algebra generisana otvorenim intervalima).

Nad funkcijom F se definira određena mjera P za koju ćemo pretpostaviti da je

normirana, tj. da je ( ) 1P Ω = , tj. da je P vjerovatnoća (normalizovana mjera). Prema tome u terminima teorije vjerovatnoće osnovni skup (populacija) je skup svih

ishoda jednog pokusa nad kojim je definisano σ - algebra F događaja (podskupova od Ω ) i vjerovatnoća P. Obilježje X kao finitna (konačnih vjerovatnoća) F - izmjeriva funkcija je slučajna veličina.

Distribucija vjerovatnoća obilježja X je funkcija { }P X B∈ definirana za ∀B ∈ BR.

Poznato nam je da je ova distribucija vjerovatnoća jednoznačno određena funkcijom distribucije vjerovatnoća obilježj ( ) ( ){ }( ): XX F x P X xω Ω : ω= ∈ ≤ , ( )x∀ ∈R .

Često se riječ raspodjela (distribucija) upotrebljava i za funkciju distribucije xF bez opasnosti od zabune. Sa aspekta statistike obilježje X je potpuno određeno ako je određena njegova raspodjela nad skupom Ω u prethodnom smislu, tj. ako je određena njegova funkcija raspodjele xF .

Primjer 4.2.2. Dato je n – kuglica u kutiji koje čine jednu populaciju. Neka kuglica

može biti bijele ili crvene boje. Obilježje X neka je boja kuglice: ( ) 1X ω = , ako je kuglica ω

bijela, a ( ) 0X ω = ako je kuglica ω crvena. Inverzna slika [ )( )1 ,X a b− je { } ( )( )1 11 1X X− −=

- podskup skupa bijelih kuglica, odnosno ( )1 0X − - podskup skupa crvenih kuglica. Normalizovana mjera (vjerovatnoća) P može se definirati, npr., relacijom

Page 7: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

7

{ }( )1 broj bijelih kuglicaP xn

= = , { }( )0 .broj crvenih kuglicaP xn

= = Neka je { }( )1P x p= = .

Onda je { }( )1 1P x p q= = − = . U ovom primjeru obilježje X je slučajna veličina diskretnog

tipa za koju je funkcija distribucije F zadana izrazom ( )0, 0

, 0 < x 11, x >1.

xF x q

≤⎧⎪= ≤⎨⎪⎩

Primjer 4.2.3. Populaciju čini skup svih mjerenja neke veličine izražene brojem m.

Kao obilježje X = X ( )ω možemo uzeti upravo rezultat mjerenja ω . Vjerovatnoća P neka je

definirana relacijom { }( )2

2212

x mb

a

P a X b e dxσ

σ π

−−

≤ ≤ = ∫ , gdje su m∈R i +σ ∈R . Tada

imamo da je obilježje X slučajna veličina s Gaussovom distribucijom (normalnom)

N ( )2,m σ , zadanu funkcijom gustoće: ( )( )2

2212

x m

f x e σ

σ π

−−

= ⋅ .

§ 4.3. Slučajni uzorak

Pod statističkim pokusom ili statističkim eksperimentom podrazumijeva se registriranje vrijednosti obilježja X kod elemenata iz nekog podskupa osnovnog skupa Ω . Osnovni predmet statističkih zaključivanja jeste da se na osnovu statističkih pokusa nešto zaključi o distribuciji ( )xF x obilježja X . Pretpostavimo da treba ispitati neko svojstvo (obilježje) koje karakteriše skup istorodnih objekata, tj. neki osnovni skup Ω . Da bi to uradili može se sprovesti potpuno ispitivanje posmatranog skupa Ω . No, očigledno je da ako je Ω konačan i statističkim pokusom registrujemo obilježje X svakog elementa ω Ω∈ , onda je distribucija xF ptpuno određena. Međutim, redovna je situacija takva da statistički pokus sproveden nad pravim podskupom od Ω koji se naziva uzorak. Razlozi za to mogu biti slijedeći: 1) principijelna nemogućnost da se obilježje X registruje kod svakog elementa ω Ω∈ ,

odnosno da pri velikom broju objekata (elemenata) ostvariti potpuno ispitivanje nije moguće;

2) troškovi ili praktična besmislenost takvog postupka tj. isptivanje vezano za uništavanje objekata ili je vezano za velike materijalne troškove, (npr., ako je osnovni skup mjesečna proizvodnja jedne fabrike sijalaica, a obilježje X recimo „vijek“ trajanja sijalice, registriranje obilježja na cijeloj populaciji dovodi do uništavanja cijele mjesečne proizvodnje).

Primijetimo da je u primjeru 4.2.1.b) utvrđena klasa obilježja (mliječnosti) za svaku

pojedinu kravu populacije. Najčešće populacija ima veoma mnogo elemenata (a često beskonačno), pa je u praksi teško ili čak nemoguće za svaki od njih ustanoviti odgovarajuću klasu, odnosno ispitati posmatrano obilježje svih elemenata te populacije. Ovakvim slučajevima, i općenito u slučajevima navedenim pod 1) ili 2), za ispitivanje obilježja X koje nas interesuje, primjenjuje se metod izbora. Suština ovog metoda sastoji se u tome što se ispitivanju podvrgnu ne svi objekti (elementi), već jedan njihov dio slučajno izabranih iz

Page 8: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

8

posmatranog osnovnog skupa. Rezultati koji se dobiju pri ispitivanju tog dijela prenose se na sve elemente posmatranog skupa elemenata.

Definicija 4.3.1. Izabranim skupom ili uzorkom naziva se skup objekata slučajno

izabranih iz osnovnog skupa. Ponekad se pod pojmom statistički skup ili statistička masa podrazumjeva bilo osnovni skup bilo uzorak.

Dakle, iz osnovnog skupa izdvojimo, putem slučajnog odabiranja, jedan pravi podskup

na kojem vršimo ispitivanja i donosimo zaključke, koji se zove slučajni uzorak osnovnog skupa. Proučavanjem slučajnog uzorka donosimo zaključke o samom osnovnom skupu, tj. zaključke koji će pod izvjesnim uslovima važiti za čitav osnovni skup. Da bi ti zaključci bili što pouzdaniji, potrebno je da uzorak što bolje predstavlja populaciju, tj. da bude reprezentativan, što je slučaj ako on ima dovoljan broj elemenata i ako su oni odabrani slučajno, a svi elementi osnovnog skupa treba da imaju jednaku vjerovatnoću da uđu u uzorak. U praksi postoji niz metoda za formiranje slučajnih reprezentativnih uzoraka (na bazi tablice slučajnih brojeva i dr.).

Analogno, kao što smo i kod osnovnog skupa imali, definiraju se i za uzorak analogni pojmovi kao što su obim, varijansa, statistička raspodjela uzorka (relativnih ili apsolutnih frekvencija), poligon, histogram (varijacioni red, varijacioni interval itd.).

Definicija 4.3.2. Obimom (ili veličinom, dužinom) uzorka naziva se broj njegovih

elemenata (objekata), jasno ukoliko je ozorak konačan. Ako sa N označimo obim osnovnog skupa, a sa n obim uzorka, tada je po pravilu n N<< .

Reprezentativnost uzorka zavisi od obima uzorka ali je obim ne obezbjeđuje. Naime,

reprezentativnost zavisi od kriterija uzimanja uzorka. Prestrogo rečeno, uzorak je reprezentativan ako kriterij po kojem ga uzimamo ne zavisi od obilježja koje posmatramo, tj. to svaki element osnovnog skupa ima jednaku šansu da uđe u uzorak. Uzorak je sa ponavljanjem ako se vraća ispitani objekat u osnovni skup, bez ponavljanja ako se ispitani objekat ne vraća u osnovni skup. Ako osnovni skup sadrži beskonačno mnogo elemenata, onda su efikasnosti uzorka bez vraćanja i uzorka s vraćanjem međusobno ekvivalentne. Ako je osnovni skup konačan, onda je efikasniji uzorak bez vraćanja. U praksi se najčešće koristi uzorak bez vraćanja.

Posmatrajmo neki uzorak izabran iz osnovnog skupa pri čemu se vrijednost x1 posmatra ili uzima u razmatranje n1, vrijednost x2, n2 puta, vrijednost xk, nk puta, gdje je

1

k

ii

n n=

=∑ , ( n – obim uzorka). Slučajni uzorak obima n sa vrijednostima 1, , nx x… obično se

kraće piše u obliku n: 1, , nx x… . Posmatrane vrijednosti xi zovu se varijanse (realizacije, registrirane vrijednosti, opservacije ili varijante). Niz varijansi , ,i nx x napisan u rastućem poretku zove se varijacioni red, a R = Xmax - Xmin zove se varijacioni razmak (varijacioni interval). Brojevi ni ( = fi ) zovu se frekvencije (učestalosti) varijanti uzorka, a

količnici inn

, 1, ,i k= … relativne frekvencije varijanti uzorka.

Definicija 4.3.3. Statistička raspodjela uzorka je pridruživanje (funkcija) između

skupa varijanti i skupa njihovih frekvencija ili relativnih frekvencija. Statistička raspodjela može biti zadana preko tabele u kojoj su varijante odgovarajuće

frekvencije.

Page 9: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

9

Primjer 4.3.1. Zadana je raspodjela frekvencija uzorka obima n = 60:

Odavde lako se dobije i raspodjela relativnih frekvencija primjenom formule 60

i ii

n nn

ω ⎛ ⎞= = ⎜ ⎟⎝ ⎠

,

pa imamo

Statistička raspodjela uzorka može biti zadana i preko niza nekih intervala i odgovarajućih frekvencija. Ako je statistička raspodjela uzorka zadata preko varijanti xi i odgovarajućih frekvencija iω (ili in onda se na osu apcisa nanosi ix , a na osu ordinata ni (ili

iω ). Dobijemo tačke, recimo ( )1 1 1,M x n , ( )2 2 2,M x n , … , koje strogo uzevši predstavljaju grafik statističke raspodjele u Dekartovom koordinatnom sistemu. Dobijene tačke povezujemo odrescima pravih. Tako dobijena linija (izlomljena) zove se poligon frekvencija (apsolutnih ili relativnih) uzorka. Ako je statistička raspodjela uzorka zadana preko intervala i odgovarajućih frekvencija, onda se konstruiše histogram frekvencija. Naime, interval kome pripadaju sve posmatrane vrijednosti neprekidnog obilježja X dijeli se na nekoliko podintervala jednake dužine h. Na svaki i - ti podinterval unosimo broj ni (suma frekvencija varijanti koje pripadaju i – tom podintervalu. Na osu apscisa nanosimo podintervale dužine h, a na istim podintervalima

konstruišemo pravougaonike visine h. Količnik inh

zove se gustoća frekvencije. Stepenasta

figura koja se sastoji iz pomenutih pravougaonika zove se histogram frekvencije uzorka. Površina S histograma jednaka je sumi svih frekvencija obima uzorka. Naime, ako je Si

površina i – tog pravougaonika, onda je ii i

nS h nh

= ⋅ = , pa je 1 1

k k

i ii i

S S n n= =

= = =∑ ∑ .

Na isti način konstruiše se i histogram relativnih frekvencija uzorka, tj. stepenasta figura predstavljena pravougaonicima čija je osnovica dužine (podintervala) h, a visina

ixhω

= . Odnos ixhω

= zove se gustoća relativnih frekvencija uzorka. Površina S histograma

relativnih frekvencija uzorka jednaka je 1. Zaista, kako je 1

, ,k

ii i i

i

S S S hhω ω

=

= = ⋅ =∑ to je

1 1 1 1

1 1k k k k

ii i i

i i i i

nS nn n

ω ω= = = =

= = = = =∑ ∑ ∑ ∑ .

xi 4 10 16 20 24 30

ni 15 18 6 4 5 12

xi 4 10 16 20 24 30

inn

14

310

110

115

112

15

, (

6

11i

=

=∑ ).

Page 10: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

10

Vratimo se ponovo pojmu uzorka. Iz navedenog se vidi da je osnovni problem da uzorak bude reprezentativan, tj. da informacija o distribuciji Fx koju on daje za obilježje X, bude u izvjesnom smislu tačna. Jasno je da se, općenito govoreći, reprezentativnost uzorka postiže ako je način uzimanja elemenata u uzorak nezavisan od obilježja koje se posmatra. Međutim, često je teško provjeriti tu „nezavisnost“ kao što pokazuje sljedeći interesantan primjer. Primjer 4.3.2. Dati su podaci jedne ankete socijalnog osiguranja u Poljskoj. Osnovni skup čine svi zaposleni osiguranici čiji je broj 2 757131,N = a obilježje X je vrsta posla i ono uzima slijedeće četiri različite vrijednosti: 1) Radnici, izuzev zaposlenih u ugljenokopima i čeličanama, 1 1778 446,N = 1 152 812;n = 2) Radnici u ugljenokopima i čeličanama, 2 250 397,N = 2 22 493;n = 3) Društvene i javne službe, 3 564147,N = 3 44 040;n = 4) Uslužne djelatnosti, 4 164141,N = 4 14 088;n =

Svega: 2 757131,N = 230 433n = .

Raspodjela vjerovatnoća za obilježje X je , ( 1, 2, 3, 4)ii

Np iN

= = . Uzorak obima 230 433n =

zaposlenih čine svi oni čija prezimena počinju sa „P“ . Raspodjela obilježja X u tom uzorku

je inn

, ( 1, 2, 3, 4)i = . Pokazuje se pomoću tzv. Pearsonovog metoda, tj. pomoću tzv. 2χ - testa, da postoje vrlo značajne razlike između obilježja X u osnovnom skupu i u uzorku,

tako da se uzorak ne može smatrati reprezentativnim. Napomenimo da je u ovom primjeru bilo teško predvidjeti „zavisnost“ između zaposlenja i početnog slova prezimena.

O metodi slučajnog uzorka

Do sada smo izlagali o uzorku i metodi uzorka intuitivno, a sada ćemo to činiti više sa formalnog aspekta. Razmatranja u teoriji vjerovatnoće navode nas kako treba „uzeti“ uzorak da bi on bio reprezentativan. Naime, kao što je obrazloženo u prethodnom dijelu teksta, elemente osnovnog skupa treba birati u uzorak slučajno, jer onda očekujemo da se „neutrališu“ sve moguće zavisnosti između posmatranog obilježja i uzorka. Tako izabran uzorak zove se slučajni uzorak. Nadalje ćemo se uglavnom baviti uzorkom konstantnog obima n. Kako elemente osnovnog skupa biramo u uzorak slučajno to imamo n – slučajnih ishoda 1, , nω ω… našeg statističkog pokusa. Obilježje X našeg statističkog pokusa posmatrano kod svakog od tih n ishoda daje n - dimenzionalnu slučajnu veličinu ( )1, , nX X… , gdje je ( )k kX X ω= za

1, ,k n= … . Kako ćemo se uglavnom baviti samo jednim obilježjem, npr. X , to imamo n – dimenzionalnu slučajnu veličinu ( )1, , nX X… koju ćemo takođe zvati slučajni uzorak. Otuda vidimo da se sa formalnog aspekta može reći da je jednodimenzionalni slučajni uzorak obima n ustvari n – dimenzionalna slučajna veličina ( )1, , nX X… . Ako pak posmatramo dva obilježja, recimo X i Y , tj. ako se radi o dvodimenzionalnom statističkom skupu, onda

Page 11: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

11

njemu odgovara slučajni uzorak oblika ( ) ( )( )1 1, , ... , , .n nX Y X Y Općenito se može posmatrati k - dimenzionalan statistički skup, gdje je k prirodan broj. Kada je statistički pokus jednom sproveden u uzorak je uzeto nekih n elemenata i n – dimenzionalna slučajna veličina ( )1, , nX X… postaje n – torka brojeva ( )1, , nx x… koja predstavlja tzv. realizovani uzorak. Jednom realizovani uzorak je dakle jedna realizovana vrijednost n - dimenzionalne slučajne veličine.

Definicija 4.3.4. Slučajni uzorak ( )1, , nX X… zove se prost ako su slučajne

promjenljive ( )1, , nX X… nezavisne i jednako distribuirane, tj. svaka od njih ima funkciju

distribucije ( )F x kao i obilježje X. Pri tome je zajednička funkcija distribucije za

( )1, , nX X… zadana izrazom ( )( ) ( )( )( ) ( )11 , , 1

1

, , : , ,n

n

n X X n ii

Q x x F x x F x=

= =∏…… … .

Popularno govoreći, prosti slučajni uzorak znači da se statistički pokus sastoji od n nezavisnih registriranja vrijednosti obilježja X . Prije sprovođenja takvog pokusa vrijednosti koje ćemo dobiti su slučajne veličine ( )1, , nX X… , a kada je pokus sproveden imamo brojeve

( )1, , nx x… (ili neke opštije elemente), tj. realizovan je prosti slučajni uzorak. Kako ćemo se dalje baviti uglavnom prostim slučajnim uzorkom govorićemo kratko uzorak. Ako se radi o složenom (stratifikovanom) uzorku posebno ćemo naglasiti. Primjer 4.3.3. U Primjeru 4.2.2. prost slučajni uzorak obima n može se realizovati tzv. slučajnim uzorkom sa vraćanjem (sa N jednakovjerovatnih ishoda): slučajno biramo kuglicu da bi realizovali obilježje X, kuglicu vraćamo nazad u kutiju, slučajno biramo kuglicu, itd. Pri tome su očigledno ( )1, , nX X… nezavisne slučajne veličine sa istom funkcijom raspodjele. No drugačija je situacija kod slučajnog uzorka bez vraćanja. Naime, tada biramo kuglicu da bismo registrirali obilježje X , a zatim kuglicu ne vraćamo u kutiju već biramo slučajno slijedeću kuglicu itd. Slučajne veličine ' '

1, ... , nX X ( )n N≤ ovako definirane nisu

nezavisne, jer se pokazuje da je npr. vjerovatnoća događaja da je '2 1X = uz uslov da se desio

događaj '1 1,X = različita od vjerovatnoće događaja da je '

2 1X = uz uslov da se desio događaj '

1 0X = . Zapravo, u tom slučaju imamo:

{ } { }( ) { } { }( ){ }( ) { } { }( )

' '2 1' ' ' '

2 1 2 1'1

1 1 11 1 1 01 11

P X X N p N qP X X P X XN NP X

⎛ ⎞= = ⋅ − ⋅⎜ ⎟= = = = = ≠ = = = ⋅⎜ ⎟ − −=⎝ ⎠

Nije teško pokazati (primjenom formule potpune vjerovatnoće) da u ovom primjeru

svaka slučajna veličina 'kX ( )1, ,k n= … ima istu distribuciju kao obilježje X.

Page 12: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

12

§ 4.4. Empirijska funkcija raspodjele (distribucije). Fundamentalna teorema statistike

4.4.1. Empirijska funkcija raspodjele

U cilju davanja odgovora na pitanje reprezentativnosti uzorka, tj. u kom slučaju uzorak ( )1, , nX X… daje potpunu informaciju o raspodjeli ( )F x obilježja X na cijelom osnovnom skupu Ω ; definira se prvo tzv. empirijska funkcija distribucije.

Definicija 4.4.1. Neka je ( )1, , nX X… slučajni uzorak obima n iz funkcije distribucije

F, tj. neka su ( )1, , nX X… nezavisne jednako distribuirane slučajne veličine sa zajedničkom

funkcijom distribucije F. Funkcija n̂F ( ili F ∗ ili stF ili nS ili empF ) definirana na R izrazom

( ) ovabroj koji su manji odˆ : in

X xF x

n−= , ( )x∈R ,

tj. ( ) { }1

1ˆi

n

n X xi

F xn

χ=

= ∑ < ili ( )ˆ

i

ni

nx X

fF xn

= ∑<

zove se empirijska funkcija distribucije

(raspodjele) uzorka ili kumulativna ili statistička funkcija raspodjele. )∗

Dakle, za svaki fiksirani x∈R , ( )n̂F x predstavlja relativnu frekvenciju događaja

{ }X x< u n – ponovljenih nezavisnih pokusa, odnosno ( )n̂F x je slučajna veličina. Iz same definicije slijedi da empirijska funkcija distribucije ima sljedeća osnovna svojstva: 1) njene vrijednosti pripadaju segmentu [ ]0,1 ; 2) neopadajuća je;

3) ako je x1 najmanja i x k najveća vrijednost obilježja X, onda je za 1x x≤ vrijednost

( )ˆ 0nF x = , a za kx x> je ( )ˆ 1nF x = .

Definicija 4.4.2. Integralna funkcija raspodjele, recimo ( )F x , osnovnog skupa za

razliku od empirijske funkcije ( )n̂F x zove se teorijska funkcija raspodjele i ona se zadaje,

kao što znamo, sa ( ) ( ){ }( ): :F x P X xω Ω ω= ∈ ≤ , gdje je X slučajna veličina, tj.

posmatrano obilježje.

Kako za svaki i vrijedi { } ( ) ( )0 1

1iX x F x F xχ

⎛ ⎞= ⎜ ⎟−⎝ ⎠

< (što slijedi iz definicije

karakteristične funkcije skupa i teorijske funkcije raspodjele) i kako su slučajne veličine nezavisne, to je ( ) ( )( )ˆ ,nn F x n F x⋅ ∼ B , ( )x∈R , tj. ( )n̂n F x⋅ je binomna slučajna veličina

sa parametrima ( ),n F x , odnosno, imamo: _________________

)∗ U literaturi se, umjesto znaka <, u izrazu koji definira empirijsku funkciju distribucije (analogno kao i u definiciji funkcije distribucije FX slučajne veličine X) uzima i znak ≤.

Page 13: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

13

( ) ( ) ( )ˆ 1 ,k n k

n

nkP F x F x F xkn

−⎛ ⎞⎛ ⎞⎧ ⎫ ⎡ ⎤= = −⎡ ⎤⎨ ⎬ ⎜ ⎟⎜ ⎟ ⎣ ⎦ ⎣ ⎦⎩ ⎭⎝ ⎠ ⎝ ⎠( )0,k n= .

Sada se dokaže, koristeći tzv. Borelov jaki zakon velikih brojeva, da za svaki x∈R vrijedi

( ) ( ). .ˆ g snF x F x⎯⎯⎯→ , /konvergira gotovo sigurno ka/, tj. pišemo

( ). .g s ( ) ( )ˆlim nnF x F x

→∞= , ( )∗

( ( ). .g s - vrijedi svuda svojstvo osim na skupu mjere 0, odnosno, osim za događaje čija je

vjerovatnoća 0). To znači da funkciju raspodjele ( )F x možemo u svakoj fiksiranoj tački

x∈R skoro sigurno odrediti pomoću uzorka ( )1, , nX X… kada obim uzorka neograničeno raste. Tzv. Centralna teorema statistike (fundamentalna teorema statistike), ili Glivenko – Cantellijeva teorema, tvrdi da je konvergencija ( )∗ čak uniformna po x (gotovo svuda, odnosno, gotovo sigurno). Ona glasi: Teorema 4.4.1. (Glivenko – Cantelli). Neka je ( ) 1

ˆ, ,ni n ni

X F F=

kao u prethodnoj

definiciji, tj. neka je ( )1, , nX X… prost slučajan uzorak sa obilježjem X čija je funkcija

distribucije F (teoretska) i n̂F empirijska funkcija distribucije uzorka. Tada vrijedi:

( ) ( )ˆlim sup 0 1nn xP F x F x

→∞ ∈

⎛ ⎞⎧ ⎫⎡ ⎤− = =⎜ ⎟⎨ ⎬⎢ ⎥⎣ ⎦⎩ ⎭⎝ ⎠R.

Napomena 4.4.1. Za realizovani uzorak 1: , , nn x x… realizovana empirijska funkcija

raspodjele je neka određena funkcija ( )ns x ili ( )n̂f x ( )x∈R definirana izrazom

( )nks xn

= za 1k kx x x∗ ∗+≤ < , ( )1,k n= , ( ) 0ns x = za 1xx ∗< ,

gdje su 1 nx x∗ ∗≤ ≤ vrijednosti ( )1, , nx x… poredane po veličini. Prema centralnoj teoremi

statistike sve realizacije ( )ns x , ( )x∈R , izuzev možda onih koje pripadaju događaju

vjerovatnoće 0, uniformno po x konvergiraju ka funckiji (teorijskoj) raspodjele ( )F x obilježja X kad obim uzorka n →∞ . ∗ Interesantno je posmatrati u statistici slučajne veličine Dn definirane izrazom

( ) ( )supn nx

D s x F x− ∞ ≤ ≤ + ∞

= − . Pokazuje se (tzv. teorema Kolmogorov - Smirnova čiji je dokaz

dosta složen) da za funkciju raspodjele slučajne promjenljive nD n⋅ važi kad ( )n →∞ formula

( ) ( )( ) { }nD n nF x G x P n D x= = ⋅ < → ( ) 2 22

0, 0,

1 , 0,k k x

k

x

e x+∞

= −∞

≤⎧⎪⎨ − >⎪⎩∑

Page 14: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

14

pod uslovom da je ( )F x neprekidna funkcija distribucije. Primjer 4.4.1. Naći empirijsku funkciju raspodjele prema datoj statističkoj raspodjeli:

Rješenje. Kako su već sve varijante uzorka napisane po veličini, to datu tabelu već možemo smatrati tabličnim prikazom statističke raspodjele apsolutnih frekvencija. (Da bi odredili analitički izraz empirijske funkcije distribucije može se prvo dati tabelarni prikaz statističke raspodjele relativnih frekvencija.) Imamo:

( )ˆ 0nF x = za 6x ≤ , ( )20in n= =∑ , za 6 8x< ≤ je ( )ˆ 0,1nF x = ,

za 12x8 < ≤ je ( )ˆ 0,25nF x = , za 15x12 < ≤ je ( )ˆ 0,75nF x = ,

za 15x > je ( )ˆ 1nF x = , tj.

( )

0, 6,0,1, 6 8,

ˆ 0, 25, 8 12,0,75, 12 15,1, 15.

n

xx

F x xx

x

≤⎧⎪ < ≤⎪⎪= < ≤⎨⎪ < ≤⎪

>⎪⎩

Sl. 4.4.1.

4.4.2. O karakterističnim funkcijama distribucije i tipovima konvergencije u teoriji vjerovatnoće

Jedan vrlo moćan matematički aparat u teoriji vjerovatnoće, pa i u statistici,

predstavlja metoda karakterističnih funkcija distribucije i u vezi s tim je izgrađena čitava teorija karakterističnih funkcija. Te se funkcije mogu korisno upotrijebiti u dokazima graničnih teorema u teoriji vjerovatnoće i u njenim primjenama u statistici. Ovdje ćemo dati samo njenu definiciju i navesti njena osnovna svojstva.

Definicija 4.4.3. Funkcija ϕ zove se karakteristična funkcija slučajne veličine X

(ili karakteristična funkcija funkcije distribucije F, gdje je F funkcija distribucije slučajne veličine X na nekom prostoru vjerovatnoće ( ), ,F PΩ ), ako je funkcija ϕ zadana izrazom

( ) ( ): itXt E eϕ = ( i – imaginarna jedinica), tj. ako je ( ) ( )itXt e dF xϕ+ ∞

− ∞

= ∫ , ( )t∈R .

xi 6 8 12 15 (fi =) ni 2 3 10 5

0 x

y

Page 15: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

15

Napomenimo da je itXe primjer kompleksne slučajne veličine ( ) :Z X iY Ω= + →C

pri čemu je kao što znamo ta slučajna veličina određena parom ( ),X Y nezavisnih slučajnih veličina ,X Y , koji preslikava skup Ω u C (gdje je C skup kompleksnih brojeva).

Pokazuje se da karakteristična funkcija ϕ ima ova osnovna svojstva:

1) ( ) 1tϕ ≤ , ( )t∀ ( )t∈R ;

2) ϕ je neprekidna ( )t∀ ( )t∈R ;

3) ( )0 1ϕ = ;

4) ( ) ( )t tϕ ϕ− = , ( )t∀ ( )t∈R ;

5) ( ) ( ) ( )0j j ji E Xϕ = ⋅ , ( )j n∀ ≤ , ako je ( )nE X < + ∞ , za neki n∈N ( izvod funkcije ϕ

reda j u tački 0); 6) iz ( ) ( ): itXt E eϕ = se dobije funkcija gustoće f:

( ) ( )12

itxf x e t dtϕπ

+ ∞−

− ∞

⎡ ⎤= ⋅⎣ ⎦∫ , ( 1lim 1 , 2,718n

ne e

n→∞

⎛ ⎞= + ≈⎜ ⎟⎝ ⎠

).

Primjer 4.4.2. Lako se vidi da je funkcija 2

2:t

t eϕ−

→ karakteristična funkcija normalne slučajne varijable.

Definicija 4.4.4. Kažemo da niz { } 1n n

X=

slučajnih veličina konvergira gotovo

sigurno (konvergira jako) prema slučajnoj veličini Y ako je

( ) ( ){ }( )lim 1nnP Y Yω Ω ω ω

→∞∈ = =

(tj. konvergira svuda osim eventualno na skupu vjerovatnoće 0). To se označava sa . .g s

nY y⎯⎯→ ( )n →+∞ ili (g. s.) ( ) ( )lim nnY x Y x

→∞= .

Definicija 4.4.5. Kažemo da niz { }nY slučajnih veličina konvergira po vjerovatnoći

(konvergira slabo) ka slučajnoj veličini Y ako za svaki 0ε > vrijedi relacija ( ) ( ){ }( )lim : 0nn

P Y Yω Ω ω ω ε→∞

∈ − ≥ = ,

što se simbolički označava sa PnY Y⎯⎯→ , ( )n →∞ ili ( ) ( ) ( )lim nn

P Y x y x→∞

= .

Osim ova dva tipa konvergencije u teoriji vjerovatnoće, pa i u statistici, posebno su

značajna i sljedeća dva tipa.

Definicija 4.4.6. Kažemo da niz { }nY slučajnih veličina konvergira po distribuciji

ka Y ako je ( ) ( )limnY Yn

F x F x→∞

= , za svaki ( )Yx C F∈ , gdje je C(FY) skup svih tačaka

Page 16: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

16

neprekidnosti funkcije distribucije FY slučajne veličine Y , a nYF je funkcija distribucije

slučajne veličine Yn. To se simbolički često piše u obliku nY YF F⎯⎯→D ( )n →∞ .

Definicija 4.4.7. Neka je 1 p≤ ≤ + ∞ i neka postoji konačni apsolutni p-ti moment

( )pnE Y . Kažemo da niz { }nY konvergira u srednjem reda p prema Y ako je

( )lim 0pnn

E Y Y→∞

− = , što često označavamo sa pm

nY Y⎯⎯→ , ( )n →∞ .

Sl. 4.4.2. Posebno važan slučaj konvergencije u srednjem je za 2p = , u kom slučaju se

najčešće piše . .s knY Y⎯⎯⎯→ , ( )n →∞ i kaže da dati niz konvergira u srednjem, odnosno

da je to srednjekvadratna konvergencija. Pokazuje se da su konvergencija gotovo sigurno i konvergencija u srednjem

neuporedive (tj. jedna drugu ne implicira), dok obje impliciraju konvergenciju u vjerovatnoći, a ova implicira konvergenciju u distribuciji (a obrnuto ne vrijedi; tj. pokazuje se da vrijedi odnos konvergencija slučajnih veličina dat šemom na sl. 4.4.2.

4.4.3. O zakonima velikih brojeva, graničnim teoremama i teoremama centralnog limesa u teoriji vjerovatnoće

Zakon velikih brojeva je jedan od osnovnih i najznačajnijih zakona u statistici..

Karakter i sadržaj statistike kao nauke i prakse zasniva se na zakonu velikih brojeva. Osnovni smisao i značenje zakona velikih brojeva u statistici može se najjednostavnije izraziti u sljedećem: što je veći broj događaja, posmatranja ili elemenata to je veća vjerovatnoća da će naši sudovi i zaključci biti realni, istiniti, odnosno to je manja greška u tačnosti naših zaključivanja. Pri tome treba voditi računa da je primjena zakona velikih brojeva opšta (generalna) u statistici, tj. ne treba shvatiti da to zavisi od metoda da li posmatranje i prebiranje vršimo putem potpunog obuhvatanja svih jedinica nekog osnovnog skupa ili samo putem djelimičnog (selektivnog) posmatranja, odnosno, putem uzorka, tj. u svakom slučaju težimo da naše sudove i zaključke temeljimo na zakonu velikih brojeva, samo što kod primjene metode uzorka to procjenjujemo sa manjim stepenom pouzdanosti nego kad to vršimo potpunim obuhvatanjem svih elemenata osnovnog skupa.

U suštini, zakon velikih brojeva zasniva se na zakonima vjerovatnoće pa se i njihov dokaz izvodi tim putem.

6 8 12 15 x

1

0

Page 17: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

17

U klasičnom obliku problematika zakona velikih brojeva sastoji se u ispitivanju

potrebnog i dovoljnog uslova da niz aritmetičkih sredina 1 21

1

1, , ..., , ...2

n

ii

X XX Xn =

+ ∑

nezavisnih slučajnih veličina 1, , nX X… … konvergira u određenom smislu ka nekom broju. Ako se ne istakne suprotno, u daljem izlaganju smatramo da su sve slučajne veličine, koje se istovremeno posmatraju, definirane na istom prostoru vjerovatnoće ( ), ,F PΩ .

Sada ćemo preciznije formulisati zakon velikih brojeva: Neka je { }nX niz

nezavisnih slučajnih veličina (definiranih na fiksnom prostoru vjerovatnoće ( ), ,F PΩ ).

Posmatra se konvergencija niza ( )1 1

1 1n n

i ii i

X E Xn n= =

−∑ ∑ ( )1, 2,n = … ka 0 (ili, opštije, niza

nSn

ili niza n nS an− ka konsanti, gdje je

1

n

n ii

S X=

=∑ , na ∈R , ( )1, 2,n = … ).

Ako je u pitanju konvergencija u vjerovatnoći odgovarajuća teorema zove se slabi zakon velikih brojeva, a kod skoro sigurne konvergencije zove se strogi (jaki) zakon velikih brojeva.

Neki osnovni zakoni velikih brojeva

Pokazuje se da niz 1

1 n

ii

Xn =∑ (Xi nezavisne) konvergira gotovo sigurno ka konstanti ili

da divergira gotovo sigurno. Takođe se dokazuje da vrijede sljedeći zakoni velikih brojeva (a i neki drugi, kao što su Čebiševljev zakon, Hinčijev zakon /slabi zakoni/, te jaki zakon Kolmogorova i dr.).

Teorema 4.4.1. (Bernulijev slabi zakon velikih brojeva). U Bernulijevoj šemi (tj.

ako je ( ),nS n p∼ B , tj. ako je Sn binomna slučajna veličina) za svaki 0ε > vrijedi da je

0nSP pn

ε⎛ ⎞⎧ ⎫

− ≥ →⎨ ⎬⎜ ⎟⎩ ⎭⎝ ⎠

, ( )n →∞ , tj. 1

1 nP

ii

X pn =

⎯⎯→∑ , ( )n →∞ .

(Ovaj zakon govori o konvergenciji po vjerovatnoći niza relativnih frekvencija u Bernulijevoj šemi u svakom pojedinom pokusu. Ovaj zakon pretpostavlja klasičan rezultat teorije vjerovatnoće i jedan je od prvih važnijih teorema teorije vjerovatnoće a objavljen je 1715. godine.) Dokaz. Prema poznatoj nejednakosti Čebiševa: „Ako je X slučajna veličina sa konačnim očekivanjem i varijansom na nekom prostoru vjerovatnoće ( ), ,F PΩ , onda za

svaki 0ε > vrijedi da je ( ) ( ){ }( ) ( )2

Var XP X E Xω Ω ω ε

ε∈ − ≥ ≤ ,” (a često se koristi i

Markovljeva nejednakost ( ){ }( ) ( ): r

E XP Xω Ω ω ε

ε∈ ≥ ≤ , 0r > , ( )rE X +∞< ), imamo:

Page 18: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

18

( ) 2

2 2 2

1

: 0

n

n

SVar n p qS p qn nP pn nω

ω Ω εε ε ε

⎛ ⎞⋅ ⋅⎜ ⎟⎛ ⎞⎧ ⎫ ⋅⎪ ⎪ ⎝ ⎠∈ − ≥ ≤ = = →⎜ ⎟⎨ ⎬⎜ ⎟ ⋅⎪ ⎪⎩ ⎭⎝ ⎠

, n →∞ ,

jer iz ( )( )nVar S n p q= ⋅ ⋅ i ( ) ( )2Var a X a Var X⋅ = slijedi da je 2

1nSVar n p qn n

⎛ ⎞ = ⋅ ⋅⎜ ⎟⎝ ⎠

.

Prema tome, Bernulijev slabi zakon velikih brojeva je dokazan.

Napomenimo još da Bernulijev zakon velikih brojeva daje jedno tumačenje grupisanja

relativnih frekvencija nSn

oko vjerovatnoće p. Ali to grupisanje je opisano sljedećom jačom

teoremom koju je dokazao Borel 1909. godine i zove se Borelov jaki zakon velikih brojeva. Teorema 4.4.2. U Bernulijevoj šemi (tj. za binomnu slučajnu veličinu ( ),nS n p∼ B )

vrijedi jaki zakon velikih brojeva dat sa ( ): , 1nSP p n

ω Ω⎛ ⎞⎧ ⎫

∈ → →∞ =⎜ ⎟⎨ ⎬⎜ ⎟⎩ ⎭⎝ ⎠, tj.

. .

1

1 ng s

ii

X pn =

⎯⎯⎯→∑ , ( )n →∞ .

∗ Dokaz. Dokazuje se primjenom Čebiševljeve nejednakosti i Borel-Cantellijeve leme I.

Napomenimo da se u primjenama koristi i poopštena Čebiševljeva nejednakost data

sljedećom teoremom. Teorema 4.4.3. (Kolmogorovljeva nejednakost). Ako su 1, , mX X… nezavisne

slučajne veličine i ako je ( )jVar X + ∞< za svaki 1, ,j m= … , onda za svaki 0ε > vrijedi

( ){ }( ) ( )1, , 21

1: maxn

n m kk

P Y Var Xω Ω ω εε=

=

∈ ≥ ≤ ∑… , gdje je ( )( )1

n

n k kk

Y X E X=

= −∑ .

Navedimo i ovaj (moćni) jaki zakon velikih brojeva: Teorema 4.4.4. (Teorema Kolmogorova). I. Neka je ( )nX niz nezavisnih slučajnih veličina takav da je

1iX XF F= , ( )i∀ , tj. sve

iX su jednako distribuirane. Ako postoji ( )1E X , onda je ( ). .1 g si iX E X

n⎯⎯⎯→∑ ,

( )n →∞ .

Page 19: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

19

II. Obrnuto: Ako je 1lim 1inP X postoji

n→∞

⎛ ⎞ =⎜ ⎟⎝ ⎠

∑ , onda ( )1E X postoji i prema I. je

( ). .1

1

1 ng s

ii

X E Xn =

⎯⎯⎯→∑ , ( )n →∞ , ili kraće: Niz 1

1 n

ii

Xn =

⎛ ⎞⎜ ⎟⎝ ⎠∑ , gdje su iX nezavisne

i jednako distribuirane slučajne veličine, konvergira gotovo sigurno ako i samo ako

( )1E X postoji i u tom slučaju je ( )11

1limn

in iX E X

n→∞=

=∑ .

Dokaz. Izlazi iz okvira ovog kursa.

Granične teoreme (teorem centralnog limesa) u teoriji vjerovatnoće

U primjenama najčešće je potrebno izračunati vjerovatnoću da neka slučajna veličina

poprimi vrijednost iz nekog intervala kao npr. vjerovatnoću da se broj uspjeha u Bernulijevoj šemi (tj. ako je ( ),X n p∼ B (binomna slučajna veličina) ) nalazi između realnih brojeva, recimo, a i b. Ta vjerovatnoća je

( ) ( ) ( ) k n k

a k b a k b

np k P a X b P X k p q

k−

≤ ≤ ≤ ≤

⎛ ⎞= ≤ ≤ = = = ⎜ ⎟

⎝ ⎠∑ ∑ .

Brojeve ( )p k , a posebno ( )P a X b≤ ≤ vrlo teško je izračunati za velike n. U tom smislu koriste se neke teoreme (granične) da se dobiju približne vrijednosti ovih brojeva. Navedimo stoga slijedeće važne (klasične teoreme) granične teoreme u teoriji vjerovatnoće:

Teorema 4.4.5. (Poissonova teorema). Neka je ( ),nX n p∼ B ( )n∈N i lim 0nn

p→∞

= , lim nnn p λ

→∞⋅ = , 0λ > fiksan broj. Tada slijedi da za svaki 0,1, 2,k = … vrijedi

( )lim lim!

kk n k

n n nn n

nP X k p q e

k kλλ− −

→∞ →∞

⎛ ⎞= = = ⋅⎜ ⎟

⎝ ⎠,

tj. imamo ( )!

n

kn

nP X k ek

λλ −= ≈ ⋅ , ( ); 0,1, ,n nn p k nλ = ⋅ = … , a koristi se ako je 20n ≥ , a

10nn p⋅ < .

Osim ove teoreme imamo dvije Laplaceove teoreme. Teorema 4.4.6. (Lokalna Moivre – Laplaceova teorema). Neka je 0 1p< < i

( ),nX n p∼ B i neka je kk n pXn p q− ⋅

=⋅ ⋅

, ( 0,k n= , n∈N ). Tada vrijedi

( )2

2

2lim 1

k

nxn

n p q P X k

e

π→∞ −

⋅ ⋅ ⋅ ⋅ == ( )∗

i to uniformno na svakom ograničenom segmentu [ ],a b , gdje je ka x b≤ ≤ za sve k i n .

Page 20: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

20

∗ Dokaz. Uputa: Primjenjuje se Stirlingova formula ! 2 r r t rr r r e eπ − ⋅= ⋅ ⋅ ⋅ ⋅ ,

1012

t rr

⋅< < . Napomenimo da se iz ( )∗ dobije praktična približna formula

( ) ( )21 12

k nn p

n kP X k e f xn p q n p qπ

−−

⋅= ≈ = ⋅⋅ ⋅ ⋅ ⋅ ⋅

.

Teorema 4.4.7. (Integralna Moivre – Laplaceova teorema). Neka je 0 1p< < i ( ),nX n p∼ B ( )n∈N . Tada za proizvoljne ,a b∈R il ,a b∈R , a b< , vrijedi

2

21lim2

b xn

na

X n pP a b e dxn p q π

→∞

⎛ ⎞− ⋅≤ ≤ =⎜ ⎟⎜ ⎟⋅ ⋅⎝ ⎠

∫ , tj. ( )0,1nX n pn p q− ⋅

⎯⎯→⋅ ⋅

D N ( )n →∞ .

∗ Dokaz. Može se dokazati da je ova konvergencija u teoremi 4.4.7. uniformna u

odnosu na ,a b , pri čemu je a b +−∞ ≤ ≤ ∞< . Teorem 4.4.7. je specijalan slučaj opšte centralne granične teoreme. Poznati

matematičar G. Polya je uveo naziv „centralan“ da bi naglasio da je taj problem bio u centru istraživanja u teoriji vjerovatnoće u XVIII vijeku. Ali, četrdesetih godina ovog vijeka dobijeno je potpuno rješenje proširene verzije centralnog graničnog teorema i taj dio teorije je jedan od najljepših dijelova teorije vjerovatnoće. Navedimo jednu od verzija opšte teoreme centralnog limesa:

∗ Teorema 4.4.8. (Lévyjeva teorema centralnog limesa). Neka je nX niz

nezavisnih slučajnih veličina jednake distribucije, tj. nX XF F= ( )n∀ , sa očekivanjem

( )1E Xμ = i ( ) 2nVar X σ= ( )20 σ ∞< < . Tada za sve a∈R vrijedi

2

1 21lim2

n

ii

n

X nP a e dx

n

λμ

πσ

+ ∞−=

→∞− ∞

⎛ ⎞− ⋅⎜ ⎟

⎜ ⎟≤ =⎜ ⎟⎜ ⎟⎝ ⎠

∑∫ ,

ili kraće ( )0,1nS nn

αμσ− ⋅

⎯⎯→N , gdje je 1

n

n ii

S X=

= ∑ .

∗ Dokaz. Relativno lako se izvodi dokaz koristeći metod karakterističnih funkcija i

razvoja karakterističnih funkcija prema Taylorovoj formuli (MacLaurinovoj formuli), tj.

koristeći razvoj: ( ) ( ) ( ) ( )0 !

knk n

k

itt E X o t

=

= +∑ , ako ( )nE X postoji.

∗ 4.4.4. Fundamentalna teorema statistike

U okviru ove tačke dokažimo ranije navedenu fundamentalnu (centralnu) teoremu statistike.

Page 21: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

21

Teorema 4.4.9. (Fundamentalna teorema statistike). Ako je ( )F X funkcija

distribucije slučajne promjenljive X (teoretska funkcija distribucije) i ( )nS X empirijska

funkcija distribucije koja odgovara prostom uzorku ( )1, , nX X… , onda vrijedi:

( ) ( )sup 0 , 1nx

P S X F X n− ∞ + ∞

⎛ ⎞⎧ ⎫− → →∞ =⎨ ⎬⎜ ⎟⎩ ⎭⎝ ⎠< <

.

Dokaz. Izvest ćemo dokaz za slučaj da se polazi od definicije funkcije distribucije F

po kojoj je ( ) ( ){ }( ):F x P X xω Ω ω= ∈ < , tj. da je F neprekidna sa lijeve strane

(analogno se izvodi i za slučaj da se F definirana izrazom ( ) ( )F x P X x= ≤ , tj. da je F

neprekidna sa desne strane) (vidi npr. [N. Sarapa]). Neka je jkx ( )1, ,j k= …

( )1, ,k n∀ = … najmanja vrijednost od x za koju je

( ) ( )0jF x F xk

≤ ≤ + . ( )∗

Stavimo da je ( ) ( ){ }' ,jk n jk jkA S x F x n= → →∞ . Tada je prema Borelovom zakonu velikih

brojeva ( )' 1jkP A = . Slično se dobije da je ( )'' 1jkP A = za

( ) ( ){ }'' 0 0 ,jk n jk jkA S x F x n= + → + →∞ .

Dakle, imamo ( ) 1jkP A = gdje je ( )' '' ' ''

jk jk jk jk jkA A A A A= = ⋅∩ . Takođe imamo:

( ) ( ) ( )11

sup 0 0 0,k

k jk n jk jkj kj

A A S x F x n≤ ≤=

⎧ ⎫= = ± − ± → →∞⎨ ⎬⎩ ⎭

∩ .

Prema tzv. lemi o pokrivanju (Booleova nejednakost) imamo da je

( ) ( )11

0k k

c c ck k k

jj

P A P A P A==

⎛ ⎞= ≤ =⎜ ⎟

⎝ ⎠∑∪ , tj. ( ) 1kP A = . Prema osobini neprekidnosti vjerovatnoće

za 1

kk

A A∞

=

= ∩ imamo da je ( )1

lim lim 1m

km mk

P A P A→∞ →∞

=

⎛ ⎞= = =⎜ ⎟

⎝ ⎠∩ . Otuda za svaki ( )1,,jk j kx x x +∈

imamo ( ) ( ) ( )1,0jk j kF x F x F x ++ ≤ ≤ i ( ) ( ) ( )1,0n jk n n j kS x S x S x ++ ≤ ≤ .

Kako je, prema ( )∗ , ( ) ( )1,10 0j k jkF x F xk+≤ ≤ + ≤ , to imamo:

( ) ( ) ( ) ( ) ( ) ( )1, 1, 1,10n n j k n jk n j k j kS x F x S x S x S x F xk+ + +− ≤ − + ≤ − + , a s druge strane,

( ) ( ) ( ) ( ) ( ) ( )1,10 0 0n n jk j k n jk jkS x F x S x F x S x F xk+− ≥ + − ≥ + − + − , ( ). .g s .

Dakle, dobili smo da za svaki x∈R i svaki k vrijedi

( ) ( ) ( ) ( )1

1sup 0 0n n jk jkj k

S x F x S x F xk≤ ≤

− ≤ ± − ± + , ( ). .g s . ( )∗∗

Kako događaj

Page 22: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

22

( ) ( )1sup 0 0 0,n jk jk

j kS x F x n

≤ ≤

⎧ ⎫± − ± → →∞⎨ ⎬⎩ ⎭

implicira događaj

( ) ( )sup 0,nx

S x F x n− ∞ + ∞

⎧ ⎫− → →∞⎨ ⎬⎩ ⎭< <

( )1A=

za koji vrijedi, prema ( )∗∗ , da je ( ) ( )1 1,P A P A≥ = to je centralna teorema dokazana.

∗ § 4.5. Statistika. Dopustiva familija raspodjela Ako funkcija F ima gustoću f, tj. ako je X neprekidna ili diskretna slučajna veličina s

gustoćom f, onda se obično kaže da je uzorak ( )1, , nX X… uzet iz gustoće f ili iz distribucije F.

Definicija 4.5.1. Neka je ( )1, , nX X… uzorak obilježja X iz funkcije distribucije F i

: ng →R R Borelova funkcija (tj. ako je ( )1 ,n

g B− ∈B svaki nB∈B gdje je nB -σ algebra

na nR generisana familijom svih otvorenih podskupova na nR , tj. nB je σ - algebra Borelovih skupova na nR (za svaki 1, 2,n = … ). Slučajna veličina ( )1, , ,nY g X X= … u kojoj ne figurišu nepoznati parametri, tj. ne zavisi eksplicitno od nepoznatih parametara, zove se statistika (u užem smislu riječi, za razliku od pojma statistike, u širem smislu, kao naučne discipline).

No, raspodjela statistike može da zavisi od nepoznatih parametara. Ako je u pitanju

realizovani uzorak ( )1, , nX X… , onda je pripadna statistika jedan broj ( )1, , ,nY g X X= … tj.

realizovana vrijednost slučajne veličine ( )1, , nY g X X= … . U primjenama se najčešće posmatraju sljedeće statistike:

1) Suma uzorka: 1

1 n

n ii

X X Xn =

= = ∑ koja se još zove aritmetička sredina uzorka,

srednja vrijednost uzorka (očekivanje uzorka).

2) 2 2 2

1

1 ( )n

n i ni

S S X Xn =

= = −∑ varijansa (disperzija) uzorka.

Takođe se koristi i tzv. ispravljena disperzija

' 2 2

1

1: ( )1

n

n i ni

S X Xn =

= −− ∑ ( )2, 3,n = … .

Lako se vidi da vrijedi sljedeća teorema.

Teorema 4.5.1. Neka je ( )1, , nX X… slučajan uzorak iz funkcije distribucije F i

neka je μ očekivanje od F i 2σ varijansa od F. Tada je

Page 23: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

23

( )E X μ= , ( )2

Var Xnσ

= , ( )' 2 2nE S σ= .

Dokaz. Naime, ( ) ( )1 1

1 1n n

i ii i

E X E X E Xn n

μ= =

⎛ ⎞= = =⎜ ⎟

⎝ ⎠∑ ∑ . Slično se dokazuju i ostale

dvije relacije.

Primjer 4.5.1. Ako je ( )E X m= poznati parametar, onda je 2 2

1

1 ( )n

n kk

S X mn =

= −∑

jedna statistika, a ako je m – nepoznati parametar, onda 2nS nije statistika.

Kao što smo rekli, osnovni problem u statistici je da se pomoću uzorka ( )1, , nX X…

nešto zaključi o raspodjeli ( )F x obilježja X. Najčešće je situacija takva da o raspodjeli ( )F x imamo neke prethodne informacije ili pretpostavke koje ne podvrgavamo provjeravanju. Npr. često iz opštih razmatranja zaključimo da važi aproksimativno centralna granična teorema te uzimamo da (približno) obilježje X ima normalnu raspodjelu. Ako su nam matematičko očekivanje m i varijansa 2σ obilježje X nepoznati, onda možemo reći da X ima raspodjelu koja pripada familiji raspodjela ( ){ }2,m σN , m−∞ +∞< < , 2 0σ > , ili recimo, imamo

dovoljno razloga da pretpostavimo da X ima uniformnu raspodjelu na segmentu [ ]0,b , pri čemu je b nepoznat. Tada je familija raspodjela kojoj pripada raspodjela za X data sa

( ){ }0, , 0b b >∪ . Uopšte, redovno pretpostavljamo da obilježje X ima distribuciju

(raspodjelu) koja pripada familiji distribucija ( ){ }, ,F x θ θ ∈Θ . Ova familija se naziva dopustiva familija distribucija, gdje parametar θ prolazi kroz skup dopustivih vrijednosti Θ . Šta ćemo usvojiti kao dopustivu familiju raspodjela u konkretnoj situaciji zavisi od nekih naših ranijih informacija i od problema koji nas interesuje. Izbor te familije je u opštem slučaju subjektivan. Međutim, noviji pravac u statistici, tzv. Bajesovski prilaz, još je ortodoksniji u tom smislu, jer on pretpostavlja da parametar θ koji određuje raspodjelu ( ),F x θ obilježja X pripada skupu Θ pretpostavljajući jednu slučajnu veličinu sa nekom

apriornom raspodjelom vjerovatnoće ( )G θ čiji izbor zavisi od prethodnih informacija obilježja X, tj. subjektivan je.

§ 4.6. Ocjene parametara po uzorku

Neka slučajna veličina X ima distribuciju ( ),F x α , gdje je α nepoznat parametar. Pretpostavimo da treba ocijeniti parametar α , odnosno da treba odrediti približno njegovu vrijednost u zavisnosti od nekog uzorka 1: , , nn x x… . Označimo tu ocjenu sa α .

Očigledno α zavisi od uzorka 1: , , nn x x… , tj. ( )1, , nX Xα α= … . Kako u i-toj seriji iz

n-ogleda α uzima neku vrijednost iα to se α javlja kao slučajna veličina :α Ω → R , te se može govoriti o distribuciji (raspodjeli) te veličine, a i o njenim numeričkim karakteristikama. Da bi ocjena α nepoznatog parametra α imala praktičnu (upotrebljivu) vrijednost, na nju se postavljaju određeni zahtjevi. Otuda imamo sljedeće definicje o ocjenama parametara:

Page 24: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

24

Definicija 4.6.1. Ocjena ( )1, , nX Xα α= … nepoznatog parametra α zove se centrirana

(nepristrasna, nepomjerljiva), ako je

( )E α α= . ( )∗

Ako svojstvo ( )∗ nije ispunjeno, onda je ocjena pristrasna i tada je ( )E α α γ= + ili

( )E α α γ= ⋅ , gdje je γ pristrasnost.

Eliminacijom pristrasnosti γ (odnosno 'α α γ= − ) ili ' ααγ

= dobije se nepristrasna

ocjena. Definicija 4.6.2. Ocjena nα parametra α zove se asimptotski centrirana ako

( ) ,nE nα α→ →∞ .

Definicija 4.6.3. Ocjena α parametra α zove se stabilna (postojana, konzistentna,

moćna) ako za proizvoljan 0ε > vrijedi da je

{ }lim 1n

P α α ε→∞

− ≥ = , tj. Pα α⎯⎯→ , n →∞ .

. Definicija 4.6.4. Nepristrasna i stabilna ocjena α zove se najefektivnijom

(najefikasnijom) ako ona ima najmanju varijasu (disperziju) od svih nepristrasnih i stabilnih ocjena parametra α iz familije Θ , tj.

inf .Var Varα

α α∈Θ

=

Napomenimo, da se često efektivnost definira u klasi nepristrasnih ocjena (procjena).

§ 4.7. Grupisanje statističkih podataka. Numeričke (statističke) karakteristike obilježja

4.7.1. Grupisanje statističkih podataka

O grupisanju statističkih podataka govorili smo ranije kada smo definirali pojmove

statističke raspodjele uzorka, te govorili o pojmovima grafičkog metoda u statistici, (a i u teoriji vjerovatnoće). Neka je iz nekog statističkog skupa formiran uzorak od n elemenata

1: , , nn x x… . Obično se taj uzorak prikazuje u obliku statističkog niza zadanom tabelom

Da bi se izračunale numeričke karakteristike kao što su: sredine uzorka (aritmetička, geometrijska, harmonijska, kvadratna i dr.), medijana, modus, statistički momenti, kvartili, karakteristike položaja, asimetrije ekscesa i dr. (na osnovu centralnog graničnog teorema prirodno je očekivati da će ove uzoračke karakteristike biti dobre ocjene za odgovarajuće

i 1 2 ... n xi x1 x2 ... xn

Page 25: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

25

karakteristike osnovnog skupa) i ocjene raspodjele slučajne veličine X obično se vrši grupisanje ovih podataka. Pri tome se u slučaju diskretne slučajne veličine vrijednosti ix

poredaju po veličini i računaju frekvencije mi ili imn

(n obim) pojavljivanja slučajne veličine

X. Kao rezultat dobije se tablica: tj. dobije se kao prikaz statističke raspodjele uzorka.

Ako se radi o neprekidnoj slučajnoj veličini, podaci se grupišu tako da se interval posmatrane vrijednosti podijeli na k podintervala (podsegmenata) jednake dužine: [ ]0 1 1, , , ,k kx x x x−⎡ ⎤⎣ ⎦… i izračuna relativna frekvencija slučajnog događaja koji se sastoji u tome da slučajna veličina uzme vrijednosti u posmatranom intervalu. Tako se dobije tabela

interval [ ]0 1,x x 1,k kx x−⎡ ⎤⎣ ⎦

imn

1mn

kmn

pri čemu je 1

1k

i

i

mn=

=∑ .

Broj podintervala se bira na osnovu iskustvenih formula, tako npr. može se uzeti da je k

najveći prirodni broj za koji je log1log 2

nk ≤ + . Poređenjem poligona i kumulativa (empirijskih

funkcija distribucije za diskretne i intervalne nizove) i histograma frekvencija za intervalne nizove sa graficima funkcija frekvencija (funkcije vjerovatnoće) i funkcija distribucije teoretskih raspodjela, može se donijeti ocjena (pretpostavka) o raspodjeli posmatrane slučajne veličine.

4.7.2. Osnovna sredina, sredina uzorka i ocjena očekivane sredine

Svakodnevno čujemo da se govori o prosjeku plata radnika jedne fabrike, ili o srednjoj ocjeni uspjeha učenika jednog razreda i sl. Slobodno govoreći, prosjek je „srednji broj“ ili „sredina“ oko koje se grupišu vrijednosti obilježja, pa često daje dobru obavijest o tom obilježju. Pretpostavimo da treba izučiti obilježje X za diskretni osnovni skup.

Definicija 4.7.1. Osnovnom sredinom naziva se aritmetička sredina obilježja X osnovnog skupa.

xi x1 xn mi m1 mn

xi x1 xn

imn

1mn

nmn

Page 26: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

26

Označimo osnovnu sredinu sa OX . Ako su sve vrijednosti 1, , nx x… obilježja X osnovnog skupa obima N različite, onda prema datoj definiciji imamo

1

1 N

O ii

X XN =

= ∑ ( )1 .

Ako se obilježje (osobina) X razmatra kao slučajna veličine čije su moguće vrijednosti

1, , nx x… sa istom vjerovatnoćom 1pN

= , onda je matematičko očekivanje takve slučajne

veličine dato sa ( ) 1 21

1 1 1 1 n

n ii

E X x x x xN N N N =

= ⋅ + ⋅ + + ⋅ = ∑ , tj. slijedi da je očekivanje

obilježja X dato izrazom ( ) OE x X= . ( )2

Ako vrijednosti 1, , kx x… imaju respektivno frekvencuiju 1, , kN N… , pri čemu je

1

k

ii

N N=

=∑ , onda je

1

1 k

O i ii

X N XN =

= ⋅∑ . ( )3

Nije teško zaključiti da jednakost ( )2 važi i za ovaj slučaj. Međutim, za neprekidnu raspodjelu obilježja X uzima se po definiciji da je

( )OX E X= . ( )4 Pretpostavimo da za izučavanje osnovnog skupa u odnosu na obilježje X iz njega izdvojimo uzorak obima n. Tada se definiraju slijedeći pojmovi (u skladu sa ranijim definicijama): Definicija 4.7.2. Sredina uzorka nX naziva se aritmetička sredina vrijednosti obilježja uzorka. Ako su sve vrijednosti 1, , nx x… različite, onda je

1

1 n

n ii

X xn =

= ∑ . ( )5

Ako pak vrijednosti 1, , kx x… imaju, respektivno, frekvencije 1, , kn n… , pri čemu je

1 kn n n+ + = , onda je

1

1 k

n i ii

X n xn =

= ⋅∑ . ( )6

Kako je svaki uzorak obima n izvučen iz osnovnog skupa kome odgovara broj nX određen sa ( )5 ili ( )6 , to se sredina uzorka može smatrati kao slučajna veličina nX . Sredina uzorka uzima se kao kvalitetna ocjena osnovne sredine, jer se pokazuje da je ova ocjena nepomjerljiva i moćna. Zapravo, pokazuje se da je (kao što smo vidjeli) ( )n OE X X= i da je

( )lim 1n OnP X X ε

→∞− =< za svaki 0ε > . Otuda slijedi da pri neograničenom povećanju obima

uzorka sredina uzorka teži po vjerovatnoći ka osnovnoj sredini. Posljednja jednakost znači da

Page 27: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

27

sredina uzorka predstavlja moćnu ocjenu osnovne sredine. Slijedi takođe, da su sredine uzorka, nađene po više uzoraka sa dovoljno velikim obimom iz nekog osnovnog skupa, jednake međusobno, što izražava svojstvo stabilnosti sredine uzorka.

4.7.2. Osnovna disperzija, disperzija uzorka i empirijska disperzija

Kao karakteristike rasijanja vrijednosti obilježja X osnovnog skupa oko svoje srednje vrijednosti (ili u okolini svoje srednje vrijednosti) služe sljedeći pojmovi: osnovna varijansa (disperzija) te osnovno kvadratno odstupanje (standardna devijacija), što se definira na sljedeći način:

Definicija 4.7.3. Osnovnom srednjom disperzijom OD naziva se aritmetička sredina kvadrata odstupanja vrijednosti obilježja X osnovnog skupa od njegove srednje vrijednosti OX . Ako su sve vrijednosti 1, , Nx x… obilježja X osnovnog skupa obima N različite, onda je prema datoj definiciji

2

1

1 ( )N

O i Oi

D x XN =

= −∑ , ( )∗

a ako vrijednosti 1, , kx x… imaju respektivno frekvencije 1, , kn n… , 1 kn n n+ + = , onda je

2

1

1 ( )k

O i i Oi

D n x XN =

= ⋅ −∑ . ( )∗∗

Definicija 4.7.4. Osnovnim srednjim kvadratnim odstupanjem Oσ naziva se kvadratni

korijen osnovne disperzije OD , tj. O ODσ = (aritmetički korijen). Kao karakteristike rasijanja vrijednosti osobine uzorka u okolini nX uvode se pojmovi

disperzija uzorka i srednje kvadratno odstupanje uzorka. Definicija 4.7.5. Disperzijom uzorka nD naziva se aritmetička sredina kvadrata

odstupanja. Ako su vrijednosti 1, , nx x… obilježja X uzorka obima n sve različite, onda je

2

1

1 ( )n

n i ni

D x Xn =

= −∑ , a ako vrijednosti 1, , kx x… imaju respektivno frekvencije 1, , kn n… , za

koje je 1 2 kn n n n+ + + = , onda je 2

1

1 ( )k

n i i ni

D n x Xn =

= −∑ .

Definicija 4.7.6. Srednje kvadratno odstupanje nσ uzorka definira se izrazom

n nDσ = (aritmetički korijen). Za izračunavanje disperzije uzorka može se koristiti formula: ( )22

n nD X X= − , gdje

je 1

1 k

n i ii

X n xn =

= ⋅∑ , 2 2

1

1 k

n i ii

X n xn =

= ⋅∑ .

Page 28: S T A T I S T I K A predavanja · sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl

28

Slično se dokazuje da važi da je: ( )22O O OD X X= − , odnosno da važi

( ) 1n O

nE D Dn−

= ⋅ . Kako je očekivanje ( )n OE D D≠ , to se disperzija uzorka nD javlja

pomjerljivom (nije centrirana) ocjenom osnovne disperzije nD . Da bi dobili nepomjerljivu ocjenu (centriranu) osnovne disperzije OD , uvodi se pojam empirijske (ispravljene) disperzije 2S sljedećom definicijom:

Definicija 4.7.7. Empirijska disperzija 2S definira se izrazom 2

1 nnS D

n= ⋅

−.

Otuda imamo da je 2 2 2

1 1

1 1( ) ( )1 1

k k

i i n i i ni i

nS n x X n x Xn n n= =

= ⋅ ⋅ − = ⋅ −− −∑ ∑ .

Kako je ( ) ( )2 1 11 1n n O O

n n n nE S E D E D D Dn n n n− −⎛ ⎞= ⋅ = ⋅ = ⋅ ⋅ =⎜ ⎟ − −⎝ ⎠

,

to je empirijska disperzija nepomjerljiva (nepristrasna) ocjena osnovne disperzije. Za ocjenu srednjeg kvadratnog odstupanja osnovnog skupa koristi se ispravljeno srednje kvadratno odstupanje ili empirijska standardna devijacija koja se definira izrazom

2 2

1

1 ( )1 1

n

n ii

nS S D x Xn n =

= = ⋅ = −− − ∑ ,

tj. S je nepristrasna ocjena standardne devijacije Oσ osnovnog skupa.

Na kraju dokažimo da je ( ) 1n O

nE D Dn−

= ⋅ . Zaista, imamo:

( ) ( ) ( ) ( )( )2 22 2

1 1

1 1( )k n

nn k n k ni k

E D E S E x X E X E Xn n= =

⎛ ⎞= = − = −⎜ ⎟⎝ ⎠∑ ∑ ,

a kako je

( )( ) ( ) ( )( )2

2 22 22

1 1

1 1 1 1n n

n k k i jk k i j

nE X E X E X X X E X E Xn n n n= = ≠

⎛ ⎞⎛ ⎞ ⎛ ⎞ −⎜ ⎟= = + = +⎜ ⎟ ⎜ ⎟⎜ ⎟⎝ ⎠ ⎝ ⎠⎝ ⎠∑ ∑ ∑ ,

to imamo:

( ) ( ) ( )( )2 22 21 1 1n

n n nE S E X E Xn n n

σ− − −= − = , š.t.d.