104

KA STATISTIKApolj.uns.ac.rs/sites/default/files/udzbenici/Udžbenik...Prvo poglavlje predstavlja Uvod u kome se govori o pojmu i značaju statistike i u okviru koga su definisani osnovni

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • Edicija osnovni udžbenik

    Osnivač i izdavač edicije Univerzitet u Novom Sadu

    Poljoprivredni fakultet

    Trg Dositeja Obradovića br.8, Novi Sad

    Godina osnivanja 1954.

    Glavni i odgovorni urednik edicije Dr Nedeljko Tica, redovni profesor

    Dekan Poljoprivrednog fakulteta u Novom Sadu

    Članovi komisije za izdavačku delatnost Dr Ljiljana Nešić, redovni profesor, predsednik

    Dr Milica Rajić, redovni profesor, član

    Dr Nada Plavša, vanredni profesor, član

    Dr Branislav Vlahović, redovni profesor, član

  • Autori:

    Dr Beba Mutavdžić Mr Emilija Nikolić-Đorić

    Glavni i odgovorni urednik edicije

    Dr Nedeljko Tica, redovni profesor

    Dekan Poljoprivrednog fakulteta u Novom Sadu

    Urednik

    Dr Dejan Janković,vanredni profesor

    Direktor Departmana za ekonomiku poljoprivrede i sociologiju sela

    Poljoprivredni fakultet u Novom Sadu,

    Univerzitet u Novom Sadu

    Recenzenti Dr Zagorka Lozanov-Crvenković, redovni profesor

    Prirodno-matematički fakultet Novi Sad, Univerzitet u Novom Sadu

    Dr Radojka Maletić, redovni profesor

    Poljoprivredni fakultet Beograd, Univerzitet u Beogradu

    Izdavač Poljoprivredni fakultet Novi Sad,Univerzitet u Novom Sadu

    Zabranjeno preštampavanje i fotokopiranje. Sva prava zadržava izdavač.

    Štampa: Štampanje odobrila Komisija za izdavačku delatnost i Naučno-nastavno veće

    Poljoprivrednog fakulteta u Novom Sadu.

    Tiraž: 20 primeraka

    Prelom teksta: Ljubiša Aleksić Fotografija na koricama: Boža Ivanović (http://www.bozaivanovic.com/)

    Mesto i godina štampanja: Novi Sad, 2018.

    https://webmail.polj.uns.ac.rs/owa/redir.aspx?C=bb7f13eb9cbc4806984447169a68b790&URL=http%3a%2f%2fwww.bozaivanovic.com%2f

  • Dr Beba Mutavdžić Mr Emilija Nikolić-Đorić

    STATISTIKA (za smer veterinarska medicina)

    Novi Sad, 2018.

  • 2

    STATISTIKA (za smer veterinarska medicina)

  • 3

    PREDGOVOR

    Ova knjiga je udžbenik za predmet „Statistika”, koji se proučava na prvoj godini smera Veterinarska medicina Poljoprivrednog fakulteta, Univerziteta u Novom Sadu. Sadržaj udžbenika u skladu je sa aktuelnim akreditovanim programom za navedeni predmet i na-vedeni smer. Knjiga nije namenjena samo za studente smera Veterinarska medicina, kao osnovni udžbenik, već s obzirom da je vezana za osnove statistike, može biti korišćena i od strane studenata drugih smerova Poljoprivrednog fakulteta, Univerziteta u Novom Sadu.

    Knjiga se sastoji iz šest poglavlja, koje čine strukturnu i sadržajnu celinu, koja je u skladu sa akreditovanim programom.

    Prvo poglavlje predstavlja Uvod u kome se govori o pojmu i značaju statistike i u okviru koga su definisani osnovni statistički pojmovi (statistički skup, jedinice i obeležja posmatranja, vrste statističkih serija).

    Drugo poglavlje je Deskriptivna statistika, u okviru kog se govori o uređivanju i gra-fičkom predstavljanju statističkih podataka, kao i o osnovnim statističkim pokazateljima (pokazatelji srednje vrednosti, varijabiliteta i oblika).

    Treće poglavlje knjige odnosi se na Teorijske distribucije, gde su najpre dati osnovni pojmovi verovatnoće, a zatim najčešće korišćene prekidne i neprekidne teorijske distri-bucije.

    Četvrto poglavlje se odnosi na Inferencijalnu statistiku, gde je opisan metod uzorka u istraživačkom radu, kao i distribucija sredina uzoraka, a naveden je i metod ocena na osnovu uzoraka.

    Peto poglavlje obuhvata Testiranje statističkih hipoteza, a metodološki su opisani i odgo-varajućim primerima ilustrovani neki osnovni testovi aritmetičkih sredina i proporcija.

    Šesto poglavlje je Regresiona i korelaciona analiza, u okviru koje je opisana prosta line-arna regresija i navedene ocene i testovi parametara linearne regresije.

    Autori se nadaju da će ova knjiga omogućiti studentima upoznavanje sa upotrebom sa-vremenih statističkih metoda u rešavanju problema koji su u domenu poljoprivrednih i bioloških nauka, odnosno konkretno problema iz oblastii veterinarske medicine. Ideja autora je da se studenti upoznaju sa deskriptivnim metodama, kao i metodama analize rezultata ogleda.

    Koristeći ovu knjigu studenti treba da steknu sposobnost za upotrebu statističkih metoda i njihovu primenu u oblasti svog interesovanja. Stečene sposobnosti upotrebe i adekvatnog korišćenja statistike i njenih metoda omogućiće studentima uspešno rešavanje problema u daljem radu i sticanju obrazovanja.

    Zahvaljujemo se svima koji su na direktan ili indirektan način pomogli izradu ove knjige, a naročito recenzentima: prof. dr Zagorki Lozanov-Crvenković i prof. dr Radojki Maletić i na korisnim sugestijama. Za tehničko uređenje knjige zahvaljujemo se Ljubiši Aleksiću.

    Novi Sad AUTORI

    20.09.2018.

  • 4

  • 5

    SADRZAJ

    PREDGOVOR ..................................................................................................................... 3

    1. UVOD ........................................................................................................................ 7 1.1. Pojam i značaj statistike .................................................................................... 7 1.2. Osnovni statistički pojmovi .............................................................................. 8

    1.2.1. Statistički skup ......................................................................................... 8 1.2.2. Jedinice i obeležja posmatranja ............................................................... 8 1.2.3. Vrste statističkih serija ............................................................................ 9

    Kontrolna pitanja ...................................................................................................... 10

    2. DESKRIPTIVNA STATISTIKA ............................................................................. 11 2.1. Formiranje distribucije frekvencija ................................................................. 11 2.2. Grafičko prikazivanje statističkih podataka .................................................... 14 2.3. Pokazatelji centralne tendencije ...................................................................... 17

    2.3.1. Aritmetička sredina ............................................................................... 17 2.3.2. Medijana ................................................................................................ 19 2.3.3. Modus .................................................................................................... 19 2.3.4. Odnos između aritmetičke sredine, medijane i modusa ........................ 20

    2.4. Pokazatelji varijacije ....................................................................................... 22 2.4.1. Interval (razmak) varijacije - I ............................................................. 22 2.4.2. Srednje apsolutno odstupanje - SO ...................................................... 23 2.4.3. Standardna devijacija - σ i varijansa - σ2 ............................................... 23 2.4.4. Koeficijent varijacije - V ....................................................................... 25 2.4.5. Standardizovano odstupanje - Z .......................................................... 26

    2.5. Pokazatelji oblika distribucije ......................................................................... 27 Kontrolna pitanja ...................................................................................................... 29

    3. TEORIJSKE DISTRIBUCIJE .................................................................................. 30 3.1. Osnovni pojmovi verovatnoće ........................................................................ 30 3.2. Prekidne teorijske distribucije ......................................................................... 32

    3.2.1. Binomna distribucija ............................................................................. 32 3.2.2. Poasonova distribucija ........................................................................... 34

    3.3. Neprekidne teorijske distribucije .................................................................... 35 3.3.1. Normalna distribucija ............................................................................ 35 3.3.2. Studentova – t distribucija ..................................................................... 39 3.3.3. Fišerova – F distribucija ........................................................................ 41

    Kontrolna pitanja ...................................................................................................... 43

    4. INFERENCIJALNA STATISTIKA ........................................................................ 44 4.1. Metod uzorka u istraživačkom radu ................................................................ 44 4.2. Distribucija sredina uzoraka ........................................................................... 45

  • 6

    4.3. Ocene na osnovu uzorka ................................................................................. 47 4.3.1. Izračunavanje standardne greške aritmetičke sredine ........................... 48 4.3.2. Interval poverenja za ocenu nepoznate sredine osnovnog skupa .......... 49 4.3.3. Interval poverenja za ocenu nepoznate proporcije osnovnog skupa ..... 52

    Kontrolna pitanja ...................................................................................................... 54

    5. Testiranje statističkih hipoteza ................................................................................. 55 5.1. Testovi aritmetičkih sredina ............................................................................ 56

    5.1.1. Test značajnosti jedne sredine ............................................................... 56 5.1.2. Test značajnosti razlike dve sredine ...................................................... 60

    5.2. Testovi proporcija ........................................................................................... 64 5.2.1. Testirnje hipoteze o proporciji osnovnog skupa .................................... 64 5.2.2. Test značajnosti razlike dve proporcije ................................................. 66

    5.3. Analiza varijanse (ANOVA) ........................................................................... 67 5.3.1. Analiza varijanse potpuno slučajnog rasporeda (prostog slučajnog

    rasporeda) .............................................................................................. 68 Kontrolna pitanja ...................................................................................................... 77

    6. REGRESIONA I KORELACIONA ANALIZA ...................................................... 78

    PRILOZI ............................................................................................................................ 89

    LITERATURA .................................................................................................................. 95

    INDEKS POJMOVA ......................................................................................................... 97

  • 7

    1. UVOD

    1.1. Pojam i značaj statistike Statistika je danas sastavni deo aktivnosti naučnih, obrazovnih, privrednih i drugih insti-tucija.

    Statistika je naučni metod koji se koristi za prikupljanje, prikazivanje, analizu i tumačenje različitih vrsta podataka. Statistika je skup metoda koje doprinose da se dođe do vero-dostojnih zaključaka i odluka u uslovima neizvesnosti.

    Statistika se odnosila na skup numeričkih podataka o stanju posmatrane pojave. Poreklo reči statistika vodi od latinske reči status – stanje, kao i status – država.

    Prvi put reč statistika se pojavljuje u prvoj polovini XVIII veka u radovima Gotfrida Ačenvala, profesora Univerziteta u Getingenu zbog čega se smatra ocem statistike.

    Jedna od osnovnih karakteristika poslovnog okruženja danas u bilo kojoj oblasti su brze i brojne promene, koje prati i velika količina podataka s kojima se svakodnevno susre-ćemo. Poznavanje izvora i kvaliteta podataka, njihovih karakteristika i pravilno tumačenje karakteristika su od izuzetne vaznosti u svrhu dobijanja kvalitetnih informacija na osnovu kojih će se donositi adekvatne odluke. Ako se do podataka dolazi poštujući određene planske, ili zakonski propisane preporuke prikupljeni podaci smatraju se statističkim pa je s toga njihovo pretvaranje u informacije moguće upotrebom statističkih metoda. Svrha primene statističkih metoda je donošenje zaključaka o karakteristikama posmatranih pojava, ispitivanje različitih pretpostavki, procena karakterističnih veličina, predviđanje stanja i nivoa pojava, i dr.

    Statistika nam omogućava da tumačimo podatke sa razumevanjem, da dobijemo odgo-vore na značajna pitanja i da donesemo pouzdane zaključke i odluke zasnovane na nume-ričkim dokazima. Istu svrhu ima i primena statističkih metoda u oblasti veterinarske medicine. Analiza rezultata genetičkih ispitivanja, izvođenje i analiza epidemioloških pra-ćenja, dizajn i analiza kliničkih istraživanja, planiranje eksperimenata i dr. samo su neki od slučajeva koji podrazumevaju primenu statističkih metoda u veterinarskoj medicini.

    Statistika ima dva aspekta: teorijski i primenjeni.

    Teorijska ili matematička statistika bavi se razvojem, izvođenjem i dokazivanjem teo-rema, formula, pravila i zakona, odnosno usavršavanjem novih metoda. Teorija verova-tnoće je fundamentalna oblast na kojoj je zasnovana matematička statistika.

    Primenjena statistika podrazumeva primenu novih metoda, teorema, formula, pravila i zakona u rešavanju realnih problema.

    Statistiku delimo na:

    - deskriptivnu statistiku i

    - inferencijalnu (analitičku) statistiku

    Deskriptivna statistika obuhvata metode prikupljanja, sređivanja i prikazivanja podataka na jasan i razumljiv način, kao i izračunavanja statističkih parametara. Deskriptivna sta-tistika uključuje grafičke i numeričke procedure za prikazivanje i analizu podataka.

  • 8

    Inferencijalna statistika pruža osnovu za predviđanje i procenu, kako bi se doneli zaključci o celokupnoj populaciji na osnovu podataka dobijenih merenjima sprovedenim na uzorku.

    1.2. Osnovni statistički pojmovi Predmet izistraživanja savremene statistike su masovne pojave koje pokazuju varijabilitet od jednog do drugog slučaja njihovog pojavljivanja. Na varijabilitet pojave utiče veliki broj faktora, pri čemu svaki od faktora može uticati individualno ili može imati združeni uticaj sa drugim faktorima. U okviru različitih naučnih disciplina varijabilitet posmatranih pojava se analizira primenom adekvatne statističke metodologije. Primenom odgovaraju-će metodologije stiče se uvid u ponašanje ispitivanih pojava, uočava njihova povezanost sa drugim varijabilnim pojavama, uočavaju tendencije u njihovom razvoju ili predviđanje njihovih budućih vrednosti. Primena statističke metodologije zahteva pre svega poznava-nje statističke terminologije i poznavanje i razumevanje principa statističke analize

    1.2.1. Statistički skup Statistički skup predstavlja skup jedinica na osnovu kojih se ispituje jedno ili više svojsta-va (varijabli, obeležja, osobina, karakteristika), koja su od jedinice do jedinice promen-ljiva.

    Prema obimu statistički skupovi se dele na konačne i beskonačne. Statistički skupovi takođe mogu realni i zamišljeni (hipotetički).

    Osnovni skup (populacija, ciljna populacija) je skup podataka svih jedinica (elemenata) posmatranja čije karakteristike ispitujemo. Za definisanje osnovnog skupa (populacije) treba da bude poznata svrha, odnosno cilj analize. Osnovni skupovi se definišu pojmovno, prostorno i vremenski.

    Pojmovnom definicijom skupa utvrđuje se pripadnost skupu s obzirom na pojam jedinice. Prostornom definicijom označava se prostor kom pripadaju sve jedinice osnovnog skupa. Vremenskom definicijom određuje se vremenski interval ili vremenska tačka za koju su vezane sve jedinice skupa.

    Broj jedinica osnovnog skupa naziva se veličina ili obim osnovnog skupa.

    Uzorak je deo osnovnog skupa koji je izabran u svrhu izvođenja statističke analize.

    1.2.2. Jedinice i obeležja posmatranja Jedinica posmatranja osnovnog skupa ili uzorka je određeni subjekat ili objekat o kojem se prikupljaju podaci (informacije), odnosno na kojem se određena pojava statistički posmatra. Jedinice statističkog skupa su pojedinačni slučajevi iz kojih se statistički skup sastoji, treba da budu istovrsne ali ne i istovetne. Cilj posmatranja jedinica statističkog skupa je ispitivanje diferenciranosti (različitosti) njihovih karakteristika (odlika, osobina, obeležja) i kvantitativno izražavanje uočenih različitosti.

    Promenljiva (obeležje ili varijabla) je osobina koja se proučava ili istražuje i koja podra-zumeva različite vrednosti po jedinicama posmatranja.

    Opservacija ili podatak je vrednost promenljive koja se odnosi na jednu jedinicu posma-tranja.

  • 9

    Obeležja jedinica posmatranja mogu biti: • kvalitativna (atributivna, kategorijalna) • kvantitativna (numerička)

    Kvalitativna obeležja su osobine koje se uočavaju na jedinicama posmatranja, ali se ne mogu meriti već se opisno iskazuju, odnosno ne mogu uzeti numeričke vrednosti već se klasifikuje u dve ili više kategorija.

    Kvantitativna, odnosno numerička obeležja su osobine koje se uočavaju na jedinicama posmatranja, mogu se meriti i brojčano iskazati.

    Numerička obeležja delimo na: - prekidna (diskretna, diskontinuirana) - neprekidna (kontinuirana)

    Prekidna obeležja su numerička obeležja koja uzimaju samo određene vrednosti sa brojne prave i rezultat su prebrojavanja.

    Neprekidna obeležja su numerička obeležja koja mogu uzeti bilo koju vrednost sa brojne prave i rezultat su merenja.

    1.2.3. Vrste statističkih serija Statisički podaci su po pravilu mnogobrojni pa nije moguće direktno donositi zaključke o obeležjima koja se analiziraju.

    Podaci zapisani redosledom kojim se prikupljaju pre nego što se urede po veličini ili grupišu nazivaju se negrupisani podaci. Iz tog razloga se u prvom koraku statističke analize pristupa uređivanju podataka, a svrha uređivanja je da omogući uočavanje osnovnih karakteristika analizirane pojave.

    Uređivanjem statističkih podataka nastaju statistički nizovi, odnosno statističke serije. Skupovi podataka sređuju se i prikazuju u vidu tabela i grafikona.

    Radi bolje preglednosti, pogotovo ako je broj prikupljenih podataka veliki, podaci se grupišu u klase ili grupe i određuje se broj podataka u svakoj klasi odnosno grupi.

    Prilikom grupisanja podataka osnovni problem je utvrđivanje kriterijuma na osnovu koga će svi podaci biti svrstani u jednorodne grupe, koje će biti osnova dalje statističke analize. Na ovaj način se dobijaju različite vrste statističkih serija.

    Grupisanje podataka može biti geografsko, vremensko, atributivno, numeričko.

    Geografsko grupisanje može se izvesti na osnovu administrativno-teritorijalne podele zemlje ili prema nekom drugom geografskom kriterijumu (na primer, planinski i ravničarski krajevi). Ovako dobijeni nizovi podataka nazivaju se geografske serije podataka.

    Vremensko grupisanje podataka može biti intervalno i momentno. Na ovaj način se dobijaju vremenske serije podataka. Intervalnim grupisanjem pojava se neprekidno prati i registruje. Momentnim grupisanjem dobijaju se podaci koji su rezultat posmatranja pojave u određenom momentu vremena.

    Grupisanjem sakupljenih podataka po atributivnim obeležjima dobijaju se atributivne serije podataka.

    Grupisanjem podataka po numeričkom obeležju nastaju numeričke serije podataka.

  • 10

    Kontrolna pitanja

    1. Kako se definiše statistika kao naučni metod? 2. Kako se deli statistika? 3. Šta obuhvata deskriptivna statistika? 4. Šta se podrazumeva pod inferencijalnom statistikom? 5. Šta je osnovni skup ili populacija? 6. Šta je uzorak? 7. Šta je promenljiva, obeležje ili varijabla? 8. Kako se dele obeležja jedinica posmatranja? 9. Kako se dele numerička obeležja? 10. Navesti vrste statističkih serija.

  • 11

    2. DESKRIPTIVNA STATISTIKA

    2.1. Formiranje distribucije frekvencija Već je prethodno navedeno da je numerička statistička serija niz podataka o obeležju koje se meri na određenom broju jedinica posmatranja i iskazuje brojčano. Uobičajeno je da se brojčane vrednosti izmerene na jedinicama posmatranja beleže onim redosledom kako se do njih dolazi. Na osnovu takvog niza podataka teško je doneti bilo kakav zaključak o predmetu istraživanja. Da bi se dobio pregledniji uvid u karakteristike analizirane pojave na osnovu izmerenih numeričkih vrednosti, prvi zadatak je da se utvrđenje vrednosti sistematizuju po nekom redu i prikažu u nekoj prikladnoj formi.

    Podaci zapisani redosledom kojim se prikupljaju pre nego što se urede po veličini ili grupišu nazivaju se negrupisani podaci. Radi bolje preglednosti, pogotovo ako je njihov broj veliki, podaci se grupišu u klase ili grupe i određuje se broj podataka u svakoj klasi odnosno grupi. Grupisani numerički podaci nazivaju se distribucije frekvencija.

    Distribucija frekvencija predstavlja tabelarno prikazivanje podataka, gde podatke grupišemo u dve kolone tako da su u prvoj koloni navedene sve različite vrednosti obeležja, a u drugoj koloni broj jedinica navedene vrednosti obeležja. Različite vrednosti obeležja se nazivaju modaliteti obeležja.

    Distribucija frekvencija za numeričke podatke sadrži dva niza podataka: vrednosti obeležja, prikazane pojedinačnim vrednostima ili grupnim intervalima i njima odgovarajući broj jedinica posmatranja.

    Na osnovu toga kako je iskazana vrednost obeležja razlikujemo dve vrste distribucije frekvencija:

    1. neintervalne – kod kojih je vrednost obeležja tačno navedena pojedinačna vrednost 2. intervalne – kod kojih je vrednost obeležja interval koji sadrži dve ili više

    pojedinačnih vrednosti.

    Broj ponavljanja svake navedene vrednosti obeležja ili grupe (intervala) obeležja naziva se apsolutna frekvencija i(f ) .

    Apsolutna frekvencija pokazuje koliko jedinica posmatranog skupa ima određeni modalitet obeležja.

    Na ovaj način se dobija distribucija ili raspodela frekvencija.

    Kada obeležje ima veliki broj različitih vrednosti one se grupišu u unapred određene intervale. Broj i veličina (širina) intervala zavise od broja podataka ( ) i od prirode samog obeležja.

    Broj grupnih intervala (k) može se izračunati na osnovu izraza (Sturgesovo pravilo):

    Na osnovu broja intervala izračunava se širina intervala ( i ):

    ,

    ki minmax

    Χ−Χ=

    N

    k 1 3,332log N.= +

  • 12

    gde su maxΧ i minΧ najveća i najmanja vrednost obeležja u seriji.

    Na osnovu apsolutne frekvencije mogu se izračunati relativne frekvencije i kumulativne frekvencije

    Relativna frekvencija (struktura) se dobija kao količnik apsolutne frekvencije svake vrednosti obeležja i ukupnog broja jedinica posmatranja.

    Na osnovu izračunatih relativnih frekvencija može se iskazati učešće pojedinih vrednosti obeležja ( is ) u ukupnom broju jedinica posmatranja u procentima

    Za određene ciljeve analize potrebno je numeričke serije podataka kumulirati tako da se dobije numerička kumulativna serija, odnosno kumulativna frekvencija. Kumulativna frekvencija određene vrednosti obeležja dobija se sabiranjem apsolutnih frekvencija svih prethodnih obeležja i apsolutne frekvencije tog obeležja

    U zavisnosti od toga da li sabiranje apsolutnih frekvencija počinjemo od prve ili od poslednje vrednosti obeležja razlikuju se kumulacija ispod i kumulacija iznad.

    Pomoću kumulativnih frekvencija lakše se uočava koliki je ukupan broj jedinica posma-tranja ispod ili iznad određene vrednosti obeležja.

    Mogu se utvrditi i kumulativne relativne frekvencije na osnovu izraza:

    Primer za prekidno obeležje: Broj nazimica po domaćinstvu bio je sledeći:

    1 5 3 7 9 2 4 3 5 8 3 7 5 9 10 4 6 5 3 10 1 6 8 9 3 5 2 2 7 6

    a) formirati neintervalnu distribuciju frekvencija

    b) formirati intervalnu distribuciju frekvencija ako je i = 2

    c) izračunati relativne frekvencije (strukturu)

    d) formirati kumulativnu distribuciju frekvencija i kumulaciju strukture.

    ( )iifp i 1,..., k .N

    = =

    ( )i

    i jj 1

    F f i 1,..., k .=

    = =∑

    ( )ir

    i jj 1

    F p i 1,..., k .=

    = =∑

    (%).100ps ii ⋅=

    i(p )i(F ).

  • 13

    Rešenje: Sistematizovana serija broja nazimica po domaćinstvu je:

    1 1 2 2 2 3 3 3 3 3 4 4 5 5 5 5 5 6 6 6 7 7 7 8 8 9 9 9 10 10

    a) Neintervalna distribucija frekvencija

    Broj nazimica

    Broj domaćinstava

    iX if 1 2 2 3 3 5 4 2 5 5 6 3 7 3 8 2 9 3 10 2 Σ 30

    Intervalna distribucija frekvencije ako je i = 2 (b), relativne frekvencije (struktura) (c), kumulativna distribucija frekvencija i kumulacija strukture (d), prikazane su u tabeli:

    Broj nazimica

    Broj domaćininstava

    Relativna frekvencija (struktura)

    Kumulacija Kumulacija strukture

    iX if ip is

    Ispod Iznad Ispod Iznad

    1 – 2 5 5/30=0,17 17%

    5 30 17% 100%

    3 – 4 7 7/30=0,23 23%

    12 25 40% 83%

    5 – 6 8 8/30=0,26 26%

    20 18 66% 60%

    7 – 8 5 5/30=0,17 17%

    25 10 83% 34%

    9 – 10 5 5/30=0,17 17%

    30 5 100% 17%

    Σ 30 Σ 1,00 100%

  • 14

    Primer za neprekidno obeležje: Data je mlečnost kod 20 ispitivanih krava ( lit.):

    10,1 12,5 18,0 18,1 19,5 17,1 15,0 13,5 14,3 12,0 13,1 15,9 14,8 16,1 16,0 19,0 15,7 17,7 16,9 13,5

    a) formirati intervalnu distribuciju frekvencija ako je i = 2

    b) izračunati relativne frekvencije (strukturu)

    c) formirati kumulativnu distribuciju frekvencija i kumulaciju strukture.

    Rešenje: Sistematizovana serija

    10,1 12,0 12,5 13,1 13,5 13,5 14,3 14,8 15,0 15,7

    15,9 16,0 16,1 16,9 17,1 17,7 18,0 18,1 19,0 19,5

    Intervalna distribucija frekvencije ako je i = 2 (a), relativne frekvencije (struktura) (b), kumulativna distribucija frekvencija i kumulacija strukture (c), prikazane su u tabeli:

    Mlečnost Broj krava

    Relativna frekvencija (struktura)

    Kumulacija Kumulacija strukture

    iX if ip is Ispod Iznad Ispod Iznad

    10,01-12,00 2 2/20=0,10 10% 2 20 0,10 1,00

    12,01-14,00 4 4/20=0,20 20% 6 18 0,30 0,90

    14,01-16,00 6 6/20=0,30 30% 12 14 0,60 0,70

    16,01-18,00 5 5/20=0,25 25% 17 8 0,85 0,40

    18,01-20,00 3 3/20=0,15 15% 20 3 1,00 0,15

    Σ 20 Σ 1,00 100%

    2.2. Grafičko prikazivanje statističkih podataka Statistički podaci se prikazuju pomoću tabela i grafikona. Grafički način prikazivanja podataka omogućava bolje uočavanje bitnih karakteristika neke serije podataka. Grafikoni mogu biti različitog oblika zavisno od prirode podataka i cilja analize.

    Koji grafikon treba koristiti?

    • Zavisi od tipa podataka

    • Zavisi od toga šta želi da se prikaže

    • Zavisi od raspoloživog statističkog softvera

  • 15

    Za negrupisane podatke kao grafički prikaz koristimo dijagram stablo-list (stem and leaf). Kod ovog grafičkog prikaza svaki podatak delimo na stablo i na list. Ako su u seriji decimalni brojevi, stablo čine celobrojne vrednosti, a list vrednosti decimal. Ukoliko su vrednosti serije podataka dvocifreni brojevi, stablo čine cifre desetica, a listove cifre jedinica.

    Prvo se formira stablo u koloni a zatim se formiranom stablu pridružuju listovi u redo-vima.

    Primer Na osnovu podataka o dnevnoj mlečnosti kod 20 ispitivanih krava ( lit.) formiran je dijagram stablo-list. Stablo čini ceo deo podataka, dok list čine decimale.

    Dijagram stablo-list

    Za negrupisane podatke kao grafički prikaz može se koristiti i tačkasti dijagram (dot plot). Da bi se vrednosti obeležja uredile u ne opadajući niz na X osu se nanose različite vrednosti obeležja, a pojavljivanje svake vrednosti obeležja se označava tačkom.

    Primer

    Tačkasti dijagram broja nazimica po domaćinstvu

    Za grafičko prikazivanje numeričkih statističkih serija, odnosno distribucija frekvencija najčešće se koriste histogram i poligon frekvencija.

    Histogram čine pravougaonici čija je osnovica jednaka veličini grupnog intervala, a visina odgovara frekvenciji grupnog interval.

  • 16

    Primer

    Histogram distribucije frekvencija mlečnosti kod 20 ispitivanih krava ( lit.)

    Poligon je izlomljena linija koja spaja tačke čije su koordinate vrednosti obeležja ili sredine grupnih intervala i odgovarajuće frekvencije.

    Primer

    Poligon distribucije frekvencija broja nazimica po domaćinstvu

    0 1 2 3 4 5 6 7 8 9 10 11

    Broj nazimica

    0

    1

    2

    3

    4

    5

    6

    Bro

    j dom

    aćin

    stav

    a

  • 17

    2.3. Pokazatelji centralne tendencije Pokazatelji centralne tendencije (srednje, prosečne vrednosti) predstavljaju vrednosti koje kvantifikuju tendenciju podataka u seriji prema njihovom ,,centru’’, odnosno sredini.

    Pokazatelj centralne tendencije je reprezentativna vrednost koja po datim merilima zame-njuje sve vrednosti obeležja u datoj seriji. Karakteriše statistički skup i kao informacija može da zameni niz svih vrednosti serije.

    U pokazatelje centralne tendencije ubrajaju se:

    - Aritmetička sredina

    - Geometrijska sredina

    - Harmonijska sredina

    - Medijana

    - Modus

    Prema načinu utvrđivanja navedeni pokazatelji centralne tendencije dele se u dve grupe:

    1. izračunate srednje vrednosti - aritmetička , geometrijska i harmonijska sredina 2. položajne, pozicione srednje vrednosti - medijana i modus

    Izračunate srednje vrednosti su vrednosti koje se izračunavaju na osnovu svih vrednosti posmatranog obeležja, odnosno svih podataka u posmatranoj seriji.

    Položajne, odnosno pozicione srednje vrednosti su vrednosti koje se izračunavaju izbo-rom konkretne vrednosti obeležja prema položaju koji zauzima u posmatranoj seriji poda-taka.

    Pokazatelji centralne tendencije, odnosno srednje vrednosti su apsolutni pokazatelji, nji-hova vrednost se iskazuje u jedinicama mere u kojima je iskazano i posmatrano obeležje.

    2.3.1. Aritmetička sredina Aritmetička sredina je najčešće upotrebljivani pokazatelj srednje vrednosti. Razlikuje se izračunavanje proste i ponderisane aritmetičke sredine. Prosta aritmetička sredina se utvrđuje na osnovu negrupisanih numeričkih podataka, a ponderisana kada su podaci grupisani u distribuciju frekvencija. Aritmetikča sredina se može izračunavati za podatke osnovnog skupa ili za podatke uzorka.

    Prosta aritmetička sredina izračunava se kada se sve vrednosti jedinica jednog posma-tranog skupa saberu i taj zbir podeli brojem tih jedinica. Aritmetička sredina za podatke osnovnog skupa označava se sa i izračunava se na osnovu sledećeg izraza:

    ili

    Aritmetička sredina izračunata za podatke uzorka obeležava se sa a izračunava se na osnovu izraza:

    ili

    Ukoliko su podaci za analizu dati kao grupisani, odnosno ako imamo distribuciju frekvencija tada izračunavamo ponderisanu aritmetičku sredinu. Ponderisana aritmetička

    µ

    1 2 NX X ... XN

    + + +µ =

    Ni

    i 1X

    .N

    =∑

    µ =

    X

    1 2 nX X ... XXn

    + + +=

    ni

    i 1X

    X .n

    =∑

    =

  • 18

    sredina dobija se na osnovu zbira vrednosti obeležja jedinica posmatranja koje su ponderisane odgovarajućim frekvencijama.

    Ponderisana aritmetička sredina osnovnog skupa izračunava se na osnovu izraza:

    Za podatke uzorka ponderisana aritmetička sredina izračunava se na osnovu izraza:

    Osobine aritmetičke sredine 1. U njenom izračunavanju učestvuju sve vrednosti obeležja u seriji.

    2. Aritmetička sredina se nalazi između ekstremnih vrednosti obeležja, odnosno veća je od najmanje vrednosti obeležja, a manja je od najveće vrednosti obeležja u nekoj seriji

    3. Ako su sve vrednosti obeležja međusobno jednake aritmetička sredina je jednaka toj vrednosti.

    4. Ako se svakoj vrednosti obeležja doda ili oduzme konstanta, aritmetička sredina se povećava ili smanjuje za tu konstantu.

    5. Ako se svaka vrednost obeležja pomnoži ili podeli konstantom, aritmetička sredina je jednaka proizvodu, odnosno količniku aritmetičke sredine i te konstante.

    6. Suma odstupanja svih vrednosti obeležja od njihove aritmetičke sredine jednaka je nuli.

    7. Suma kvadrata odstupanja vrednosti obeležja od njihove aritmetičke sredine je ma-nja je od sume kvadrata odstupanja obeležja od bilo koje druge vrednosti a ( a X≠ ).

    " "i i" "i i

    X X C (i 1,...,n) c

    X X C (i 1,...,n) c

    = + = ⇒ Χ = Χ +

    = − = ⇒ Χ = Χ −

    ( )

    ( )

    ni

    i 1k

    i ii 1

    0 (za negrupisane podatke)

    f 0 (za grupisane podatke)

    =

    =

    Χ − Χ =

    Χ − Χ =

    ( ) ( )

    ( ) ( )

    n n2 2i i

    i 1 i 1k k2 2

    i i i ii 1 i 1

    a

    f f a

    = =

    = =

    Χ − Χ < Χ −

    Χ − Χ < Χ −

    ∑ ∑

    ∑ ∑

    1 1 2 2 k k

    1 2 k

    f X f X ... f X ilif f ... f+ + +

    µ =+ + +

    ki i

    i 1k

    ii 1

    f X.

    f

    =

    =

    ∑µ =

    1 1 2 2 k k

    1 2 kilif X f X ... f XX

    f f ... f+ + +

    =+ + +

    ki i

    i 1k

    ii 1

    f XX .

    f

    =

    =

    ∑=

    min maxX X X .≤ ≤

    " "i i

    " "ii

    X X C c (i 1,...,n)X XX (i 1,...,n)C C

    = ⋅ ⇒ Χ = Χ ⋅ =

    = ⇒ Χ = =

  • 19

    2.3.2. Medijana Medijana je ona vrednost obeležja koja sređenu seriju podataka deli na dva jednaka dela. Utvrđivanju medijane za negrupisane podatke treba da prethodi sistematizacija, odnosno rangiranje podataka po njihovoj veličini. Kod serije negrupisanih podataka razlikuje se utvrđivanje medijane za serije sa neparnim brojem podataka i za serije sa parnim brojem podataka.

    Ako je broj negrupisanih podataka u seriji neparan medijana je jednaka središnjoj vrednosti serije i utvrđuje se na osnovu sledećeg izraza:

    Ako je broj negrupisanih podataka u seriji paran medijana je jednaka aritmetičkoj sredini dva središnja člana.

    Kod grupisanih podataka (distribucija frekvencija) medijana je ona vrednost obeležja koja zajedno sa prethodnim vrednostima sadrži bar polovinu elemenata posmatrane serije. Utvrđivanju medijane kod distribucija frekvencija prethodi kumuliranje frekvencija.

    Ako su podaci grupisani kao intervalna distribucija frekvencija sa jednakim grupnim intervalima, medijanu izračunavamo primenom korigovane formule:

    gde je:

    L – donja granica medijalnog intervala

    N/2 – polovina elemenata posmatrane serije

    med 1F − -– kumulativna vrednost intervala koji prethodi medijalnom intervalu

    fmed – apsolutna frekvencija medijalnog intervala

    i – veličina grupnog intervala

    2.3.3. Modus Modus je najučestalija vrednost obeležja u nekoj seriji podataka. Modalna vrednost se može utvrditi ako u seriji podataka postoje barem dve jednake vrednosti obeležja.

    Ako u seriji podataka postoji samo jedna vrednost obeležja čija je frekvencija veća od ostalih vrednosti, kažemo da je ta serija unimodalna. Neka serija podataka može biti bimodalna (ima dva modusa) ili može imati tri modalne vrednosti.

    Kod unimodalne intervalne serije distribucije frekvencija približna vrednost modusa je:

    e N 12

    M += Χ

    N N 12 2

    eM 2

    +Χ + Χ

    =

    med 1e

    med

    N F2L i

    f

    − −

    Μ = + ⋅

    1o

    1 2

    dM L id d

    = + ⋅ +

  • 20

    gde je:

    L – donja granica modalnog intervala

    d1 – razlika frekvencija modalnog i njemu prethodnog intervala

    d2 – razlika frekvencija modalnog i njemu narednog intervala

    i – veličina grupnog interval.

    2.3.4. Odnos između aritmetičke sredine, medijane i modusa U slučaju da je distribucija frekvencija simetrična aritmetička sredina, modus i medijana se poklapaju

    Iz poklapanja ova tri pokazatelja ne mora da sledi simetričnost distribucije. Potrebno je da se na osnovu grafičkog prikaza distribucije ili pokazatelja asimetrije izvrši dodatno ispitivanje.

    U slučaju unimodalnih distribucija tj. distribucija koje imaju jedan modus, ako je modus po vrednosti veći od medijane i aritmetičke sredine serija je negativno asimetrična ili asimetrična ulevo.

    Ako je aritmetička sredina vrednost veća od vrednosti medijane i modusa serija je pozitivno asimetrična ili asimetrična udesno.

    Primer za neparan broj negrupisanih podatka: Merenjem sadržaja gvožđa u mleku 7 krmača (mg/l) dobijene su vrednosti:

    X: 2,5 1,5 2,2 1,7 2,0 1,9 1,5.

    Izračunati aritmetičku sredinu, modus i medijanu.

    Rešenje:

    1,5 1,5 1,7 1,9 2,0 2,2 2,5

    n=7

    XMM e0 >>

    e 7 1 42

    M X X 1,9 mg / l+= = = oM 1,5 mg / l.=

    .MMX eo ==

    oe MMX >>

    7i

    i 1X

    2,5 1,5 2,2 1,7 2,0 1,9 1,5 13,3X 1,9 mg / l7 7 7

    =∑ + + + + + +

    = = = =

  • 21

    Primer za paran broj negrupisanih podatka: Dati su podaci o telesnoj masi (kg) 10 teladi: X : 260 260 230 280 290 280 260 270 260 300

    Izračunati aritmetičku sredinu, modus i medijanu

    Rešenje: 10

    ii 1

    X 2690=

    =∑ n = 10

    X: 230 260 260 260 260 270 280 280 290 300

    n = 10

    Primer za neintervalnu distribuciju frekvencija: Na osnovu podataka o masi prasadi pri odbijanju (kg) izračunati aritmetičku sredinu, modus i medijanu:

    Masa prasadi

    pri odbijanju

    X

    Broj prasadi

    f fX

    Kumulativ ispod

    10 5 50 5 12 10 120 15 13 15 195 30 15 7 105 37 18 3 54 40

    Zbir 40 524

    fX 524X 13,1 kgf 40

    ∑= = =∑

    max of 15 M 13 kg= ⇒ =

    Primer za intervalnu distribuciju frekvencija: Na osnovu podataka o dnevnoj mlečnosti (l) 20 ispitivanih krava izračunati aritmetičku sredinu, modus i medijanu:

    Grupni intervali X f fX

    Kumulativ

    F 10,01-12 11 2 22 2 12,01-14 13 4 52 6 14,01-16 15 6 90 12 16,01-18 17 5 85 17 18,01-20 19 3 57 20

    Zbir 20 306

    10 10 15 62 2

    eX X 260 270M 265 kg

    2 2 2

    +Χ + Χ

    + += = = =

    oM 260 kg=

    2690X 269 kg10

    = =

    40 40 120 212 2

    eX X 13 13M 13 kg

    2 2 2

    +Χ + Χ

    + += = = =

  • 22

    i i

    i

    f X 306X 15,3 lit.f 20

    ∑= = =∑

    2.4. Pokazatelji varijacije Da bi se potpunije sagledale karakteristike posmatrane serije podataka pored pokazatelja centralne tendencije utvrđuju se i pokazatelji varijacije (varijabiliteta ili disperzije). Dve serije podataka često mogu imati iste vrednosti nekog od pokazatelja centralne tendencije, a da istovremeno njihove individualne vrednosti obeležja budu dosta različite, odnosno varijacija između vrednosti obeležja jedne serije može biti veća ili manja od varijacije vrednosti obeležja u drugoj seriji. Ako se u obzir ne bi uzela razlika u varijabilitetu moglo bi se pogrešno zaključiti da je posmatrana karakteristika u obe serije ista. Zbog toga je značajno da se utvrdi i varijabilitet posmatrane serije.

    U pokazatelje varijacije spadaju:

    - Interval (razmak) varijacije - I

    - Srednje apsolutno odstupanje - SO

    - Standardna devijacija - σ

    - Varijansa - σ2

    - Koeficijent varijacije - V

    - Standardizovano odstupanje - Z

    Neki od navedenih pokazatelja varijacije su apsolutni pokazatelji, dok neki predstavljaju relativne pokazatelje varijabiliteta. Pokazatelji varijacije čija vrednost se iskazuje u jedi-nicama mere posmatranog obeležja, odnosno apsolutni pokazatelji su interval (razmak) varijacije, srednje apsolutno odstupanje, standardna devijacija i varijansa. Relativni poka-zatelji varijabiliteta, čija vrednost se ne iskazuje u jedinicama mere posmatranog obeležja su koeficijent varijacije i standardizovano odstupanje.

    2.4.1. Interval (razmak) varijacije - I Kao najjednostavniji pokazatelj varijacije koristi se interval varijacije. Predstavlja razliku ekstremnih vrednosti obeležja u nekoj seriji. Kod negrupisanih podataka i kod neinter-valne serije distribucije frekvencija interval varijacije je razlika maksimalne i minimalne vrednosti obeležja u seriji.

    Kod intervalne distribucije frekvencija interval varijacije predstavlja razliku gornje granice poslednjeg i donje granice prvog grupnog intervala.

    med 1e

    med

    N F 10 62L i 14 2 15,33 lit.f 6

    − − − Μ = + ⋅ = + ⋅ =

    ( )( ) ( )

    1o

    1 2

    6 4dL i 14 2 15,33 lit.d d 6 4 6 5

    − Μ = + ⋅ = + ⋅ = + − + −

    .I minmax Χ−Χ=

  • 23

    Nedostatak intervala varijacije je u tome što isključivo zavisi od ekstremnih vrednosti u seriji i ne daje uvid u raspored ostalih vrednosti obeležja unutar serije.

    2.4.2. Srednje apsolutno odstupanje - SO Pokazatelj varijacije koji se nešto češće upotrebljava od intervala varijacije je srednje apsolutno odstupanje. Srednje apsolutno odstupanje se utvrđuje kao količnik zbira apso-lutnih vrednosti odstupanja individualnih vrednosti obeležja od njihovog proseka i nji-hovog broja. Srednje apsolutno odstupanje numeričkog obeležja izmerenog na jedinicama osnovnog skupa izračunava se prema:

    gde je:

    iX – individualna vrednost obeležja

    µ – aritmetička sredina posmatranog obeležja

    N – broj jedinica osnovnog skupa.

    Za serije negrupisanih vrednosti obeležja u slučaju uzorka srednje apsolutno odstupanje se izračunava na sledeći način:

    Kada su podaci dati kao distribucija frekvencija srednje apsolutno odstupanje se u slučaju osnovnog skupa izračunava prema formuli:

    U slučaju uzorka primenjuje se formula:

    2.4.3. Standardna devijacija - σ i varijansa - σ2 Kao pokazatelj varijabiliteta naviše se upotrebljava standardna devijacija. Standardna devijacija je kvadratni koren iz sredine kvadrata odstupanja vrednosti obeležja od aritmetičke sredine. Vrednost standardne devijacije pokazuje koliko su blizu grupisane vrednosti obeležja oko aritmetičke sredine.

    Ni

    i 1X

    SON

    =−µ∑

    =

    ni

    i 1X X

    SOn

    =−∑

    =

    k ki i i i

    i 1 i 1k

    ii 1

    f X X f X XSO .

    nf

    = =

    =

    − −= =∑ ∑

    k ki i i i

    i 1 i 1k

    ii 1

    f X f XSO .

    Nf

    = =

    =

    −µ −µ= =∑ ∑

  • 24

    Za negrupisane podatke osnovnog skupa standardna devijacija se izračunava na sledeći način:

    Standardna devijacija može da se izračuna i direktno iz podataka osnovnog skupa na osnovu izraza:

    Ako se analiziraju podaci iz uzorka tada se izračunava ocenjena standardna devijacija. U slučaju kada su podaci u uzorku dati kao negrupisane vrednosti standardna devijacija se može oceniti na osnovu sledećih izraza:

    Za grupisane podatke osnovnog skupa (kod distribucije frekvencija) standardna devijacija se može izračunati na sledeći način:

    - na bazi odstupanja vrednosti obeležja od proseka

    - izračunavanje direktno iz podataka

    Na osnovu podataka iz uzorka koji su dati kao distribucija frekvencija, standardna devi-jacija se ocenjuje na sledeći način:

    Kvadrat standardne devijacije predstavlja varijansu (disperziju).. Varijansa takođe može da se izračuna za podatke osnovnog skupa ili da se oceni iz podataka uzorka na isti način kao i standardna devijacija.

    Za izračunavanje varijanse kod negrupisanih podataka osnovnog skupa koriste se sledeći izrazi:

    ( )N 2

    ii 1 .=

    Χ −µσ =

    Ν

    2NiN i 12

    ii 1

    XX

    .

    =

    =

    Νσ =

    Ν

    ∑∑

    ( )n 2

    ii 1S

    n 1=

    Χ − Χ=

    2nin i 12

    ii 1 nS

    n 1

    =

    =

    Χ

    Χ −=

    ∑∑

    ( )2i ii

    ff

    Σ Χ −µσ =

    Σ

    ( )2i i2i i

    ff

    Σ ΧΣ Χ −

    Νσ =Ν

    ( )2i ifSn 1

    Σ Χ − Χ=

    ( )2i i2i i

    ff

    nSn 1

    Σ ΧΣ Χ −

    =−

    ( )N 2

    i2 i 1

    X=

    −µσ =

    Ν

    2NiN i 12

    i2 i 1

    =

    =

    Χ

    Χ −Ν

    σ =Ν

    ∑∑

    ⇒ 2σ = σ

  • 25

    Ocenjena varijansa na osnovu negrupisanih podataka iz uzorka utvrđuje se na sledeći način:

    Kod distribucije frekvencija varijansa se izračunava na osnovu izraza:

    Ako se ocenjuje varijansa na osnovu grupisanih podataka iz uzorka koriste se sledeći izrazi:

    Osobine varijanse - Varijansa je pokazatelj varijacije izražen kvadratima jedinice mere posmatranog

    obeležja. U slučaju da kvadrat jedinice nema interpretaciju uz izračunatu vrednost varijanse se ne stavlja jedinica mere.

    - Ako su sve vrednosti obeležja u nekoj seriji međusobno jednake varijansa i standardna devijacija su jednake nuli.

    - Ako svim vrednostima obeležja u nekoj seriji dodamo ili oduzmemo konstantu varijansa novih vrednosti obeležja se ne menja.

    - Ako sve vrednosti obeležja u nekoj seriji pomnožimo konstantom, varijansa novih vrednosti obeležja biće jednaka proizvodu kvadrata konstante i prethodno izračunate varijanse.

    Napomena: Navedene osobine varijanse važe i za ocenu varijanse 2S .

    2.4.4. Koeficijent varijacije - V Prethodno definisani pokazatelji varijacije zavise od jedinica mere u kojima su dati posmatrani podaci, odnosno to su apsolutni pokazatelji. Prilikom upoređenja varijabiliteta više serija izraženih u različitim jedinicama mere, ukoliko bi se ovi pokazatelji posmatrali može doći do pogrešnog zaključka. Da bi se to izbeglo izračunava se relativni pokazatelj, od kojih se najčešće primenjuje koeficijent varijacije.

    Koeficijent varijacije u slučaju osnovnog skupa izračunavamo na osnovu sledećeg izraza:

    ( )n 2

    i2 i 1S

    n 1=

    Χ − Χ=

    2nin i 12

    i2 i 1 nS

    n 1

    =

    =

    Χ

    Χ −=

    ∑∑

    ⇒ 2SS =

    ( )2i i2i

    ff

    Χ −µ∑σ =

    Σ

    ( )2i i2i i2

    ff

    Σ ΧΣ Χ −

    Νσ =Ν

    ( )2i i2i

    fS

    fΣ Χ − Χ

    ( )2i i2i i2

    ff

    nS .n 1

    Σ ΧΣ Χ −

    =−

    'i i CΧ = Χ ± ⇒ ' ii

    2 2XX

    (i 1,..., N)σ = σ =

    ( )V 100 % .σ= ⋅µ

    'i iCΧ = ⋅Χ ⇒ ' ii

    2 2 2XX

    C (i 1,..., N)σ = ⋅σ =

  • 26

    Ako su poznati podaci na osnovu uzorka koeficijent varijacije je:

    Koeficijent varijacije koristimo za upoređivanje varijabiliteta dve ili više serija čije vrednosti obeležja su iskazane u različitim jedinicama mere, ali i za upoređivanje varijabiliteta serija koje imaju iste jedinice mere ali značajno različite aritmetičke sredine.

    2.4.5. Standardizovano odstupanje - Z Standardizovano odstupanje je mera udaljenosti pojedinih vrednosti obeležja od aritmetičke sredine iskazana u odnosu na standardnu devijaciju. Standardizovano odstupanje je takođe relativni pokazatelj disperzije obeležja. Njegova vrednost se u slučaju osnovnog skupa izračunava na sledeći način:

    U slučaju da su dati podaci uzorka standardizovano odstupanje je:

    Za razliku od ostalih pokazatelja varijacije, standardizovano odstupanje pokazuje varija-bilitet pojedinačnih vrednosti obeležja.

    Vrednost standardizovanog odstupanja može biti pozitivna ili negativna vrednost u zavisnosti da li je vrednost obeležja veća ili manja od aritmetičke sredine. Udaljenost vrednosti obeležja od aritmetičke sredine je iskazana brojem standardnih devijacija obe-ležja. Tako npr. iZ 1,5= pokazuje da je vrednost i-te vrednosti obeležja veća od aritme-tičke sredine za 1,5 standardnu devijaciju, dok vrednost iZ 2= − pokazuje da je vrednost manja od aritmetičke sredine za 2 standardne devijacije.

    Aritmetička sredina standardizovanog obeležja je uvek 0, varijansa i standardna devijacija su uvek 1.

    Primer za negrupisane podatke: Telesna masa jagnjadi (kg) pri jagnjenju je bila: 3,9 4,2 4,3 4,5 4,6. Izračunati poka-zatelje varijabiliteta obeležja. Izračunati aritmetičku sredinu i varijansu standardizovanog obeležja.

    X XX − XX − 2)XX( − 2X X XZ

    S−

    =

    3,9 -0,4 0,4 0,16 15,21 -1,4604

    4,2 -0,1 0,1 0,01 17,64 -0,3651

    4,3 0,0 0,0 0,00 18,49 0,0000

    4,5 0,2 0,2 0,04 20,25 0,7302

    4,6 0,3 0,3 0,09 21,16 1,0953

    21,5 0,0 1,0 0,30 92,75 0,0000

    ( )iiZ i 1,..., N .Χ −µ

    = =σ

    ( )iiXZ i 1,...,n .

    SΧ −

    = =

    ( )SV 100 % .X

    = ⋅

  • 27

    Rešenje: Uz pretpostavku da se podaci odnose na uzorak:

    1. Interval varijacije max minI X X= − = 4,6 – 3,9=0,7 kg

    2. Srednje apsolutno odstupanje

    5i

    i 1X

    21,5X 4,3 kg5 5

    =∑

    = = =

    5i

    i 1o

    X X1,0S 0,2 kg

    5 5=

    −∑= = =

    3. Varijansa

    ( )

    5 2

    2 i 1X X

    0,3S 0,075 kg4 4

    =−∑

    = = =

    ( )222

    XX 92,75 92,455S 0,075 kg

    4 4

    ∑−∑ −

    = = =

    4. Srandardna devijacija 2S S 0,075kg 0,2739 kg= = =

    5. Koeficijent varijacije SV 100(%)X

    = ⋅ 0,2739V 100(%) 6,37%4,3

    = ⋅ =

    6. Standardizovano odstupanje - Z X XZS−

    =

    5i

    i 1Z

    Z 05

    =∑

    = =

    ( )222Z

    ZZ 45S 1.

    4 4

    ∑−∑

    = = =

    2.5. Pokazatelji oblika distribucije Oblik distribucije podrazumeva sagledavanje dve karakteristike a to su asimetričnost i spljoštenost. Najčešće korišćeni pokazatelji ovih karakteristika distribucije su:

    - Koeficijent asimetričnosti – I Pirsonov koeficijent

    - Koeficijent spljoštenosti – II Pirsonov koeficijent

    Za izračunavanje ovih koeficijenata potrebno je prvo da se izračunaju centralni momenti. Pod centralnim momentom k-tog reda – podrazumeva se sredina sume odstupanja vre-dnosti obeležja od aritmetičke sredine stepenovana na k-ti stepen.

    Za negrupisane podatke u slučaju osnovnog skupa centralni momenti se izračunavaju na osnovu izraza:

    Za distribucije frekvencija primenjuje se izraz:

    ( )kik k 0,1,2,3,4,......

    Σ Χ −µµ = =

    Ν

    ( )ki ik

    i

    fk 0,1,2,3,4,......

    fΣ Χ −µ

    µ = =Σ

  • 28

    Za izračunavanje koeficijenata asimetričnosti i spljoštenosti koriste se centralni momenti 2-og, 3-eg i 4-og reda. Ako su podaci u datoj seriji negrupisani potrebni centralni moment izračunavaju se na sledeći način:

    Ako su podaci u seriji dati kao distribucija frekvencija za izračunavanje 2-og, 3-eg i 4-og centralnog momenta koriste se izrazi:

    Kao pokazatelj asimetričnosti distribucije izračunava se I Pirsonov koeficijent:

    Kao pokazatelj spljoštenosti izračunava se II Pirsonov koeficijent:

    Koeficijent asimetričnosti je kvadratni koren I Pirsonovog koeficijenta

    dok se koeficijent spljoštenosti, odnosno II Pirsonov koeficijent može iskazati kao

    Kod simetričnih raspodela je odakle sledi i

    Ukoliko je vrednost veća od nule raspodela je asimetrična. Predznak 3-eg centralnog momenta u ovom slučaju pokazuje da li je reč o pozitivnoj ili o negativnoj asimetričnosti. Za razliku od I Pirsonovog koeficijenta koji ukazuje samo na prisustvo asimetričnosti, na osnovu vrednosti koeficijenta asimetričnosti se može utvrditi da li je asimetrija pozitivna ili negativna.

    Pored toga, na osnovu vrednosti koeficijenta asimetričnosti, može da se utvrdi jačina asimetrije.

    Tako ako je 3 0.1α < nema asimetrije, 30.1 0.25≤ α < asimetrija je mala, 30.25 0.5≤ α < asimetrija je srednje veličine i 3 0.5α ≥ asimetrija je jaka.

    Ako je vrednost koeficijenta spljoštenosti , kažemo da raspodela ima istu spljoštenost kao teorijska normalna raspodela. Kada je , za raspodelu kažemo da je izdužena u odnosu na normalnu raspodelu, a kada je raspodela je spljoštena u odnosu na normalnu raspodelu.

    ( )2i2

    Σ Χ −µµ =

    Ν

    ( )3i3

    Σ Χ −µµ =

    Ν

    ( )4i4

    Σ Χ −µµ =

    Ν2

    2µ = σ

    ( )2i i2

    i

    ff

    Σ Χ −µµ =

    Σ

    ( )3i i3

    i

    ff

    Σ Χ −µµ =

    Σ

    ( )4i i4

    i

    ff

    Σ Χ −µµ =

    Σ23

    1 32

    β =µ

    42 2

    2.µβ =

    µ

    33 1 3 ,

    µα = β =

    σ

    44 2 2

    2.µα = β =

    µ

    2 3β =2 3β >

    2 3,β <

    3 0µ = 1 0β = 3 0.α =

  • 29

    Kontrolna pitanja

    1. Definisati distribuciju frekvencija. 2. Definisati relativnu frekvenciju. 3. Navesti šta je kumulativna frekvencija i vrste kumulativa. 4. Objasniti grafički prikaz stablo-list. 5. Šta je histogram i kada se koristi. 6. Šta je poligon i kada sekoristi. 7. Definisati aritmetičku sredinu i navesti njene osobine. 8. Definisati pozicione srednje vrednosti. 9. Navesti pokazatelje varijabiliteta i njihovu podelu. 10. Navesti pokazatelje oblika i tumačenje njihovih izračunatih vrednosti.

  • 30

    3. TEORIJSKE DISTRIBUCIJE

    3.1. Osnovni pojmovi verovatnoće Statistička teorija je zasnovana na teoriji verovatnoće. Teorija verovatnoće je grana mate-matike koja se bavi analizom slučajnih pojava. Rezultati posmatranja ili eksperimenta nazivaju se elementarni događaji. Skup koji sadrži sve elementarne događaje naziva se prostor elementarnih događaja.

    Slučajni događaj je podskup skupa (prostora) elementarnih događaja. Slučajni događaji se obeležavaju velikim slovima latinice: A, B, C, D... ili A1, A2, A3,...

    Slučajni događaj A sadrži one elementarne događaje kojima se definiše događaj A. Svakom događaju A odgovara suprotan događaj Ā (non A) koji se ostvaruje onda kada se ne ostvari događaj A.

    Verovatnoća slučajnog događaja je izraz mogućnosti javljanja tog događaja. Verovatnoća se iskazuje brojem koji varira od 0 – za nemoguć događaj do 1- za siguran događaj. Utvrđivanje verovatnoće zavisi od polazne teorije verovatnoće.

    Klasična definicija verovatnoće - verovatnoća događaja A je odnos broja elementarnih događaja koji sačinjavaju događaj A i broja svih mogućih elementarnih događaja.

    Klasična definicija je zasnovana na pretpostavci da su svi elementarni događaji podjednako mogući tj. polazi od pretpostavke simetričnosti (homogen novčić, homogena kocka). Po ovoj definiciji pojam verovatnoće je apstraktno zasnovan i ne zavisi od iskustva. Zato se ovako uvedena verovatnoća naziva verovatnoća a priori.

    Primer klasične definicije Eksperiment se sastoji u bacanju homogene kocke. Odredite prostor elementarnih događaja i slučajan događaj A : dobijen je paran broj. Izračunati verovatnoću događaja A.

    Prostor elementarnih događaja je:

    Statistička definicija verovatnoće - verovatnoća događaja A je granična vrednost relativne frekvencije događaja A u n eksperimenata kada n neograničeno raste.

    Da bi se odredila verovatnoća događaja potrebno je ponavljati eksperiment veliki broj puta pod istim uslovima. Ovako definisana verovatnoća je zasnovana na iskustvu i naziva se verovatnoća aposteriori ili statistička verovatnoća.

    m(A)P(A)n

    =

    n

    fP(A) limn→∞

    =

    m(A) 3P(A) 0,5.n 6

    = = =

  • 31

    U slučaju da nije moguće da se izračuna verovatnoća, ona se ocenjuje relativnom frekvencijom:

    Relativne frekvencije nisu verovatnoće već su aproksimacije verovatnoće. Ako se ekspe-riment ponavlja veliki broj puta ove aproksimacije verovatnoće nekog ishoda teže vero-vatnoćama ishoda na osnovu zakona velikih brojeva.

    Primer statističke definicije Ukoliko se broj bacanja homogenog novčića uvećava, relativna frekvencija likova teži vrednosti 0,5. Statističar Karl Pearson je bacao novčić 24000 puta i dobio 12012 likova, tj. relativnu frekvenciju 0,5005.

    Relativna frekvencija likova ukoliko je broj ponavljanja 10-10000

    Subjektivna verovatnoća je verovatnoća dodeljena nekom događaju na osnovu subjekti-vne procene, informacije, iskustva i verovanja.

    Bez obzira koja definicija verovatnoće se primenjuje, zbir verovatnoća svih elementarnih događaja je 1.

    Radi lakše analize u oblasti verovatnoće, poželjno je da sve elementarne događaje izra-žavamo pomoću realnih brojeva, koji će samim tim sadržavati i informaciju o verovatnoći pojavljivanja elementarnih događaja koje predstavljaju.

    Jednodimenzionalna slučajna promenljiva je funkcija koja svaki elementarni događaj statističkog eksperimenta preslikava u jedan realan broj, kome se pridružuje verovatnoća jednaka zbiru verovatnoća pojavljivanja svih elementarnih događaja koji se u njega slikaju. Slučajna promenljiva može biti diskretna i neprekidna.

    Diskretna (prekidna) slučajna promenljiva je slučajna promenljiva koja uzima kona-čan broj vrednosti ili prebrojivo beskonačan broj vrednosti.

    Neprekidna slučajna promenljiva je slučajna promenljiva koja može da uzme bilo koju vrednost iz jednog ili više intervala. Neprekidna slučajna promenljiva ima neprebrojivo mnogo vrednosti.

    Kvantitativna karakteristika slučajnog događaja naziva se slučajna promenljiva. Svaki elementarni događaj iz prostora S preslikava se u vrednost sa brojne prave. Prvi korak u definisanju slučajne promenljive je definisanje prostora elementarnih događaja S, odno-sno definisanje i ispisivanje svih mogućih elementarnih događaja. Za svaku slučajno

    fP(A)n

    =

  • 32

    promenljivu može se definisati zakon verovatnoće (zakon raspodele) i funkcija raspo-dele. Distribucije koje su formirane grupisanjem opažanja ili elemenata skupa prema nekom obeležju su empirijske (originalne, opažene) distribucije. Nasuprot empirijskim distribucijama postoje distribucije koje se mogu očekivati u skladu s iskustvom ili na osnovu nekih pretpostavki to su teorijske distribucije. Pojmu obeležja kod empiriskih distribucija odgovara pojam slučajna promenljiva kod teorijskih distribucija.

    Određivanju relativnih frekvencija kod empirijskih distribucija frekvencija prethodi prebrojavanje opseviranih vrednosti obeležja tj. određivanje apsolutnih frekvencija. Pojmu relativna frekvencija kod teorijskih distribucija odgovara pojam verovatnoća. Verovatnoće se izračunavaju kao određene funkcije vrednosti slučajne promenljive.

    Svaka teorijska distribucija ima svoj zakon verovatnoće po kom su distribuirane vrednosti slučajne varijable X. Osim funkcije verovatnoće, teorijske distribucije imaju: funkciju raspodele, matematičko očekivanje, varijansu, koeficijent asimetrije i koeficijent spljoštenosti. Funkcija raspodele se definiše kao kumulativna verovatnoća slučajne promenljive ( ) ( )F x P x= Χ ≤ i uvek je ( )0 F x 1≤ ≤ . Funkcija raspodele odgovara pojmu kumulacije structure kod empirijskih distribucija.

    Teorijske distribucije su osnova inferencijalne statistike.

    3.2. Prekidne teorijske distribucije

    3.2.1. Binomna distribucija Binomna distribucija je jedna od najvažnijih prekidnih teorijskih distribucija. U osnovi binomne distribucije su sukcesivni događaji koji imaju dva ishoda. Binomna distribucija je definisana preko Bernulijevog eksperimenta. Bernulijev eksperiment je slučajni eksperiment koji ima sledeće karakteristike:

    1. eksperiment ima dva ishoda, '' uspeh'' i '' neuspeh'' 2. u svakom ponavljanju eksperimenta verovatnoća ishoda '' uspeh'' je p i ne menja se

    od eksperimenta do eksperimenta. Verovatnoća ishoda '' neuspeh'' jednaka je q=1-p.

    3. eksperimenti su nezavisni

    4. ishod svakog eksperimenta ili procesa je slučajan.

    Broj ''uspeha'' u n ponavljanja Bernulijevog eksperimenta je slučajna promenljiva X koja ima binomnu raspodelu. Kako je broj ''uspeha'' svaki ceo broj u intervalu od 0 do n, vrednosti slučajne promenljive koja ima binomnu raspodelu su X : 0, 1, 2, 3, ....n. Broj modaliteta slučajne promenljive je n+1.

    Verovatnoća P(X=i) za i=0,..., n data je izrazom:

    ini)i( qpi

    np −⋅

    =

  • 33

    gde je:

    n – broj modaliteta obeležja umanjen za 1

    p – verovatnoća '' uspeha'‘

    q – verovatnoća '' neuspeha'‘

    Binomna distribucija zavisi od dva parametra n i p i može da se označi sa B(n,p). Vrednosti osnovnih pokazatelja su:

    - Aritmetička sredina

    - Varijansa

    - Standardna devijacija

    - Modus

    - Koeficijent asimetričnosti

    - Koeficijent spljoštenosti

    Kod binomne raspodele varijansa je uvek manja od aritmetičke sredine. Binomna raspo-dela može da ima jedan modus ako (n+1)p nije ceo broj, ili dva modusa ukoliko je (n+1)p ceo broj: 1 20 0M np q (n 1)p 1, M np p (n 1)p.= − = + − = + = +

    U slučaju da je p=q=0,5 binomna distribucija je simetrična, ako je q>p binomna distri-bucija je pozitivno, dok je za q

  • 34

    10M np q 3 0,5 0,5 1= − = ⋅ − = 20M np p 3 0,5 0,5 2= + = ⋅ + =

    01 =β 21 6 0,5 0,53 2,33.

    0,75− ⋅ ⋅

    β = + =

    3.2.2. Poasonova distribucija Poasonovu distribuciju je definisao francuski matematičar Siméon Denis Poisson 1837. godine.

    Poasonova distribucija je u primeni od prve polovine 19. veka i to kao veoma značajna u nekim specifičnim istraživanjima. Poasonova raspodela se često naziva zakon malih bro-jeva i model je za raspodelu događaja koji se retko pojavljuju sa konstantnom vero-vatnoćom. Poasonova distribucija se primenjuje u kontroli kvaliteta robe ili neispravnih proizvoda u proizvodnim procesima određene veličine, ispitivanjima saobraćajnih udesa, kontroli pristizanja prevoznih sredstava u stanice, itd. U biološkim istraživanjima primenjuje se u modeliranju broja mutacija gena, broju retkih životinja na određenoj teritoriji, broju mikroorganizama na mikroskopskom polju, broju retkih oboljenja.

    Sva ova ispitivanja imaju zajedničku karakteristiku da se registruju kao prekidne vari-jable.

    Poasonova distribucija je teorijska distribucija koja se odnosi na prekidna obeležja. Vrednost obeležja X su celi nenegativni brojevi 0, 1, 2, 3, ....n,....

    Verovatnoće Poasonove distribucije zavise od jednog parametra i to je parametar m. Parametar m u distribuciji prosečan broj nastupanja nekog događaja u određenom vre-menskom intervalu, jedinici površine ili zapremine.

    Verovatnoće Poasonove distribucije date su izrazom:

    gde je:

    e – je Ojlerov broj (Napierova konstanta) osnova prirodnog logaritma e ≈ 2,71828

    m – je pozitivan broj, parametar Poasonove distribucije

    Vrednosti osnovnih pokazatelja Poasonove distribucije su:

    - Aritmetička sredina

    - Varijansa

    ( )i

    mi

    mp ei!

    −= ⋅

    PD mΧ =

    2PD mσ =

    1 2(1)

    3p 0,5 0,5 0,3750

    1

    = ⋅ =

    2 1(2)

    3p 0,5 0,5 0,3750

    2

    = ⋅ =

    3 0(3)

    3p 0,5 0,5 0,1250

    3

    = ⋅ =

    BD 3 0,5 1,5Χ = ⋅ =2BD 3 0,5 0,5 0, 75 σ = ⋅ ⋅ =

  • 35

    - Standardna devijacija

    - Modus

    - Koeficijent asimetričnosti

    - Koeficijent spljoštenosti

    Kod Poasonove raspodele aritmetička sredina i varijansa su jednake. U slučaju da parametar m nije ceo broj Poasonova raspodela ima jedan modus, dok u slučaju da je m ceo broj ima dva modusa 1 2o oM m 1 i M m.= − = Poasonova raspodela je pozitivno asime-trična i izdužena u poređenju sa normalnom raspodelom.

    Poasonova distribucija je granični oblik binomne distribucije. Kada se broj eksperimenata u Bernulijevom procesu povećava, javlja se problem izračunavanja verovatnoće da varijabla X uzme određenu vrednost prema formuli za binomnu distribuciju. Za binomnu distribuciju verovatnoće se mogu aproksimirati Poasonovom formulom ako je vero-vatnoća nastupanja nekog događaja p mala, ako je n veliko i ako

    Primer Poznato je da je 2% miševa obolelo od kancera. Izračunati verovatnoću da u uzorku od 100 miševa više od jednog miša ima kancer.

    Rešenje:

    Broj obolelih miševa ima binomnu raspodelu B(100, 0,02). Kako je verovatnoća obo-ljenja mala (p=0,020), n veliko (n=100) i binomna raspodela se mo-že aproksimirati Poasonovom raspodelom P(2).

    3.3. Neprekidne teorijske distribucije

    3.3.1. Normalna distribucija Najvažniji model teorijske distribucije verovatnoće je normalna ili Gausova distribucija. Značaj ovog oblika distribucije u statističkoj teoriji i statističkim istraživanjima se ogleda u tome što se mnoge empirijske pojave modeliraju normalnom distribucijom. Normalna distribucija ima značajnu primenu u statističkoj inferenciji. Parametarska statistika je za-snovana na pretpostavci da osnovni skup kome pripada uzorak ima normalnu distribuciju.

    Normalni raspored je prvi otkrio 1733. godine Abraham de Moivre kao granični oblik bi-nomne distribucije, tj. posmatrajući šta se događa sa binomnom distribucijom kada broj eksperimenata beskonačno raste.

    U drugoj polovini XVIII. veka ovaj oblik distribucije je proučavao i francuski matema-tičar Laplas. Gaus (1809) i Laplas (1812) su izučavajući greške merenja uveli normalnu distribuciju. Gaus je pisao o karakteristikama i primenama normalne raspodele u modeliranju slučajnih grešaka merenja u astronomiji, tako da se zbog ovog doprinosa normalna raspodela naziva i Gausova raspodela.

    PD mσ =

    om 1 M k m− ≤ = ≤

    11m

    β =

    213m

    β = +

    m n p 10.= ⋅ <

    m 100 0,02 2 10= ⋅ = <

    2 20 1P(X 1) 1 p p 1 e 2 e 1 0,1353 0,2707 0,5940.

    − −> = − − = − − ⋅ = − − =

  • 36

    Pierre de Laplace Carl Friedrich Gauss

    (1749–1827) (1777–1855)

    Normalna distribucija je neprekidna teorijska distribucija. Neprekidna slučajna promen-ljiva ima normalnu raspodelu ako je ( )X ,∈ −∞ +∞ i ako je zakon verovatnoće (funkcija gustine verovatnoće):

    Zakon verovatnoće normalne distribucije zavisi od dva parametra i to od aritmetičke sredine µ i od standardne devijacije .σ Standardna normalna distribucija ima aritmetičku sredinu 0 i standardnu devijaciju 1.

    Normalna distribucija je grafički predstavljena kontinuiranom zaobljenom krivom koja u odnosu na X osu ima zvonasti oblik.

    Funkcije gustine normalne raspodele za različite vrednosti i .µ σ

    21 x21f (x) e .

    2

    −µ − σ = ⋅σ π

  • 37

    Osobine normalne raspodele:

    - Površina koju kriva zaklapa sa X-osom predstavlja zbir verovatnoća i iznosi 1.

    - Simetrična je u odnosu na vrednost x = µ tako da je P(X ) P(X ) 0,5.< µ = > µ =

    - Maksimum funkcije gustine verovatnoće je u tački µ .

    - Aritmetička sredina, modus i medijana se poklapaju i imaju vrednost µ .

    - Prvi Pirsonov koeficijent je dok je drugi Pirsonov koeficijent

    - Ukoliko X →±∞ funkcija f (X) 0.→

    - Da bi se izračunala verovatnoća P(a

  • 38

    2. Ako je X standardna normalna distribucija:

    P(-1,5

  • 39

    3.3.2. Studentova – t distribucija Ovu neprekidnu distribuciju definisao je William Gosset 1908. godine. Gosset je bio engleski hemičar i statističar, zaposlen u Ginisovoj kompaniji za proizvodnju piva i svoje naučne radove potpisivao je pseudonimom „Student”, pa se ova distribucija naziva i Studentova t- distribucija.

    William Sealey Gosset

    (1876 – 1937)

    Studentova distribucija se odnosi na slučajno promenljivu t koja predstavlja transfor-misano obeležje dato izrazom:

    gde je: - aritmetička sredina uzorka - očekivana vrednost (sredina osnovnog skupa) - ocenjena standardna greška aritmetičke sredine

    Ocenjena standardna greška aritmetičke sredine dobija se na osnovu ocenjene standardne devijacije osnovnog skupa S , primenom izraza:

    Količnik t ima Studentovu raspodelu ukoliko se pretpostavi da obeležje X ima normalnu raspodelu nezavisno od veličine uzorka, ili ukoliko je veličina uzorka veća od 30.

    Parametar koji definiše Studentovu distribuciju je stepen slobode r, koji je r = n-1. Sa porastom stepeni slobode (r) Studentova distribucija se po svojim karakteristikama pri-bližava standardnoj normalnoj distribuciji. Ukoliko je r=30, razlika između Studentove i normalne distribucije je neznatna.

    tSΧ

    Χ −µ=

    ΧµSΧ

    SSnΧ

    = ( )2

    iSn 1

    Σ Χ − Χ=

  • 40

    Student-ove raspodele za različite stepene slobode

    Neke od karakteristika t-distribucije su:

    • funkcija gustine verovatnoće zavisi od jednog parametra koji se naziva stepen slobode;

    • ima sličan oblik kao standardna normalna distribucija samo što je šira i položenija tj. ima veću verovatnoću ekstremnih vrednosti – deblje repove;

    • kako raste broj stepeni slobode oblikom je sve sličnija standardnoj normalnoj raspodeli;

    • primenjuje se u izračunavanju intervala pouzdanosti i testiranju hipoteza o razlici između dva uzorka ukoliko obeležje ima normalnu raspodelu i varijanse osnovnih skupova nisu poznate.

    Osnovni pokazatelji t – distribucije su:

    - Aritmetička sredina

    - Varijansa

    - Standardna devijacija

    - Modus

    - Pirsonovi koeficijenti

    U tablicama Studentove distribucije date su vrednosti slučajne promenljive X za datu vrednost stepena slobode r i vrednost Tako ako je r=5,

    tD 0, r 1.Χ = >

    2tD

    r , r 2.r 2

    σ = >−

    tDr

    r 2σ =

    oM 0=

    1 0β = 263 , r 4.

    r 4β = + >

    n 1;P( X t ).− αα = >

    5;0,050,05, t 2,571.α = =

  • 41

    Studentova raspodela r=5 i 0,05α = .

    3.3.3. Fišerova – F distribucija Fišerova (Fišer – Snedekorova) distribucija pripada grupi neprekidnih teorijskih distribucija. Dobila je ime po poznatom engleskom statističaru i genetičaru Ronald Fišeru koji definisao 1924. godine.

    Sir Ronald Aylmer Fisher

    (1890 – 1962)

    Slučajna promenljiva F definisana je kao količnik ocenjenih varijansi dva nezavisna slučajna uzoraka čije su veličine i

    Fišerova distribucija zavisi od dva parametra, odnosno dva stepena slobode r1 i r2.

    2122

    SFS

    =( )

    1

    21i 12

    1S

    n 1Σ Χ − Χ

    =−

    1 1r n 1= − 2 2r n 1= −

    ( )2

    22i 22

    2S

    n 1Σ Χ − Χ

    =−

    1n 2n :

  • 42

    Kako je definisana kao količnik dve sume kvadrata F-distribucija je uvek nenegativna. Minimalna vrednost Fišerove distribucije je nula. Ukoliko vrednost slučajne pomenljive X teži beskonačnosti, Fišerova distribucija asimptotski teži nuli. Fišerova distribucija je izrazito asimetrična u desno, a sa porastom stepeni slobode, odnosno veličine uzoraka, teži ka simetričnosti.

    Fišerova distribucija ima široku primenu, a najčešće se koristi kod testiranja jednakosti dve varijanse i kod testiranja razlika tri ili više aritmetičkih sredina, odnosno u primeni metoda analize varijanse.

    Tablice F-distribucije su formirane za različite pragove značajnosti

    Najčešće se koriste tablice za α=0,05 i α=0,01. U tablicama su brojevi u zaglavlju vrednosti prvog stepena slobode r1 , dok su brojevi u predkoloni vrednosti drugog stepena slobode. Tako npr. za stepene slobode 3 i 16 i α=0,05 tablična vrednost je 3,24 i označava vrednost na X osi tako da je

    F-distribucija za različite stepene slobode

    1 2r ,r ;P(X F ).αα = >

    P(X 3,24) 0,05.> =

  • 43

    Kontrolna pitanja

    1. Kako definišemo empirijske, a kako teorijske distribucije? 2. Kako se dele teorijske distribucije? 3. Navesti neke od prekidnih teorijskih distribucija. 4. Navesti neke od neprekidnih teorijskih distribucija. 5. Navesti karakteristike Binomne distribucije. 6. Navesti karakteristike Poasonove distribucije. 7. Navesti karakteristike Normalne distribucije. 8. Navesti karakteristike Studentove distribucije. 9. Navesti karakteristike Fišerove distribucije. 10. Kada se u statističkoj inferenciji koriste tablične vrednosti Normalne, a kada ta-

    blične vrednosti Studentove distribucije?

  • 44

    4. INFERENCIJALNA STATISTIKA

    U različitim situacijama često se dešava da treba doneti neke zaključke o osnovnom skupu, odnosno populaciji a da pri tom nemamo na raspolaganju sve njihove podatke. Deo statistike koji se bavi donošenjem zaključaka o osnovnom skupu na osnovu dela njegovih jedinica naziva se Inferencijalna statistika. Ispitivanje dela nekog skupa radi ocene karakteristika celokupnog skupa izvodi se meto-dom uzorka. Na osnovu analize jedinica uzorka procenjuje se vrednost parametra osnov-nog skupa. Osnovni skup često ispoljava karakteristike koje su približne karakteristikama neke od teorijskih distribucija. Ako se zna kojoj teorijskoj distribuciji se podaci najbolje prilagođavaju i ako se uzme uzorak iz takve mase,onda se lakše dolazi do zaključaka o samom osnovnom skupu.

    4.1. Metod uzorka u istraživačkom radu Uzorak je deo osnovnog skupa koji je izabran u svrhu izvođenja statističke analize. Statistička teorija uzoraka deli se na teoriju malog i teoriju velikog uzorka, pri čemu kao osnova za podelu služi broj jedinica u uzorku. Malim uzorkom smatra se uzorak veličine do trideset jedinica, a uzorak čija je veličina veća od trideset jedinica smatra se velikim uzorkom.

    Uzorak koji u najvećoj meri odražava karakteristike osnovnog skupa naziva se repre-zentativni uzorak. Reprezentativnost uzorka postiže se pravilnim postavljanjem plana uzorka i pravilnim načinom izbora jedinica u uzorak.

    Metode za izbor jedinica uzorka možemo podeliti na:

    • metode izbora na osnovu verovatnoće i

    • metode izbora bez primene verovatnoće.

    Metode izbora na osnovu verovatnoće podrazumevaju da se primeni postupak izbora koji ne favorizuje ni jednu jedinicu posebno, odnosno da sve jedinice imaju unapred poznatu verovatnoću da budu izabrane u uzorak. Primenom ovih metoda dobijaju se sledeći planovi uzorka:

    • prost slučajni uzorak

    • sistematski slučajni uzorak

    • stratifikovani slučajni uzorak

    • klaster slučajni uzorak

    Metode izbora bez primene verovatnoće zasnovane su na postupcima izbora jedinica koji ne zavise od teorije verovatnoće. Na ovaj način se dobijaju uzorci formirani na osnovu slobodne procene istraživača ili na osnovu svrhe istraživanja.

    Prost slučajni uzorak – je uzorak koji se dobija tako što sve jedinice osnovnog skupa imaju istu verovatnoću da budu izabrane u uzorak, pri čemu izbor jedne ne utiče na izbor ostalih jedinica. Prost slučajni uzorak može biti izabran sa ili bez ponavljanja (vraćanja). Uzorak sa ponavljanjem podrazumeva da jedna jedinica osnovnog skupa može da se

  • 45

    pojavi u uzorku više puta. Uzorak bez ponavljanja podrazumeva da jedna jedinica osnov-nog skupa može da se pojavi u uzorku samo jednom.

    Izbor jedinica iz populacije u uzorak može se izvesti pomoću tablice slučajnih brojeva, tehnikom lutrijskog izbora ili uz pomoć računara.

    Sistematski uzorak – je uzorak kod koga se jedinice iz osnovnog skupa biraju jednakim intervalima vremena, prostora ili poretka (vakcinicanje dece određene godine starosti, nagrada za svakog stotog kupca nekog proizvoda, itd.).

    Stratifikovani i klaster uzorak – su uzorci koji se dobijaju kada se osnovni skup (populacija) podeli na stratume ili klastere, nakon čega se slučajno biraju jedinice iz sva-kog stratuma, odnosno iz svakog klastera. Stratifikovani uzorak se bira u slučaju kada su varijacije unutar stratuma male u odnosu na varijacije između stratuma, a klaster uzorak u suprotnom slučaju.

    Razlikujemo stratifikovani uzorak sa proporcionalnim rasporedom i disproporcionalni stratifikovani uzorak.

    4.2. Distribucija sredina uzoraka Svaki parametar uzorka ima svoju distribuciju. Poznavanje karakteristika te distribucije doprinosi boljem razumevanju ocena i testova na osnovu uzorka.

    Polazeći od osnovnog skupa od N jedinica, ako izaberemo jedan prost slučajan uzorak od n jedinica na osnovu njega se može izvesti ocena nepoznatih parametara osnovnog skupa. Ako se pretpostavi da se iz osnovnog skupa izaberu svi mogući uzorci čiji je broj k i izračunaju njihove aritmetičke sredine na osnovu njih se može formirati distribucija frekvencija aritmetičkih sredina.

    Broj uzoraka veličine n jedinica koji može da se dobije iz jednog osnovnog skupa veličine N jedinica utvrđuje se na osnovu sledećih izraza:

    - uzorci sa ponavljanjem

    - uzorci bez ponavljanja

    Distribucija aritmetičkih sredina prostih slučajnih uzoraka veličine n ima normalan raspored ukoliko osnovni skup ima normalan raspored, bez obzira na veličinu uzorka.

    Kada osnovni skup ima raspored proizvoljnog oblika sa aritmetičkom sredinom μ i varijansom σ2, raspored aritmetičkih sredina svih prostih slučajnih uzoraka teži normalnom rasporedu ukoliko veličina uzorka Ovo je jedna od najznačajnijih teorema u statistici – centralna granična teorema. Za distribuciju sredina uzoraka mogu se izračunati i njeni pokazatelji. Aritmetička sredina distribucije sredina uzoraka izračunava se na sledeći način:

    gde su iΧ (i=1,…,k) aritmetičke sredine uzoraka a k broj uzoraka.

    nk N=

    ( )( )( ) ( )N 1 N 2 ....... N n 1N N!k

    n n! N n ! n!Ν − − ⋅ − +

    = = = −

    ki

    i 1 ,k

    Χ =∑

    n .→∞

  • 46

    Aritmetička sredina distribucije sredina uzoraka jednaka je aritmetičkoj sredini osnovnog skupa:

    Varijansa distribucije sredina uzoraka izračunava se na osnovu izraza:

    Ako je poznata vrednost varijanse osnovnog skupa varijansa distribucije aritmetičkih sredina uzoraka u slučaju prostih slučajnih uzoraka bez ponavljanja jednaka je:

    gde je:

    – varijansa osnovnog skupa,

    n – veličina uzorka, a

    – korektivni faktor.

    Ako su primenjeni prosti slučajni uzorci sa ponavljanjem, varijansa aritmetičkih sredina uzoraka je:

    Varijansa distribucije sredina uzoraka je manja po vrednosti od varijanse osnovnog skupa. Sa povećanjem veličine uzorka (n) vrednost varijanse distribucije sredina uzoraka se smanjuje i teži nuli. Što je veća veličina uzorka bolje i preciznije se može oceniti parametar osnovnog skupa.

    Kako je varijansa aritmetičkih sredina uzoraka bez ponavljanja je manja

    od varijanse aritmetičkih sredina uzoraka sa ponavljanjem. U slučaju da je N veliko u

    poređenju sa n,

    Standardna devijacija distribucije aritmetičkih sredina uzoraka naziva se standardna greška aritmetičke sredine a utvrđuje se na osnovu izraza:

    Ako su poznate varijansa ili standardna devijacija osnovnog skupa standardna greška aritmetičke sredine jednaka je u slučaju uzoraka bez ponavljanja :

    odnosno u slučaju uzorka s ponavljanjem:

    .Χ = µ

    ( )k 2

    i2 i 1

    k=

    Χ

    Χ −µσ =

    22 N n

    n N 1Χσ −

    σ = ⋅−

    N nN 1−−

    ( )k 2

    ii 1 .

    k=

    Χ

    Χ −µσ =

    N n ,N 1nΧ

    σ −σ = ⋅

    22 .

    nΧσ

    σ =

    N n 1, n 1,N 1−

    < >−

    N n 1.N 1−

    ≈−

    .nΧσ

    σ =

  • 47

    4.3. Ocene na osnovu uzorka U praktičnom radu, u svrhu donošenja zaključaka o karakteristikama osnovnog skupa, uzima se samo jedan uzorak dovoljne veličine, na osnovu kog ocenjujemo, odnosno procenjujemo nepoznate parametre osnovnog skupa. Ocena parametara osnovnog skupa primenjuje se u sledećim slučajevima:

    - kada je nepoznata veličina osnovnog skupa, odnosno ukupan broj jedinica N

    - kada se ne mogu utvrditi sve vrednosti obeležja osnovnog skupa

    - kada je osnovni skup beskonačan

    Parametar Osnovni skup Ocena na osnovu uzorka

    Aritmetička sredina µ X�

    Standardna devijacija σ S

    Varijansa σ2 S2

    Standardna greška aritmetilke sredine σx� Sx�

    Vrednosti izračunate na osnovu uzorka nisu tačne, prave vrednosti, već su to približne vrednosti, odnosno ocene odgovarajućih parametara osnovnog skupa. Vrednosti nekog parametra izračunate na osnovu uzorka su tačkaste ocene parametara osnovnog skupa. Ocena nepoznatog parametra osnovnog skupa biće tačnija, odnosno bliža pravoj vrednosti, što je uzorak veći i što je varijabilitet pojave koju analiziramo manji. Ukoliko pojava koju analiziramo ne bi varirala tada bi na primer ocenjena vrednost aritmetičke sredine iz uzorka od samo jedne vrednosti obeležja predstavljala tačnu vrednost sredine osnovnog skupa. Kako pojave koje u praktičnom radu analiziramo pokazuju veći ili manji varijabilitet, tačkaste ocene iz uzorka nisu dovoljne da bi se ocenila vrednost nepoznatog parametra osnovnog skupa, već se u obzir mora uzeti i standardna greška kao pokazatelj varijabiliteta. Tačnije za ocenu nepoznatih parametara osnovnog skupa na osnovu uzorka, koriste se intervalne ocene koje u obzir uzimaju i varijabilitet posmatrane pojave.

    U teoriji ocenjivanja se razlikuju pojmovi ocenitelj i ocena. Ocenitelj je funkcija uzorka (statistika) dok je ocena izračunata vrednost ocenitelja na osnovu izabranog uzorka. Ocenitelj je slučajna promenljiva, dok je ocena konstanta.

    Ocena parametara osnovnog skupa na osnovu uzorka, zasnovana je na teoriji da je poželjno da ocenitelj poseduje neka statistička teorijska svojstva. Svojstva koja je poželjno da ima ocenitelj su nepristrasnost, konzistentnost, efikasnost i egzostivnost.

    Nepristrasnost: ocenitelj parametara je nepristrasan kada je njegova očekivana vrednost jednaka parametru osnovnog skupa. Aritmetička sredina iz uzorka je nepristrasan ocenitelj aritmetičke sredine osnovnog skupa, jer je

    Ocenitelj

    n 2i

    2* i 1(X X)

    Sn

    =−

    =∑

    nije nepristrasan ocenitelj varijanse osnovnog skupa.

    Varijansa ocenjena na osnovu uzorka postaće nepristrasan ocenitelj varijanse osnovnog skupa ako delilac u sledećem izrazu budu stepeni slobode n-1:

    ( )E .Χ = µ

    ( )2* 2 2nE S E S .n 1 = = σ −

  • 48

    Konzistentnost: za ocenitelj iz uzorka se kaže da konzistentno ocenjuje parametar osnovnog skupa, ako ukoliko n teži beskonačnosti, ocenitelj iz uzorka teži vrednosti parametra osnovnog skupa uz verovatnoću 1. Ako je ocenitelj iz uzorka konzistentan, sa povećanjem veličine uzorka njegova vrednost se približava vrednosti parametra osnovnog skupa. Da bi ocenitelj bio konzistentan, nije neophodno da je nepristrasan. Tako su 2S i

    2*S konzistentni ocenitelji varijanse osnovnog skupa 2σ .

    Efikasnost: parametar osnovnog skupa može da se oceni na različite načine. Nepristrasan ocenitelj tog parametra je efikasniji kada je njegova vrednost približnija pravoj vrednosti parametra osnovnog skupa tj. kada ima manji varijabilitet. Relativna efikasnost se izra-žava odnosom varijansi ocenitelja i to odnosom manje varijanse ocenitelja prema većoj.

    Primer: Aritmetička sredina i medijana su nepristrasne ocene aritmetičke sredine osnov-nog skupa. Ukoliko se pretpostavi da je osnovni skup normalno raspoređen, aritmetička sredina je efikasniji ocenitelj jer relativna efikasnost ova dva ocenitelja

    Egzostivnost: ocenjeni parametar je egzostivan ako sadrži sva potrebna obaveštenja o parametru osnovnog skupa. Da bi jedan ocenitelj iz uzorka bio egzostivan on treba da je funkcija parametra osnovnog skupa. Egzostivni ocenitelji su aritmetička sredina i pro-porcija uzorka.

    Svi navedeni principi ocene parametara su poželjne ali ne i neophodne osobine ocenitelja.

    4.3.1. Izračunavanje standardne greške aritmetičke sredine Standardna greška aritmetičke sredine, ako je poznat varijabilitet osnovnog skupa (ako su poznate vrednosti standardne devijacije ili varijanse) može se izračunati na osnovu sledećeg izraza:

    gde je je korektivni faktor koji se koristi ako je poznata veličina osnovnog skupa N i ako se primenjuje uzorak bez ponavljanja (bez vraćanja).

    Ako je uzorak uzet iz velikog osnovnog skupa ili beskonačnog osnovnog skupa stan-dardna greška aritmetičke sredine svodi se na izraz:

    S obzirom da su standardna devijacija i varijansa osnovnog skupa najčešće nepoznate zamenjuju se ocenom iz uzorka, odnosno ocenjenom standardnom devijacijom ili varijansom. Na osnovu izračunate ocenjene standardne devijacije ili varijanse izračunava se ocenjena standardna greška aritmetičke sredine na osnovu sledećih izraza u zavisnosti da li je primenjen prost slučajan uzorak bez ili sa ponavljanjem:

    Standardna greška aritmetičke sredine može da se izračuna i direktno iz podataka uzorka na osnovu radnih formula. Za negrupisane podatke ocenjena standardna greška aritm-etičke sredine utvrđuje se na sledeći način:

    N nN 1nΧ

    σ −σ = ⋅

    −N nN 1−−

    nΧσ

    σ =

    S N nSNnΧ−

    = ⋅

    ( )( )

    2i N nS

    n n 1 NΧΣ Χ − Χ −

    = ⋅−

    ( )

    ( )

    2i2

    i N nnS .n n 1 NΧ

    ΣΧΣΧ − −

    = ⋅−

    e2 2

    MX / 0,64 1.σ σ = <

    SS .nΧ

    =

  • 49

    Kod distribucije frekvencija za ocenu standardne greške aritmetičke sredine koriste se izrazi:

    Standardna greška aritmetičke sredine nalazi primenu u izračunavanju intervala poverenja za nepoznatu sredinu osnovnog skupa, kao i kod testa značajnosti jedne sredine.

    4.3.2. Interval poverenja za ocenu nepoznate sredine osnovnog skupa Interval poverenja (pouzdanosti) nekog nepoznatog parametra osnovnog skupa je interval u kome se sa određenom sigurnošću n