30
Statistika (definisanje i predmet proučavanja) Statistika je nauka koja proučava varijacije obilježja masovnih pojava primjenom kvantitativnih metoda. Danas se pod pojmom stastistike podrazumjeva nauka o prikupljanju brojčanih podataka različite vrste, o njihovom uredjenju, metodama analize i tumačenju; Sam naziv potiče talijanskog termina regione di stato – državni interes i vještina upravljanja državom te izvedenice statista koja označava osobu vještu u vođenju državnih poslova. Predmet statistike – Predmet njenog istraživanja su masovne pojave bez obzira na oblast ljudskog djelovanja u kojem se javljaju, pod uslovom da su varijabilne. Njezina zadaća se sastoji u donošenju sudova brojčane prirode o nepoznatim karakteristikama skupa na temelju rezultata izučavanja varijacije. Masovna pojava je kvalitativno diferenciran kvantitet.Predmet statističkog istraživanja su masovne pojave bez obzira na oblast ljudskog djelovanja u kojoj se javljaju pod uslovom da su varijabilne. Definisanje statističkog skupa Statistički skup čine jedinice koje imaju neke zajedničke osobine koje želimo istražiti. Oni predstavljaju stvari, osobe, preduzeća, proizvode i sl. čija su svojstva predmetom istraživanja. Prema opsegu razlikujemo konačni i beskonačni skup. Statistički skup može biti realan i hipotetičan. Statistički skup treba najprije definirati, odnosno odrediti opća svojstva koja ima svaka jedinica da bi se mogla smatrati članom skupa. Definiranje skupa može biti: pojmovno, prostorno i vremenski. Pojmovnom definicijom skupa utvrđuje se pripadnost skupu s obzirom na pojam jedinice (npr.skup studenata i sl.)tj.podrazumijeva da se tačno odredi osobina koju mora da posjeduje svaka statistička jedinica da bi bila uključena u skup. Prostornom definicijom označava se prostor kojem pripadaju sve jedinice statističkog skupa. Vremenskom definicijom određuje se vrijeme za koje su vezane sve jedinice skupa.Statistički skupovi čiji elementi 1

Nova Skripta

  • Upload
    aida

  • View
    17

  • Download
    2

Embed Size (px)

DESCRIPTION

poduzetnistvo

Citation preview

Page 1: Nova Skripta

Statistika (definisanje i predmet proučavanja)Statistika je nauka koja proučava varijacije obilježja masovnih pojava primjenom kvantitativnih metoda. Danas se pod pojmom stastistike podrazumjeva nauka o prikupljanju brojčanih podataka različite vrste, o njihovom uredjenju, metodama analize i tumačenju;Sam naziv potiče talijanskog termina regione di stato – državni interes i vještina upravljanja državom te izvedenice statista koja označava osobu vještu u vođenju državnih poslova.Predmet statistike – Predmet njenog istraživanja su masovne pojave bez obzira na oblast ljudskog djelovanja u kojem se javljaju, pod uslovom da su varijabilne. Njezina zadaća se sastoji u donošenju sudova brojčane prirode o nepoznatim karakteristikama skupa na temelju rezultata izučavanja varijacije. Masovna pojava je kvalitativno diferenciran kvantitet.Predmet statističkog istraživanja su masovne pojave bez obzira na oblast ljudskog djelovanja u kojoj se javljaju pod uslovom da su varijabilne.

Definisanje statističkog skupaStatistički skup čine jedinice koje imaju neke zajedničke osobine koje želimo istražiti. Oni predstavljaju stvari, osobe, preduzeća, proizvode i sl. čija su svojstva predmetom istraživanja. Prema opsegu razlikujemo konačni i beskonačni skup. Statistički skup može biti realan i hipotetičan. Statistički skup treba najprije definirati, odnosno odrediti opća svojstva koja ima svaka jedinica da bi se mogla smatrati članom skupa. Definiranje skupa može biti: pojmovno, prostorno i vremenski.Pojmovnom definicijom skupa utvrđuje se pripadnost skupu s obzirom na pojam jedinice (npr.skup studenata i sl.)tj.podrazumijeva da se tačno odredi osobina koju mora da posjeduje svaka statistička jedinica da bi bila uključena u skup.

Prostornom definicijom označava se prostor kojem pripadaju sve jedinice statističkog skupa.

Vremenskom definicijom određuje se vrijeme za koje su vezane sve jedinice skupa.Statistički skupovi čiji elementi zadovoljavaju navedene definicije smatra se homogenim i samo takav može biti predmetom statističke analize.Skup podataka o promatranom svojstvu promotren za svaku jedinicu predstavlja osnovni skup ili populaciju, a ukoliko se posmatra neko svojstvo na podskupu jedinica, podaci iz tog podskupa predstavljaju uzorak.

Statistička obilježja možemo podijeliti na primarne i sekundarne.Prva se dobijaju neposredno od jedinica posmatranja dok su druga izvedena i rezultat su provedenih analitičkih postupaka.Vrijednost obilježja pojedinačnih jedinica nazivamo modalitetima.Prema sadržini obilježja se dijele na numerička-kvantitativna,atributivna-kvalitativna,stalna,promjenljiva i faktorijalna.Numerički podaci se dobijaju mjerenjem.Pod mjerenjem se podrazumijeva pridruživanje brojeva ili simbola statističkim jedinicama u skladu sa logičkim pravilima.

Mjerne skalePod mjerenjem se podrazumjeva  pridruživanje brojeva statističkim jedinicama u skladu sa logičkim pravilima.Pravila pridruživanja data su mjernim skalama. Razlikuju se 4 mjerne skale: nominalna, ordinalna, intervalna i omjerna.Statističke varijable (obilježja) mjerene na nominalnoj i ordinalnoj skali nazivaju se kvalitativne (kategorijalne) varijable.-        nominalna je najnepreciznija i služi samo za klasifikaciju. Data je u obliku nenumeričkog skupa, odnosno liste naziva (atributa, slovnih oznaka) po kojima se elementi statističkog skupa razlikuju, dijele se na atributivna (vrsta privredne djelatnosti, način

1

Page 2: Nova Skripta

prevoza radnika, vrsta robe, nacionalnost, spol, vrsta djelatnosti isl.) i geografska (povezanost jedinice sa prostorom – mjesto registracije preduzeća, mjesto rođenja). Uz nominalnu skalu vežemo slijedeće postupke statističke analize: analiza frekfencija, modus, hi-kvadrat test, Pearsonov koeficijent kontigencije, te kontigencijska i klaster analiza.-        ordinalna skala svodi mjerenje modaliteta na njihovo rangiranje tako što pridružuje brojeve, slovne oznake ili simbole elementima skupa prema intenzitetu nekog svojstva Npr. ocjena. Nad modalitetima ordinalne varijable takođe nisu dopuštene brojčane operacije. Osim već navedenih postupaka , uz ordinarnu skalu vežemo i slijedeće postupke statističke analize statističkih postupaka: medijan, kvantile, Spearmanov koeficijent korelacije ranga, koeficijent asocijacije, te faktorsku, diskriminacionu i conjoint analizu.Statističke varijable (obilježja) mjerene na intervalnoj i omjernoj skali nazivaju se kvantitativnim varijablama-        intervalnom skalom pridružuju se brojevi mjerenim svojstvima, pri čemu jednake razlike na skali  predstavljaju jednake razlike mjerenog svojstva, dopuštene su sve osnovne brojčane operacije – Pr. temperaturna skala. Osim već navedenih postupaka, uz ordinarnu skalu vežemo i slijedeće postupke statističke analize statističkih postupaka: Spearmanov koeficijent korelacije ranga, koeficijent asocijacije, faktorsku, diskriminacionu i conjoint analizu, aritmetička sredina, standardna devijacija, z-vrijednost, Pearsonov koeficijent korelacije, regresiona analiza, parcijalna i multipla korelacija, te diskriminaciona i analiza varijanse.-        omjerna skala omogućava nam najviše  u pogledu mjerenja i poredjenja, tako da brojčano možemo da : identifikujemo i rangiramo obilježja, uporedjujemo intervale izmedju obilježja i vršio apsolutna poredjenja. Ona posjeduje najveću preciznost jer koristi apsolutnu tj prirodnu nulu. Dopuštene su osnovne brojčane operacije. Osim već navedenih postupaka, uz omjerne skale možemo računati: geometrijsku sredinu, harmonijsku sredinu i koeficijent varijacije.Vrijednosti koje se pomoću omjerne skale dodjeljuju jedinicama nazivaju se vrijednosti numeričkog obilježja (varijable). Numerička obilježja mogu biti prekidna (vrijednosti obilježja su odijeljene jedne od drugih najmanje jednom utvrdjenom mjernom jedinicom. Obilježja kod kojih postoje osnovne jedinice  koje se dalje ne mogu dijeliti nazivaju se prekidnim – broj zaposlenih radnika, broj članova domaćinstva, broj prodatih računara, a do njih dolazimo najčešće prebrojavanjem) i neprekidna (može poprimiti bilo koju vrijednost iz nekog intervala, tj. bez obzira kako se blizu nalazile vrijednosti takve varijable, moguće je izmedju njih umetnuti druge vrijednosti – cijene dionica, stopa inflacije, iznos potrošačkog kredita, starost radnika, iznos plate.

Matrica podatakaMjerne skale pružaju mogućnost manipulisanja numeričkim vrijednostima, koje neće promjeniti emperijske informacije dobijene transformisanjem mjernih pojava u vrijednost skale.Prikupljeni podaci se mogu predočiti u statističkim tabelama -  matrici podataka. Svaki redak sadrži sve podatke za odabranu jedinicu promatranja i naziva se entitetom, stupac matrice podataka alternativno se naziva poljem. Matrica sadrži N×K informacija.Matrica podataka – Vj – oznaka za varijablu ( k- poslednja varijabla), Ii – oznaka za ispitanika (n – broj uzoraka), Mij – vrijednost varijable (modalitet obilježja ispitanika Ii pri odgovaranju na pitanje Vj)

2

V1 V2 ... Vj ... VkI1 M11 M12 ... M1j ... M1kI2 M21 M22 ... M2j ... M2k... ... ... ... ... ...Ii Mi1 Mi2 ... Mij ... Mik... ... ... ... ... ... ...In Mn1 Mn2 ... Mnj ... Mnk

Page 3: Nova Skripta

Podaci prikupljeni na ovakav način pokazuju odgovore  n ispitanika na k različitih pitanja, koja se odnose na osobine ispitanika, te na njihove stavove  i mišljenja o pojavama koje su predmet istraživanja.

Statističke metodeStatistika kao znanstvenoanalitička metoda istraživanja pojava i procesa dijeli se na deskriptivnu i inferencijalnu (analitičku, induktivnu, matematičku) statistiku. Deskriptivna (opisna) statistika  obuhvata postupke uredjivanja podataka, mjere centralne tendencije, mjere disperzije i asimetrije, mjere zaobljenosti i grafičko prikazivanje. Prvi korak u istraživanju podrazumjeva uredjenje podataka prikupljenih u vlastitom preduzeću (nabavka, prodaja, cijene, troškovi, zaposleni).Inferencijalna statistička metoda – temelj joj je metoda uzorka. Istraživanje uzorkom nameće se kao relativno brz i jeftin metod koji vodi do upoznavanja obilježja populacije iz koje je uzorak izabran. Uzorci se koriste kod: stalnog praćenja kvalitete proizvodnje ili prijema robe pomoću uzorka, pri pregledu finansijskog poslovanja, u ispitivanju javnog mnijenja i raspoloženja kupaca.Cilj ovih istraživanja je da se na osnovu ovih saznananja o karakteristikama i zakonitostima posmatranih ekonomskih pojava vrši prognoza njihovog budućeg kretanja koja će olakšati poslovno odlučivanje.

Proces statističkog istraživanja može se svrstati u 4 etape:-statističko posmatranje i prikupljanje podataka-uređivanje i grupisanje podataka-obrada i analiza-sastavljanje izvještaja i interpretacija rezultataPored ovih elemenata plan statističkog istraživanja obuhvatai tehničke i organizacione elemente.

Statističko posmatranje i prikupljanje podataka mora biti planskii organizovano,sistematičnoi masovno,što omogućava da se odredi cilj i predmet istraživanja,osnovni skup,jedinice posmatranja i njihova obilježja. Zadatak mu je da omogući efikasan način prikupljanja podataka tako što će ukazati na mjesta kojima treba posvetiti posebnu pažnju tokom prikupljanja i kontrole podataka, prije njihovog grupisanja i uredjivanja. Obzirom na vrstu: izvidjajno (eksplorativno) – primjenjuje se kada su naša saznanja relativno ograničena, te je potrebno više informacija o promatranom problemu. U provodjenju ovog istraživanja obavlja se više neformalnih razgovora sa osobama čija znanja i iskustva mogu da pomognu preciznijem definisanju stvarnog problema i ciljeva istraživanja. Deskriptivno – njime se služimo kada je u rješavanju konkretnog problema potrebno razumjevanje svojstva odredjene pojave.Deskriptivna istraživanja zahtjevaju mnogo prethodnog znanja o predmetu istraživanja i pretpostavljaju da je problem jasno definisan. Analitičko (uzročno) istraživanje se primjenjuje kada želimo da dobijemo objašnjnje uzroka koji su djelovali na neki poslovni dogadjaj.

Izvori podatakaStatistički podaci su ustanovljena svojstva jedinica statističkog skupa do kojih se dolazi promatranjem ili provedbom eksperimenata. Prema izvoru razlikujemo primarne (podaci prikupljeni sa datim ciljevima istraživanja) i sekundarni (vanjski izvori – baza podataka vladinih ustanova, specijaliziranih agencija, organizacija isl.). Proces istraživanja počinje prikupljanjem sekundarnih podataka. Sekundarni podaci su prikupljeni unutar preduzeća ili izvan njega u svrhu koja je različita od potreba konkretnog istraživanja. Sekundarni podaci u

3

Page 4: Nova Skripta

preduzećima sadržani su u izvještajima računovodstva, bazi podataka za potrebe istraživanja tržišta, otpremnicama robe, platnim listama, cjenovnicima.U poslovnoj analizi veoma važna je primjena sekundarnih izvora opodataka izvan preduzeća, a to su: statistički zavodi, privredne komore i stručna udruženja, internet, naučno istraživačke institucije, baze podataka vladinih institucija, stručna literatura i časopisi, katalozi sajmova i izložbi, adresari idr.Prikupljanje primarnih podataka duži je i složeniji postupak. Podaci se prikupljaju direktno od ispitanika za potrebe konkretnog istraživačkog projekta. Podaci koji se prikupljaju prvi puta od strane istraživača nazivaju se primarni i isključivo su vlasništvo preduzeća koje organizuje istraživanje.Osnovne metode prikupljanja primarnih podataka su ispitivanje,posmatranje i eksperiment.Posmatranje je proces uočavanja i bilježenja činjenica ili dogašaja koji je ograničen samo na bilježenje u sadašnjem vremenu.Ovu metodu treba primjenjivati kad god je to moguće.Za prikupljanje primarnih podataka se najčešće primjenjuje metoda ispitivanja.Ona se sastoji u postavljanju pitanja ispitanicima i bilježenju odgovora u usmenom i pismenom obliku.Komuniciranje sa ispitanicima je moguće provesti putem telefona,lično,dopisnim putem,internetom i kombinovano.Pomoću eksperimenta ocjenjuje se uzročna povezanost između nezavisne i zavisne varijable.Nezavisna varijabla je varijabla koju namjerno uvodimo i mijenjamo u eksperimentu da bismo provjerili da li utiče na zavisnu varijablu.Zavisna varijabla je ona varijabla koja se proučava i za koju se pretpostavlja da će se mijenjati pod uticajem nezavisne varijable.

Uredjivanje i grupisanje podataka – nakon prikupljanja podataka vrši se njihova kontrola, evidentiranje, kodiranje i tabeliranje.Grupisanje se vrši prema atributivnim, geografski, ordinalnim i numeričkim obilježjima. U organizaciono-tehničkom pogledu uredjivanje i grupisanje podataka je u današnje vrijeme olakšano uvodjenjem aplikativnih softvera za statističku analizu. Statističko grupisanje – podjela osnovnog skupa na podskupove prema odredjenim obilježjima, kako bi se u jednoj grupi našli elementi skupa istog ili sličnog modaliteta. Grupisanje može biti jednostavno (prema jednom obilježju) ili kombinovano (razvrstavanje prema dva ili više obilježja). Za postizanje jedinstvenosti potrebno je koristiti nomenklature i klasifikacije, koje predstavljaju  jednoobrazno utvrdjene nazive grupa i podgrupa. Potrebno je voditi računa o principu iscrpnosti ( svaki elemenat skupa mora da bude obuhvaćen nekim od formiranih podskupova) i isključivosti ( jedan podatak može pripadati samo jednom podskupu).

Obrada i analiza podataka – se vrši uz pomoć odgovarajućih statističkih metoda , zavisno od cilja i problema istraživanja. Mora se voditi računa o: vrsti podataka koje smo prikupili, postupku istraživanja koji smo primjenili i pretpostavkama koje moraju biti ispunjene da bi primjenili odredjenu statističku metodu.Razlikujemo:prema kriterijumu kretanja: statičku i dinamičku analizu;prema broju varijabli: analiza jedne, dvije, ili više varijabli; i posebne: analiza serija rasporeda frekfencija, analiza varijanse.

Sastavljanje izvještaja i interpretacija rezultataZavršni izvještaj predstavlja sredstvo komuniciranja izmedju istraživača i donosioca poslovnih odluka. Centralni dio svakog izvještaja  predstavljaju rezultati statističkog istraživanja za čiju prezentaciju stoje na raspolaganju završne tabele, grafikoni, razni statistički pokazatelji i tekstualna objašnjenja. Interpretacija podataka je proces pretvaranja podataka u informacije. U interpretaciji mora se uzeti u obzir procjena očekivane greške.

4

Page 5: Nova Skripta

Istraživač treba upozoriti na: nedostatke vlastitog istraživanja, ograničenja dobijenih rezultata i potrebu daljnjih istraživanja. Prednost se daje izvještajima koji su kratki, jasni, jednostavno napisani i koji ukazuju na mogućnost prektičnih akcija.

Računarski podržani postupci intervjuisanjaU SAD 50% organizacija koje se bave anketnim istraživanjem koriste CATI sistem (Computer Assisted Telephone Intervieving).Ova metoda uticala je na nastajanje metode računarski podržanog ličnog intervjuisanja – CAPI, te CSAQ postupka u kojem anketirana osoba sama unosi odgovore. Za prikupljanje podataka pomoću anketnog listića – PAPI, razvijen je sistem direktnog unošenja podataka. Ako se pored interaktivnog unošenja podataka primjenjuje još i automatsko kodiranje, kontrola, i ispravljanje govori se o tkz. računarski podržanom unosu podataka. – CADI (Computer Assisted Data input).Pomenute metode omogućavaju trenutno redukovanje pogrešnih odgovora. A nekonzistentnost odgovora je moguće odmah otkriti pomoću ugradjenih pravila u program. Mogućnost primjene navedenih tehnika kod nas je ograničena: nedovoljna pokrivenost populacije telefonom, neodgovarajuća hardverska oprema i softverska podrška, potreba za dodatnim obučavanjem anketara.

Računarsko podržano kodiranjePrije unosa i razvrstavanja podataka u tabele varijable koje su unesene u upitnik moraju biti kodirane i razvrstane u različite kategorije (modalitete). Pod kodiranjem podrazumjevamo postupak pridruživanja  numeričkih ili drugih oznaka modalitetima varijabli.Faze postupka kodiranja: - svaki element iz istraživačkog skupa mora biti kodiran s obzirom na specifičnu varijablu pomoću opisa riječima; - za tu varijablu se formira kod u kojem svaki broj označava posebnu kategoriju proučavane varijable, - definiše se skup uputa za kodiranje koje povezuju opise riječima i brojeve za kodiranje.Kodiranje se može provoditi ručno, pomoću računara i automatski pomoću računara.

Validnost i pouzdanost istraživanjaPoudanost se definiše kao razlika izmedju reuzltata uzoraka i rezultata osnovnog skupa pod istim uslovima. Validnost funkcioniše na drugačiji način  u odnosu na poudanost, jer je moguće imati potpuno pouzdana ali ne validna mjerenja.S obzirom na primjenjeni postupak utvrdjivanja, validnost se dijeli na: konstruktnu (teorijsku) validnost i praktičnu (kriterijsku) validnost. Logička validnost se odredjuje na osnovu impresije o predmetu mjerenja. Praktična validnost podrazumjeva korelaciju odredjenog indikatora sa kriterijskom varijablom i izražava se koeficijentom kriterijske validnosti. Ona može biti: dijagnostička (istovremena) i prognostička. Dijagnostička je odredjena stepenom povezanosti rezultata mjerenja sa kriterijskom varijablom, koja nije uključena u mjerni instrument. U ovom slučaju kriterijski podaci se prikupljaju u isto vrijeme kada se realizuje istraživanje.Prema izvoru nastajanja razlikujemo internu (istraživanje je validno ako je izmjerilo ono čemu je bilo namjenjeno) i eksternu validnost (problem se odnosi na opasnost da se uslovi koje smo stvorili za provodjenje istraživanja razlikuju od uslova u realnom okruženju.Kada ponovljenim istraživačkim postupcima dobijamo slične rezultate i time potvrdjujemo dosadašnja znanja govorimo o pouzdanosti rezultata istraživanja. Pouzdanost omogućava

5

Page 6: Nova Skripta

ponavljanje istraživačkog postupka i može biti ocjenjena: pomoću mjera konzistentnosti (ekvivalentnosti) i pomoću mjera stabilnosti.U grupi mjera konzistentnosti pouzdanost se ocjenjuje korelacijom izmedju varijabli koje mjere istu latentnu varijablu, pomoću dva ekvivalentna instrumenta istraživanja. U ove mjere ubrajamo: metodu razdvajanja, metodu unutrašnje konzistentnosti i metodu faktorske analize.Kod mjera stabilnosti pouzdanost se ocjenjuje korelacijom prvog i ponovljenih mjerenja.Metoda koja za procjenu pouzdanosti koristi ponavljanje mjerenja određene varijable na istim jedinicama u određenim vremenskim razmacima naziva se metoda retesta.

GreškeGreška se može definisati kao razlika izmedju prave vrijednosti obilježja populacije i vrijednosti ocjene na osnovu posmatranja jedinice uzorka. Pri tome je prava vrijednost rezultat koji proizilazi iz postupka kada se mjerenje odvija u potpunoj saglasnosti sa usvojenim sistemom rada. Razlikujemo uzoračke i neuzoračke greške. Uzoračke greške se javljaju zbog toga što se umjesto istraživanja cijele populacije ono provodi samo na uzorku njenih jedinica.Ona se može kontrolisati ukoliko se pravilno dizajnira postupak i izaberu dovoljno veliki broj jedinica u uzorak.Neuzoračke greške često iznenađuju svojom pojavom i uticajem u svim fazama istraživanja.U neuzoračke greške spadaju: nepotpuni podaci, greške mjerenja i odgovora, greške anketara i neinformisanost ispitanika i greške obrade.U istraživanjima se često dešava da su podaci nepotpuni zbog propusta istraživača da ispitaju neku od odabranih jedinica populacije ili zbog neadekvatnog okvira izbora uzorka. Za obje greške se kaže da su rezultat neobuhvaćenosti, odnosno ne pokrivenosti ciljane populacije. Problem nepotpunih podataka je prisutan i kada se oni ne mogu prikupiti zbog otpora onih koji bi trebali dati podatke. U istraživanjima je čest slučaj da ispitanici ne mogu dati odgovor jer ga ne znaju ili ga jednostavno ne žele dati. Kod kreiranja upitnika je zato važno odabrati prava pitanja, njihov broj, redosljed i formulaciju, koja će stimulirati ispitanika da tačno odgovori.Kvalitet procedure umetanja zavisi od: veličine istraživane populacije, stope izbora, pristrasnosti uzorka i korelacije izmedju obilježja koja se ispituju.Najčešće greške do kojih dolazi u radu anketara su one koje nastaju interakcijom sa ispitanicim, greške u bilježenju rezultata i greške koje nastaju neradom anketara. Greške nastaju i kada anketar sluša odgovore ispitanika a nakon toga upisuje odgovore. Greške u bilježenju odgovora se smanjuju korištenjem magnetofonske, video i druge opreme.U radu anketara postoji i greška koju anketar izaziva svojim neradom, kada izostavlja pojedina pitanja, ne posvećuje dovoljno pažnje pitanjima koja to zahtjevaju ili uopšte ne prikuplja odgovore od ispitanika nego ih izmišlja. Neinformisanost ispitanika dovodi do pogrešnih zaključaka. Problem se može riješiti izbegavanjem osjetljivih pitanja, odnosno  njihovim stavljanjem na kraj upitnika, te uvjeravanjem ispitanika da je anketno istraživanje anonimno. Prikupljeni podaci se moraju verifikovati, evidentirati, kodirati i obraditi na računarima. Greške grupisanja, uredjivanja i obrade podataka, obuhvataju greške nastale u postupcima: editiranja podataka (čitljivost, potpunost, tačnost i dosljednost podataka), unošenja podataka, zaokruživanja brojeva i kodiranja, umetanja nedostajućih vrijednosti, tabeliranja, obrade, analize i interpretacije podataka.

Anketni upitnikAnketa predstavlja odredjeni broj pitanja koja se postavljaju pismeno/usmeno u cilju dobijanja odgovora, koji treba da služe rješavanju definisnog istraživačkog problema. Sastavljanje anketnog upitnika  je važna faza u istraživanju, jer od toga zavisi kvalitet

6

Page 7: Nova Skripta

istraživanja. Pitanja moraju biti sastavljena tako da pronadju one informacije koje su postavljene kao ciljevi odredjene studije. Pri planiranju i projektovanju upitnika treba definisati: vrstu informacije koja se traži, formalnu strukturu pitanja i odgovora i unutrašnju strukturu pitanja i odgovora. Pitanja mogu biti otvorenog, zatvorenog i mješovitog tipa. Pri formulisanju pitanja važna su sledeća pravila: izbjegavati dvostruka i dvosmislena pitanja, izbjegavati pitanja koja navode na odredjeni odgovor, koristiti jednostavne, razumljive riječi, postavljati pitanja tako da svojom formom i sadržajem liče na pitanja iz svakodnevnog života, izbjegavati riječi sa više značenja.

Statistička tabela (pojam i vrste)Statistička tabela nastaje ukrštanjem horizontalnih i vertikalnih linija u koje se po odredjenom pravilu unose podaci. Svaka tabela treba da ima tekstualni i numerički dio. Tekstualni dio sadrži: naslov, zaglavlje, pretkolonu, jedinice mjere, izvor podataka i po potrebi objašnjenja i napomene. Numerički dio tabele obuhvata brojačane podatke koji se unose u tabelu, te zbirni (marginalni) red i kolonu koji se obično nalaze na krejevima tabele. Ako se veličine u koloni sabiraju, zbir se smješta u marginalni red.Prema sadržaju statističke tabele se dijele na: jednostavne (prikazuju samo jedan statistočki niz), grupne (predstavljena dva ili više nizova prema modalitetima istog obilježja) i kombinovane (istovremeno prikazani podaci grupisani prema modalitetima dva ili više obilježja).Prema cilju mogu biti: izvještajne (pokazuju činjenično stanje posmatrane pojave na osnovu brojčanih podataka) i analitičke (pored činjeničnog stanja sadrže informacije o unutrašnjim odnosima i zakonitostima posmatrane pojave).

Nizovi kvalitativnih-atributivnih i kvantitativnih-numeričkih podatakaStatistički niz kod kojeg se modaliteti obilježja javljaju samo po jedanput nazivaju se jednostavnim, a niz kod kojega se modaliteti obilježja javljaju više puta nazivamo raspored ili distribucija frekvencija. Razlikujemo kvalitativne i kvantitativne nizove podataka. Kvalitativna obilježja dijele se na nominalna i ordinalna.Grupisanjem podataka prema oblicima nominalnog obilježja i nizanjem podskupova s pripadajućim frekvencijama nastaju nominalni nizovi, a grupisanjem podataka prema modalitetima varijable ranga i nizanjem podskupova s pripadajućim frekvencijama nastaju ordinalni nizovi. Formiranje nominalnog – atributivnog niza je složeno ako se ono javlja u većem broju modaliteta, u tom slučaju prilikom grupisanja neophodno je imati nomenklature sa svim potrebnim informacijama u pogledu razvrstavanja modaliteta.Grupisanjem podatakaprema oblicima obilježja nastaju numerički nizovi. Numeričko obilježje može biti prekidno i neprekidno.Modalitete prekidnog obilježja obično iskazujemo cijelim brojevimai obično su rezultat prebrojavanja.Numeričko obilježje koje može poprimiti konačno ili prebrojivo mnogo vrijednosti nazivamo prekidnim.

Kumulativni nizoviNastaju sabiranjem frekfencija od prve do poslednje. Za formiranje kumulativnog niza pored apsolutnih mogu se koristiti relativne i procentne frekvencije. Razlikujemo kumulativni niz «manje od»(rastuća kumulanta) i «više od»(opadajuća kumulanta».Rastuća kumulanta nastaje sabiranjem frekvencija od najnižih vrijednosti obilježja ka frekvencijama većih vrijednosti. Prva frekvencija rastuće kumulante jednaka je prvoj frekvenciji izvornog niza. Druga frekvencija jednaka je zbiru prve i druge frekvencije izvornog niza..... Zadnja kumulativna frekvencija jednaka je zbiru apsolutnih frekvencija.

7

Page 8: Nova Skripta

Opadajuća kumulanta nastaje sabiranjem frekvencija od najviše vrijdnosti obilježja ka frekvencijama nižih vrijednosti obilježja.Opšte značenje kumulativnog niza «više od» - svaki član opadajućeg kumulativnog niza pokzuje koliko jedinica skupa ima vrijednost numeričkog obilježja jednaku ili veću od vrijednosti obilježja čija je frekvencija posledja u kum.nizu.

Grupisanje podataka u razrede (intervale)Kada se prekidno numeričko obilježje pojavljuje u velikom broju modaliteta ili kada se radi o neprekidnom numeričkom obilježju uredjivanje podataka vrši se pomoću rasporeda frekvencija sa razredima. Kada jedinica skupa može da poprimi relativno beskonačno mnogo različitih vrijednosti obilježja iz odredjenog intervala kažemo da se radi o neprekidnom numeričkom obilježju. U slučajevima kada nuemrčko obilježje može da poprimi velki broj različitih vrijednosti potrebno je susjedne vrijednosti obilježja sjediniti u zajednički razred (interval). Za odredjivanje broja razreda koristi se Sturgesovo pravilo:k ≈ 1 +3,3logN (k- broj razreda, N- obim skupa) .Veličina tih razreda računa se pomoću izraza: i ≈ (Xmax + Xmin) / k  (i – veličina razreda,  Xmax – najveća,  Xmin – najmanja vrijednost varijable. Veličina razreda predstavlja razliku izmedju donje granice tekućeg razreda  i donje granice prethodnog razreda.Granice razreda odredjujemo tako da se razredi medjusobno razlikuju a da unutar razreda jedinice budu homogene u kvalitativnom i kvantitativnom pogledu.. Svaki razred ima svoju donju i gornju granicu. Granice razreda se različito odredjuju s obzirom na to da li se radi o prekidnom ili neprekidnom numeričkom obilježju.

DijagramDijagrami pružaju raznovrsne mogućnosti za jednostavnije prikazivanje i poredjenje rezultata, a njihov izbor zavisi od vrste podataka.Dijelimo ih u 4 podgrupe: stigmograme (grafički prikaz pomoću tačaka – upotrebljava se kod dijagramskih karti), linijske (imaju jednu dimenziju, za prikazivanje koriste prave i krive linije. Služe za prikazivanje modaliteta jednog obilježja – vremenskih nizova kod pojava koje imaju svoj tok, dinamiku i razvoj), površinske (histogrami – imaju dvije dimenzije – koriste se za prikazivanje obima i strukture jedne ili više pojava, frekvencije niza predstavljene površinama geometrijskih oblika) i prostorne dijagrame (stereogrami –omogućava prikazivanje u tri dimenzije).

Kartogrami Kartogrami su posebna vrsta grafikona koja za osnovu koriste specijalne vrste geografskih karata. Imaju poseban značaj za proučavanje teritorijalnog rasporeda pojava koje su predmet izučavanja. Prema načinu crtanja razlikujemo: dijagramske karte (crta se na geografskoj karti sa ucrtanim granicama prostora na kojem je definisan statistički skup, koji služe za ucrtavanje dijagrama) i statističke karte (nisu prave geografske karte. Njima prikazujemo geografske nizove s mnogo grupa i frekvencijama koje su relativni brojevi. Poadtke unosimo pomoć raznih boja i njihovog nijansiranja)

PiktogramiPiktogrami – posebna vrsta grafičkog prikaza kod kojeg se podaci predstavljaju slikama ili simboličnim figurama. Oni nisu precizni, ali na jednostavan i popularan način daju informaciju o obimu i strukturi posmatrane pojave.

8

Page 9: Nova Skripta

Srednje vrijednosti (pojam i vrste)Srednje vrijednosti opisuju koncetraciju (gomilanje) podataka oko neke numeričke vrijednosti. Mjere disperzije pokazuju odstupanje numeričkih vrijednosti obilježja od njihove srednje vrijednosti, a mjere asimetrije i zaobljenosti pokazuju način i oblik rasporeda podataka. Mjerama koncentracije se utvrdjuje način rasporeda totala na njegove članove. Pokazatelji navedenih karakteristika računati za populaciju nazivaju se parametri skupa.Srednja vrijednost je ona vrijednost oko koje se najviše  koncentrišu podaci, pa se naziva i mjerom centralne tendencije. Ona na jednostavan način omogućava da se iz varijabilnosti pojave otkrije što je važno i tipično. Srednja vrijednost je reprezentativna vrijednost, jer zamjenjuje sve vrijednosti numeričkog niza i nosi njihove zajedničke karakteristike.Razlikujemo potpune (aritmetička, harmonijska i geometrijska sredina) i položajne srednje vriednosti (modus i medijan – odredjeni pozicijom u statističkom nizu).Srednja vrijednost je reprezentativan i tipičan pokazatelj samo ako se računa iz skupa istovrsnih jedinica posmatranja.

Osobine aritmetične sredineAritmetička sredina je najvažnija i najčešće korištena srednja vrijednost, označava se i kao prosjek ili prosječna vrijednost.. Računa se tako što se zbir vrijednosti numeričke varijable podjeli sa njihovim brojem. Zbir svih vrijednosti numeričke varijable naziva se total.Formula:

Sredina negrupisanih podataka naziva se jednostavnom aritmetičkom sredinom. Aritmetička sredina je najbliža onoj vrijednosti obilježja koja ima najveću frekvenciju. Stoga se frekvencija naziva ponderom a sredina računata na ovaj način ponderisana (vagana) aritmetička sredina.Formula:

Aritmetička sredina  aritmetičkih sredina (totalna aritmetička sredina):Formula:

Aritmetička sredina ima osobine koje nema ni jedan drugi broj statističkog niza, različit od aritmetičke sredine:-nalazi se izmedju najmanje i najveće  vrijednosti obilježja Xmin < X < Xmax-proizvod zbira frekvencije i aritmetičke sredinie jednak je totalu skupa

-zbir odstupanja originalnih vrijednosti numeričkog obilježja od arimetičke sredine jedanak je nuli

-zbir kvadrata odstupanja originalnih vrijednosti numeričkih obilježja od aritmetičke sredine  je minimalan, odnosno manji je od zbira kvadrata odstupanja podataka od bilo kojeg drugog broja a

-ako su sve vrijednosti numeričkog obilježja medjusobno jednake, odnosno jednake konstatni c, onda je aritmetička sredina jednaka toj konstanti  X1 = X2 = Xn = C ,   X = C

9

Page 10: Nova Skripta

Harmonijska sredinaPripada grupi potpunih srednjih vrijednosti i koristi se kada su vrijednosti obilježja za koje računamo prosjek izražene recipročnim odnosima. Koristi se kod izračunavanja prosječnog vremena povrata jedinice uloženog kapitala, produktivnosti rada, koeficijenta obrta poslovnih sredstava, koeficijenta iskorištenosti kapaciteta, srednje cijene isl. Radi se o slučajevima kod kojih se vrijednost obilježja smanjuje kada se pojava povećava i obrnto.Harmonijska sredina se računa kao recipročna vrijednost aritmetičke sredine recipročnih vrijednosti numeričkog obilježja.Formula:

Harmonijsku sredinu računamo samo za ona obilježja čije su vrijednosti različite od nule.Kada podaci pokazuju recipročne odnose, anjihove frekvencije nisu jednake, izračunava se ponderisana harmonijska sredina:Formula:

Geometrijska sredinaPredstavlja prosjek iz proizvoda numeričkog obilježja. Ina izravnava proporcionalne promjene (odnose) izmedju podataka stetističkog niza.Formula:

Njeno izučavanje ima smisla samo za vrijednosti obilježja koje su veće od nule. Geometrijsku sredinu računamo za pojave kod kojih je izražena geometrijska progresija, odnosno za računanje prosjeka niza relativnih pokazatelja. Ova sredina uglavnom se koristi za izračunavanje prosječnih pokazatelja razvoja u dinamičkoj analizi pojava, a rjedje kao pookazatelj centralne tendencije rasporeda frekvencija. Ona se najčešće koristi za izračunavanje prosječne stope promjene na osnovu lančanih indeksa.Formula:

Geometrijska sredina je za isti niz podataka uvijek manja od aritmetičke, a veća od harmonijske sredine.

ModusModus je vrijednost kvantitativnog ili kvalitativnog obilježja sa najvećom frekvencijom. Modus je najtipičnija vrijednost u nizu i naziva se jos dominantna vrijednost ili mod. Za razliku od potpunih srednjih vrijednosti koje se mogu izračunati samo za numerička obilježja, modus se može računati i za kvalitativna obilježja.Formula:

Na veličinu modusa utiče  način grupisanja podataka. Njegova prednost je što na njegovo izračunavanje ne utiču otvoreni razredi i ekstremne vrijednosti obilježja.Dijagonalnim spajanjem početne i krajnje vrijednosti modalnog intervala sa donjom granicom postmodalnog, odnosno gornjom granicom predmodalnog razreda dobija se apscisa tačke presjeka koja predstavlja približnu vrijednost modusa.Grafičko određivanje modusa

10

Page 11: Nova Skripta

Korigovanje frekfencijaKada su podaci grupisani u razrede nejednakih veličina, potrebno je izvršiti korigovanje frekvencija. Modalni razred se odredjuje na osnovu najveće korigovane frekvencije koja se računa kao omjer frekvencije i veličine razreda proporcionalne vrijednosti ili kao omjer frekvencije pripadajuće veličine razreda.Modus se ne može odrediti ako nisu zabilježena barem dva podatka sa istim modalitetom.

MedijanMedijan je srednja vrijednost koja se odredjuje na osnovu položaja koji zauzima u nizu podataka. On uredjen niz podataka dijeli na dva jednaka dijela, tako da se u prvom dijelu nalaze elementi koji imaju vrijednost obilježja jednaku ili manju od medijana, a  drugom dijelu se nalaze elementi koji imaju vrijednost jednaku ili veću od medijana. Medijan se nalazi u sredini statističkog niza i naziva se i centralna vrijednost.Odredjivanje medijana zavisi od broja članovau nizu a ne od njihove vrličine. Medijan se odredjuje za redosljedne i numeričke nizove, pri čemu treba voditi računa  da li se radi o grupisanim ili ne grupisanim podacima.Za redosljed obilježja je karakteristično da se njihovi modaliteti mogu urediti prema stepenu intenziteta tog svojstva. Ako se radi o negrupisanim podacima i broj modaliteta je neparan, medijan je modalitet koji se nalazi u sredini uredjenog niza. Kod parnog broja modaliteta medijan se može odrediti kao poluzbir središnja dva modaliteta.Odredjivanje medijana pojednostavljuje se formiranjem kumulativnog niza «manje od». Formula:

Grafičko određivanje kvartila pomoću rastuće kumulantePrvi kvartil predstavlja vrijednost obilježja koja elemente niza dijeli u dvije grupe, tako da ¼ elemenata ima manju ili jednaku vrijednost tog obilježja a ¾ elemenata niza ima vrijednost   obilježja veću od prvog kvartila.Treći kvartil dijeli niz na 2 dijela.U prvoj grupi je 374 elemenata niza sa vrijednostima obilježja manjim ili jednakim od 3. kvartila,dok zadnja četvrtina niza ima vrijednost veću od 3.kvartila.

11

a

b-a

b-cb

c

Grafičko odredjivanje modusa pomoću histograma

L1

Mo

x 1-x

Page 12: Nova Skripta

KvantiliVrijednosti obilježja koja niz podataka, uredjen po veličini, dijele na četiri jednaka dijela nazivaju se kvartilima. Za kvartile, decile i percentile koristi se zajednički naziv kvantili. Kvantil se odredjuje za redosljedne i numeričke nizove, pri čemu treba voditi računa da li se radi o grupisanim ili negrupisanim podacima.Formula:

(L1 – gornja granica kvartilnog razreda, N – zbir svih frekvencija, ∑ ƒ1 – suma frekvencija do kvartilnog razreda, ƒQ1  i   ƒQ3 – frekvencije kvartilnih razreda, i – veličina kvartilnog razreda)Prvi kvartil predstavlja vrijednost obilježja koja elemente niza dijeli u dvije grupe, tako da ¼ elemenata ima manju ili jednaku vrijednost tog obilježja a ¾ elemenata niza ima vrijednost   obilježja veću od prvog kvartila.

Apsolutne mjere disperzije (nabrojati i objasniti)Pokazatelje varijacije ili raspršenosti podataka nazivamo mjerama disperzije.Ove mjere omogućevaju posmatranje varijabiliteta podataka u odnosu na reprezantativnu srednju vrijednost koja izaziva centralnu tendenciju pojave.Apsolutne mjere disperzije ubrajamo: raspon varijacije, interkvartil, srednje apsolutno odstupanje, varijansu i iz nje izvedenu standardnu devijaciju.

Raspon varijacije = razlika izmedju najveće i najmanje vrijednosti obilježjaRx = Xmax – X minKoristi se kao prvi pokazatelj disperzije, koji grubo informiše  raspršenosti numeričkog obilježja. Raspon varijacije nije potpuna mjera disperzije jer se računa na temelju ekstremnih vrijednosti niza, koje u pravilu nisu tipične.Interkvartil = razlika izmedju gornjeg i donjeg kvartila.  Ako se izostave prva i zadnja četvrtina članova uredjenog statističkog niza, ostaje središnjih 50% podataka.Iq = Q3-Q1Na računanje interkvartila ne utiče 25% podataka sa najvišim i 25% podataka sa najnižim vrijednostima. To je nepotpuna mjera disperzije jer se računa samo na temelju dvije veličine donjeg i gornjeg kvartilaSrednje apsolutno odstupanje – odstupanja vrijednosti numeričkog obilježja od aritmetičke sredine su različita po predznaku i veličini, a njihov zbir je jednak nuli. Za računanje disperzije upotrebljavaju se apsolutna odstupanja vrijednosti obilježja od aritmetičke sredine.Prosjek tih odstupanja predstavlja srednje apsolutno odstupanje.(MAD)Formula:

(negrupisani podaci)                           (grupisani podaci)Srednje apsolutno odstupanje računamo za aritmetičku sredinu, medijan i modus.Varijansa – dobićemo je ako izračunamo prosjek za zbir kvadratnih odstupanja. Označava se malim grčkim slovom sigma na kvadrat (σ²). Predstavlja prosječno kvadratno odstupanje vrijednosti numeričkog obilježja od njihove aritmetičke sredine.Formula:

12

Page 13: Nova Skripta

Važno svojstvo varijanse je da ona predtavlja minimalno prosječno kvadratno odstupanje, odnosno odstupanje manje od prosječnog kvadratnog odstupanja podataka od bilo kojeg drugog broja.Srednja devijacija – prosječno odstupanje vrijednosti numeričkog obilježja od njihove aritmetičke sredine.Izražava se u mjernim jedinicama obilježja i najvažnija je mjera disperzije.Formula:Standardna devijacija se računa samo uz aritmetičku sredinu i pokazuje nam da li je ona reprezentativna veličina. Srednje apsolutno odstupanje, varijansa i iz nje izvedena standardna devijacija predstavljaju potpune mjere disperzije.Ove mjere nisu podesne za poredjenje disperzije statističkih nizova  u kojima se obilježja izražavaju u različitim mjernim jedinicama, kao i za nizove istovrsnog obilježja ali različitih sredina.

BP (box plat) dijagramRaspon varijacije i interkvartil se grafički prikazuju pomoću B-P dijagrama (Box and Whisker Plot), koji služi za otkrivanje netipičnih vrijednosti varijable. On omogućava poredjenje (centralne vrijednosti, raspršenosti i asimetrije) nekoliko skupova podataka. Za konstrukciju ovog dijagrama potrebno je izračunati kvartili, čije vrijednosti determinišu konstrukciju pravougaonika. Paralelno uz pravac s aritmetičkim mjerilom za vrijednost numeričke varijable konstruiše se pravougaonik.Sam pravougaonik predstavlja središnjih 50% podataka, a njegova širina označava vrijednost interkvartila. Za otkrivanje netipičnih vrijednosti potrebno je odrediti unutrašnje i vanjske granice.Donja unutrašnja granica jednaka je veličini prvog kvartila umanjenoj za vrijednost 1,5 IQ dok se gornja unutrašnja granica dobije kad se veličina 3.kvartila uveća za 1,5 IQ. Vanjske granice udaljene su od rube pravougaonika po tri interkvartilna razmaka.B-P dijagram:

Relativne mjere disperzije (nabrojati i objasniti)U najznačajnije  relativne mjere disperzije ubrajamo: koeficijent varijacije, koeficijent kvartilne devijacije I standardizovano odstupanje. Što su relativne mjere disperzije  bliže nuli, to je veća pouzdanost aritmetičke sredine kao mjere centralne tendencije, a što se više udaljavaju od nule to je aritmetička sredina manje reprezentativna..Koeficijent varijacije (V) – predstavlja omjer standardne devijacije i aritmetičke sredine pomnožen sa sto. Izražava se u procentima i pogodan je za komparativnu analizu. Koristi se kada želimo saznati koji skup ima veću disperziju kod istog posmatranog obilježja. Što je on manji (bliži nuli, homogenost je veća a time i raspršenost podataka oko aritmetičke sredine manja.Formula:

13

Page 14: Nova Skripta

Koeficijentkvartilne devijacije  (VQ) – predtavlja omjer razlike i zbira kvartila.izražava disperziju u odnosu na medijan i može poprimiti vrijednosti od 0 do 100 ako je izražen u procentima. Što je vrijednost bliža nuli, stepen homogenosti niza je veći.Formula:

Standardizovano odstupanje – odredjuje relativni položaj podataka u statističkom nizu. Pomoću standardizovanog odstupanja odredjujemo za koliko standardnih devijacija je neki modalitet udaljen od prosjeka.Formula:

Standardizovano odstupanje se koristi kod normalnog rasporeda za odredjivanje površine izmedju aritmetičke sredine i odredjene vrijednosto obilježja i kod odredjivanja intervala pouzdanosti pri procjenama karakteristika osnovnog skupa pomoću uzorka. Važne osobine z -obilježja su da je aritmetička sredina distribucije standardizovanog odstupanja jednaka nuli, a standardna devijacija jedan. Ona mogu biti pozitivna i negativna, a rijetko odstupaju od aritmetičke sredine za više od +/- 3 standardne devijacije.

Mjere asimetrije

KOMBINATORIKA je dio matematike koji proučava moguće rasporede i grupisanja odredjenog broja elemanata.S obzirom na to kako se vrši raspored i grupisanje elemenata skupa dijeli se na permutacije,kombinacije i varijacije.

PERMUTACIJE- permutovati elemente nekog skupa znaci izvršiti razmiještanje svih elemenata na sve moguce nacine. Svaki od tih razmjestaja sadrzi sve elemente skupa i od ostalih se razlikuje samo po rasporedu elemenata. U zavisnosti od toga da li se u skupu neki od elemenata ponavlja ili ne razlikujemo: permutacije bez ponavljanja i permutacije sa ponavljanjem. Broj permutacija bez ponavljanja se racuna prema slijedecem izrazu:Kada se od n elemenata prvi ponavlja k1 puta, drugi k2 puta, ... s- ti puta, broj permutacija sa ponavljanjem racuna se po slijedecem izrazu:

KOMBINACIJE- za razliku od permutacija kod kombinacija novi razmjestaj cini samo dio jedinica skupa. Taj manji podskup naziva se klada a redoslijed elemenata u njima je od nizih ka visim, iduci s lijeva na desno. Broj svih klasa r elemenata je broj kombinacija bez ponavljanja r- tog reda od n elemenata, koji se dobije po izrazu:

VARIJACIJE- su permutovane kombinacije. Ova operacija uzima u obzir prisustvo elemenata i njihov raspoder u okviru podskupa. Drugim rijecima, elementi klase dobiveni kombinacijom jos se i permutuju na sve moguce nacine. I kod varijacija se mogu javiti razmjestaji bez i sa ponavljanjem elemenata skupa. Broj varijacija r- te klase bez ponavljanja od n elemenata dobija se prema slijedecem izrazu:Varijacija sa ponavljanjem r- tog reda od n elemenata racuna se prema izrazu:

TEORIJA VJEROVATNOCEPotpuno precizan proces posmatranja ili prikupljanja podataka koji se u identicnim uslovima moze ponavljati neograniceno puno predstavlja statisticki eksperiment. Podskup elementarnih dogadjaja sa zajednickom karakteristikom naziva se u teoriji vjerovatnoce dogadjajem i oznacava se velikim slovima abecede (A, B). Teorija vjerovatnoce se bavi slucajnim

14

Page 15: Nova Skripta

dogadjajima. To su oni dogadjaji koji se pod odredjenim uslovima mogu ali i ne moraju realizovati. Slucajni su svi oni dogadjaji koji se nalaze u prostoru izmedju nemoguceg i sasvim sigurnog dogadjaja. Vjerovatnoca je racunski izraz mogucnosti nastanka slucajnog dogadjaja.

RAZLICITE KONCEPCIJE VJEROVATNOCEU statistickoj literaturi prisutne su tri koncepcije vjerovatnoce i to: klasicna koncepcija, vjerovatnoca kao granicna vrijednost relativne frekvencije i subjektivna vjerovatnoca.

KLASICNA KONCEPCIJA VJEROVATNOCEKlasicni pristup definisanju vjerovatnoce polazi od toga da je vjerovatnoca nastajanje nekog slucajnog dogadjaja ili pak vjerovatnoca da ce neki dogadjaj koji se moze realizovati na vise nacina imati povoljnu realizaciju, jednaka odnosu izmedju broja povoljnih dogadjaja i ukupnog broja slucajnih dogadjaja. U stat literaturi se oznaka P(x) koristi za oznacavanje vjerovatnoce. Oznaka x se odnosi na dogadjaje koje zelimo ili ocekujemo. Ako sa a oznacimo broj povoljnih ishoda dogadjaja A i sa n ukupan broj svih mogucih ishoda, onda je matematski izraz klasicne definicije vjerovatnoce:

Ako sa b oznacimo broj svih ostalih nepovoljnih ishoda, vjerovatnoca da se nece ostvariti povoljan dogadjaj racuna se kao:

Ocito je da je zbir vjerovatnoce nastanka povoljnog dogadjaja i njegovog nenastanka, odnosno nastanka nekog drugog slucajnog dogadjaja: a/n + b/n = p + q = 1. Vjerovatnoca nastanka slucajnog dogadjaja se nalazi u intervalu izmedju 0 i 1. Ukoliko je p=0 takav dogadjaj je nemoguc jer nema niti jedne povoljne mogucnosti da se desi. Ako je p=1 takav dogadjaj je siguran jer su svi moguci dogadjaji povoljni. Slucajan dogadjaj je u intervalu izmedju 0 i 1 i uobicava se reci da je slucajan dogadjaj sa vjerovatnocom manjom od 0,5 (p< 0,5) nevjerovatan, onaj sa vjerovatnocom od 0,5 (p=0,5) moguc, a slucajni dogadjaj cija je vjerovatnoca veca od 0,5 (p>0,5) smatra se vjerovatnim dogadjajem.

VJEROVATNOCA KAO GRANICNA VRIJEDNOST RELATIVNE FREKVENCIJEI ovaj koncept polazi od odnosa broja povoljnih i ukupnog broja slucajnih dogadjaja ili ishoda jednog slucajnog dogadjaja. Medjutim, te velicine nisu unaprijed poznate, nego se do njih mora naknadno doci. To se postize posezanjem za podacima iz proslosti o istom dogadjaju ili izvodjenjem posebnog eksperimenta. Za razliku od klasicne teorije vjerovatnoce koja se izracunava prije izvodjenja eksperimenta, ova vjerovatnoca se odredjuje na osnovu prikupljenih podataka poslije eksperimenta. Prema ovoj definiciji vjerovatnoca slucajnog dogadjaja predstavlja granicnu vrijednost(limes) proporcije izmedju broja povoljnih i ukupnog broja slucajnih dogadjaja pod uslovom da ukupan broj slucajnih dogadjaja tezi ka beskonacnosti.

SUBJEKTIVNA VJEROVATNOCAU poslovnom zivotu postoje mnoge situacije u kojima nije moguce utvrditi unaprijed niti postoji nacin da se naknadno utvrdi broj povoljnih i ukupni broj ishoda nekog stat eksperimenta. Vjerovatnoca se u ovim situacijama utvrdjuje po subjektivnom osjecaju pojedinca, odnosno tada koristimo subjektivnu vjerovatnocu. U ovom slucaju se govori o

15

Page 16: Nova Skripta

vjerovatnoci koju logicno dosljedna osoba procijeni na osnovu znanja, vlastitog iskustva, intuicije ili jednostavno na osnovu instikta. Ona je razlicita od osobe do osobe kao i kod osobe u razlicitim periodima. Subjektivna vjerovatnoca nastupanja slucajnog dogadjaja A predstavlja broj iz intervala 0,1 koji se odredjuje na osnovu procjene okolnosti bitnih za realizaciju dogadjaja, pri cemu se ne racuna relativna frekvencija.

SLUCAJNA PROMJENLJIVA I DISTRIBUCIJA VJEROVATNOCEPodskup elementarnih ishoda sa zajedničkim karakteristikama naziva se u teoriji vjerovatnoće događajem.Numericka funkcija koja u svakom ishodu stat eksperimenta pridruzuje jedan realan broj naziva se slucajna promjenljiva. Slucajne promj dijelimo na prekidne i neprekidne. Prekidne slucajne promjenljive su: broj prodatih frizidera tokom mjeseca u jednoj prodavaonici, broj kupaca koji cekaju na kasama prodajnog centra, broj neispravnih proizvoda u toku jednog radnog dana, broj zastoja u proizvodnji u jednoj smjeni i sl. Slucajna promjenljiva je prekidna ako poprima konacan broj vrijednosti ili prebrojivo mnogo njih. Skup uredjenih parova vrijednosti slucajne promjenljive X i odgovarajucih vjerovatnoca naziva se distribucija vjerovatnoce prekidne slucajne promjenljive. Za distribuciju vjerovatnoce vrijedi:Ako slucajna promjenljiva moze da uzme bilo koju vrijednost u nekom intervalu kazemo da je ona neprekidna. Kod prekine slucajne promjenljive koristi se znak veliko sigma, dok je kod neprekidne slucajne promjenljive potrebno odrediti integral. Ako su Ai B dva međusobno isključiva događaja sa vjerovatnoćom P(A) i P(B) onda je vjerovatnoća da će se dogoditi ili događaj A ili događaj B jednaka zbiru vjerovatnoća da će se dogoditi svaki od njih. P(A ili B)=P(A)+P(B)Vjerovatnoća da se istovremeno dogode dva međusobno nezavisna događaja A ili događaj B jednaka sa vjerovatnoćama P(A) i P(B) jednaka je proizvodu njihovih vjerovatnoća. P(A i B)=P(A)*P(B)

ZAKON VELIKIH BROJEVAJedan od osnovnih i najznacajnijih zakona u stat koji determinise njen sadrzaj i karakter je zakon velikih brojeva. Ovaj zakon upucuje na to da se opsta nepoznata karakteristika neke pojave moze utvrditi pod uslovom da se uocava karakterisitika mnogih medjusobno vise ili manje varijabilnih jedinica koje sacinjavaju tu pojavu. Ako je broj posmatranja veci onda je ucestalost ostvarenja povoljnih dogadjaja. Kada se broj posmatranja povecava ka beskonacnosti, ta vjerovatnoca ostvarenja se pretvara u sigurnost. Vjerovatniji su oni slucajni dogadjaji koje se inace cesce pojavljuju, a manje je vjerovatno da se pojavljuju rijetki, iznimni slucajni dogadjaji. Sustina zakona velikih brojeva je da pri velikom broju posmatranja aposteriorna vjerovatnoca tezi vjerovatnoci a priori.

TEORIJA DISTRIBUCIJEOsnovni znacaj teorijskih distribucija je u tome sto one predstavljaju temelj za cjelokupno stat zakljucivanje. Teorijske distribucije su prekidne ili neprekidne u zavisnosti od toga da li je u pitanju prekidna ili neprekidna promjenljiva. Prekidne teorijske distribucije zasnovane su na prekidnosti vrijednosti slucajne promjenljive dok se kod neprekidnih distribucija slucajna promjenljiva javlja u punom kontinuumu.

16

Page 17: Nova Skripta

PREKIDNE DISTRIBUCIJE VJEROVATNOCEU grupu najznacajnijih prekidnih distribucija vjerovatnoće ubrajamo: binomnu, Poissonovu i hipergeometrijsku distribuciju.

BINOMNA DISTRIBUCIJA- je najcesce koristena prekidna teorijska distribucija za alternativna obiljezja u primjenjenoj stat. Ona se koristi za izracunavanje vjerovatnoce da slucajan dogadjaj nastupi x puta u n nezavisnih ponovljenih pokusaja. Izraz za vjerovatnocu x povoljnih ishoda od n eksperimenata ima dva dijela. Prvi dio je binomni koeficijent koji pokazuje broj kombinacija x- reda od n elemenata. Kod malih uzoraka binomni koef se mogu racunati pomocu jedne stare tehnike, poznate pod nazivom Pascalov trougao. Drugi dio je ,on proizilazi iz multiplikativnog teorema.

Gdje je: n- broj eksperimenata , p- vjerovatnoca povoljnog ishoda u svakom eksperimentu, q- vjerovatnoca nepovoljnog ishoda u svakom eksperimentu, x- ocekivani broj nastupanja dogadjaja xPrethodni izraz predst binomnu distribuciju ili prekidnu funkciju vjerovatnoce, pri cemu:

Za ovu distribuciju u literaturi se koristi Bernoullijeva distribucija po svajcarskom matematicaru Bernoulliju koji ju je otkrio krajem XVII stoljeca. Binomna distrib se koristi za istrazivanje stohastickih pojava kada trazimo odgovore na mogucnost nastajanja povoljnih ili nekih drugih opcija u nizu mogucih dogadjaja. Za neku distrib kazemo da ima karakt binomne distribucije ako su zadovoljeni slijedeci uslovi:

Paremetri binomne distrib su n i p. Distribucija je simetricna kada je p=q. Ako je p<q distribucija je asimetricna udesno, a u slucaju kada je p>q distribucija je asimetricna ulijevo.

POISSONOVA DISTRIBUCIJASe koristi u slucajevima kada je vjerovatnoca pojavljivanja p veoma mala i kada je broj slucajeva n veliki, iako nisu rijetki slucajevi da se u praksi koristi bez obzira na velicinu n. Najcesce se uzima da je P<0,05 a n >20 . Pomocu ove distribucije mozemo opisivati veliki broj pojava u vremenu ili prostoru: broj direktinih proizvoda u jednoj smjeni, broj klijenata koji cekaju na servis ili uslugu. Da bisno Poissonovu distribuciju koristili za odredjivanje vjerovatnoce broja javljanja nekog dogadjaja u jedinici vremena ili prostora neophodno je ispunjavanje sl uslova:1) Broj javljana dogadjaja je nezavisan od jedne do druge jedinice vremena ili prostora2) Vjerovatnoca javljanja nekog dogadjaja je proporcionalna duzini odredjene jedinice vremena ili prostora3) Vjerovatnoca istovremenog javljanja dva ili vise dogadjaja u sasvim maloj jedinici vremena ili prostora je zanemarljivo malaPoissonova distribucija je uvijek unimodalna, desno asimetricna i uza od normalne distribucije. Interesantno je da parametar landa istovremeno predstavlja aritmetičku sredinu i varijansu ovog rasporeda. Za neku empirijsku distrib kazemo da ima karakter Poissonove distrib ako je zadovoljen uslov:Poissonovu distrib odredjuje parametar landa. Distribucija je pozitivno asimetricna, dok se s povecanjem vrijednosti parametra landa ona priblizava normalnom rasporedu.

17

Page 18: Nova Skripta

HIPERGEOMETRIJSKA DISTRIBUCIJAHPD vjerovatnoce se koristi u stat analizi kada u osnovnom skupu imamo jedinice koje posjeduju odredjenu osobinu i jedinice koje nemaju tu osobinu. U tom slucaju sve jedinice skupa mozemo klasifikovati u dvije podgrupe u zavisnosti od toga da li pokazuju ili ne pokazuju odredjenu osobinu.npr: ispravni- neispravni proizvodi, muski- zenski pol i sl. Mora se voditi racuna da x jedinica u uzorak mora doci iz podgrupe M i da n-x jedinica koja ne posjeduju posmatranu osobinu dolazi iz podgrupe od N-M jedinica, tj:

Gdje je: N- velicina skupa, n- velicina uzorka bez ponavljanja, M- broj jedinica u skupu koje posjeduju zeljenu osobinu, x- broj jedinica u uzorku koje posjeduju zeljenu osobinu, N-M- broj jedinica u skupu koje ne posjeduju zeljenu osobinu, n-x- broj jedinica u uzorku koje ne posjeduju zeljenu osobinu, min(n,M)- minimum od n i M. Vrijednost hipergeometrijske slucajne promjenljive koja ima najvecu vjerovatnocu nastupanja predstavlja modus a moze se odrediti na osnovu izraza:

NEPREKIDNE DISTRIBUCIJE VJEROVATNOCENajvaznije teorijske distrib za neprekidne slucajne promjenljive su: normalna, studentova, F- distribucija i x2 distribucija.

NORMALNA DISTRIBUCIJA- za slucajnu promjenljivu kazemo da ima normalnu distrib ako je karakterisu neprekidne vrijednosti a njena funkcija vjerovatnoce ima slijedeci izraz:Gdje je: - standarnda devijacija. – Ludolfov broj: 3,14159, e- baza prirodnih logaritama: 2,71828, - aritmeticka sredina normalne slucajne promjenljiveKriva koja prikazuje takvu distrib naziva se normalna kriva a neki je nazivaju i Gaussova kriva.

Normalna distrib je jedna od najznacajnijih teorijskih distrib i ima centralnu ulogu u stat teoriji i praksi. Najvaznije osobine normalne distrib su:1) Normalna kriva je unimodalna, zvonastog je oblika i simetricna je u odnosu na aritm sredinu2) Proteze se od – beskonacno do + beskonacno3) Simetricna je, pa je mjera asimetrije =0, a mjera zaobljenosti =34) Aritm sredina jednaka je medijanu i modusu5) Povrsina izmedju krive i x- ose jednaka je jedinici, odnosno 100%6) Parametri normalne distrib su7) Mjesto gdje kriva prelazi iz konveksne u konkavnu se nalazi na svim normalnim krivama tacno iznad Normalna distrib predst najznacajniju teorijsku distrib iz sl razloga:1) Veliki broj masovnih pojava ima priblizno normalan raspored2) Zbog njene veze sa tzv centralnom granicnom teoremom normalna distrib preds bazu za parametarsko statisticko zakljucivanje3) Normalna distrib je posluzila za izvodjenje velikog broja drugih neprekidnih distrib4) Transformacija mjernih skala za mjere cije distrib nisu normalne moze da dovede do priblizne normalnosti5) Normalna distrib se koristi za aproksimaciju prekidnih teorijskih distrib za vrijednost parametara koje nisu date u tablicama

18

Page 19: Nova Skripta

STUDENTOVA T DISTRIBUCIJAOva distrib je dobila naziv po pseudonimu „ Student“ pod kojim je autor W. S. Gosset 1908. Godine publikovao rad. Studentova distrib je po obliku veoma slicna normalnoj distrib, mada se njihovi matematicki izrazi znacajno razlikuju. Ona je unimodalna, simetricna, uzima vrijednosti od –beskonacno do +beskonacno, varijansa je veca od 1- zbog cega je distib na sredini vise spljostena i ima sire krajeve od standardizovane normalne distribucije. Distribucija vjerovatnoce za t glasi:

Pri cemu je:

T distrib predst familiju rasporeda od kojih je svaki determinisan samo brojem stepeni slobode.ovaj broj se najcesce oznacava malim grckim slovom v.

19