www.referada.hr
Bok,
Drago nam je što si odabrao/la upravo Referadu za pronalazak materijala koji će ti
pomoći u učenju!
Materijali koje si skinuo/la s naše stranice nisu naše autorsko djelo,
već samo sažeti prikazi obvezne literature koji služe za ponavljanje
gradiva.
P.S. Pomozite svojim kolegama ocjenjivanjem predmeta prema kategorijama,
ocjenjivanjem skripti i korisnim savjetima u komentarima.
Također, kako bismo što prije napravili dobru bazu skripti za ponavljanje,
pošaljite nam na mail svaku skriptu koju niste vidjeli na stranici
Želimo ti puno sreće s učenjem!
www.referada.hr
U V O D
Što je statistika i što rade statističari?
Statistika je znanost o prikupljanju, sređivanju, analizi i interpretaciji podataka.
Riječ „statistika" ima i druga značenja:
skup podataka,
veličina koju smo izračunali iz podataka.
Populacija i uzorak
Populacija ili statistički skup je skup osoba, stvari i pojava ili drugih objekata, čije osobine
istražujemo statističkom metodom.
Članovi populacije zovu se statističke jedinice, a njihov zbroj zove se veličina populacije.
Promatranje čitave populacije zove se cenzus.
Dio ili podskup populacije zove se uzorak, postupak formiranja uzorka zove se uzorkovanje, a
broj jedinica u uzorku zove se veličina uzorka.
Deskriptivna i inferencijalna statistika
Deskriptivna statistika obuhvaća postupke sređivanja, tabličnog i grafičkog prikazivanja
podataka, te izračunavanja raznih statističkih pokazatelja, kao sto je npr. aritmetička sredina.
Dobiveni rezultati odnose se isključivo na dane podatke i ne uopćavaju se.
Inferencijalna statistika proučava metode kojima se pomoću dijela informacija (uzorka),
donosi zaključak o cjelini (populaciji).
Procjenjivanje parametara i testiranje hipoteza su tipični postupci koji spadaju u inferencijalnu
statistiku. Postupci inferencijalne statistike zasnivaju na pretpostavci da je uzorak slučajan.
Statističke varijable
Svojstvo koje posjeduju sve statističke jedinice i koje za različite statističke jedinice može
poprimiti različite vrijednosti ili modalitete zove se statistička varijabla ili statističko
obilježje.
Varijable se mogu podijeliti u dvije skupine:
1. kategoričke ili kvalitativne,
2. numeričke ili kvantativne.
Varijable se razlikuju i prema mjernoj skali.
Prikazivanje podataka
Tekst
Kada treba prikazati svega nekoliko vrijednosti
www.referada.hr
Primjer: Od 25 ispitanih studenata, njih 17 ili 68% ima položen ispit iz matematike
Tablica
Pregledno prikazuje veću količinu podataka.
Grafikon
Za uočavanje pravilnosti i veza.
L O K A C I J A I D I S P E R Z I J A
Distribucije
Statistički podaci imaju raspodjelu ili distribuciju, čije su glavne osobine:
lokacija ili centralna tendencija,
disperzija ili raspršenje,
oblik (asimetrija i zaobljenost).
Osobine distribucije istražujemo grafičkim prikazima, kao i numeričkim pokazateljima, koji
se zovu mjere.
Mjere lokacije zovu se još srednje ili prosječne vrijednosti.
Aritmetička sredina
Aritmetička sredina je najvažnija mjera lokacije i kratko je zovemo sredina ili prosjek.
Aritmetička sredina je težište podataka i uvijek se nalazi između najmanje i najveće
podatkovne vrijednosti.
Devijacije
Devijacija ili odstupanje podatkovne vrijednosti Xi od aritmetičke sredine X definira se kao
razlika Xi - X .
Zbroj devijacija uvijek iznosi nula.
Predznak devijacije pokazuje u kojem smjeru se podatkovna vrijednost nalazi u odnosu na
aritmetičku sredinu, a njena apsolutna vrijednost pokazuje udaljenost od aritmetičke sredine.
Apsolutna vrijednost devijacije (apsolutna devijacija) može se koristiti za mjerenje disperzije.
Još je bolje ako se devijacija kvadrira (kvadratna devijacija).
Varijanca, standardna devijacija i koeficijent varijacije
Varijanca S2 niza numeričkih vrijednosti X1, X2,…,Xn, definira se kao aritmetička sredina
kvadratnih devijacija tih vrijednosti.
Standardna devijacija S je po definiciji jednaka korijenu iz varijance.
Koeficijent varijacije CV definira se kao omjer standardne devijacije i aritmetičke sredine.
Svojstva varijance i standardne devijacije
www.referada.hr
Varijanca ne može biti negativna.
Varijanca je jednaka nuli jedino kada su svi podaci međusobno jednaki.
Podaci s većom disperzijom imaju i veću varijancu.
Standardna devijacija se uvijek nalazi između najmanje i najveće
apsolutne devijacije
Alternativna formula za varijancu
Varijanca se može alternativno izračunati kao razlika aritmetičke sredine kvadrata i kvadrata
aritmetičke sredine
Zbroj kvadrata nije isto što i kvadrat zbroja.
K V A N T I L I
Medijan
Medijan je vrijednost koja se nalazi u središtu uređenog niza podataka.
Uređen niz podataka označavamo s X(1),X(2),…,X(n), a vrijednosti X(i) zovemo uređajne
statistike.
Kvantili
Generalizacijom medijana dolazimo do kvantila.
Kvantil razine p ili p-kvantil podataka Xi je vrijednost Xp takva da:
(1) proporcija podataka koji su manji ili jednaki od Xp iznosi barem p,
(2) proporcija podataka koji su veci ili jednaki od Xp iznosi barem 1 p.
Kvintili = 0.2, 0.4, 0.6, 0.8
Decili = 0.1, 0.2, 0.3, ..., 0.9
Percentili = 0.01, 0.02, ..., 0.99
Kakav je odnos između aritmetičke sredine i medijana?
Kod simetrične distribucije, aritmetička sredina i medijan jednaki su.
Kod pozitivno, odnosno negativno asimetrične distribucije, aritmetička sredina je veća,
odnosno manja od medijana.
www.referada.hr
INSTRUKCIJE MATEMATIKA
AKO NISI SKUŽIO/LA FORU… …molim te javi se na [email protected]
VIŠE INFO NA: referada.hr/instrukcije/matematika
D I S T R I B U C I J E F R E K V E N C I J A
www.referada.hr
Osnovni pojmovi
Distribucije frekvencija nastaju grupiranjem podataka.
Grupiranje je postupak sažimanja podataka, u kojemu se podaci svrstavaju u skupine ili grupe.
Pritom, svaku podatkovnu vrijednost treba svrstati u točno jednu grupu
Broj, odnosno proporciju podataka u nekoj grupi nazivamo njezinom apsolutnom, odnosno
relativnom frekvencijom.
Popis grupa i njihovih frekvencija zove se distribucija frekvencija.
Distribucije frekvencija prikazuju se tablično i grafički.
Apsolutne i relativne frekvencije
Apsolutne frekvencije n1, n2, . . . , nk su nenegativni cijeli brojevi čiji je zbroj jednak broju
podataka.
Relativne frekvencije p1, p2, . . . , pk jednake su omjeru apsolutnih frekvencija i broja
podataka.
Relativne frekvencije su nenegativni racionalni brojevi čiji zbroj iznosi jedan.
Kumulativne frekvencije
Kumulativna apsolutna frekvencija Ni definira se kao zbroj prvih i apsolutnih frekvencija
Kumulativna relativna frekvencija Pi definira se kao zbroj prvih i relativnih frekvencija.
Kumulativne frekvencije obično računamo rekurzivno
Diskretne i neprekidne numeričke varijable
Diskretne varijable
vrijednosti su izolirane
postoji najmanja mjerna jedinica
brojanje
npr. broj studenata na nastavi, broj bakterija u ml vode,…
Neprekidne varijable
vrijednosti tvore kontinuum - neprekidan interval brojeva
po volji malena mjerna jedinica
mjerenje (mjernim instrumentom)
npr. vrijeme, visina, tlak, . . .
Grupiranje neprekidnih numeričkih podataka - razredi
www.referada.hr
Grupiranje neprekidnih numeričkih podataka provodi se tako da se brojevni interval koji
sadrži podatkovne vrijednosti „izreže" na određen broj podintervala, koje zovemo razredima,
a grupe se pritom sastoje od podatkovnih vrijednosti koje pripadaju istom razredu.
Broj razreda k treba prikladno odabrati. Pritom, čvrstih pravila nema, osim da k ne smije biti
prevelik, jer je grupiranje postupak sažimanja podataka, niti premalen, jer bi se tako izgubili
važni detalji. Obično uzimamo k između 5 i 15.
Grupiranjem u razrede gube se informacije - popis razreda i njihovih frekvencija nije
istovjetan nizu negrupiranih podataka, jer smo grupiranjem u razrede izgubili pojedinačne
podatkovne vrijednosti.
Razredna sredina, veličina razreda, gustoća frekvencije
Razredna sredina xi je aritmetička sredina granica razreda.
Veličina razreda hi je udaljenost između granica razreda.
Gustoća apsolutne frekvencije je omjer apsolutne frekvencije i veličine razreda.
B I V A R I J A T N I P O D A C I
Podaci s obzirom na broj varijabli
S obzirom na broj varijabli koje istovremeno promatramo, podaci mogu biti
univarijatni (1),
bivarijatni (2),
multivarijatni (≥2).
Ako jednu od promatranih varijabli označimo s X, a drugu s Y , onda bivarijatne podatke za n
statističkih jedinica možemo zamisliti kao niz od n uređenih parova podatkovnih vrijednosti.
Obično ih prikazujemo u obliku tablice s n redaka i dva stupca.
Veze između varijabli
Bivarijatne podatke obično prikupljamo jer nas zanima veza (asocijacija, korelacija,
kovarijacija, zavisnost) između varijabli.
Veza između varijabli može biti:
deterministička (funkcijska) - npr. količina-iznos,
stohasticka (slučajna, statistička) - npr. visina-težina.
U statistici se bavimo samo stohastičkim vezama.
Postoji li veza?
Ako točke u dijagramu raspršenja nisu raspoređene nasumice, nego njihov horizontalni
položaj utječe na vertikalni i obratno, onda su varijable povezane ili korelirane.
www.referada.hr
Tip veze:
linearna - ako su točke u dijagramu raspršenja raspoređene oko pravca
nelinearna - ako su točke raspoređene oko krivulje
rastuća - porast jedne varijable uglavnom povlači porast (pozitivna)
padajuća - pad vrijednosti povlači pad (negativna)
Jakost veze:
jaka
slaba
potpuna ili savršena
Kovarijanca
Kovarijanca Sxy numeričkih varijabli X i Y definira se kao aritmetička sredina produkata
njihovih devijacija.
Kovarijanca je mjera isključivo linearne korelacije.
Kovarijanca je pozitivna, odnosno negativna ako su varijable u pozitivnoj, odnosno
negativnoj linearnoj korelaciji.
Kovarijanca iznosi 0 ako varijable nisu povezane, ali ne samo tada.
Što je linearna korelacija jača, to je apsolutna vrijednost kovarijance veća
Vrijednost kovarijance zavisi o mjernim jedinicama.
Koeficijent linearne korelacije
Koeficijent linearne korelacije r definira se kao kovarijanca standardiziranih varijabli.
Interpretacija jakosti linearne korelacije na osnovu koeficijenta r zavisi o području primjene.
Kovarijanca i koeficijent linearne korelacije simetrični su u varijablama X i Y , tj. ako
varijable zamijene uloge, kovarijanca i koeficijent linearne korelacije neće promijeniti
vrijednost.
Kovarijanca neke varijable sa samom sobom jednaka je varijanci te varijable.
Tablica kontingencije
Bivarijatne distribucije frekvencija prikazuju se u obliku tablice kontingencije.
Tablica kontingencije sluzi klasifikaciji ili razvrstavanju statističkih
jedinica prema vrijednostima dvije ili vise statističkih varijabli.
Zajednička distribucija
Frekvencije nij tvore zajedničku distribuciju, jer one prikazuju distribuciju statističkih jedinica
prema obje varijable istovremeno.
Zbroj svih zajedničkih frekvencija iznosi n.
Marginalne distribucije
www.referada.hr
Zbrajanjem zajedničkih frekvencija po recima i stupcima dolazimo do marginalnih
distribucija.
Marginalne distribucije pokazuju distribuciju statističkih jedinica prema samo jednoj varijabli
i neovisno o drugoj varijabli.
Zbroj frekvencija svake marginalne distribucije iznosi također n.
Uvjetne distribucije
Svaki stupac i redak u zajedničkoj distribuciji također predstavlja distribuciju jedinica prema
jednoj od promatranih varijabli, ali uz uvjet da je druga varijabla poprimila određenu
vrijednost.
Te distribucije zovu se uvjetne distribucije.
Zbroj frekvencija uvjetne distribucije jednak je marginalnoj frekvenciji.
Relativne frekvencije
Relativne frekvencije dobivaju se tako da se apsolutne frekvencije podijele sa svojim zbrojem.
Statistička nezavisnost
Varijable su po definiciji statistički nezavisne ako su uvjetne relativne distribucije jednake
marginalnoj relativnoj distribuciji
Opažene i očekivane frekvencije
Frekvencije nij i pij zovu se opažene ili empirijske, dok se izrazi ni+n+j=n i pi+p+j zovu
očekivane ili teorijske frekvencije
Varijable su statistički nezavisne ako i samo su opažene frekvencije jednake očekivanima.
Zbroj očekivanih frekvencija u istom retku ili stupcu jednak je marginalnoj frekvenciji, a
zbroj svih očekivanih frekvencija iznosi n, odnosno 1.
Hi-kvadrat
Statistička nezavisnost je vrlo strog zahtjev, koji praktički nikada neće biti ispunjen za realan
skup statističkih podataka.
Svake dvije statističke varijable su manje ili više zavisne, a stupanj njihove zavisnosti
mjerimo kao odstupanje opaženih frekvencija od očekivanih.
Upravo tome služi mjera koju zovemo hi-kvadrat, koju označavamo s X2.
Hi kvadrat je uvijek veći od nule.
Što se opažene frekvencije više razlikuju od očekivanih, to će X2 imati veću vrijednost.
Najveća vrijednost X2 zavisi o broju promatranja n i dimenzijama tablice kontingencije.
V J E R O J A T N O S T
www.referada.hr
Slučajni pokus
Slučajni pokus je svaki proces čiji rezultat ne možemo sa sigurnošću predvidjeti.
Primjeri:
bacanje novčića,
bacanje kocke,
izvlačenje karte iz špila karata,
Vjerojatnosni prostor
Vjerojatnosni prostor je teorijski model slučajnog pokusa, koji se sastoji od:
prostora ishoda,
prostora događaja,
vjerojatnosne mjere ili vjerojatnosti.
Ishodi i prostor ishoda
Ishod ili elementarni događaj je rezultat slučajnog pokusa koji se ne može rastaviti na manje
dijelove.
Skup svih ishoda zove se prostor ishoda ili prostor elementarnih događaja.
Događaji
Događaj je skup nekih (ne nužno svih) ishoda.
Prema tome, događaj je podskup od Ω.
Skup svih događaja zove se prostor događaja.
Isključivi događaji
Događaji A i B zovu se isključivi ili disjunktni ako se A i B ne mogu istovremeno dogoditi.
Za proizvoljno mnogo događaja Ai kažemo da su isključivi ako su oni isključivi u parovima.
Vjerojatnost
Vjerojatnost ili vjerojatnosna mjera je funkcija koja svakom događaju pridružuje realan broj
iz intervala [0, 1], koji izražava mogućnost da događaj nastupi.
Oblici vjerojatnosti:
teorijska - npr. broj povoljnih kroz broj mogućih ishoda,
empirijska - dugoročna relativna frekvencija,
subjektivna - osobno uvjerenje.
www.referada.hr
STATISTIKA
POLOŽI BEZ
MUKE!
Instrukcije
Kod nas se sve uči s razumijevanjem. Svoje materijale radimo sami
i uvijek pazimo da su što zabavniji. Yup, dobro si čuo, učenje može
biti zabavno! Ne vjeruješ? Očito nisi pročitao neku od naših skripti
ili probao riješiti online kviz.
20+ sati
1200 kn
(GARANTIRAMO PROLAZ
ILI VRAĆAMO NOVAC!)
(
NAJBOLJI
MATERIJALI!
ONLINE
KVIZOVI
ODLIČNA
PROLAZNOST
ŠTREBERAJ
HARAMBAŠIĆEVA 31
VIŠE INFO NA:
REFERADA.hr/instrukcije/statistika
www.referada.hr
Uvjetna vjerojatnost
Uvjetna vjerojatnost događaja B uz uvjet A je vjerojatnost događaja B ako je poznato da je
nastupio događaj A.
Nezavisni događaji
Ako nastupanje događaja A ne mijenja vjerojatnost od B, onda se događaji A i B zovu
nezavisni.
S L U Č A J N E V A R I J A B L E I V E K T O R I
Slučajna varijabla
Funkcija koja svakom ishodu slučajnog pokusa pridružuje broj zove se slučajna varijabla.
Slučajne varijable dijele se na diskretne i neprekidne.
Očekivanje
Očekivanje slučajne varijable X možemo shvatiti kao dugoročnu aritmetičku sredinu od X.
Varijanca
Varijanca proizvoljne slučajne varijable X definira se kao očekivanje kvadratne devijacije od
X-
Bernoullijeva distribucija
Diskretna slučajna varijabla X koja poprima samo vrijednosti 0 i 1 zove se Bernoullijeva
slučajna varijabla.
Aditivnost - svojstvo koje kaže da je vjerojatnost unije dva isključiva događaja jednaka zbroju
vjerojatnosti tih događaja.
Funkcija gustoće vjerojatnosti
Neprekidne su one slučajne varijable koje imaju funkciju gustoće vjerojatnosti.
N O R M A L N A D I S T R I B U C I J A
Svojstva normalne distribucije:
Linearna transformacija normalne slučajne varijable je normalna slučajna varijabla.
Zbroj nezavisnih normalnih slučajnih varijabli je normalna slučajna varijabla.
www.referada.hr
Zbroj velikog broja nezavisnih jednako distribuiranih slučajnih varijabli ima približno
normalnu distribuciju (centralni granični teorem).
Graf funkcije fX zove se normalna krivulja.
Distribucija N(0, 1) zove se standardna normalna distribucija.
U Z O R K O V A NJ E
Slučajni uzorak
Da bismo u inferencijalnoj statistici mogli koristiti teoriju vjerojatnosti, uzorak mora biti
slučajan.
Uzorak je slučajan ako odluku o tome koje ce statističke jedinice biti uključene u uzorak
donosimo na slučajan način, npr. nasumičnim izvlačenjem listića iz kutije ili generiranjem
slučajnih brojeva na računalu.
Uzorkovanje
Uzorkovanje možemo provesti:
s ponavljanjem,
bez ponavljanja.
Premda je uzorkovanje s ponavljanjem matematički jednostavnije,u praksi redovito koristimo
uzorkovanje bez ponavljanja.
Populacija i parametri
Za potrebe uzorkovanja, populaciju identificiramo s nekom distribucijom vjerojatnosti, i to
onom koju bismo dobili kada bismobiz populacije slučajno odabrali jednu statističku jedinicu.
Numeričke osobine populacije zovu se parametri.
Uzorak i statistike
Pod slučajnim uzorkom veličine n podrazumijevamo niz od n nezavisnih jednako
distribuiranih slučajnih varijabli X1, X2,…,Xn, čija je distribucija jednaka distribuciji
populacije.
Svaka transformacija slučajnog uzorka Y je također slučajna varijabla, čiju distribuciju
vjerojatnosti nazivamo
distribucijom uzorkovanja. Ako Y ne zavisi o nepoznatim parametrima populacije, onda takvu
slučajnu varijablu nazivamo statistikom.
Zbroj uzorka
Ako populacija ima normalnu distribuciju, onda je zbroj uzorka također normalno
distribuiran.
Ako populacija nema normalnu distribuciju, onda je zbroj uzorka približno normalno
distribuiran kad je uzorak velik.
www.referada.hr
Aritmetička sredina uzorka
Ako populacija ima normalnu distribuciju, onda je aritmetička sredina uzorka također
normalno distribuirana.
Ako populacija nema normalnu distribuciju, onda je aritmetička sredina uzorka približno
normalno distribuirana kad je uzorak velik.
Varijanca uzorka
Ako je populacija normalna, onda su aritmetička sredina i varijanca nezavisne slučajne
varijable.
Korigirana varijanca uzorka
Očekivanje korigirane varijance uzorka jednako je varijanci populacije.
P R O C J E NJ I V A NJ E P A R A M E T A R A Procjenjivanje parametara je postupak približnog određivanja vrijednosti nepoznatog
parametra populacije.
Statistika koju koristimo u tu svrhu zove se procjenitelj, a njena vrijednost zove se procjena.
Procjenjivanje parametara može biti:
točkovno,
intervalno.
Konzistentnost
Za procjenitelj kažemo da je konzistentan ako vjerojatnost da je procjenitelj dovoljno blizu
parametra tezi k 1 kada veličina uzorka n tezi k +∞
Aritmetička sredina je konzistentan procjenitelj sredine populacije, a varijanca uzorka je
konzistentan procjenitelj varijance populacije.
Primjenom neprekidnih matematičkih operacija (zbrajanje, množenje, korjenovanje,…) na
konzistentne procjenitelje dobivaju se ponovno konzistentni procjenitelji.
Ako pristranost procjenitelja iznosi 0 onda za procjenitelj T kažemo da je nepristran.
Procjenitelj koji nije nepristran zove se pristran.
Srednja kvadratna pogreška
Očekivanje kvadrata razlike T - θ zove se srednja kvadratna pogreška od T.
Prostor parametra
www.referada.hr
Skup svih mogućih vrijednosti parametra zove se prostor parametra.
Intervali povjerenja
Intervalni procjenitelj ili interval povjerenja parametra θ je interval čije granice V i W
mogu zavisiti o slučajnom uzorku, ali ne i o nepoznatim parametrima.
Ako su obje granice intervala C slučajne, onda za C kažemo da je dvosmjerni ili dvostrani
interval povjerenja.
Ako se gornja granica intervala povjerenja podudara s gornjom granicom prostora parametra,
onda za V kažemo da je donja granica povjerenja za θ, a interval C nazivamo gornjim
intervalom povjerenja.
Gornji i donji interval povjerenja zovu se jednosmjerni ili jednostrani intervali povjerenja.
Najmanja vjerojatnost da je θ element od C zove se razina povjerenja od C.
Pivot
Pivot je slučajna varijabla koja zavisi o slučajnom uzorku X1,X2,…,Xn i parametru θ, ali čija
distribucija vjerojatnosti ne zavisi o θ.
Nama će pivot U uvijek biti neprekidna slučajna varijabla.
T E S T I R A NJ E H I P O T E Z A
Statistička hipoteza je tvrdnja o distribuciji populacije, a testiranje hipoteza je postupak u
kojemu pomoću uzorka provjeravamo je li istinita ili lažna.
Koraci u testiranju hipoteza
1. Postaviti nul i alternativnu hipotezu.
2. Odabrati razinu značajnosti.
3. Odabrati test statistiku.
4. Odrediti kritično područje.
5. Provesti uzorkovanje i izračunati vrijednost test statistike.
6. Donijeti odluku o odbacivanju ili neodbacivanju nul hipoteze.
Nul i alternativna hipoteza
Svaki postupak testiranja hipoteza ima dvije hipoteze, jednu od kojih nazivamo nul
hipotezom, a drugu alternativnom hipotezom.
Kao nul hipotezu uglavnom biramo tvrdnju za koju želimo pokazati da je lažna, dok tvrdnju
za koju bismo htjeli pokazati da je istinita stavljamo u alternativnu hipotezu.
Nul hipoteza obično označava početno stanje, izostanak učinka ili nepotrebnost poduzimanja
neke aktivnosti, a alternativna hipoteza tvrdi da je došlo do promjene, da postoji učinak ili da
je potrebno nešto poduzeti.
Razina značajnosti
www.referada.hr
Najveća vjerojatnost pogreške odbacivanja zove se razina značajnosti ili signikantnosti testa i
označava se s α
Razina značajnosti treba biti malen pozitivan broj.
Uobičajene vrijednosti za jesu 0.01, 0.05 i 0.10, odnosno 1%, 5% i 10%.
Odluku o tome koliko će iznositi donosimo uzimajući u obzir posljedice pojedinih pogreški i
činjenicu da smanjivanjem vjerojatnosti pogreške jednog tipa nužno povećavamo vjerojatnost
pogreške drugog tipa.