Upload
api-3828286
View
1.426
Download
1
Embed Size (px)
Citation preview
Poslovna statistika
Tipovi vjerojatnostnih raspodjela diskretne slučajne varijable
A) BINOMNA RASPODJELA
- raspodjela binomne slučajne varijable- binomna slučajna varijabla jest rezultat BINOMNOG SUČAJNOG POKUSA
Binomni slučajni pokus
1) pokus ima dva ishoda ( ako ima više od dva, tada to nije binomni pokus ), odredimo “uspjeh” i “ neuspjeh”
2) pokus se ponavlja u istim uvjetima –n puta ( npr. kod vađenja kuglica one se moraju vratiti, ne smijemo ih ostavljati vani )
3) vjerojatnost pojave “uspjeha” i “neuspjeha” iz pokusa u pokus je ISTA ( I zbog te vjerojatnosti isto moramo vraćati kuglice kako bi vjerojatnost uvijek i za sve bila jednaka )
4) pokusi su međusobno nezavisni
Oznaka za binomnu raspodjelu : B ( n,p )n – broj ponavljanja pokusa, uzorakp – vjerojatnost pojave onoga što smo proglasili “uspjehom” q – vjerojatnost pojave “neuspjeha”-p i -q čine siguran događaj p + q = 1 q = 1- p
X ~ B ( n,p ) - potpuna definicija binomne varijable - X je binomna slučajna varijabla koja “se ravna po” binomnoj raspodjeli po parametrima –n i –p- binomna raspodjela ima parametre; -n, -p te se iz njega računa –q
OPĆA FORMULA ZA BINOMNU SLUČAJNU VARIJABLU ako imamo X~B (n,p)
n k n-k
P ( X=k ) = k • p • q
p – uspjeh q - neuspjeh k – broj uspjeha n – broj pokusa
- ovdje je najbitnija stvar odrediti što nam predstavlja “uspjeh”, a što “neuspjeh” - najbolje je postaviti stvari ( a to je i jedino točno ) da avrijabla X u binomnom pokusu mjeri broj “uspjeha”- u slučaju kada nas traže vjerojatnost npr. P( X≤ 3) onda to uključuje zbroj svih vjerojatnosti ( P ) onih koji su manji od 3 ali i uključuje P(X=3)- stvar tehničke prirode : zaokružujemo na 4 decimale ( ubuduće za stalno )
OČEKIVANJE, VARIJANCA I STANDARDNA VARIJACIJA BINOMNE SLUČAJNE VARIJABLE
µ = očekivanje, koliko je p% od –n ( uspjeha u pokusu)
µ = n • p S = n • p •q σ = √s
Tablična raspodjela binomne slučajne varijable- računa se P po gore navedenoj formuli za svaki broj koji nam je zadan i to se piše u tablicu- u prvom redu tablice su X ( podaci ) , a u drugom redu dolaze P (X=Xi)- graf ima specifičan izgled - na osi y se nalaze vjerojatnosti P koje množimo sa 100 radi lakšeg crtanja
Kako čitamo očekivanje i devijaciju?- očekivanje; “očekujemo da će se dogoditi…”- devijacija; u 68% slučajeva dogodit će se µ ± σ događajaKonkretno u primjeru izlijeganja pilića:
µ = 1840- čitamo; očekujemo da će se izleći upravo 1840 pilića
σ = 12.136- čitamo; u 68% slučajeva izleći će se 1840 ± 12 pilića( ovaj podatak 68% tiče se empirijskog pravila )
U slučaju kada imamo 25 ( 25 povrh 22) tada u nazivnik (koji je ovdje 22očigledno prevelik za računanje) stavljamo samo razliku brojnika i nazivnika : 25
3Izbor od –k delegate iz skupa on –n kandidata moguće je napraviti na ;a) n načina ( ako nije bitan poredak kandidata, ako imamo izbore ) k
b) n! ( ako je poredak bitan ) ¯¯¯¯¯¯ ( n – k )!- u nazivniku se od –n oduzme –k te se taj broj stavlja pod faktorijelu ! ( n = 39, k= 7 39! = 39! )
¯¯¯¯¯¯ ¯¯¯¯¯ ( 39-7)! 32!
VJEROJATNOSTNA RASPODJELA ( RAZDIOBA, DISTRIBUCIJA )DISKRETNE SLUČAJNE VARIJABLE
Vjerojatnostna raspodjela jest popis ( tabela ) vrijednosti svih slučajnih varijabli ( ishoda slučajnog pokusa ) i vjerojatnosti s kojima se pojedina slučajna varijabla pojavljuje.
Izgled tabele:Xi X1 X2 X3 .....
P ( X=Xi ) P1 P2 P3 ....
- Xi su varijable ( podaci ), a P su vjerojatnosti pojavljivanja tih varijabli- vjerojatnostnu raspodjelu mogu napraviti ako mi netko zada ishode, te vjerojatnosti da se ti ishodi dogode- ako mi je zadana varijabla X te frekvencija te varijable X, onda se vjerojatnosti P računaju kao relativna frekvencija : fri = fi / N
P( X=Xi ) = fri = fi / N
fri – relativna frekvencijafi – frekvencijaN – suma frekvencija
Svojstva valjane vjerojatnostne raspodjele :
1) 0 ≤ P ( X=Xi ) ≤ 1 - znači da su vrijednosti P veći od 0, a manji od 12) Σ P ( X=Xi ) = 1 - znači da zbroj svih P mora biti 1
- formula za uniju vjerojatnosti ( složeni događaji koji su nezavisni ) :Primjer : X= 3, 4, 5, 6, 7, 8Zadaju nam : P ( X › 6 ) = P ( X = 7 ) + P ( X = 8 )
Sheme : npr. točno 2 – P ( X = 2 ) najmanje, barem 2 – P ( X ≥ 2 ) najviše, do uključivo 2 – P ( X ≤ 2 )- ako nas traže vjerojatnost za neki X, a njega nema u tabeli tada je taj P = 0OČEKIVANJE, VARIJANCA I STANDARDNA DEVIJACIJA DISKRETNE
SLUČAJNE VARIJABLE
Ova formula se koristi kada sun am zadane tabele vjerojatnosti.U slučaju kada nam se u zadatku „kriju“ parametri –p i –n, onda koristimo formulu navedenu prije.
µ = očekivanje ; računa koju vrijednost varijable očekujemo kao najvjerojatniju _ = ona je zapravo isto što i srednja vrijednost X = prosječna vrijednost slučajne varijable koju OČEKUJEMO pri ponavljanju pokusa veliki broj puta
µ = Σ P ( X=Xi ) • Xi( ova naizgled komplicirana formula svodi se na jednostavan postupak množenja X1 sa pripadajućim P1 iz tablice te se tim principom redom množe svi faktori u tablici, a kao šećer na kraju – njihovi se umnošci zbroje )
- kako čitamo ; „očekujemo da će se dogoditi...“
S = varijanca
S = µ ( X ² ) - [ µ ( X ) ] ²
! KAKO ČITAMO OVU FORMULU ! Varijanca se računa kao očekivanje kvadrata minus kvadrat očekivanja !
Jednostavnije ovu formulu možemo shvatiti kao množenje kvadriranog X sa njemu odgovarajućim P iz tablice, tako sve redom, pa se kao i kod
µ sve zbroji ali još se na kraju od dobivenog rezultata oduzme µ².
σ = standardna devijacija ; nema promjena u formuli
σ = √SB) HIPERGEOMETRIJSKA RASPODJELA DISKRETNE SLUČAJNE VARIJABLE
- karakteristike : uvjeti se iz pokusa u pokus MIJENJAJU- na primjeru kuglica ; vadimo ih, ali ono što smo izvadili ostavljamo vani- ishodi su NEZAVISNI- uzorak je po veličini „ sumjerljiv “ populaciji- smanjujemo populaciju za veličinu uzorka ( svaki put kad uzmemo kuglicu i ne vratimo ju, smanjujemo ukupni broj kuglica/populaciju )
Formula : N = veličina populacije n n n = veličina uzorka
P ( X=k ) = k • n – k k = broj „uspjeha“
¯¯¯¯¯¯¯¯ n – k = broj „neuspjeha“ N n
- X – hipergeometrijska varijabla P ( X=k )n ovdje ide “uspjeh”; -n je ukupni broj “uspjeha”, -k je zadani broj “uspjeha”k
n tu ide “neuspjeh”; -n je ukupan broj “neuspjeha”, -k je zadani “neuspjeh”n-k
- na kraju kada zbrojimo gornji brojnik i nazivnik, oni trebaju biti jednaki kao donji brojnik i nazivnik- primjer : 7 5 7 + 5 = 12
3 0 3 + 0 = 3 ¯¯¯¯¯¯¯
12 3
OČEKIVANJE I STANDARDNA DEVIJACIJA HIPERGEOMETRIJSKE VARIJABLE
µ = n • r n – broj ponavljanja pokusa, uzorak
¯¯ N – veličina populacije ukupne
N r – broj uspjeha u populaciji
σ = √ n • r ( 1- r ) • √ N - n ¯¯ ¯¯ ¯¯¯¯¯
N N N - 1 - vjerojatnost - vjerojatnost - korekcija radi “uspjeha” “neuspjeha” veličine uzoraka
c) POISSONOVA RASPODJELA
- lako ju prepoznajemo, OVISI SAMO O JEDNOM PARAMETRU λ- vjerojatnost da se neki događaj dogodi točno određeni broj puta u budućnosti- zadan nam je prosječan broj pojava, a mi se pitamo kako će biti ubuduće
- zadan nam je broj λ ( to je prosječni broj pojava nekog događaja u prošlosti )- X je broj tog istog događaja u budućnosti
k -λ P ( X = k ) = λ • e ¯¯¯¯¯¯¯¯¯
k!e = 2.71...
OČEKIVANJE I STANDARDNA DEVIJACIJA POISSO-ove RASPODJELE
Očekivanje ;
µ = λ Standardna devijacija ;
σ = √ λ
KONTINUIRANE SLUČAJNE VARIJABLE
- pojavljuju se tamo gdje se nešto mjeri- mogu poprimati sve vrijednosti iz nekog intervala/segmenta, svi su jednako vrijedni- primjer kontinuirane slučajne varijable : masa, temperatura, vrijeme, količina oborina, novac...
- kod kontinuiranih varijabli nema smisla govoriti o vjerojatnostima, jer je to gotovo nemoguće- zato ima smisla promatrati ih kroz međuvrijednosti od do : P ( a ≤ X ≤ b ) P ( a < X < b )- kod kontinuiranih varijabli uvijek govorimo da vjerojatnost padne između nekog intervala- vjerojatnost da kontinuirana varijabla poprimi neku vrijednost jest 0- kod kontinuiranih varijabli funkcije raspodjela se NE ZADAJU FORMULOM već grafom- krivulje / funkcije kojima su kontinuirane varijable definirane zovemo funkcije gustoće vjerojatnosti- kada krivulju frekvencije preoblikujemo zove se funkcija gustoće raspodjele kontinuirane slučajne varijable - površina ispod krivulje vjerojatnosti, a iznad varijabli –a i –b jest vjerojatnost da će se naša varijabla dogoditi
0 ≤ P ( a ≤ X ≤ b ) ≤ 1
- ukupna površina ispod krivulje vjerojatnosti MORA BITI 1
Pukupno = 1 ∞
- valjanost vjerojatnostne raspodjele ; ∫ P ( X ) = dx = 1 - ∞
……..INTEGRAL = generalizacija sume ……
NAČINI RASPODJELE KONTINUIRANE SLUČAJNE VARIJABLE
- najprimjenjenija jest NORMALNA SLUČAJNA VARIJABLA- ona se ravna prema tzv. normalnoj raspodjeli- primjer : visina stabljike kukuruza, srdele ( najviše je onih srednje veličine, ekstrema je manje )
- mnogo nezavisnih faktora utječe na nju- u ovakvim uvjetima govorimo o normalnoj raspodjeli
1. NORMALNA RASPODJELA- gore su navedene neke karakterisrike- najvažnija su ova svojstva : I. krivulja je ZVONOLIKAII. ta zvonolika krivulja je karakterizirana dvama parametrima :
a) pozicija maksimuma ( ona u biti odgovara aritmetičkoj sredini, tj. OČEKIVANJU )
b) “ širina” /raspršenje/disperzija ( kontrolira ju standardna devijacija )
III. krivulja je simetrična s obzirom na µIV. „repovi krivulje“ imaju os –x kao asimptotu ( pravac koji se približava krivulji, ali ju nikada stvarno ne dotiče )V. površina ispod krivulje je jednaka 1 ( zato jer ona predstavlja ukupnu vjerojatnost da će se nešto dogoditi )
- ova svojstva treba sadržavati krivulja koja će nam biti dobra za
normalnu raspodjelu ; X ~ N ( µ, σ ) – normalna raspodjela- što je σ veća, to je krivulja razvučenija i manje strma
A) STANDARDNA NORMALNA RASPODJELA
- izgled ; N ( 0,1 )- izražava se u ovim jedinicama : µ = 0 i σ = 1 te o njima ovisi- ukupna površina ispod ove krivulje jest 1- vrijednosti koje vrijede za ovu raspodjelu :CIJELA POVRŠINA = 1LIJEVO I DESNO OD 0 = 0.5U TABLICAMA SU PODACI OD 0 DO NEKOG BROJA a NA GRAFUSVE DRUGO SAMI MORAMO KONSTRUIRATI- 68.25% slučajeva u slučaju standardne normalne raspodjele smješteno je u području jedne σ ( lijevo i desno )- 95% slučajeva smješteno je unutar 2 σ- 99.74% slučajeva je unutar 3 σ
Svaka raspodjela može se svesti na normalnu raspodjelu računanjem tzv. –z vrijednosti.Postupak kada računamo –z vrijednost zovemo STANDARDIZACIJA.
z = x - µ - odstupanje od očekivanja u mjeri
¯¯¯¯¯ standardne devijacije
σ- ako u zadatku imamo –z znači da ne trebamo provesti standardizaciju- ako nema –z provodimo standardizaciju ( koja računa vrijednost za rubove )
Aproksimacija binomne raspodjele normalnom
- normalna raspodjela je uvijek SIMETRIČNA- binomna raspodjela nije uvijek simetrična; može se dobro APROKSIMIRATI- BINOMNU aproksimiramo NORMALNOM- aproksimirati = približiti
Kada se radi aproksimacija ( uvjeti ) :- kada su –p i –q jako različiti, jer je tada raspodjela dosta asimetrična- n mora biti dovoljno velik da uravnotež –p i -q1. np › 52. nq › 5- kada je binomni koeficijent teško fizički izračunati ( npr. 100 ) 60
3 koraka aproksimacije :1. provjeriti uvjete aproksimacije ( np, nq )
2. parametre u normalnoj zamijeniti sa µB, σB iz binomne raspodjele :
B ( n, p ) ---------- › N (µB, σB )
- µB = np
- σB = √npq
3. vjerojatnosti također treba pretvoriti ; ovdje imamo tzv. promjenu granica radi NEPREKIDNOSTI ( ako je X ≥ a = a – 0.5, ako je X ≤ b = b + 0.5 )
P ( a ≤ X ≤ b ) ---------- › P ( a – 0.5 ≤ X ≤ b + 0.5 )
2. UNIFORMNA RASPODJELA
- slučajna varijabla poprima bilo koju vrijednost, ali uvijek s istom vjerojatnošću
- površina izgleda kao pravokutnik
- površina ispod mora biti 1
- duljina : b - aP ( c ≤ X ≤ d ) = a + b
¯¯¯¯¯ 2
Uniformnost – vjerojatnost spadanja u jedan ili drugi interval je jednaka - ovisi o duljini, a ne o poziciji intervala
3. EKSPONENCIJALNA RASPODJELA KONTINUIRANE SLUČAJNE VARIJABLE
- ovisi samo o jednom parametru : prosječan broj pojavljivanja
događaja u jedinici vremena ( λ )- kazuje nam vrijema koje protekne između dvije pojave- eksponencijalna raspodjela mjeri vrijeme koje protekne između dvije pojave događaja čiji prosjek znamo ; pita nas o proteku vremena između dvije pojave
Imamo formule za 3 slučaja :
- λ a1. P ( X ≥ a ) = e uvjet – λ›0, a›0
2. P ( X ‹ a ) = 1 – P ( X ≥ a )
- λ a - λ b3. P ( a ‹ X ‹ b ) = e - e
- piše li znak ≥ ili › ISTO JE
- λ je uvijek FREKVENCIJA ( Hz ) ; broj dijelimo s vremenom da bismo dobili frekvenciju
STATISTIKA UZORAKA
Tipovi uzoraka :- slučajan : ako svaki član populacije ima šanse upasti u njega- ekspertni : nije slučajan, izabire se na temelju apriornog znanja o populaciji- pogodonosni : bezvrijedan, biramo „tko nam prvi dođe pod ruku“- očekivanje vrijednosti uzoraka jest jednako pravoj vrijednosti- aritmetička sredina uzorka jest nepristrana procjena prave aritmetičke sredine populacije- odabirom uzorka negdje moramo napraviti i greškuKonzistentna procjena – manifestira se time da veći uzorak daje bolje vrijednosti grupirane oko srednje vrijednosti
- uzorak je dovoljno velik ako vrijedi : n ≥ 30 np ≥ 5 nq ≥ 5
- veličina uzorka mora balansirati asimetriju- pravilni načini slučajnog odabira : šešir, bubanj, žara ( vaza ) te mehanička pomagala – kompjutor, kalkulator
Statistika uzoraka procjenjuje parametre populacije na temelju statistike uzoraka
parametar populacija uzorak
veličina N n
_
očekivanje µ µ X
^udio / vjerojatnost p p
_
standardna devijacija σ σ X
CENTRALNI GRANIČNI TEOREM
- bez obzira kako je obilježje koje mjerimo raspodjeljeno u populaciji, za velike uzorke ( n ≥ 30 ) raspodjela srednje vrijednosti uzoraka je NORMALNA _
µ X = µ
Standardna devijacija _
σ X = { σ , ako je n≤ 0.05 } ¯¯¯ ¯¯¯ √n N
{ σ • √N - n , ako je n › 0.05 } ¯¯¯ ¯¯¯¯¯¯ ¯¯¯ √n √ N - 1 N
- faktor korekcije radi konačnosti populacije
- uvijek je σ uzorka manja od σ populacije
STATISTIKA UDJELA
- razlikujemo :
a) populacijski udio p = X X – broj elemenata populacije sa svojstvom
¯¯¯ koje nas interesira
N N – veličina populacije
^ Xu – broj elemenata uzorka sa svojstvom
b) uzorkovni udio p = Xu koje nas interesira ¯¯¯¯ n – veličina uzorka
n Očekivanje : ^
µ p = p
Standardna devijacija : ^
σ p = { √pq , ako je n ≤ 0.05 } ¯¯¯ ¯¯ √n N
{ √pq • √N – n , ako je n › 0.05 } ¯¯¯¯ ¯¯¯¯¯ ¯¯ √n √N – 1 N
- raspodjela uzorkovnih udjela je približno normalna uz uvjet : np › 5, nq › 5 gdje je n - veličina uzorka
p – populacijski udio q = 1 - p
- uvijek kada u zadatku imamo očekivanja, raspodjela je NORMALNA- kada imamo uzorkovne udjele, raspodjela je normalna ako su zadovoljeni gore navedeni uvjeti ( ona je približno normalna – nije skroz ali se možemo koristiti tablicom )
Greške izoraka = srednja vrijednost uzorka – očekivanje populacije ( može biti i obratno napisano, minus ništa ne znači – ne moramo ga ni pisati ) = razlika između odgovarajućih parametara uzorka i populacije Na ovu pojavu mi ne možemo utjecati, uzorak sam stvara grešku.
Greške koje ne ovise o uzorku već o nama : bilježenje podataka, greške u računu, greške zaokruživanja …