46
N. Šakić, H. Cajne Raspodjele podataka • Raspodjele podataka za diskretna obilježja • Raspodjele podataka za kontinuirana obilježja • Teorijske raspodjele podataka

Raspodjele podataka

  • Upload
    elin

  • View
    41

  • Download
    0

Embed Size (px)

DESCRIPTION

Raspodjele podataka. Raspodjele podataka za diskretna obilježja Raspodjele podataka za kontinuirana obilježja Teorijske raspodjele podataka. Raspodjele (diskretna obilježja). Hipergeometrijska (složene kombinacije) Binomna (Bernoulli-jev događaj) - PowerPoint PPT Presentation

Citation preview

Page 1: Raspodjele podataka

N. Šakić, H. Cajner

Raspodjele podataka

• Raspodjele podataka za diskretna obilježja

• Raspodjele podataka za kontinuirana obilježja

• Teorijske raspodjele podataka

Page 2: Raspodjele podataka

N. Šakić, H. Cajner

Page 3: Raspodjele podataka

N. Šakić, H. Cajner

Raspodjele (diskretna obilježja)

• Hipergeometrijska (složene kombinacije)

• Binomna (Bernoulli-jev događaj)

• Poisson-ova (zakon rijetkih događaja, potok događaja)

Page 4: Raspodjele podataka

N. Šakić, H. Cajner

Hipergeometrijska raspodjelaHipergeometrijska raspodjela• proizlazi iz dvoslojnog skupa - složene kombinacije – skup od N elemenata sadrži podskup elemenata sa svojstvom A i podskup elemenata sa

svojstvom Ā

nn

x el Ax el A (n-x) el (n-x) el ĀĀ

UZORAK

NN

M (M (AA)) N-M (N-M (ĀĀ))

SKUP

Page 5: Raspodjele podataka

N. Šakić, H. Cajner

n

N

n-x

MN

x

M

P(x)

• funkcija vjerojatnosti hipergeometrijske raspodjele:

parametri: M, N i n

- n – veličina uzorka

NM

MNxn

Mx

1 Nn, M, N

..., N

21

• očekivana vrijednost:N

MnxE

);(

• varijanca: 1

1 ];)[( 222

n

nN

N

M

N

MnxE

Page 6: Raspodjele podataka

N. Šakić, H. Cajner

543210

0,8

0,6

0,4

0,2

0,0

543210

0,8

0,6

0,4

0,2

0,0

N=10; M=5

X

Pro

babili

ty

N=10; M=3

N=50; M=5 N=50; M=3

Hypergeometric; n=5

• utjecaj parametara na oblik hipergeometrijske raspodjele:

Page 7: Raspodjele podataka

N. Šakić, H. Cajner

Binomna raspodjelaBinomna raspodjela

• Bernoulli-jev događaj – samo dva ishoda

- vjerojatnost događaja se ne mijenja i iznosi p

- vjerojatnost q=1-p

- nezavisni pokušaji (slučajno uzorkovanje)

- broj pokušaja (veličina uzorka), n

pp

AA ĀĀ

(1-p)=q(1-p)=q

UZORAK n - elemenataUZORAK n - elemenata

• broj N (elementi skupa) teži u beskonačnost – podvrsta hipergeometrijske

Page 8: Raspodjele podataka

N. Šakić, H. Cajner

• funkcija vjerojatnosti binomne raspodjele B (n, p):

,...n,xqpx

nP(x) xnx 10,)(

za parametri: n, p

• očekivana vrijednost (aritmetička sredina): pnxE )(

• varijanca: qpn 2

• koeficijent asimetrije:

• koeficijent zaobljenosti:

qpn

q-pM

3 3

3

qpn

qpM

61

34

4 4

- distribucija će biti uvijek asimetrična ako nijep=q=0,5

Page 9: Raspodjele podataka

N. Šakić, H. Cajner

• utjecaj parametara n i p na oblik binomne raspodjele:

76543210

0,30

0,25

0,20

0,15

0,10

0,05

0,00

X

Pro

babili

ty

Binomial; n=10; p=0,2

1086420

0,25

0,20

0,15

0,10

0,05

0,00

X

Pro

babili

ty

Binomial; n=10; p=0,5

11109876543

0,30

0,25

0,20

0,15

0,10

0,05

0,00

X

Pro

babili

ty

Binomial; n=10; p=0,8

543210

0,4

0,3

0,2

0,1

0,0

X

Pro

babili

ty

Binomial; n=5; p=0,2

76543210

0,30

0,25

0,20

0,15

0,10

0,05

0,00

X

Pro

babili

ty

Binomial; n=10; p=0,2

121086420

0,25

0,20

0,15

0,10

0,05

0,00

X

Pro

babilit

y

Distribution PlotBinomial; n=20; p=0,2

Page 10: Raspodjele podataka

N. Šakić, H. Cajner

• ‘Galtonova’ daska – binomni eksperiment

– kuglicu spuštamo na čavliće koji su složeni u pravilnu trokutastu rešetku

– padom na čavlić kuglica može skrenuti na lijevo ili desno (berouli-jev događaj)

– daska je pravilna te su ishodi jednako vjerojatni p=0.5

– n – broj redova čavlića

Link

Page 11: Raspodjele podataka

N. Šakić, H. Cajner

– primjer ‘Galtonove’ daske sa n=4 reda čavlića:

- slučajna varijabla poprima vrijednost:0 - za jedan ishod1 - za 4 ishoda2 – za 6 ishoda3 – za 4 ishoda4 – za 1 ishod

- općenito:

Page 12: Raspodjele podataka

N. Šakić, H. Cajner

• primjer 1. binomne raspodjele:Primjer: Svaki izuzeti uzorak vode ima vjerojatnost da je kontaminiran otpadnom

tvari u iznosu od 10% . Pretpostavimo da se uzroci uzimaju nezavisno s obzirom na prisustvo otpadnih tvari. Potrebno je pronaći:

a) Vjerojatnost da će u 18 izuzetih uzoraka biti točno 2 uzorka kontaminirana?

284,0)2(

9,01,02

18)2(

18

1,0

162

xP

xP

n

p

vjerojatnost da će biti točno 2 kontaminirana uzorka

b) Vjerojatnost da će od 18 uzoraka biti barem 4 kontaminirana?

098,0)]4([1)4(

)4()3()2()1()0()4(

18;1,0

xPxP

xPxPxPxPxPxP

np

Page 13: Raspodjele podataka

N. Šakić, H. Cajner

- grafički prikaz (binomna raspodjela):

76543210

76543210

0,30

0,25

0,20

0,15

0,10

0,05

0,00

X

Pro

babili

ty

20 6

0,284

Binomial; n=18; p=0,1

a)

76543210

76543210

0,30

0,25

0,20

0,15

0,10

0,05

0,00

X

Pro

babili

ty40

0,0982

Binomial; n=18; p=0,1

b)

Page 14: Raspodjele podataka

N. Šakić, H. Cajner

• primjer 2. primjene binomne raspodjele:

Primjer: Rad jednog automata kontrolira se uzorcima od 15 proizvoda. U svakom uzorku se ustanovljuje broj defektnih proizvoda. Budući da je uzeto 200 uzoraka, dobiveni rezultati su dani kroz tablicu. Potrebno je pronaći adekvatnu raspodjelu po kojoj se ponašaju podaci te vjerojatnost pojave ne više od 2 defektna u uzorku. x 0 1 2 3 4 5 6

fi 77 81 31 7 2 1 1

6543210

90

80

70

60

50

40

30

20

10

0

xi

Freq

uen

cy

Histogram of xi

- radi se o Binomnoj raspodjeli (n konačan):

061,0;15;915,0 nx

pnx

9876543210

9876543210

0,4

0,3

0,2

0,1

0,0

X

Pro

babilit

y

2

0,941

4

Binomial; n=15; p=0,061

941,0)2(

);2(

)1()0()2(

939.0061,015

)( )15(

xP

xP

xPxPxP

xxP xx

prilagodba

Page 15: Raspodjele podataka

N. Šakić, H. Cajner

x

n P(x)x px q(n-x) P(x)

0 1 1 0,389031 0,389031 0,389031

1 15 0,061 0,414303 0,379087 0,768118

2 105 0,003721 0,441217 0,172386 0,940504

3 455 0,000227 0,46988 0,048528 0,989032

4 1365 1,38E-05 0,500405 0,009457 0,998489

5 3003 8,45E-07 0,532913 0,001352 0,999841

6 5005 5,15E-08 0,567532 0,000146 0,999987

7 6435 3,14E-09 0,6044 1,22E-05 0,999999

8 6435 1,92E-10 0,643664 7,94E-07 1

9 5005 1,17E-11 0,685478 4,01E-08 1

10 3003 7,13E-13 0,730009 1,56E-09 1

11 1365 4,35E-14 0,777432 4,62E-11 1

12 455 2,65E-15 0,827936 1E-12 1

13 105 1,62E-16 0,881721 1,5E-14 1

14 15 9,88E-18 0,939 1,39E-16 1

15 1 6,02E-19 1 6,02E-19 1

- tablica vjerojatnosti za primjer 2.

Page 16: Raspodjele podataka

N. Šakić, H. Cajner

Poisson-ova raspodjelaPoisson-ova raspodjela• proizlazi iz binomne r. uz određene uvjete:

• opisuje rijetke događaje (oni koji se javljaju s malom vjerojatnošću)• potok događaja – vjerojatnost promatranog događaja u vremenskom periodu (valovi, naleti...) – odabir vremenskog perioda je bitan

vremena) (tijekom .

0

konstpn

n

p

• funkcija vjerojatnosti Poisson-ove raspodjele P(x):

,...n,xzaex

mP(x) m

x

10,!

parametar: m=E(x)

(u literaturi se spominje i λ = parametar m)

Page 17: Raspodjele podataka

N. Šakić, H. Cajner

xmpnxE )(

mxmx )(;)(2 • varijanca:

• očekivana vrijednost:

• koeficijent asimetrije:m

M 13

3 3

• koeficijent zaobljenosti:m

M 13

4

4 4

• rekurzivna formula za Poisson-ovu raspodjelu:

m

x

ex

mP(x)

!m

x

ex

m)P(x

)!1(

11

x

mxPP(x) )1(

Page 18: Raspodjele podataka

N. Šakić, H. Cajner

• utjecaj parametra m na Poisson-ovu raspodjelu :

43210

0,6

0,5

0,4

0,3

0,2

0,1

0,0

X

Pro

babilit

y

Poisson; Mean=0,5

121086420

0,20

0,15

0,10

0,05

0,00

X

Pro

babilit

y

Poisson; Mean=4

876543210

0,30

0,25

0,20

0,15

0,10

0,05

0,00

X

Pro

babili

ty

Poisson; Mean=2

- nakon pokazuje se mod – da su dvije susjedne vrijednosti istih vjerojatnosti

- kada gubi se asimetričnost i Poisson-ova raspodjela teži simetričnoj

m

1m

Page 19: Raspodjele podataka

N. Šakić, H. Cajner

• primjer 1. primjene Poisson-ove raspodjele:

Primjer: U slučaju tanke bakrene žice, pretpostavlja se da broj pukotina slijedi zakon Poisson-ove raspodjele sa očekivanjem od 2.3 mikropukotine po milimetru. Potrebno je odrediti:

a) vjerojatnost da se dogodi baš 2 mikropukotine po jednom milimetru žice.

- varijabla x – broj mikropukotina po mm žice

32)( ,xmxE

3,2

!

3,2 ex

P(x)x

265,0!2

3,22 3,2

2

e)P(x

0,30

0,25

0,20

0,15

0,10

0,05

0,00

X

Pro

babilit

y

2

0,265

0 8

Distribution PlotPoisson; Mean=2,3

Page 20: Raspodjele podataka

N. Šakić, H. Cajner

b) Vjerojatnost da se pojavi barem jedna mikropukotina u 2 mm žice.

- varijabla x – broj mikropukotina na 2mm žice

64322)( ,,xE

6,4

!

6,4 ex

P(x)x

9899,0)0(11 xP)P(x

0101,0!0

6,40 6,4

0

e)P(x

0,20

0,15

0,10

0,05

0,00

X

Pro

babilit

y

10

0,9899

Distribution PlotPoisson; Mean=4,6

Page 21: Raspodjele podataka

N. Šakić, H. Cajner

• primjer 2. primjene Poisson-ove raspodjele:Primjer: Tijekom drugog svjetskog rata London je gađan projektilima V1. Britance je zanimalo kako iz podataka o padanju projektila zaključiti da li je riječ o gađanju nasumce ili se cilja neka točka u Londonu.

- London je podijeljen na 576 sektora- U vremenskom periodu promatranja palo je 537 projektila

x >=43210

250

200

150

100

50

0

Valu

e

ExpectedObserved

Chart of Observed and Expected Values Poisson mean for x = 0,928819

Poisson Contributionx Observed Probability Expected Chi-Sq0 229 0,395020 226,74 0,0094791 211 0,366902 211,39 0,0005332 93 0,170393 98,54 0,2698463 35 0,052755 30,62 0,7003804 7 0,014931 7,14 0,0418605 (6,7..) 1 1,57

TEST: N N* DF Chi-Sq P-Value576 0 3 1,02210 0,796

- podaci se ponašaju po Poisson-ovoj razdiobi!- zaključak - V1 nije imao navođenje

Page 22: Raspodjele podataka

N. Šakić, H. Cajner

Raspodjele (kontinuirana obilježja)

• Normalna • Jedinična normalna• Lognormalna• Weibullova

Page 23: Raspodjele podataka

N. Šakić, H. Cajner

Normalna raspodjela Normalna raspodjela • prvi definirao Abraham de Moivre • upotrijebio Gauss (Gauss-ova raspodjela)• najčešće korištena raspodjela – čak 33% procesa u prirodi slijedi zakon

normalne raspodjele• funkcija gustoće vjerojatnosti f(x) – zbog kontinuiranog obilježja • nastanak normalne r. - binomni poučak (razvijanje binoma u red , A. de

Moivre)

2

2

1

0

2

1)(

50

)()(

)(...)()()(

x

xnxn

x

xxnn

n

exfP(x)

n,qp

qpx

nxPba

x

nba

babababa

i uvjet uz

binomna r.

funkcija gustoće vjerojatnosti normalne r.

Page 24: Raspodjele podataka

N. Šakić, H. Cajner

• funkcija gustoće vjerojatnosti normalne raspodjele f(x):

xexfx

- za 2

2

1

2

1)(

• očekivana vrijednost: E(x)= μ

parametri: μ i σ2(x)

• varijanca: σ2(x)

• koeficijent asimetrije: α3= 0 - simetrična razdioba

• koeficijent zaobljenosti: α4= 3 (α’4= 0) – normalno zaobljena

• svojstva funkcije gustoće vjerojatnosti f(x):

1.

2.

3.

xxf svaki za 0)(

1)( dxxf

2

121)()(

x

x

xxxPdxxf

Page 25: Raspodjele podataka

N. Šakić, H. Cajner

• veza funkcije gustoće vjerojatnosti f(x) i funkcija distribucije F(x) normalne raspodjele:

2

1

)()(x

x

dxxfxF

Page 26: Raspodjele podataka

N. Šakić, H. Cajner

• vjerojatnosti ispod normalne raspodjele N{μ, σ2}:

• utjecaj parametara μ i σ2 na oblik normalne raspodjele:

Page 27: Raspodjele podataka

N. Šakić, H. Cajner

Jedinična normalna raspodjela Jedinična normalna raspodjela N{0,1}N{0,1}• standardizirana normalna raspodjela sa parametrima μ=0 i σ2=1

• sve druge normalne raspodjele svodimo (z-transformacija) na jediničnu normalnu raspodjelu

• bilo koja vrijednost u x domeni se može prikazati kao μ ± k·σ

x

z• transformacija:

Page 28: Raspodjele podataka

N. Šakić, H. Cajner

• funkcija gustoće vjerojatnosti jedinične normalne raspodjele f(z):

1;0;2

1)( 2

22

1

z

ezf

• upotrebom jedinične normalne razdiobe standardiziramo odstupanja preko parametra z:1. |z|=1 → P(z)=0,6827

2. |z|=1,96 → P(z)=0,9500

3. |z|=2,0 → P(z)=0,9545

4. |z|=3 → P(z)=0,9973

• područje ±3σ koje se koristi u konstrukcijama naziva se tolerancija• danas procesi u području ±3σ više nisu dovoljno dobri pa se prelazi na sustav od ±6σ • područje od ±6σ ima vjerojatnost pojave od 99,9999998 %

Page 29: Raspodjele podataka

N. Šakić, H. Cajner

• ostale vjerojatnosti kod normalne razdiobe:

Page 30: Raspodjele podataka

N. Šakić, H. Cajner

• primjer 1. primjene normalne raspodjele:

Primjer: Pretpostavimo da se izmjerena jakost struje u vodiču pokorava zakonu normalne raspodjele sa očekivanjem μ=10 mA i varijancom σ2=4 mA2. Kolika je vjerojatnost da će jakost struje premašiti 13 mA?

17,515,012,510,07,55,0

17,515,012,510,07,55,0

0,20

0,15

0,10

0,05

0,00

X

Den

sity

1310

Normal; Mean=10; StDev=2

06681,0)5,1(1)5,1()13(

5,12

)1013()(

zPzPxP

zx

z

3210-1-2-3

3210-1-2-3

0,4

0,3

0,2

0,1

0,0

z

Densi

ty

1,5

0,0668

0

Normal; Mean=0; StDev=1transformacija

Page 31: Raspodjele podataka

N. Šakić, H. Cajner

Lognormalna raspodjela Lognormalna raspodjela

• slučaj kada je logaritam varijable x ( ln(x) ) normalno distribuiran

anadistribuir normalno - yx )ln(• vjerojatnosti pojave varijable x se dobivaju transformacijom varijable y sa naznakom da je

),0( x

• ako y ima normalnu distribuciju sa očekivanjem α i varijancom β2 tada možemo napisati x=ey što je lognormalna varijabla sa funkcijom gustoće vjerojatnosti:

ostalo za

, za

0

002

1)(

22

2)(ln

βxexxf

x

• raspodjela koja dobro opisuje slučajeve: duljina trajanja proizvodnje, plaće zaposlenika...

parametri: α i β2

Page 32: Raspodjele podataka

N. Šakić, H. Cajner

• utjecaj parametara na oblik lognormalne raspodjele:

Page 33: Raspodjele podataka

N. Šakić, H. Cajner

• primjer primjene lognormalne raspodjele:Primjer: Životni vijek poluvodičkog lasera je lognormalno distribuiran sa očekivanjem od =10 h i standardnom devijacijom =1,5 h. Kolika je vjerojatnost da životni vijek premaši 10 000 sati?

701,0)52,0(1)10000(

52,05,1

102103,9;2103,9

);ln(;;10000

);10000(1)10000(

zFxP

zx

yxeyy

xPxPx

0,000008

0,000007

0,000006

0,000005

0,000004

0,000003

0,000002

0,000001

0,000000

X

Den

sity

10000

0,701

0

Lognormal; Loc=10; Scale=1,5; Thresh=0

Page 34: Raspodjele podataka

N. Šakić, H. Cajner

Weibull-ova raspodjela Weibull-ova raspodjela • definira vjekove trajanja tehničkih sustava – krivulja kade• parametri ove raspodjele daju veliku fleksibilnost prilikom opisivanja različitih slučajeva kada broj otkaza raste sa vremenom (trošenje ležaja), ostaje konstantan ili pada s vremenom (neki poluvodiči)

• funkcija gustoće vjerojatnosti Weibull-ove raspodjele:

ostalo za

, za )

0

0,00()(

)(1 βxexxf

x

parametri: α, β

Page 35: Raspodjele podataka

N. Šakić, H. Cajner

• utjecaj parametara na oblik Weibull-ove raspodjele:

Page 36: Raspodjele podataka

N. Šakić, H. Cajner

• krivulja kade (krivulja mortaliteta):

I. period – ‘dječje bolesti’ – 1. raspodjela e-t

II. period – ‘normalne eksploatacije’, slučajni kvarovi – 2. raspodjela uniformna

III. period – zbog ‘trošenja dijelova’, vremenski kvarovi – 3. raspodjela normalna

Page 37: Raspodjele podataka

N. Šakić, H. Cajner

Teorijske raspodjele

• Studentova ‘t’ raspodjela • raspodjela• F - raspodjela

Page 38: Raspodjele podataka

N. Šakić, H. Cajner

Studentova t-raspodjelaStudentova t-raspodjela• definirao ju W. S. Gosset kao razdiobu varijable t• proizašla iz raspodjele aritmetičkih sredina

• kada n raste približava se normalnoj razdiobi k=30

12

2

11 2

( ) (1 ) ; ( 1)!

2

n

nt

f t n nn nn

Page 39: Raspodjele podataka

N. Šakić, H. Cajner

• tablica Studentove ras.- za određenu vrijednost površine (vjerojatnosti) i stupnja slobode daje vrijednosti parametra t

Primjer: Za =0,01 u uzorku veličine 10 elemenata (k=10-1=9 stupnjeva slobode) t=2,821

• treba s oprezom primjenjivati tablice zbog različitog korištenja termina – površina samo jednog ‘repa’ ili oba?!

Page 40: Raspodjele podataka

N. Šakić, H. Cajner

(hi-kvadrat) raspodjela(hi-kvadrat) raspodjela• varijance se ne pokoravaju normalnoj raspodjeli• poseban slučaj razdiobe definira raspodjelu varijable 2

• varijabla 2 sa samo jednim parametrom k=n-1 → stupanj slobode2

1

0

2

n

i

ixx

kE )( 2 - očekivana vrijednost

Page 41: Raspodjele podataka

N. Šakić, H. Cajner

• tablica 2 ras.- za određenu vrijednost površine (vjerojatnosti) i stupnja slobode daje vrijednosti parametra 2

• kod čitanja vrijednosti 2Ptreba imati na umu da se to

odnosi na ‘unutrašnju’ površinu.

Primjer: Pronaći vrijednosti

i i za vjerojatnost za vjerojatnost

pogreške 5% i k=9. pogreške 5% i k=9.

= = =2,70=2,70

= =

=19,02=19,02

Page 42: Raspodjele podataka

N. Šakić, H. Cajner

F -F - raspodjela raspodjela• definirao G. Snedecor , R. Fisher • to je raspodjela varijable F koja je definirana kao omjer

procijenjenih varijanci• raspodjela ima samo dva parametra:

– stupanj slobode brojnika kbrojnika

– stupanj slobode nazivnika knazivnika

2

2

2

1

ss

F

-parametri: kbrojnika=n1-1; knazivnika=n2-1

- preduvjet: (s1>s2)

Page 43: Raspodjele podataka

N. Šakić, H. Cajner

• Tablica F-raspodjele daje vrijednosti varijable F za vjerojatnost (površinu desnog repa), stupanj slobode brojnika i nazivnika.

Primjer: Pronaći vrijednost varijable F za =0.25, kb=9 i kn=11.

F=1,53

vrijednosti parametra F

Page 44: Raspodjele podataka

N. Šakić, H. Cajner

Papir vjerojatnostiPapir vjerojatnosti• još jedna od grafičkih metoda analize podataka (iz uzorka) kontinuiranog obilježja• utvrđuje se da li se podaci ponašaju po jednoj od promatranih raspodjela i koliko koji elementi odstupaju • za svaku raspodjelu posebno konstruira se papir vjerojatnosti:

– papir vjerojatnosti normalne raspodjele (najčešće)– papir vjerojatnosti Weibull-ove raspodjele– papir vjerojatnosti lognormalne raspodjele– ...

• uzima se funkcija distribucije određene raspodjele i promjenom mjerila dobiva se funkcija distribucije u obliku pravca (Henry-jev pravac)

Page 45: Raspodjele podataka

N. Šakić, H. Cajner

• konstruiranje papira vjerojatnosti normalne raspodjele

20151050

99

95

90

80

70

60504030

20

10

5

1

x

%

Normal Papir vjerojatnosti

20151050

100

80

60

40

20

0

x

%

Normal Funkcija distribucije

~84%

• Henry-jev pravac se ucrtava tako da se odrede dvije čvrste točke:– 1. točka : (x=, y=50%)– 2. točka : (x=y=84%)

Page 46: Raspodjele podataka

N. Šakić, H. Cajner

• primjena papira vjerojatnosti

Primjer: Provjeriti da li se podaci iz uzorka rasipaju po normalnoj raspodjeli.

- promatranjem podataka može se utvrditi da li se podaci rasipaju po normalnoj raspodjeli.- uzeta je raspodjela sa parametrima )(2

0xx i