Naključni pojavi - formule za vaje 2017 Vsebinalab.fs.uni-lj.si/lasin/wp/IMIT_files/nakljucni/vaje/2017... · 2017-10-03 · Verjetnost za nastop napake 1. vrste izberemo pred izvajanjem

1

Naključni pojavi - formule za vaje

2017

Vsebina 1. Dogodki, verjetnost ............................................................................................................................. 2

2. Naključna spremenljivka in porazdelitev verjetnosti .......................................................................... 3

3. Verjetnostne porazdelitve diskretnih naključnih spremenljivk .......................................................... 4

4. Verjetnostne porazdelitve zveznih naključnih spremenljivk .............................................................. 5

5. Vektorske naključne spremenljivke, funkcije naključnih spremenljivk .............................................. 6

6. Statistično povprečje in momenti verjetnostnih porazdelitev ........................................................... 7

7. Osnovni pojmi tehniške statistike, točkovno ocenjevanje ................................................................. 8

8. Intervalno ocenjevanje parametrov ................................................................................................... 9

9. Preverjanje parametričnih hipotez ................................................................................................... 10

10. Preverjanje neparametričnih hipotez ........................................................................................... 12

11. Analiza variance in linearna regresija ........................................................................................... 14

12. Naključni procesi ........................................................................................................................... 16

2

1. Dogodki, verjetnost

Dogodki Simboli: 𝑆 .. vzorčni prostor/gotov dogodek; ∅ .. nemogoč dogodek; 𝐴, 𝐵, 𝐶 .. dogodki (𝐴, 𝐵, 𝐶 ⊂ 𝑆).

Lastnost Presek 𝐴 ∩ 𝐵 Unija 𝐴 ∪ 𝐵

komutativnost 𝐴 ∩ 𝐵 = 𝐵 ∩ 𝐴 𝐴 ∪ 𝐵 = 𝐵 ∪ 𝐴 asociativnost (𝐴 ∩ 𝐵) ∩ 𝐶 = 𝐴 ∩ (𝐵 ∩ 𝐶) (𝐴 ∪ 𝐵) ∪ 𝐶 = 𝐴 ∪ (𝐵 ∪ 𝐶)

vključenost (𝐴 ∩ 𝐵) ⊂ 𝐴 ∧ (𝐴 ∩ 𝐵) ⊂ 𝐵 𝐴 ⊂ (𝐴 ∪ 𝐵) ∧ 𝐵 ⊂ (𝐴 ∪ 𝐵) distributivnost 𝐴 ∩ (𝐵 ∪ 𝐶) = (𝐴 ∩ 𝐵) ∪ (𝐴 ∩ 𝐶) 𝐴 ∪ (𝐵 ∩ 𝐶) = (𝐴 ∪ 𝐵) ∩ (𝐴 ∪ 𝐶)

ostalo 𝐴 ⊂ 𝐵 ⇒ 𝐴 ∩ 𝐵 = 𝐴 𝐴 ⊂ 𝐵 ⇒ 𝐴 ∪ 𝐵 = 𝐵

Negacija/komplement (𝐴∁): (𝐴∁)∁= 𝐴, 𝐴 ⊂ 𝐵 ⇒ 𝐵∁ ⊂ 𝐴∁,

𝐴 ∩ 𝐴∁ = ∅, 𝐴 ∪ 𝐴∁ = 𝑆.

DeMorganovi pravili: (𝐴 ∪ 𝐵)∁ = 𝐴∁ ∩ 𝐵∁, (𝐴 ∩ 𝐵)∁ = 𝐴∁ ∪ 𝐵∁.

Uporabna zveza: (∪,∩,⊂,⊃, 𝑆, ∅)∁⇔ (∩,∪,⊃,⊂, ∅, 𝑆), npr. (𝐴 ∩ 𝐵 = ∅)∁ ⇔ 𝐴∁ ∪ 𝐵∁ = 𝑆.

Verjetnost Lastnosti: 𝑃(𝐴) ∈ [0,1], 𝑃(𝑆) = 1, 𝑃(∅) = 0, 𝑃(𝐴∁) = 1 − 𝑃(𝐴).

Verjetnost unije dogodkov: 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵).

Verjetnost preseka nepovezanih (tujih) dogodkov: 𝐴 ∩ 𝐵 = ∅ ⇒ 𝑃(𝐴 ∩ 𝐵) = 0.

Pogojna verjetnost dogodka 𝐴 pri pogoju dogodka 𝐵:

𝑃(𝐴|𝐵) =𝑃(𝐴 ∩ 𝐵)

𝑃(𝐵), kjer je 𝑃(𝐵) > 0.

Komutativnost preseka: 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵)𝑃(𝐵) = 𝑃(𝐵 ∩ 𝐴) = 𝑃(𝐵|𝐴)𝑃(𝐴).

𝐴 in 𝐵 neodvisna dogodka ⇔ 𝑃(𝐴|𝐵) = 𝑃(𝐴) ⇔ 𝑃(𝐵|𝐴) = 𝑃(𝐵) ⇔ 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵).

Popoln sistem dogodkov {𝐴1, 𝐴2, ⋯ , 𝐴𝑛}:

1) ⋃𝐴𝑖

𝑛

𝑖=1

= 𝑆, 2) 𝐴𝑖 ≠ ∅ za vsak 𝑖 in 3) 𝐴𝑖 ∩ 𝐴𝑗 = ∅ za 𝑖 ≠ 𝑗.

Bayesova formula, kjer je 𝑃(𝐵) izražena s popolnim sistemom dogodkov {𝐴𝑖}:

𝑃(𝐴𝑗|𝐵) =𝑃(𝐴𝑗 ∩ 𝐵)

𝑃(𝐵)=

𝑃(𝐴𝑗)𝑃(𝐵|𝐴𝑗)

∑ 𝑃(𝐴𝑖)𝑃(𝐵|𝐴𝑖)𝑛𝑖=1

.

3

2. Naključna spremenljivka in porazdelitev verjetnosti

Diskretna naključna spremenljivka Verjetnostna funkcija 𝑓𝑋 diskretne naključne spremenljivke 𝑋 je definirana kot:

𝑓𝑋(𝑥𝑖) ≡ 𝑃(𝑋 = 𝑥𝑖) = 𝑝(𝑥𝑖), 𝑆𝑋 = {𝑥𝑖}

in ima naslednje lastnosti: 0 ≤ 𝑓𝑋(𝑥𝑖) ≤ 1 in ∑ 𝑓𝑋(𝑥𝑖)𝑥𝑖∈𝑆𝑋 = 1.

Zbirna porazdelitvena funkcija 𝐹𝑋 diskretne naključne spremenljivke 𝑋 je definirana kot:

𝐹𝑋(𝑥𝑖) ≡ 𝑃(𝑋 ≤ 𝑥𝑖) = ∑ 𝑓𝑋(𝑥𝑗)

𝑥𝑗≤𝑥𝑖

in ima naslednje lastnosti: lim𝑥𝑖→−∞

𝐹𝑋(𝑥𝑖) = lim𝑥𝑖→−∞

𝑃(𝑋 ≤ 𝑥𝑖) = 0,

lim𝑥𝑖→+∞

𝐹𝑋(𝑥𝑖) = lim𝑥𝑖→+∞

𝑃(𝑋 ≤ 𝑥𝑖) = 1,

𝑥𝑖 ≥ 𝑥𝑗 ⇒ 𝐹𝑋(𝑥𝑖) ≥ 𝐹𝑋(𝑥𝑗).

Velja: 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = ∑ 𝑓𝑋(𝑥𝑖)𝑥𝑖∈[𝑎,𝑏] = 𝐹𝑋(𝑏) − 𝐹𝑋(𝑎).

Zvezna naključna spremenljivka Zbirna porazdelitvena funkcija 𝐹𝑋 zvezne naključne spremenljivke 𝑋 je definirana kot:

𝐹𝑋(𝑥) ≡ 𝑃(𝑋 ≤ 𝑥) za − ∞ < 𝑥 < ∞

in ima naslednje lastnosti: lim𝑥→−∞

𝐹𝑋(𝑥) = lim𝑥→−∞

𝑃(𝑋 ≤ 𝑥) = 0,

lim𝑥→+∞

𝐹𝑋(𝑥) = lim𝑥→+∞

𝑃(𝑋 ≤ 𝑥) = 1,

𝑥2 ≥ 𝑥1 ⇒ 𝐹𝑋(𝑥2) ≥ 𝐹𝑋(𝑥1).

Gostota verjetnosti 𝑓𝑋 zvezne naključne spremenljivke 𝑋 je definirana kot:

𝑓𝑋(𝑥) ≡ lim∆𝑥→0

∆𝑃

∆𝑥= lim∆𝑥→0

𝐹𝑋(𝑥 + ∆𝑥) − 𝐹𝑋(𝑥)

∆𝑥= lim∆𝑥→0

∆𝐹𝑋(𝑥)

∆𝑥=𝑑𝐹𝑋(𝑥)

𝑑𝑥= 𝐹𝑋

′ (𝑥)

in ima naslednje lastnosti: 𝑓𝑋(𝑥) ≥ 0 in ∫ 𝑓𝑋(𝑥) 𝑑𝑥 = 1∞

−∞.

Velja: 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = ∫ 𝑓𝑋(𝑥) 𝑑𝑥 = 𝐹𝑋(𝑏) − 𝐹𝑋(𝑎).𝑏

𝑎

Veljata tudi zvezi: 𝐹𝑋(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∫ 𝑓𝑋(𝑢) 𝑑𝑢 za − ∞ < 𝑥 < ∞,𝑥

−∞

𝑑

𝑑𝑥𝐹𝑋(𝑥) =

𝑑

𝑑𝑥∫ 𝑓𝑋(𝑢) 𝑑𝑢 = 𝑓𝑋(𝑥).𝑥

−∞

Povprečna vrednost in varianca 𝑋 diskretna 𝑋 zvezna

Povprečna vrednost 𝑚𝑋 = E[𝑋]

𝑚𝑋 =∑ 𝑥𝑖 𝑓𝑋(𝑥𝑖)𝑥𝑖∈𝑆𝑋

𝑚𝑋 = ∫ 𝑥 𝑓𝑋(𝑥) 𝑑𝑥∞

−∞

Varianca

Var[𝑋] = 𝜎𝑋2 = E[(𝑋 −𝑚𝑋)

2] 𝜎𝑋2 =∑ (𝑥𝑖 −𝑚𝑋)

2 𝑓𝑋(𝑥𝑖)𝑥𝑖∈𝑆𝑋

𝜎𝑋2 = ∫ (𝑥 −𝑚𝑋)

2 𝑓𝑋(𝑥) 𝑑𝑥∞

−∞

4

3. Verjetnostne porazdelitve diskretnih naključnih spremenljivk

Enakomerna porazdelitev V primeru, da je pri naključnem poskusu vsak od mogočih izidov enako verjeten, je naključna

spremenljivka 𝑋, katere zaloga vrednosti je interval celih števil [𝑎, 𝑏], enakomerno porazdeljena:

𝑓𝑋(𝑥) =1

𝑏 − 𝑎 + 1, 𝑥 ∈ [𝑎, 𝑏] ⊂ ℤ

Lastnosti: 𝑚𝑋 =𝑎+𝑏

2, Var(𝑋) =

(𝑏−𝑎+1)2−1

12.

Binomska porazdelitev Bernoullijev naključni poskus je poskus z le dvema mogočima izidoma, npr. »ugoden« in »neugoden«.

Naključno spremenljivko 𝑋 definiramo kot število ugodnih izidov pri 𝑛 ponovitvah Bernoullijevega

poskusa. Naključna spremenljivka 𝑋 je binomska, če 1) je 𝑛 ponovljenih poskusov med seboj

neodvisnih in 2) se verjetnost 𝑝 za ugoden izid pri ponavljanju poskusa ne spreminja. Njeno

verjetnostno funkcijo 𝑓𝑋 tedaj imenujemo binomska porazdelitev:

𝑓𝑋(𝑥) = 𝑃(𝑋 = 𝑥) = (𝑛𝑥) 𝑝𝑥(1 − 𝑝)𝑛−𝑥 za 𝑥 = 0,1,2, … , 𝑛.

Lastnosti: 𝑚𝑋 = 𝑛𝑝, Var(𝑋) = 𝑛𝑝(1 − 𝑝).

Binomski simbol je definiran z enačbo: (𝑛𝑥) =

𝑛!

𝑥!(𝑛−𝑥)!.

Poissonova porazdelitev Kadar je število ponovitev Bernoullijevega poskusa 𝑛 veliko in je verjetnost 𝑝 ugodnega izida majhna,

tako da velja 𝑛𝑝~1, se verjetnostna funkcija binomske porazdelitve približuje verjetnostni funkciji

Poissonove porazdelitve (parameter 𝜆 pri tem določimo z 𝜆 = 𝑛𝑝):

𝑓𝑋(𝑥) = 𝑃(𝑋 = 𝑥) = e−𝜆𝜆𝑥

𝑥!, 𝑥 = 0,1,2,…

Lastnosti: 𝑚𝑋 = 𝜆, Var(𝑋) = 𝜆.

Poissonovo naključno spremenljivko 𝑋 lahko interpretiramo kot število ugodnih izidov na določen

interval (dolžine 𝑙 ali časa 𝑡, ploščine 𝐴, prostornine 𝑉…). Parameter 𝜆 je tedaj produkt povprečne

frekvence 𝜈 ugodnih izidov na enoto širine intervala (dolžine ali časa, ploščine, prostornine…) in širine

intervala (dolžine 𝑙 ali časa 𝑡, ploščine 𝐴, prostornine 𝑉…):

𝜆 = 𝜈𝑙 ali 𝜆 = 𝜈𝑡, 𝜆 = 𝜈𝐴, 𝜆 = 𝜈𝑉.

Poissonovo porazdelitev uporabimo, ko 1) lahko končni izid opišemo s celim številom, 2) so posamezni

izidi med seboj neodvisni, 3) je povprečna frekvenca (ugodnih) izidov za izbran interval znana in 4) je

mogoče prešteti, koliko ugodnih izidov se je zgodilo, ter nesmiselno vprašati, kolikokrat se ugoden izid

ni zgodil.

5

4. Verjetnostne porazdelitve zveznih naključnih spremenljivk

Enakomerna porazdelitev

𝑓𝑋(𝑥) =1

𝑏 − 𝑎, 𝐹(𝑥) =

𝑥 − 𝑎

𝑏 − 𝑎, 𝑥 ∈ [𝑎, 𝑏] ⊂ ℝ

Lastnosti: 𝑚𝑋 =𝑎+𝑏

2, Var(𝑋) =

(𝑏−𝑎)2

12.

Eksponentna porazdelitev 𝑓𝑋(𝑥) = 𝜃e

−𝜃𝑥, 𝐹(𝑥) = 1 − e−𝜃𝑥 , 𝑥 ≥ 0

Lastnosti: 𝑚𝑋 = 1/𝜃, Var(𝑋) = 1/𝜃2.

Normalna (Gaussova) porazdelitev

𝑓𝑋(𝑥) =1

𝜎√2𝜋e− (𝑥−𝑚)2

2𝜎2 , 𝐹(𝑥) = 0.5 + Φ(𝑥 −𝑚

𝜎) = 0.5 + Φ(𝑧), 𝑥 ∈ ℝ

Lastnosti: 𝑚𝑋 = 𝑚, Var(𝑋) = 𝜎2.

Standardna normalna naključna spremenljivka: 𝑍 = (𝑋 −𝑚)/𝜎.

Standardizacija normalne porazdelitve: 𝒩(𝑥;𝑚, 𝜎) → 𝒩(𝑧; 0,1).

Laplaceova funkcija (tabelirana): Φ(𝑥−𝑚

𝜎) = Φ(𝑧) =

1

√2𝜋∫ e

− 𝑢2

2 d𝑢𝑧

0; Φ(∞) = 0.5, Φ(−𝑧) = −Φ(𝑧).

Aproksimacije z normalno porazdelitvijo Binomsko porazdelitev lahko aproksimiramo z normalno:

če je verjetnost ugodnega izida 𝑝 pa blizu 0,5 in število poskusov 𝑛 zelo veliko,

če 𝑝 ni blizu 0,5, ampak hkrati velja 𝑛𝑝 > 10 in 𝑛(1 − 𝑝) > 10.

Za parametra normalne porazdelitve tedaj vzamemo: 𝑚 = 𝑛𝑝 in 𝜎 = √𝑛𝑝(1 − 𝑝).

Poissonovo porazdelitev lahko aproksimiramo z normalno, če je 𝜆 > 5.

Za parametra normalne porazdelitve tedaj vzamemo: 𝑚 = 𝜆 in 𝜎 = √𝜆.

6

5. Vektorske naključne spremenljivke, funkcije naključnih spremenljivk

Vektorske naključne spremenljivke Povezana verjetnost: zbirna porazdelitvena funkcija in gostota povezane verjetnosti za 𝒁 = (𝑋, 𝑌) :

𝐹𝒁(𝒛) = 𝐹𝑋𝑌(𝑥, 𝑦) = 𝑃(𝑋 ≤ 𝑥, 𝑌 ≤ 𝑦) = ∫ ∫ 𝑓𝑋𝑌(𝑥, 𝑦) 𝑑𝑥 𝑑𝑦,𝑦

−∞

𝑥

−∞

𝑓𝒁(𝒛) = 𝑓𝑋𝑌(𝑥, 𝑦) =𝜕2𝐹𝑋𝑌(𝑥, 𝑦)

𝜕𝑥𝜕𝑦.

Robna porazdelitev verjetnosti za 𝑋:

𝐹𝑋(𝑥) = 𝐹𝑋𝑌(𝑥,∞) = ∫ ∫ 𝑓𝑋𝑌(𝑥, 𝑦) 𝑑𝑥 𝑑𝑦,∞

−∞

𝑥

−∞

𝑓𝑋(𝑥) =𝜕𝐹𝑋(𝑥)

𝜕𝑥= ∫ 𝑓𝑋𝑌(𝑥, 𝑦) 𝑑𝑦.

∞

−∞

Gostota pogojne verjetnosti spremenljivke 𝑋 pri pogoju 𝑌 = 𝑦:

𝑓𝑋|𝑌(𝑥|𝑦) =𝑓𝑋𝑌(𝑥, 𝑦)

𝑓𝑌(𝑦).

Naključno neodvisni spremenljivki 𝑋 in 𝑌:

𝑓𝑋|𝑌(𝑥|𝑦) = 𝑓𝑋(𝑥) ⇒ 𝑓𝑋𝑌(𝑥, 𝑦) = 𝑓𝑋(𝑥) ∙ 𝑓𝑌(𝑦).

Funkcije naključnih spremenljivk Funkcija skalarne spremenljivke: Če poznamo 𝑓𝑋(𝑥) in zvezo 𝑌 = 𝑔(𝑋), lahko 𝑓𝑌(𝑦) izračunamo z

inverzno funkcijo ℎ, definirano z 𝑋 = ℎ(𝑌) = 𝑔−1(𝑌):

𝑓𝑌(𝑦) = 𝑓𝑋(ℎ(𝑦)) |𝑑ℎ(𝑦)

𝑑𝑦|.

Gornja enačba velja za monotono 𝑔(𝑋). Kadar 𝑔(𝑋) ni monotona, njeno definicijsko območje

razdelimo na 𝑘 odsekoma monotonih delov 𝑔𝑖(𝑋) z ustreznimi inverznimi funkcijami ℎ𝑖(𝑌):

𝑓𝑌(𝑦) =∑𝑓𝑋(ℎ𝑖(𝑦)) |𝑑ℎ𝑖(𝑦)

𝑑𝑦|

𝑘

𝑖=1

.

Skalarna funkcija vektorske spremenljivke: Če poznamo 𝑓𝑋𝑌(𝑥, 𝑦) in zvezo 𝑍 = 𝑔(𝑋, 𝑌), lahko

izračunamo 𝑓𝑍(𝑧). Izraz za 𝑓𝑍(𝑧) je v splošnem odvisen od zveze 𝑔(𝑋, 𝑌). V najpreprostejšem primeru,

ko je 𝑍 = 𝑔(𝑋, 𝑌) = 𝑋 + 𝑌, velja:

𝑓𝑍(𝑧) = ∫ 𝑓𝑋𝑌(𝑥, 𝑧 − 𝑥) 𝑑𝑥∞

−∞

𝑋,𝑌 neodvisni⇒ ∫ 𝑓𝑋(𝑥)𝑓𝑌(𝑧 − 𝑥) 𝑑𝑥

∞

−∞

.

Če sta 𝑋 in 𝑌 naključno neodvisni, dobimo integral na desni, ki se imenuje konvolucija.

Vsota (razlika) dveh neodvisnih normalno porazdeljenih naključnih spremenljivk 𝑋 in 𝑌: verjetnostno

porazdelitev za 𝑍 = 𝑋 ± 𝑌 izračunamo s konvolucijo in dobimo:

𝑁(𝑋;𝑚𝑋, 𝜎𝑋), 𝑁(𝑌;𝑚𝑌, 𝜎𝑌) 𝑍=𝑋±𝑌⇒ 𝑁 (𝑍;𝑚𝑍 = 𝑚𝑋 ±𝑚𝑌, 𝜎𝑍 = √𝜎𝑋

2 + 𝜎𝑌2).

Povprečna vrednost 𝑚𝑍 je vsota (razlika) povprečnih vrednosti, varianca 𝜎𝑍2 pa vedno vsota varianc.

7

6. Statistično povprečje in momenti verjetnostnih porazdelitev

Statistično povprečje Statistično povprečje 𝐸[𝑋] naključne spremenljivke 𝑋:

Diskretna 𝑋: 𝐸[𝑋] =∑𝑥𝑖 𝑃(𝑋 = 𝑥𝑖)

𝑛

𝑖=1

; zvezna 𝑋: 𝐸[𝑋] = ∫ 𝑥 𝑓𝑋(𝑥)𝑑𝑥.∞

−∞

Lastnosti: 𝐸[𝑎] = 𝑎, za 𝑎 = konst.,

𝐸[𝑎𝑋 + 𝑏𝑌] = 𝑎𝐸[𝑋] + 𝑏𝐸[𝑌],

𝐸[𝑋𝑌] = 𝐸[𝑋]𝐸[𝑌], za neodvisni 𝑋 in 𝑌,

𝐸[𝑌] = 𝐸[𝑔(𝑋)], za 𝑌 = 𝑔(𝑋).

Momenti verjetnostnih porazdelitev Začetni momenti naključne spremenljivke 𝑋:

Diskretna 𝑋: 𝑚𝑘 = 𝐸[𝑋𝑘] =∑𝑥𝑖

𝑘 𝑃(𝑋 = 𝑥𝑖)

𝑛

𝑖=1

; zvezna 𝑋: 𝑚𝑘 = 𝐸[𝑋𝑘] = ∫ 𝑥𝑘 𝑓𝑋(𝑥)𝑑𝑥.

∞

−∞

Središčni ali centralni momenti naključne spremenljivke 𝑋:

Diskretna 𝑋: 𝜇𝑘 = 𝐸[(𝑋 − 𝐸[𝑋])𝑘] =∑(𝑥𝑖 − 𝐸[𝑋])

𝑘 𝑃(𝑋 = 𝑥𝑖)

𝑛

𝑖=1

.

Zvezna 𝑋: 𝜇𝑘 = 𝐸[(𝑋 − 𝐸[𝑋])𝑘] = ∫ (𝑥 − 𝐸[𝑋])𝑘 𝑓𝑋(𝑥)𝑑𝑥.

∞

−∞

Prvi začetni moment, 𝑚1, imenujemo povprečje, 𝑚 ali srednja vrednost, drugega središčnega, 𝜇2, pa

varianca, Var(𝑋) = 𝜎𝑋2. Za izračun variance večinoma uporabljamo zvezo:

Var(𝑋) = 𝐸[𝑋2] − (𝐸[𝑋])2.

Povezani začetni in središčni momenti dvokomponentnih vektorskih naključnih spremenljivk:

𝐸[𝑋𝑗𝑌𝑘] = ∬𝑥𝑗𝑦𝑘𝑓𝑋𝑌(𝑥, 𝑦) 𝑑𝑥 𝑑𝑦,

𝐸[(𝑋 − 𝐸[𝑋])𝑗 (𝑌 − 𝐸[𝑌])𝑘] = ∬(𝑥 − 𝐸[𝑋])𝑗 (𝑦 − 𝐸[𝑌])𝑘𝑓𝑋𝑌(𝑥, 𝑦) 𝑑𝑥 𝑑𝑦.

Najpogosteje uporabljamo prvi povezani začetni moment, ki ga imenujemo korelacija 𝑅𝑋𝑌 = 𝐸[𝑋𝑌], in

prvi povezani središčni moment, ki ga imenujemo kovarianca Cov[𝑋, 𝑌] = 𝐸[(𝑋 −𝑚𝑋)(𝑌 −𝑚𝑌)].

Med njima velja zveza:

Cov[𝑋, 𝑌] = 𝑅𝑋𝑌 − 𝐸[𝑋]𝐸[𝑌].

Za neodvisni 𝑋 in 𝑌 je 𝑅𝑋𝑌 = 𝐸[𝑋]𝐸[𝑌] in Cov[𝑋, 𝑌] = 0.

8

7. Osnovni pojmi tehniške statistike, točkovno ocenjevanje

Osnovni pojmi tehniške statistike Populacija je celotna množica elementov, ki so predmet statistične raziskave. Določeno lastnost

elementov opišemo z naključno spremenljivko 𝑋, ki ima svojo verjetnostno porazdelitev 𝑓𝑋(𝑥).

Vzorec, 𝑽 = (𝑋1, 𝑋2, … , 𝑋𝑛), je množica 𝑛 meritev vrednosti 𝑋 na podmnožici populacije. Če so

𝑋1, 𝑋2, … , 𝑋𝑛 med seboj naključno neodvisni, je 𝑽 naključni vzorec.

Statistika ali vzorčna karakteristika, 𝑍𝑛 = 𝑍(𝑽), je poljubna skalarna funkcija vzorca 𝑽.

Točkovno ocenjevanje Točkovna cenilka, �̂�𝑛 = 𝑍𝑛 = 𝑍(𝑽), je statistika 𝑍, ki jo uporabimo kot oceno parametra 𝑞

porazdelitve 𝑓𝑋(𝑥) naključne spremenljivke 𝑋.

Cenilka �̂�𝑛 je dosledna, če velja: lim𝑛→∞

𝑃[|�̂�𝑛 − 𝑞| < 𝜀] = 1 za poljubno majhen pozitiven 𝜀.

Cenilka �̂�𝑛 je nepristrana, če velja: 𝐸[�̂�𝑛] = 𝑞.

Cenilka �̂�𝑛 je asimptotsko nepristrana, če velja: lim𝑛→∞

𝐸[�̂�𝑛] = lim𝑛→∞

(𝑞 + 𝑂(1 𝑛⁄ )) = 𝑞.

Pomembnejše točkovne cenilke

Vzorčno povprečje �̂� = ⟨𝑋⟩𝑛 =1

𝑛∑𝑋𝑖

𝑛

𝑖=1

dosledna, nepristrana

Vzorčna varianca 𝜎2̂ = 𝑠2 =1

𝑛∑(𝑋𝑖 − ⟨𝑋⟩𝑛)

2

𝑛

𝑖=1

dosledna, asimptotsko nepr.

Popravljena vzorčna varianca 𝜎2̂ = 𝑆2 =1

𝑛 − 1∑(𝑋𝑖 − ⟨𝑋⟩𝑛)

2

𝑛

𝑖=1


Vzorčni začetni momenti 𝑚𝑘,𝑛 = ⟨𝑋𝑘⟩𝑛 =

1

𝑛∑𝑋𝑖

𝑘

𝑛

𝑖=1


Vzorčni centralni momenti 𝜇𝑘,𝑛 = ⟨(𝑋𝑖 − ⟨𝑋⟩𝑛)𝑘⟩𝑛 =

1

𝑛∑(𝑋𝑖 − ⟨𝑋⟩𝑛)

𝑘

𝑛

𝑖=1

dosledna, asimptotsko nepr.

Vzorčna relativna frekvenca 𝑝𝑛(𝐴) =𝑛𝐴𝑛


Metoda momentov: parametre porazdelitve izrazimo z momenti porazdelitve. Uporabimo toliko

najnižjih momentov, kolikor parametrov želimo oceniti. Cenilke za parametre dobimo tako, da v izrazih

za parametre zamenjamo momente porazdelitve z ustreznimi vzorčnimi momenti.

Metoda največje zanesljivosti: tvorimo funkcijo zanesljivosti, ki ustreza verjetnosti, da pri vzorčenju

dobimo vzorec v prostornini 𝑑𝒗 okoli 𝒗: 𝐿(𝒗; 𝑞) = 𝑓𝑋(𝑥1; 𝑞) ∙ 𝑓𝑋(𝑥2; 𝑞) ∙ … ∙ 𝑓𝑋(𝑥𝑛; 𝑞). Tu je 𝒗 vzorec in

𝑞 parameter verjetnostne porazdelitve 𝑓𝑋(𝑥; 𝑞), ki ga ocenjujemo. Cenilko �̂� dobimo tako, da

zahtevamo, da je vrednost funkcije zanesljivosti maksimalna:

𝜕𝐿(𝒗; 𝑞)

𝜕𝑞= 0 ali ekvivalentno

𝜕(ln(𝐿(𝒗; 𝑞)))

𝜕𝑞= 0 → rešitev za 𝑞 je �̂�.

Argument za to metodo je, da je bil konkretni vzorec 𝒗 izmerjen zato, ker je najbolj verjeten.

9

8. Intervalno ocenjevanje parametrov

Pri intervalnem ocenjevanju parametrov na podlagi vzorca 𝑽 = (𝑋1, 𝑋2, … , 𝑋𝑛) določimo interval

zaupanja [𝑙, 𝑢], za katerega s stopnjo zaupanja (1 − 𝛼) oziroma stopnjo tveganja 𝛼 zaupamo, da

vsebuje pravo vrednost ocenjevanega parametra 𝑞: 𝑃(𝑙 ≤ 𝑞 ≤ 𝑢) = 1 − 𝛼.

Intervalne ocene so lahko dvostranske (𝑙 ≤ 𝑞 ≤ 𝑢) ali pa leve (𝑙 ≤ 𝑞) oziroma desne (𝑞 ≤ 𝑢)

enostranske. Napaka intervalne ocene je |𝑙 − 𝑞| oziroma |𝑢 − 𝑞|.

Povprečje 𝑚: porazdelitev 𝑋 normalna, 𝜎 znana → 𝑍 =⟨𝑋⟩𝑛−𝑚

𝜎 √𝑛⁄, 𝑧𝛼 2⁄ : 𝛷(𝑧𝛼 2⁄ ) = (1 − 𝛼) 2⁄

⟨𝑋⟩𝑛 − 𝑧𝛼 2⁄

𝜎

√𝑛< 𝑚 < ⟨𝑋⟩𝑛 + 𝑧𝛼 2⁄

𝜎

√𝑛

Povprečje 𝑚: porazdelitev 𝑋 poljubna, 𝜎 neznana, 𝑛 > 30 → 𝑍 =⟨𝑋⟩𝑛−𝑚

𝑆 √𝑛⁄

⟨𝑋⟩𝑛 − 𝑧𝛼 2⁄

𝑆

√𝑛< 𝑚 < ⟨𝑋⟩𝑛 + 𝑧𝛼 2⁄

𝑆

√𝑛

Povprečje 𝑚: porazdelitev 𝑋 normalna, 𝜎 neznana, 𝑛 < 30 → 𝑇 =⟨𝑋⟩𝑛−𝑚

𝑆 √𝑛⁄, 𝑡𝑛−1; 𝛼 2⁄ : iz tabele

⟨𝑋⟩𝑛 − 𝑡𝑛−1; 𝛼 2⁄

𝑆

√𝑛< 𝑚 < ⟨𝑋⟩𝑛 + 𝑡𝑛−1; 𝛼 2⁄

𝑆

√𝑛

Varianca 𝜎2: porazdelitev 𝑋 normalna → 𝜒2 =(𝑛−1)𝑆2

𝜎2, 𝜒𝑛−1; 𝛼/22 , 𝜒𝑛−1; 1−𝛼/2

2 : iz tabele

(𝑛 − 1)𝑆2

𝜒𝑛−1; 𝛼/22 < 𝜎2 <

(𝑛 − 1)𝑆2

𝜒𝑛−1; 1−𝛼/22

Delež populacije 𝑝: porazdelitev 𝑋 binomska, lahko jo aproksimiramo z normalno

�̂� − 𝑧𝛼 2⁄ √�̂�(1 − �̂�)

𝑛< 𝑝 < �̂� + 𝑧𝛼 2⁄ √

�̂�(1 − �̂�)

𝑛

Vsota/razlika povprečij 𝑚1 ±𝑚2: porazdelitvi 𝑋1, 𝑋2 normalni, 𝜎1, 𝜎2 znani

⟨𝑋1⟩𝑛 ± ⟨𝑋2⟩𝑛 − 𝑧𝛼 2⁄ √𝜎12

𝑛1+𝜎22

𝑛2< 𝑚1 ±𝑚2 < ⟨𝑋1⟩𝑛 ± ⟨𝑋2⟩𝑛 + 𝑧𝛼 2⁄ √

𝜎12

𝑛1+𝜎22

𝑛2

Vsota/razl. povpr. 𝑚1 ±𝑚2: 𝑋1, 𝑋2 normalni, 𝜎1, 𝜎2 neznani, 𝑛1, 𝑛2 < 30; 𝑆𝑝 = √(𝑛1−1)𝑆1

2+(𝑛2−1)𝑆22

𝑛1+𝑛2−2

⟨𝑋1⟩𝑛 ± ⟨𝑋2⟩𝑛 − 𝑡𝑛1+𝑛2−2; 𝛼 2⁄ 𝑆𝑝√1

𝑛1+1

𝑛2< 𝑚1 ±𝑚2 < ⟨𝑋1⟩𝑛 ± ⟨𝑋2⟩𝑛 + 𝑡𝑛1+𝑛2−2; 𝛼 2⁄ 𝑆𝑝√

1

𝑛1+1

𝑛2

Vsota/razlika deležev populacij 𝑝1 ± 𝑝2: porazdelitvi 𝑋1, 𝑋2 binomski, lahko ju aproksimiramo z

normalnima

�̂�1 ± �̂�2 − 𝑧𝛼 2⁄ √�̂�1(1 − �̂�1)

𝑛1+�̂�2(1 − �̂�2)

𝑛2< 𝑝1 ± 𝑝2 < �̂�1 ± �̂�2 + 𝑧𝛼 2⁄ √

�̂�1(1 − �̂�1)

𝑛1+�̂�2(1 − �̂�2)

𝑛2

10

9. Preverjanje parametričnih hipotez

Statistična hipoteza je trditev o parametru ali verjetnostni porazdelitvi ene ali več populacij. Če se

hipoteza nanaša na parameter porazdelitve, jo imenujemo parametrična. Preverjanje hipoteze

(statistični test) je postopek ugotavljanja njene pravilnosti.

Preverjano hipotezo imenujemo ničelna hipoteza 𝐻0, njej nasprotujočo hipotezo pa alternativna

hipoteza 𝐻1. Ničelna hipoteza vedno trdi, da je parameter 𝑞 porazdelitve populacije enak neki

vrednosti 𝑞0: 𝐻0(𝑞 = 𝑞0), alternativna pa, da bodisi ni enak – dvostranska: 𝐻1(𝑞 ≠ 𝑞0), da je manjši –

leva enostranska: 𝐻1(𝑞 < 𝑞0) ali večji – desna enostranska: 𝐻1(𝑞 > 𝑞0).

Hipoteze preverjamo v osmih korakih:

1. Glede na nalogo izberemo parameter porazdelitve, katerega vrednost preverjamo.

2. Za izbrani parameter postavimo ničelno hipotezo 𝐻0.

3. Glede na nalogo postavimo alternativno hipotezo 𝐻1, ki je lahko dvostranska, leva enostranska

ali desna enostranska.

4. Izberemo stopnjo značilnosti testa 𝛼, običajno vzamemo 𝛼 = 0,05.

5. Na podlagi cenilke v 1. koraku izbranega parametra izberemo primerno testno statistiko.

6. Za izbrano testno statistiko določimo področje zavračanja 𝑆𝐶.

7. Izračunamo vrednost testne statistike.

8. Glede na (ne)vključenost vrednosti testne statistike v področje zavračanja 𝑆𝐶 ničelno hipotezo

𝐻0 zavrnemo ali ne in odločitev utemeljimo.

Pri testiranju hipotez so glede na dejansko veljavnost 𝐻0 možne naslednje štiri situacije:

𝐻0 dejansko pravilna 𝐻0 dejansko nepravilna

𝐻0 s testom zavrnemo Napaka 1. vrste, 𝑃 = 𝛼 Pravilna odločitev, 𝑃 = 1 − 𝛽

𝐻0 s testom ne zavrnemo Pravilna odločitev, 𝑃 = 1 − 𝛼 Napaka 2. vrste, 𝑃 = 𝛽

Napako 1. vrste (tveganje proizvajalca/dobavitelja) naredimo, če zavrnemo dejansko pravilno ničelno

hipotezo 𝐻0. Verjetnost 𝛼 za nastop napake 1. vrste izberemo pred izvajanjem testa.

Napako 2. vrste (tveganje kupca) naredimo, če ne zavrnemo dejansko nepravilne ničelne hipoteze 𝐻0.

Verjetnosti 𝛽 za nastop napake 2. vrste ne moremo določiti vnaprej, ker je odvisna od dejanskega

stanja preverjane populacije, ki ga ne poznamo.

P vrednost testa (𝑝) je najmanjša vrednost stopnje značilnosti 𝛼, s katero še zavrnemo ničelno

hipotezo 𝐻0 pri danem vzorcu.

11

V nadaljevanju so navedeni primeri pogostejših testnih statistik in ustreznih območij zavračanja.

Zapisani so le primeri dvostranskih 𝐻1. V primeru enostranske 𝐻1 ohranimo le ustrezno mejo intervala

zavračanja kjer nadomestimo 𝛼/2 z 𝛼.

Povprečje 𝑚 a) normalno porazdeljene populacije z znano varianco in poljubnim 𝑛 ali b) poljubno

porazdeljene populacije z neznano varianco in 𝑛 > 30, kjer ocenimo 𝜎 = √𝑆2:

𝐻0(𝑚 = 𝑚0), 𝐻1(𝑚 ≠ 𝑚0), 𝑍 =⟨𝑋⟩𝑛 −𝑚0

𝜎 √𝑛⁄, 𝑆𝐶 = {(𝑧 < −𝑧𝛼 2⁄ ) ∪ (𝑧 > 𝑧𝛼 2⁄ )}

Povprečje 𝑚 normalno porazdeljene populacije z neznano varianco in 𝑛 < 30:

𝐻0(𝑚 = 𝑚0), 𝐻1(𝑚 ≠ 𝑚0), 𝑇 =⟨𝑋⟩𝑛 −𝑚0

𝑆 √𝑛⁄, 𝑆𝐶 = {(𝑡 < −𝑡𝑛−1; 𝛼 2⁄ ) ∪ (𝑡 > 𝑡𝑛−1; 𝛼 2⁄ )}

Varianca 𝜎2 normalno porazdeljene populacije:

𝐻0(𝜎2 = 𝜎0

2), 𝐻1(𝜎2 ≠ 𝜎0

2), 𝜒2 =(𝑛 − 1)𝑆2

𝜎02 , 𝑆𝐶 = {(𝜒

2 < 𝜒𝑛−1; 1−𝛼 2⁄2 ) ∪ (𝜒2 > 𝜒𝑛−1; 𝛼 2⁄

2 )}

Delež populacije 𝑝, če lahko binomsko porazdelitev aproksimiramo z normalno:

𝐻0(𝑝 = 𝑝0), 𝐻1(𝑝 ≠ 𝑝0), 𝑍 =�̂� − 𝑝0

√𝑝0(1 − 𝑝0)𝑛

, 𝑆𝐶 = {(𝑧 < −𝑧𝛼 2⁄ ) ∪ (𝑧 > 𝑧𝛼 2⁄ )}

Vsota/razlika povprečij 𝑚1 ±𝑚2 a) normalno porazdeljenih populacij z znanima variancama in

poljubnima 𝑛1 in 𝑛2 ali b) poljubno porazdeljenih populacij z neznanima variancama in 𝑛1, 𝑛2 > 30,

kjer ocenimo 𝜎1,22 = 𝑆1,2

2 :

𝐻0(𝑚1 ±𝑚2 = ∆0), 𝐻1(𝑚1 ±𝑚2 ≠ ∆0), 𝑍 =⟨𝑋1⟩𝑛1 ± ⟨𝑋2⟩𝑛2 − ∆0

√𝜎12

𝑛1+𝜎22

𝑛2

, 𝑆𝐶 = {(𝑧 < −𝑧𝛼 2⁄ ) ∪ (𝑧 > 𝑧𝛼 2⁄ )}

Vsota/razlika povprečij 𝑚1 ±𝑚2 normalno porazdeljenih populacij z neznanima, a podobnima

variancama in poljubnima 𝑛1 in 𝑛2, 𝑆𝑝 = √(𝑛1−1)𝑆1

2+(𝑛2−1)𝑆22

𝑛1+𝑛2−2:

𝐻0(𝑚1 ±𝑚2 = ∆0), 𝐻1(𝑚1 ±𝑚2 ≠ ∆0), 𝑇 =⟨𝑋1⟩𝑛1 ± ⟨𝑋2⟩𝑛2 − ∆0

𝑆𝑝√1𝑛1+1𝑛2

, 𝑆𝐶 = {(𝑡 < −𝑡𝑛1+𝑛2−2; 𝛼 2⁄ ) ∪ (𝑡 > 𝑡𝑛1+𝑛2−2; 𝛼 2⁄ )}

Vsota/razlika deležev populacij 𝑝1 ± 𝑝2, če lahko binomski porazdelitvi aproksimiramo z normalnima:

𝐻0(𝑝1 ± 𝑝2 = ∆0), 𝐻1(𝑝1 ± 𝑝2 ≠ ∆0), 𝑍 =�̂�1 ± �̂�2 − ∆0

√�̂�1(1 − �̂�1)

𝑛1+�̂�2(1 − �̂�2)

𝑛2

, 𝑆𝐶 = {(𝑧 < −𝑧𝛼 2⁄ ) ∪ (𝑧 > 𝑧𝛼 2⁄ )}

Razmerje varianc 𝜎12 𝜎2

2⁄ normalno porazdeljenih populacij:

𝐻0 (𝜎12

𝜎22 = ∆0) , 𝐻1 (

𝜎12

𝜎22 ≠ ∆0) , 𝐹 =

𝑆12 𝜎1

2⁄

𝑆22 𝜎2

2⁄=

𝑆12

𝑆22 ∆0

, 𝑆𝐶 = {(𝑓 < 1/𝑓𝑛2−1,𝑛1−1; 𝛼 2⁄ ) ∪ (𝑓 > 𝑓𝑛1−1,𝑛2−1; 𝛼 2⁄ )}

Pri tem smo uporabili lastnost Snedecorjeve porazdelitve: 𝑓𝑛1−1,𝑛2−1; 1−𝛼 2⁄ = 1 𝑓𝑛2−1,𝑛1−1; 𝛼 2⁄⁄ .

12

10. Preverjanje neparametričnih hipotez

Prilagoditveni test Hipotezi se nanašata na tip porazdelitvene funkcije. Ničelna hipoteza 𝐻0 trdi, da je obravnavana

naključna spremenljivka 𝑋 porazdeljena z verjetnostno porazdelitvijo 𝑓0(𝑥), alternativna pa, da to ne

drži: 𝐻0(𝑓(𝑥) = 𝑓0(𝑥)) in 𝐻1(𝑓(𝑥) ≠ 𝑓0(𝑥)).

𝐻0 preverimo na podlagi naključnega vzorca 𝒗 = (𝑥1, 𝑥2,⋯ , 𝑥𝑛). Razpon vzorca razdelimo na 𝑟

intervalov oziroma razredov in določimo število (frekvenco) 𝑛𝑖 meritev iz vzorca, ki pripada

posameznemu razredu. 𝐻0 nato preverimo s primerjavo vzorčnih frekvenc 𝑛𝑖 in predpostavljenih

frekvenc 𝑛𝑖0 = 𝑝𝑖0𝑛, ki jih izračunamo na podlagi v 𝐻0 predpostavljene porazdelitve. Za izračun

verjetnosti 𝑝𝑖0 nadomestimo parametre porazdelitve 𝑓0(𝑥) s cenilkami iz danega vzorca. Za primerjavo

uporabimo testno statistiko, ki je utežena vsota kvadratov relativne razlike frekvenc:

𝜒2 =∑(𝑛𝑖 − 𝑛𝑖0𝑛𝑖0

)

2

𝑛𝑖0

𝑟

𝑖=1

=∑(𝑛𝑖 − 𝑛𝑖0)

2

𝑛𝑖0

𝑟

𝑖=1

= 𝑛∑(𝑝𝑖 − 𝑝𝑖0)

2

𝑝𝑖0

𝑟

𝑖=1

= (∑𝑛𝑖2

𝑛𝑖0

𝑟

𝑖=1

) − 𝑛.

Porazdelitev testne statistike 𝜒2 se asimptotično bliža porazdelitvi 𝜒𝑟−𝑙−12 , kjer je 𝑙 število parametrov

predpostavljene porazdelitve, ki smo jih morali oceniti iz vzorca, da smo lahko izračunali frekvence 𝑛𝑖0.

Pri normalni porazdelitvi je 𝑙 = 2, pri eksponentni in Poissonovi 𝑙 = 1 in pri enakomerni 𝑙 = 0. Če je 𝑛

velik in če je 𝑛𝑖 > 5 za vsak razred, je porazdelitev statistike 𝜒2 zelo podobna porazdelitvi 𝜒𝑟−𝑙−12 . Če

vrednost testne statistike presega kritično vrednost 𝜒𝑟−𝑙−1; 𝛼2 , 𝐻0 zavrnemo. Za večjo preglednost

računa navadno naredimo tabelo s stolpci 𝑥𝑖, 𝑛𝑖, 𝑛𝑖2, 𝑛𝑖0 = 𝑝𝑖0𝑛 in 𝑛𝑖

2 𝑛𝑖0⁄ . Vrednost testne statistike je

po gornji enačbi enaka vsoti zadnjega stolpca minus 𝑛.

Test neodvisnosti Hipotezi se nanašata na (ne)odvisnost dveh naključnih spremenljivk oziroma vplivov 𝑋 in 𝑌, katerih

vrednosti lahko razdelimo na 𝑟 oziroma 𝑐 razredov. Na vzorcu 𝑛 vrednosti za vsak par razredov (𝑥𝑖, 𝑦𝑗)

določimo frekvence 𝑛𝑖𝑗 in jih vpišemo v kontingenčno tabelo, kjer znak ∗ na mestu indeksa pomeni

vsoto po tem indeksu: 𝑛𝑖∗ = ∑ 𝑛𝑖𝑗𝑐𝑗=1 ali 𝑛∗𝑗 = ∑ 𝑛𝑖𝑗

𝑟𝑖=1 :

𝑌

𝑛𝑖∗ 𝑦1 𝑦2 ⋯ 𝑦𝑐

𝑋

𝑥1 𝑛11 𝑛12 ⋯ 𝑛1𝑐 𝑛1∗

𝑥2 𝑛21 𝑛22 ⋯ 𝑛2𝑐 𝑛2∗

⋮ ⋮ ⋮ ⋮ ⋮ ⋮

𝑥𝑟 𝑛𝑟1 𝑛𝑟2 ⋯ 𝑛𝑟𝑐 𝑛𝑟∗

𝑛∗𝑗 𝑛∗1 𝑛∗2 ⋯ 𝑛∗𝑐 𝑛∗∗ = 𝑛

Ničelna hipoteza pri tem testu trdi, da sta 𝑋 in 𝑌 neodvisni, alternativna hipoteza pa, da nista:

𝐻0 (𝑝𝑖𝑗 = 𝑝𝑖 ∙ 𝑝𝑗 , za vsak par (𝑖, 𝑗)) , 𝐻1 (𝑝𝑖𝑗 ≠ 𝑝𝑖 ∙ 𝑝𝑗 , za vsaj en par (𝑖, 𝑗)).

Predpostavljeno povezano verjetnost 𝑝𝑖𝑗0 na podlagi 𝐻0 izračunamo s produktom robnih relativnih

frekvenc: 𝑝𝑖𝑗0 = 𝑝𝑖0𝑝𝑗0 = 𝑛𝑖∗𝑛∗𝑗 𝑛2⁄ . Ničelno hipotezo preverimo s testno statistiko:

13

𝜒2 = 𝑛∑∑(𝑝𝑖𝑗 − 𝑝𝑖𝑗0)

2

𝑝𝑖𝑗0

𝑐

𝑗=1

𝑟

𝑖=1

= 𝑛∑∑(𝑛𝑖𝑗 − 𝑛𝑖∗𝑛∗𝑗/𝑛)

2

𝑛𝑖∗𝑛∗𝑗

𝑐

𝑗=1

𝑟

𝑖=1

= 𝑛(∑∑𝑛𝑖𝑗2


𝑐

𝑗=1

𝑟

𝑖=1

− 1).

Testna statistika 𝜒2 je 𝜒(𝑟−1)(𝑐−1)2 porazdeljena. V kolikor je vrednost testne statistike večja od kritične

vrednosti 𝜒(𝑟−1)(𝑐−1); 𝛼2 , 𝐻0 zavrnemo.

Test homogenosti Hipotezi se nanašata na (ne)homogenost 𝑟 skupin glede na predpisani kriterij, ki ima 𝑐 možnih

vrednosti. Za vsako skupino imamo vzorec z 𝑛𝑖 vrednostmi, ki so glede na kriterij razdeljene v 𝑐

razredov. Tako določimo frekvence 𝑛𝑖𝑗, ki jih vpišemo v kontingenčno tabelo, ki je podobna kot pri

testu neodvisnosti, le da so v tem primeru robne frekvence 𝑛𝑖 = 𝑛𝑖∗ določene že pred testom z

velikostjo vzorca posamezne skupine in niso odvisne od razvrščanja:

Kriterij

𝑛𝑖∗ = 𝑛𝑖 𝑦1 𝑦2 ⋯ 𝑦𝑐

Skupine

𝑥1 𝑛11 𝑛12 ⋯ 𝑛1𝑐 𝑛1∗ = 𝑛1

𝑥2 𝑛21 𝑛22 ⋯ 𝑛2𝑐 𝑛2∗ = 𝑛2

⋮ ⋮ ⋮ ⋮ ⋮ ⋮

𝑥𝑟 𝑛𝑟1 𝑛𝑟2 ⋯ 𝑛𝑟𝑐 𝑛𝑟∗ = 𝑛𝑟

𝑛∗𝑗 𝑛∗1 𝑛∗2 ⋯ 𝑛∗𝑐 𝑛∗∗ = 𝑛

Ničelna hipoteza pri tem testu trdi, da so skupine homogene glede na kriterij, alternativna hipoteza pa,

da niso:

𝐻0(𝑝1𝑗 = 𝑝2𝑗 = ⋯ = 𝑝𝑟𝑗 = 𝑝∗𝑗, za vsak 𝑗), 𝐻1 (𝑝𝑖𝑗 ≠ 𝑝𝑘𝑗, za vsaj eno trojico (𝑖, 𝑗, 𝑘)).

Predpostavljeno verjetnost za vsak razred kriterija ocenimo s 𝑝∗𝑗0 = 𝑛∗𝑗 𝑛⁄ . Predpostavljene vrednosti

𝑝𝑖𝑗0 so torej 𝑝𝑖𝑗0 = 𝑛𝑖𝑝∗𝑗0 𝑛⁄ = 𝑛𝑖∗𝑛∗𝑗 𝑛2⁄ . Cenilka za 𝑝𝑖𝑗0 je enaka kot pri testu neodvisnosti, zato je

tudi testna statistika enaka:

𝜒2 = 𝑛∑∑(𝑝𝑖𝑗 − 𝑝𝑖𝑗0)

2

𝑝𝑖𝑗0

𝑐

𝑗=1

𝑟

𝑖=1

= 𝑛∑∑(𝑛𝑖𝑗 − 𝑛𝑖∗𝑛∗𝑗/𝑛)

2


𝑐

𝑗=1

𝑟

𝑖=1

= 𝑛(∑∑𝑛𝑖𝑗2


𝑐

𝑗=1

𝑟

𝑖=1

− 1).

Testna statistika je 𝜒(𝑟−1)(𝑐−1)2 porazdeljena. V kolikor je vrednost testne statistike večja od kritične

vrednosti 𝜒(𝑟−1)(𝑐−1); 𝛼2 , 𝐻0 zavrnemo.

14

11. Analiza variance in linearna regresija

Analiza variance (ANOVA) Vpliv nekega faktorja na določeno lastnost opazovanega procesa/izdelka lahko preverimo s testom, ki

se imenuje analiza variance. Pri tem preverjamo enakost povprečij 𝑟 populacij, kjer je 𝑟 ≥ 2 in ki

ustrezajo 𝑟 nivojem (različnim vrednostim) faktorja vpliva. Pri testu predpostavljamo, da so populacije

normalno porazdeljene in da imajo podobne variance.

Ničelna hipoteza trdi, da so povprečja vseh populacij med seboj enaka: 𝐻0(𝑚1 = 𝑚2 = ⋯ = 𝑚𝑟),

alternativna pa, da se vsaj eno povprečje razlikuje od drugih: 𝐻1(𝑚𝑖 ≠ 𝑚𝑗, za vsaj en par (𝑖, 𝑗)). Za

preverjanje 𝐻0 potrebujemo iz vsake od 𝑟 populacij po en vzorec z 𝑛𝑖 elementi, skupaj torej 𝑟 vzorcev s

skupaj 𝑛 = ∑ 𝑛𝑖𝑟𝑖=1 elementi.

Test temelji na primerjavi odstopanja izmerjene spremenljivke med vzorci z odstopanjem

spremenljivke znotraj vzorcev. Odstopanje med vzorci izrazimo s povprečnim kvadratičnim

odstopanjem 𝑆12 med povprečji vzorca in celotnim povprečjem, odstopanje znotraj vzorcev pa s

povprečnim kvadratičnim odstopanjem 𝑆22 med meritvami vzorca in povprečji vzorcev. V kolikor so

odstopanja med vzorci značilno večja kot odstopanja znotraj vzorcev, 𝐻0 zavrnemo. Za testiranje

uporabimo testno statistiko 𝐹:

𝐹 =𝑆12

𝑆22,

ki je Snedecorjevo porazdeljena s številom prostostnih stopenj (𝑟 − 1, 𝑛 − 𝑟). Interval zavračanja je

𝑆𝐶 = (𝑓𝑟−1,𝑛−𝑟; 𝛼,∞). Količine, potrebne za izračun testne statistike, vpisujemo v naslednjo tabelo:

Odstopanje

Vsota kvadratičnih

odstopanj 𝑆𝑆

Število prostostnih

stopenj 𝑑𝑓

Povprečje kvadratičnih

odstopanj 𝑀𝑆

Testna

statistika 𝐹

Med skupinami

𝑞1 𝑟 − 1 𝑆12 =

𝑞1𝑟 − 1

𝐹 =𝑆12

𝑆22

Znotraj skupin

𝑞2 𝑛 − 𝑟 𝑆22 =

𝑞2𝑛 − 𝑟

Celotno 𝑞 𝑛 − 1

Za izračun vrednosti v tabeli uporabimo naslednje formule:

𝑛 =∑𝑛𝑖

𝑟

𝑖=1

, 𝑞 = (∑∑𝑥𝑖𝑗2

𝑛𝑖

𝑗=1

𝑟

𝑖=1

) − 𝑛𝑚2,

𝑚𝑖 =1

𝑛𝑖∑𝑥𝑖𝑗

𝑛𝑖

𝑗=1

, 𝑞1 = (∑𝑛𝑖𝑚𝑖2

𝑟

𝑖=1

) − 𝑛𝑚2,

𝑚 =1

𝑛∑∑𝑥𝑖𝑗

𝑛𝑖

𝑗=1

𝑟

𝑖=1

=1

𝑛∑𝑛𝑖𝑚𝑖

𝑟

𝑖=1

, 𝑞2 = 𝑞 − 𝑞1.

15

Linearna regresija S korelacijskim koeficientom 𝑟 opišemo primernost uporabe linearne regresije za ocenjevanje

medsebojne odvisnosti naključnih spremenljivk 𝑋 in 𝑌:

𝑟 =Cov[𝑋, 𝑌]

√Var[𝑋]∙Var[𝑌].

Zaloga vrednosti za 𝑟 je [−1, 1]. Vrednosti |𝑟| ≈ 1 kažejo na izrazito linearno odvisnost med 𝑋 in 𝑌,

medtem ko vrednosti |𝑟| < 0,5 kažejo, da je regresijska premica neprimerna za upodobitev

povezanosti 𝑋 in 𝑌, saj sta spremenljivki bodisi neodvisni ali pa je njuna odvisnost nelinearna. Linearno

regresijo je smiselno uporabljati, če je 𝑟 ≥ 0,75.

Na podlagi vzorca meritev {(𝑥1, 𝑦1), (𝑥2, 𝑦2),⋯ , (𝑥𝑛, 𝑦𝑛)} določimo cenilko �̂� korelacijskega koeficienta

𝑟 tako, da v gornji enačbi kovarianco in varianci nadomestimo z ustreznimi vzorčnimi količinami:

Cov[𝑋, 𝑌] = E[𝑋𝑌] − E[𝑋]E[𝑌] → Cov̂[𝑋, 𝑌] =1

𝑛∑𝑥𝑖𝑦𝑖

𝑛

𝑖=1

−1

𝑛2∑𝑥𝑖

𝑛

𝑖=1

∑𝑦𝑖

𝑛

𝑖=1

,

Var[𝑋] = E[𝑋2] − 𝐸[𝑋]2 → Var̂[𝑋] =1

𝑛∑𝑥𝑖

2

𝑛

𝑖=1

− (1

𝑛∑𝑥𝑖

𝑛

𝑖=1

)

2

,

Var[𝑌] = E[𝑌2] − 𝐸[𝑌]2 → Var̂[𝑌] =1

𝑛∑𝑦𝑖

2

𝑛

𝑖=1

− (1

𝑛∑𝑦𝑖

𝑛

𝑖=1

)

2

.

Pri linearni regresiji vzamemo za matematični model odvisnosti linearno funkcijo:

𝑌 = 𝑎𝑋 + 𝑏,

cilj pa je določiti regresijska koeficienta 𝑎 in 𝑏 tako, da bo vsota kvadratov odstopanj med meritvami in

regresijsko premico najmanjša. Rešitev je:

𝑎 =Cov[𝑋, 𝑌]

Var[𝑋], 𝑏 = E[𝑌] − 𝑎E[𝑋].

Cenilki �̂� in �̂� koeficientov 𝑎 in 𝑏 določimo na podlagi vzorca meritev z gornjima enačbama, kjer

uporabimo vzorčne količine kot pri korelacijskem koeficientu.

Z linearnim modelom si lahko pomagamo tudi, kadar zveza med spremenljivkama 𝑋 in 𝑌 ni linearna. V

nekaterih primerih zvezo lahko lineariziramo z logaritmiranjem ali z uvedbo nove spremenljivke:

Izvorna zveza Linearizirana zveza

𝑌 = 𝑏𝑒𝑎𝑋 → 𝑍 = ln 𝑏 + 𝑎𝑋, kjer je 𝑍 = ln𝑌,

𝑌 = 𝑎𝑋2 + 𝑏 → 𝑌 = 𝑎𝑍 + 𝑏, kjer je 𝑍 = 𝑋2.

16

12. Naključni procesi

Povprečna vrednost 𝐸[𝑋(𝑡1)] naključnega procesa 𝑋(𝑡) pri času 𝑡1 je definirana z:

𝐸[𝑋(𝑡1)] = ∫ 𝑥 𝑓𝑋(𝑡1)(𝑥) 𝑑𝑥.

po zalogi vrednosti 𝑋

Avtokorelacijska funkcija 𝑅𝑋𝑋(𝑡1, 𝑡2) naključnega procesa 𝑋(𝑡) pri časih 𝑡1 in 𝑡2 je definirana z:

𝑅𝑋𝑋(𝑡1, 𝑡2) = 𝐸[𝑋(𝑡1)𝑋(𝑡2)] = ∬ 𝑥1𝑥2 𝑓𝑋(𝑡1)𝑋(𝑡2)(𝑥1, 𝑥2) 𝑑𝑥1𝑑𝑥2po zalogi vrednosti

𝑋(𝑡1) in 𝑋(𝑡2)

.

Stacionarnost naključnega procesa 𝑋(𝑡) v ožjem (=strogem) pomenu:

𝑃(𝑋(𝑡1) ≤ 𝑥1, 𝑋(𝑡2) ≤ 𝑥2,⋯ ) = 𝑃(𝑋(𝑡1 + 𝑡0) ≤ 𝑥1, 𝑋(𝑡2 + 𝑡0) ≤ 𝑥2,⋯ ).

Stacionarnost naključnega procesa 𝑋(𝑡) v širšem (=blagem) pomenu:

𝐸[𝑋(𝑡1)] = 𝐸[𝑋(𝑡1 + 𝑡0)] = konst.,

𝑅𝑋𝑋(𝑡1, 𝑡2) = 𝑅𝑋𝑋(𝑡1 − 𝑡2) = 𝑅𝑋𝑋(𝜏).

Lastnosti avtokorelacijske funkcije 𝑅𝑋𝑋(𝜏) stacionarnega naključnega procesa:

𝑅𝑋𝑋(𝜏) = 𝑅𝑋𝑋(−𝜏) (sodost),

𝑅𝑋𝑋(𝜏 = 0) = 𝐸[𝑋(0)2] = 𝑀 (vrednost pri 𝜏 = 0 je enaka moči signala 𝑀),

𝑅𝑋𝑋(𝜏 = 0) ≥ 𝑅𝑋𝑋(𝜏) (največja vrednost je dosežena pri 𝜏 = 0),

za periodični naključni proces je tudi 𝑅𝑋𝑋(𝜏) periodična z enako periodo.

Križnokorelacijska funkcija 𝑅𝑋𝑌(𝑡1, 𝑡2), uporabna pri opisu vektorskega naključnega procesa

𝒁(𝑡) = (𝑋(𝑡), 𝑌(𝑡)), je definirana z:

𝑅𝑋𝑌(𝑡1, 𝑡2) = 𝐸[𝑋(𝑡1)𝑌(𝑡2)] = ∬𝑥 𝑦 𝑓𝑋(𝑡1)𝑌(𝑡2)(𝑥, 𝑦) 𝑑𝑥 𝑑𝑦.

Ergodičnost naključnega procesa 𝑋(𝑡). Naj bo 𝑔(𝑋(𝑡1),⋯ , 𝑋(𝑡𝑛)) poljubna merljiva funkcija, za katero

obstaja povprečje po parametru 𝑡:

�̅�(𝑋(𝑡1),⋯ , 𝑋(𝑡𝑛)) = lim𝑇→∞

1

𝑇∫ 𝑔(𝑋(𝑡1 + 𝑡′),⋯ , 𝑋(𝑡𝑛 + 𝑡′)) 𝑑𝑡′

𝑇/2

−𝑇/2

.

Proces 𝑋(𝑡) je ergodičen, če je to povprečje enako povprečju po skupini: 𝑃(�̅� = 𝐸[𝑔]) = 1.

17

Iz vzorčnih funkcij 𝑥(𝑡) = {𝑥1, 𝑥2, ⋯ , 𝑥𝑛} in 𝑦(𝑡) = {𝑦1, 𝑦2, ⋯ , 𝑦𝑛} stacionarnih ergodičnih procesov

𝑋(𝑡) in 𝑌(𝑡) lahko oceno avtokorelacijske in križnokorelacijske funkcije dobimo po enačbah:

�̂�𝑋𝑋(𝑡) =1

𝑛 − 𝑡∑𝑥𝑖 𝑥𝑖+𝑡 ,

𝑛−𝑡

𝑖=1

�̂�𝑋𝑌(𝑡) =1

𝑛 − 𝑡∑𝑥𝑖 𝑦𝑖+𝑡 ,

𝑛−𝑡

𝑖=1

kjer je 𝑡 = 0,1,⋯ , 𝑛 − 1 diskretizirani čas.

Spektralna gostota 𝑆𝑋𝑋(𝜔) stacionarnega naključnega procesa je definirana kot Fourierjeva

transformacija avtokorelacijske funkcije 𝑅𝑋𝑋(𝑡):

𝑆𝑋𝑋(𝜔) = ∫ 𝑅𝑋𝑋(𝑡) 𝑒−𝑖𝜔𝑡 𝑑𝑡

∞

−∞

.

Fizikalni pomen spektralne gostote. Avtokorelacijsko funkcijo 𝑅𝑋𝑋(𝑡) lahko izrazimo kot obratno

Fourierjevo transformacijo spektralne gostote 𝑆𝑋𝑋(𝜔):

𝑅𝑋𝑋(𝑡) =1

2𝜋∫ 𝑆𝑋𝑋(𝜔) 𝑒

𝑖𝜔𝑡 𝑑𝜔

∞

−∞

.

Avtokorelacijska funkcija pri 𝑡 = 0 je torej:

𝑅𝑋𝑋(0) =1

2𝜋∫ 𝑆𝑋𝑋(𝜔) 𝑑𝜔

∞

−∞

= ∫ 𝑆𝑋𝑋(2𝜋𝑓) 𝑑𝑓

∞

−∞

= 𝑀,

kjer smo upoštevali zvezo med krožno in navadno frekvenco 𝜔 = 2𝜋𝑓 ter lastnost, da je 𝑅𝑋𝑋(𝑡 = 0)

enaka moči signala 𝑀. Sledi zveza:

𝑆𝑋𝑋(2𝜋𝑓) =𝑑𝑀

𝑑𝑓,

kar pomeni, da je spektralna gostota 𝑆𝑋𝑋(2𝜋𝑓) gostota moči, ki jo komponente s frekvenco 𝑓 v

intervalu širine 𝑑𝑓 prispevajo k celotni moči 𝑀 signala 𝑥(𝑡).

Documents

Naključni pojavi - formule za vaje 2017 Vsebinalab.fs.uni-lj.si/lasin/wp/IMIT_files/nakljucni/vaje/2017... · 2017-10-03 · Verjetnost za nastop napake 1. vrste izberemo pred izvajanjem