Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
1
Naključni pojavi - formule za vaje
2017
Vsebina 1. Dogodki, verjetnost ............................................................................................................................. 2
2. Naključna spremenljivka in porazdelitev verjetnosti .......................................................................... 3
3. Verjetnostne porazdelitve diskretnih naključnih spremenljivk .......................................................... 4
4. Verjetnostne porazdelitve zveznih naključnih spremenljivk .............................................................. 5
5. Vektorske naključne spremenljivke, funkcije naključnih spremenljivk .............................................. 6
6. Statistično povprečje in momenti verjetnostnih porazdelitev ........................................................... 7
7. Osnovni pojmi tehniške statistike, točkovno ocenjevanje ................................................................. 8
8. Intervalno ocenjevanje parametrov ................................................................................................... 9
9. Preverjanje parametričnih hipotez ................................................................................................... 10
10. Preverjanje neparametričnih hipotez ........................................................................................... 12
11. Analiza variance in linearna regresija ........................................................................................... 14
12. Naključni procesi ........................................................................................................................... 16
2
1. Dogodki, verjetnost
Dogodki Simboli: 𝑆 .. vzorčni prostor/gotov dogodek; ∅ .. nemogoč dogodek; 𝐴, 𝐵, 𝐶 .. dogodki (𝐴, 𝐵, 𝐶 ⊂ 𝑆).
Lastnost Presek 𝐴 ∩ 𝐵 Unija 𝐴 ∪ 𝐵
komutativnost 𝐴 ∩ 𝐵 = 𝐵 ∩ 𝐴 𝐴 ∪ 𝐵 = 𝐵 ∪ 𝐴 asociativnost (𝐴 ∩ 𝐵) ∩ 𝐶 = 𝐴 ∩ (𝐵 ∩ 𝐶) (𝐴 ∪ 𝐵) ∪ 𝐶 = 𝐴 ∪ (𝐵 ∪ 𝐶)
vključenost (𝐴 ∩ 𝐵) ⊂ 𝐴 ∧ (𝐴 ∩ 𝐵) ⊂ 𝐵 𝐴 ⊂ (𝐴 ∪ 𝐵) ∧ 𝐵 ⊂ (𝐴 ∪ 𝐵) distributivnost 𝐴 ∩ (𝐵 ∪ 𝐶) = (𝐴 ∩ 𝐵) ∪ (𝐴 ∩ 𝐶) 𝐴 ∪ (𝐵 ∩ 𝐶) = (𝐴 ∪ 𝐵) ∩ (𝐴 ∪ 𝐶)
ostalo 𝐴 ⊂ 𝐵 ⇒ 𝐴 ∩ 𝐵 = 𝐴 𝐴 ⊂ 𝐵 ⇒ 𝐴 ∪ 𝐵 = 𝐵
Negacija/komplement (𝐴∁): (𝐴∁)∁= 𝐴, 𝐴 ⊂ 𝐵 ⇒ 𝐵∁ ⊂ 𝐴∁,
𝐴 ∩ 𝐴∁ = ∅, 𝐴 ∪ 𝐴∁ = 𝑆.
DeMorganovi pravili: (𝐴 ∪ 𝐵)∁ = 𝐴∁ ∩ 𝐵∁, (𝐴 ∩ 𝐵)∁ = 𝐴∁ ∪ 𝐵∁.
Uporabna zveza: (∪,∩,⊂,⊃, 𝑆, ∅)∁⇔ (∩,∪,⊃,⊂, ∅, 𝑆), npr. (𝐴 ∩ 𝐵 = ∅)∁ ⇔ 𝐴∁ ∪ 𝐵∁ = 𝑆.
Verjetnost Lastnosti: 𝑃(𝐴) ∈ [0,1], 𝑃(𝑆) = 1, 𝑃(∅) = 0, 𝑃(𝐴∁) = 1 − 𝑃(𝐴).
Verjetnost unije dogodkov: 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵).
Verjetnost preseka nepovezanih (tujih) dogodkov: 𝐴 ∩ 𝐵 = ∅ ⇒ 𝑃(𝐴 ∩ 𝐵) = 0.
Pogojna verjetnost dogodka 𝐴 pri pogoju dogodka 𝐵:
𝑃(𝐴|𝐵) =𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵), kjer je 𝑃(𝐵) > 0.
Komutativnost preseka: 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵)𝑃(𝐵) = 𝑃(𝐵 ∩ 𝐴) = 𝑃(𝐵|𝐴)𝑃(𝐴).
𝐴 in 𝐵 neodvisna dogodka ⇔ 𝑃(𝐴|𝐵) = 𝑃(𝐴) ⇔ 𝑃(𝐵|𝐴) = 𝑃(𝐵) ⇔ 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵).
Popoln sistem dogodkov {𝐴1, 𝐴2, ⋯ , 𝐴𝑛}:
1) ⋃𝐴𝑖
𝑛
𝑖=1
= 𝑆, 2) 𝐴𝑖 ≠ ∅ za vsak 𝑖 in 3) 𝐴𝑖 ∩ 𝐴𝑗 = ∅ za 𝑖 ≠ 𝑗.
Bayesova formula, kjer je 𝑃(𝐵) izražena s popolnim sistemom dogodkov {𝐴𝑖}:
𝑃(𝐴𝑗|𝐵) =𝑃(𝐴𝑗 ∩ 𝐵)
𝑃(𝐵)=
𝑃(𝐴𝑗)𝑃(𝐵|𝐴𝑗)
∑ 𝑃(𝐴𝑖)𝑃(𝐵|𝐴𝑖)𝑛𝑖=1
.
3
2. Naključna spremenljivka in porazdelitev verjetnosti
Diskretna naključna spremenljivka Verjetnostna funkcija 𝑓𝑋 diskretne naključne spremenljivke 𝑋 je definirana kot:
𝑓𝑋(𝑥𝑖) ≡ 𝑃(𝑋 = 𝑥𝑖) = 𝑝(𝑥𝑖), 𝑆𝑋 = {𝑥𝑖}
in ima naslednje lastnosti: 0 ≤ 𝑓𝑋(𝑥𝑖) ≤ 1 in ∑ 𝑓𝑋(𝑥𝑖)𝑥𝑖∈𝑆𝑋 = 1.
Zbirna porazdelitvena funkcija 𝐹𝑋 diskretne naključne spremenljivke 𝑋 je definirana kot:
𝐹𝑋(𝑥𝑖) ≡ 𝑃(𝑋 ≤ 𝑥𝑖) = ∑ 𝑓𝑋(𝑥𝑗)
𝑥𝑗≤𝑥𝑖
in ima naslednje lastnosti: lim𝑥𝑖→−∞
𝐹𝑋(𝑥𝑖) = lim𝑥𝑖→−∞
𝑃(𝑋 ≤ 𝑥𝑖) = 0,
lim𝑥𝑖→+∞
𝐹𝑋(𝑥𝑖) = lim𝑥𝑖→+∞
𝑃(𝑋 ≤ 𝑥𝑖) = 1,
𝑥𝑖 ≥ 𝑥𝑗 ⇒ 𝐹𝑋(𝑥𝑖) ≥ 𝐹𝑋(𝑥𝑗).
Velja: 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = ∑ 𝑓𝑋(𝑥𝑖)𝑥𝑖∈[𝑎,𝑏] = 𝐹𝑋(𝑏) − 𝐹𝑋(𝑎).
Zvezna naključna spremenljivka Zbirna porazdelitvena funkcija 𝐹𝑋 zvezne naključne spremenljivke 𝑋 je definirana kot:
𝐹𝑋(𝑥) ≡ 𝑃(𝑋 ≤ 𝑥) za − ∞ < 𝑥 < ∞
in ima naslednje lastnosti: lim𝑥→−∞
𝐹𝑋(𝑥) = lim𝑥→−∞
𝑃(𝑋 ≤ 𝑥) = 0,
lim𝑥→+∞
𝐹𝑋(𝑥) = lim𝑥→+∞
𝑃(𝑋 ≤ 𝑥) = 1,
𝑥2 ≥ 𝑥1 ⇒ 𝐹𝑋(𝑥2) ≥ 𝐹𝑋(𝑥1).
Gostota verjetnosti 𝑓𝑋 zvezne naključne spremenljivke 𝑋 je definirana kot:
𝑓𝑋(𝑥) ≡ lim∆𝑥→0
∆𝑃
∆𝑥= lim∆𝑥→0
𝐹𝑋(𝑥 + ∆𝑥) − 𝐹𝑋(𝑥)
∆𝑥= lim∆𝑥→0
∆𝐹𝑋(𝑥)
∆𝑥=𝑑𝐹𝑋(𝑥)
𝑑𝑥= 𝐹𝑋
′ (𝑥)
in ima naslednje lastnosti: 𝑓𝑋(𝑥) ≥ 0 in ∫ 𝑓𝑋(𝑥) 𝑑𝑥 = 1∞
−∞.
Velja: 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = ∫ 𝑓𝑋(𝑥) 𝑑𝑥 = 𝐹𝑋(𝑏) − 𝐹𝑋(𝑎).𝑏
𝑎
Veljata tudi zvezi: 𝐹𝑋(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∫ 𝑓𝑋(𝑢) 𝑑𝑢 za − ∞ < 𝑥 < ∞,𝑥
−∞
𝑑
𝑑𝑥𝐹𝑋(𝑥) =
𝑑
𝑑𝑥∫ 𝑓𝑋(𝑢) 𝑑𝑢 = 𝑓𝑋(𝑥).𝑥
−∞
Povprečna vrednost in varianca 𝑋 diskretna 𝑋 zvezna
Povprečna vrednost 𝑚𝑋 = E[𝑋]
𝑚𝑋 =∑ 𝑥𝑖 𝑓𝑋(𝑥𝑖)𝑥𝑖∈𝑆𝑋
𝑚𝑋 = ∫ 𝑥 𝑓𝑋(𝑥) 𝑑𝑥∞
−∞
Varianca
Var[𝑋] = 𝜎𝑋2 = E[(𝑋 −𝑚𝑋)
2] 𝜎𝑋2 =∑ (𝑥𝑖 −𝑚𝑋)
2 𝑓𝑋(𝑥𝑖)𝑥𝑖∈𝑆𝑋
𝜎𝑋2 = ∫ (𝑥 −𝑚𝑋)
2 𝑓𝑋(𝑥) 𝑑𝑥∞
−∞
4
3. Verjetnostne porazdelitve diskretnih naključnih spremenljivk
Enakomerna porazdelitev V primeru, da je pri naključnem poskusu vsak od mogočih izidov enako verjeten, je naključna
spremenljivka 𝑋, katere zaloga vrednosti je interval celih števil [𝑎, 𝑏], enakomerno porazdeljena:
𝑓𝑋(𝑥) =1
𝑏 − 𝑎 + 1, 𝑥 ∈ [𝑎, 𝑏] ⊂ ℤ
Lastnosti: 𝑚𝑋 =𝑎+𝑏
2, Var(𝑋) =
(𝑏−𝑎+1)2−1
12.
Binomska porazdelitev Bernoullijev naključni poskus je poskus z le dvema mogočima izidoma, npr. »ugoden« in »neugoden«.
Naključno spremenljivko 𝑋 definiramo kot število ugodnih izidov pri 𝑛 ponovitvah Bernoullijevega
poskusa. Naključna spremenljivka 𝑋 je binomska, če 1) je 𝑛 ponovljenih poskusov med seboj
neodvisnih in 2) se verjetnost 𝑝 za ugoden izid pri ponavljanju poskusa ne spreminja. Njeno
verjetnostno funkcijo 𝑓𝑋 tedaj imenujemo binomska porazdelitev:
𝑓𝑋(𝑥) = 𝑃(𝑋 = 𝑥) = (𝑛𝑥) 𝑝𝑥(1 − 𝑝)𝑛−𝑥 za 𝑥 = 0,1,2, … , 𝑛.
Lastnosti: 𝑚𝑋 = 𝑛𝑝, Var(𝑋) = 𝑛𝑝(1 − 𝑝).
Binomski simbol je definiran z enačbo: (𝑛𝑥) =
𝑛!
𝑥!(𝑛−𝑥)!.
Poissonova porazdelitev Kadar je število ponovitev Bernoullijevega poskusa 𝑛 veliko in je verjetnost 𝑝 ugodnega izida majhna,
tako da velja 𝑛𝑝~1, se verjetnostna funkcija binomske porazdelitve približuje verjetnostni funkciji
Poissonove porazdelitve (parameter 𝜆 pri tem določimo z 𝜆 = 𝑛𝑝):
𝑓𝑋(𝑥) = 𝑃(𝑋 = 𝑥) = e−𝜆𝜆𝑥
𝑥!, 𝑥 = 0,1,2,…
Lastnosti: 𝑚𝑋 = 𝜆, Var(𝑋) = 𝜆.
Poissonovo naključno spremenljivko 𝑋 lahko interpretiramo kot število ugodnih izidov na določen
interval (dolžine 𝑙 ali časa 𝑡, ploščine 𝐴, prostornine 𝑉…). Parameter 𝜆 je tedaj produkt povprečne
frekvence 𝜈 ugodnih izidov na enoto širine intervala (dolžine ali časa, ploščine, prostornine…) in širine
intervala (dolžine 𝑙 ali časa 𝑡, ploščine 𝐴, prostornine 𝑉…):
𝜆 = 𝜈𝑙 ali 𝜆 = 𝜈𝑡, 𝜆 = 𝜈𝐴, 𝜆 = 𝜈𝑉.
Poissonovo porazdelitev uporabimo, ko 1) lahko končni izid opišemo s celim številom, 2) so posamezni
izidi med seboj neodvisni, 3) je povprečna frekvenca (ugodnih) izidov za izbran interval znana in 4) je
mogoče prešteti, koliko ugodnih izidov se je zgodilo, ter nesmiselno vprašati, kolikokrat se ugoden izid
ni zgodil.
5
4. Verjetnostne porazdelitve zveznih naključnih spremenljivk
Enakomerna porazdelitev
𝑓𝑋(𝑥) =1
𝑏 − 𝑎, 𝐹(𝑥) =
𝑥 − 𝑎
𝑏 − 𝑎, 𝑥 ∈ [𝑎, 𝑏] ⊂ ℝ
Lastnosti: 𝑚𝑋 =𝑎+𝑏
2, Var(𝑋) =
(𝑏−𝑎)2
12.
Eksponentna porazdelitev 𝑓𝑋(𝑥) = 𝜃e
−𝜃𝑥, 𝐹(𝑥) = 1 − e−𝜃𝑥 , 𝑥 ≥ 0
Lastnosti: 𝑚𝑋 = 1/𝜃, Var(𝑋) = 1/𝜃2.
Normalna (Gaussova) porazdelitev
𝑓𝑋(𝑥) =1
𝜎√2𝜋e− (𝑥−𝑚)2
2𝜎2 , 𝐹(𝑥) = 0.5 + Φ(𝑥 −𝑚
𝜎) = 0.5 + Φ(𝑧), 𝑥 ∈ ℝ
Lastnosti: 𝑚𝑋 = 𝑚, Var(𝑋) = 𝜎2.
Standardna normalna naključna spremenljivka: 𝑍 = (𝑋 −𝑚)/𝜎.
Standardizacija normalne porazdelitve: 𝒩(𝑥;𝑚, 𝜎) → 𝒩(𝑧; 0,1).
Laplaceova funkcija (tabelirana): Φ(𝑥−𝑚
𝜎) = Φ(𝑧) =
1
√2𝜋∫ e
− 𝑢2
2 d𝑢𝑧
0; Φ(∞) = 0.5, Φ(−𝑧) = −Φ(𝑧).
Aproksimacije z normalno porazdelitvijo Binomsko porazdelitev lahko aproksimiramo z normalno:
če je verjetnost ugodnega izida 𝑝 pa blizu 0,5 in število poskusov 𝑛 zelo veliko,
če 𝑝 ni blizu 0,5, ampak hkrati velja 𝑛𝑝 > 10 in 𝑛(1 − 𝑝) > 10.
Za parametra normalne porazdelitve tedaj vzamemo: 𝑚 = 𝑛𝑝 in 𝜎 = √𝑛𝑝(1 − 𝑝).
Poissonovo porazdelitev lahko aproksimiramo z normalno, če je 𝜆 > 5.
Za parametra normalne porazdelitve tedaj vzamemo: 𝑚 = 𝜆 in 𝜎 = √𝜆.
6
5. Vektorske naključne spremenljivke, funkcije naključnih spremenljivk
Vektorske naključne spremenljivke Povezana verjetnost: zbirna porazdelitvena funkcija in gostota povezane verjetnosti za 𝒁 = (𝑋, 𝑌) :
𝐹𝒁(𝒛) = 𝐹𝑋𝑌(𝑥, 𝑦) = 𝑃(𝑋 ≤ 𝑥, 𝑌 ≤ 𝑦) = ∫ ∫ 𝑓𝑋𝑌(𝑥, 𝑦) 𝑑𝑥 𝑑𝑦,𝑦
−∞
𝑥
−∞
𝑓𝒁(𝒛) = 𝑓𝑋𝑌(𝑥, 𝑦) =𝜕2𝐹𝑋𝑌(𝑥, 𝑦)
𝜕𝑥𝜕𝑦.
Robna porazdelitev verjetnosti za 𝑋:
𝐹𝑋(𝑥) = 𝐹𝑋𝑌(𝑥,∞) = ∫ ∫ 𝑓𝑋𝑌(𝑥, 𝑦) 𝑑𝑥 𝑑𝑦,∞
−∞
𝑥
−∞
𝑓𝑋(𝑥) =𝜕𝐹𝑋(𝑥)
𝜕𝑥= ∫ 𝑓𝑋𝑌(𝑥, 𝑦) 𝑑𝑦.
∞
−∞
Gostota pogojne verjetnosti spremenljivke 𝑋 pri pogoju 𝑌 = 𝑦:
𝑓𝑋|𝑌(𝑥|𝑦) =𝑓𝑋𝑌(𝑥, 𝑦)
𝑓𝑌(𝑦).
Naključno neodvisni spremenljivki 𝑋 in 𝑌:
𝑓𝑋|𝑌(𝑥|𝑦) = 𝑓𝑋(𝑥) ⇒ 𝑓𝑋𝑌(𝑥, 𝑦) = 𝑓𝑋(𝑥) ∙ 𝑓𝑌(𝑦).
Funkcije naključnih spremenljivk Funkcija skalarne spremenljivke: Če poznamo 𝑓𝑋(𝑥) in zvezo 𝑌 = 𝑔(𝑋), lahko 𝑓𝑌(𝑦) izračunamo z
inverzno funkcijo ℎ, definirano z 𝑋 = ℎ(𝑌) = 𝑔−1(𝑌):
𝑓𝑌(𝑦) = 𝑓𝑋(ℎ(𝑦)) |𝑑ℎ(𝑦)
𝑑𝑦|.
Gornja enačba velja za monotono 𝑔(𝑋). Kadar 𝑔(𝑋) ni monotona, njeno definicijsko območje
razdelimo na 𝑘 odsekoma monotonih delov 𝑔𝑖(𝑋) z ustreznimi inverznimi funkcijami ℎ𝑖(𝑌):
𝑓𝑌(𝑦) =∑𝑓𝑋(ℎ𝑖(𝑦)) |𝑑ℎ𝑖(𝑦)
𝑑𝑦|
𝑘
𝑖=1
.
Skalarna funkcija vektorske spremenljivke: Če poznamo 𝑓𝑋𝑌(𝑥, 𝑦) in zvezo 𝑍 = 𝑔(𝑋, 𝑌), lahko
izračunamo 𝑓𝑍(𝑧). Izraz za 𝑓𝑍(𝑧) je v splošnem odvisen od zveze 𝑔(𝑋, 𝑌). V najpreprostejšem primeru,
ko je 𝑍 = 𝑔(𝑋, 𝑌) = 𝑋 + 𝑌, velja:
𝑓𝑍(𝑧) = ∫ 𝑓𝑋𝑌(𝑥, 𝑧 − 𝑥) 𝑑𝑥∞
−∞
𝑋,𝑌 neodvisni⇒ ∫ 𝑓𝑋(𝑥)𝑓𝑌(𝑧 − 𝑥) 𝑑𝑥
∞
−∞
.
Če sta 𝑋 in 𝑌 naključno neodvisni, dobimo integral na desni, ki se imenuje konvolucija.
Vsota (razlika) dveh neodvisnih normalno porazdeljenih naključnih spremenljivk 𝑋 in 𝑌: verjetnostno
porazdelitev za 𝑍 = 𝑋 ± 𝑌 izračunamo s konvolucijo in dobimo:
𝑁(𝑋;𝑚𝑋, 𝜎𝑋), 𝑁(𝑌;𝑚𝑌, 𝜎𝑌) 𝑍=𝑋±𝑌⇒ 𝑁 (𝑍;𝑚𝑍 = 𝑚𝑋 ±𝑚𝑌, 𝜎𝑍 = √𝜎𝑋
2 + 𝜎𝑌2).
Povprečna vrednost 𝑚𝑍 je vsota (razlika) povprečnih vrednosti, varianca 𝜎𝑍2 pa vedno vsota varianc.
7
6. Statistično povprečje in momenti verjetnostnih porazdelitev
Statistično povprečje Statistično povprečje 𝐸[𝑋] naključne spremenljivke 𝑋:
Diskretna 𝑋: 𝐸[𝑋] =∑𝑥𝑖 𝑃(𝑋 = 𝑥𝑖)
𝑛
𝑖=1
; zvezna 𝑋: 𝐸[𝑋] = ∫ 𝑥 𝑓𝑋(𝑥)𝑑𝑥.∞
−∞
Lastnosti: 𝐸[𝑎] = 𝑎, za 𝑎 = konst.,
𝐸[𝑎𝑋 + 𝑏𝑌] = 𝑎𝐸[𝑋] + 𝑏𝐸[𝑌],
𝐸[𝑋𝑌] = 𝐸[𝑋]𝐸[𝑌], za neodvisni 𝑋 in 𝑌,
𝐸[𝑌] = 𝐸[𝑔(𝑋)], za 𝑌 = 𝑔(𝑋).
Momenti verjetnostnih porazdelitev Začetni momenti naključne spremenljivke 𝑋:
Diskretna 𝑋: 𝑚𝑘 = 𝐸[𝑋𝑘] =∑𝑥𝑖
𝑘 𝑃(𝑋 = 𝑥𝑖)
𝑛
𝑖=1
; zvezna 𝑋: 𝑚𝑘 = 𝐸[𝑋𝑘] = ∫ 𝑥𝑘 𝑓𝑋(𝑥)𝑑𝑥.
∞
−∞
Središčni ali centralni momenti naključne spremenljivke 𝑋:
Diskretna 𝑋: 𝜇𝑘 = 𝐸[(𝑋 − 𝐸[𝑋])𝑘] =∑(𝑥𝑖 − 𝐸[𝑋])
𝑘 𝑃(𝑋 = 𝑥𝑖)
𝑛
𝑖=1
.
Zvezna 𝑋: 𝜇𝑘 = 𝐸[(𝑋 − 𝐸[𝑋])𝑘] = ∫ (𝑥 − 𝐸[𝑋])𝑘 𝑓𝑋(𝑥)𝑑𝑥.
∞
−∞
Prvi začetni moment, 𝑚1, imenujemo povprečje, 𝑚 ali srednja vrednost, drugega središčnega, 𝜇2, pa
varianca, Var(𝑋) = 𝜎𝑋2. Za izračun variance večinoma uporabljamo zvezo:
Var(𝑋) = 𝐸[𝑋2] − (𝐸[𝑋])2.
Povezani začetni in središčni momenti dvokomponentnih vektorskih naključnih spremenljivk:
𝐸[𝑋𝑗𝑌𝑘] = ∬𝑥𝑗𝑦𝑘𝑓𝑋𝑌(𝑥, 𝑦) 𝑑𝑥 𝑑𝑦,
𝐸[(𝑋 − 𝐸[𝑋])𝑗 (𝑌 − 𝐸[𝑌])𝑘] = ∬(𝑥 − 𝐸[𝑋])𝑗 (𝑦 − 𝐸[𝑌])𝑘𝑓𝑋𝑌(𝑥, 𝑦) 𝑑𝑥 𝑑𝑦.
Najpogosteje uporabljamo prvi povezani začetni moment, ki ga imenujemo korelacija 𝑅𝑋𝑌 = 𝐸[𝑋𝑌], in
prvi povezani središčni moment, ki ga imenujemo kovarianca Cov[𝑋, 𝑌] = 𝐸[(𝑋 −𝑚𝑋)(𝑌 −𝑚𝑌)].
Med njima velja zveza:
Cov[𝑋, 𝑌] = 𝑅𝑋𝑌 − 𝐸[𝑋]𝐸[𝑌].
Za neodvisni 𝑋 in 𝑌 je 𝑅𝑋𝑌 = 𝐸[𝑋]𝐸[𝑌] in Cov[𝑋, 𝑌] = 0.
8
7. Osnovni pojmi tehniške statistike, točkovno ocenjevanje
Osnovni pojmi tehniške statistike Populacija je celotna množica elementov, ki so predmet statistične raziskave. Določeno lastnost
elementov opišemo z naključno spremenljivko 𝑋, ki ima svojo verjetnostno porazdelitev 𝑓𝑋(𝑥).
Vzorec, 𝑽 = (𝑋1, 𝑋2, … , 𝑋𝑛), je množica 𝑛 meritev vrednosti 𝑋 na podmnožici populacije. Če so
𝑋1, 𝑋2, … , 𝑋𝑛 med seboj naključno neodvisni, je 𝑽 naključni vzorec.
Statistika ali vzorčna karakteristika, 𝑍𝑛 = 𝑍(𝑽), je poljubna skalarna funkcija vzorca 𝑽.
Točkovno ocenjevanje Točkovna cenilka, �̂�𝑛 = 𝑍𝑛 = 𝑍(𝑽), je statistika 𝑍, ki jo uporabimo kot oceno parametra 𝑞
porazdelitve 𝑓𝑋(𝑥) naključne spremenljivke 𝑋.
Cenilka �̂�𝑛 je dosledna, če velja: lim𝑛→∞
𝑃[|�̂�𝑛 − 𝑞| < 𝜀] = 1 za poljubno majhen pozitiven 𝜀.
Cenilka �̂�𝑛 je nepristrana, če velja: 𝐸[�̂�𝑛] = 𝑞.
Cenilka �̂�𝑛 je asimptotsko nepristrana, če velja: lim𝑛→∞
𝐸[�̂�𝑛] = lim𝑛→∞
(𝑞 + 𝑂(1 𝑛⁄ )) = 𝑞.
Pomembnejše točkovne cenilke
Vzorčno povprečje �̂� = ⟨𝑋⟩𝑛 =1
𝑛∑𝑋𝑖
𝑛
𝑖=1
dosledna, nepristrana
Vzorčna varianca 𝜎2̂ = 𝑠2 =1
𝑛∑(𝑋𝑖 − ⟨𝑋⟩𝑛)
2
𝑛
𝑖=1
dosledna, asimptotsko nepr.
Popravljena vzorčna varianca 𝜎2̂ = 𝑆2 =1
𝑛 − 1∑(𝑋𝑖 − ⟨𝑋⟩𝑛)
2
𝑛
𝑖=1
dosledna, nepristrana
Vzorčni začetni momenti 𝑚𝑘,𝑛 = ⟨𝑋𝑘⟩𝑛 =
1
𝑛∑𝑋𝑖
𝑘
𝑛
𝑖=1
dosledna, nepristrana
Vzorčni centralni momenti 𝜇𝑘,𝑛 = ⟨(𝑋𝑖 − ⟨𝑋⟩𝑛)𝑘⟩𝑛 =
1
𝑛∑(𝑋𝑖 − ⟨𝑋⟩𝑛)
𝑘
𝑛
𝑖=1
dosledna, asimptotsko nepr.
Vzorčna relativna frekvenca 𝑝𝑛(𝐴) =𝑛𝐴𝑛
dosledna, nepristrana
Metoda momentov: parametre porazdelitve izrazimo z momenti porazdelitve. Uporabimo toliko
najnižjih momentov, kolikor parametrov želimo oceniti. Cenilke za parametre dobimo tako, da v izrazih
za parametre zamenjamo momente porazdelitve z ustreznimi vzorčnimi momenti.
Metoda največje zanesljivosti: tvorimo funkcijo zanesljivosti, ki ustreza verjetnosti, da pri vzorčenju
dobimo vzorec v prostornini 𝑑𝒗 okoli 𝒗: 𝐿(𝒗; 𝑞) = 𝑓𝑋(𝑥1; 𝑞) ∙ 𝑓𝑋(𝑥2; 𝑞) ∙ … ∙ 𝑓𝑋(𝑥𝑛; 𝑞). Tu je 𝒗 vzorec in
𝑞 parameter verjetnostne porazdelitve 𝑓𝑋(𝑥; 𝑞), ki ga ocenjujemo. Cenilko �̂� dobimo tako, da
zahtevamo, da je vrednost funkcije zanesljivosti maksimalna:
𝜕𝐿(𝒗; 𝑞)
𝜕𝑞= 0 ali ekvivalentno
𝜕(ln(𝐿(𝒗; 𝑞)))
𝜕𝑞= 0 → rešitev za 𝑞 je �̂�.
Argument za to metodo je, da je bil konkretni vzorec 𝒗 izmerjen zato, ker je najbolj verjeten.
9
8. Intervalno ocenjevanje parametrov
Pri intervalnem ocenjevanju parametrov na podlagi vzorca 𝑽 = (𝑋1, 𝑋2, … , 𝑋𝑛) določimo interval
zaupanja [𝑙, 𝑢], za katerega s stopnjo zaupanja (1 − 𝛼) oziroma stopnjo tveganja 𝛼 zaupamo, da
vsebuje pravo vrednost ocenjevanega parametra 𝑞: 𝑃(𝑙 ≤ 𝑞 ≤ 𝑢) = 1 − 𝛼.
Intervalne ocene so lahko dvostranske (𝑙 ≤ 𝑞 ≤ 𝑢) ali pa leve (𝑙 ≤ 𝑞) oziroma desne (𝑞 ≤ 𝑢)
enostranske. Napaka intervalne ocene je |𝑙 − 𝑞| oziroma |𝑢 − 𝑞|.
Povprečje 𝑚: porazdelitev 𝑋 normalna, 𝜎 znana → 𝑍 =⟨𝑋⟩𝑛−𝑚
𝜎 √𝑛⁄, 𝑧𝛼 2⁄ : 𝛷(𝑧𝛼 2⁄ ) = (1 − 𝛼) 2⁄
⟨𝑋⟩𝑛 − 𝑧𝛼 2⁄
𝜎
√𝑛< 𝑚 < ⟨𝑋⟩𝑛 + 𝑧𝛼 2⁄
𝜎
√𝑛
Povprečje 𝑚: porazdelitev 𝑋 poljubna, 𝜎 neznana, 𝑛 > 30 → 𝑍 =⟨𝑋⟩𝑛−𝑚
𝑆 √𝑛⁄
⟨𝑋⟩𝑛 − 𝑧𝛼 2⁄
𝑆
√𝑛< 𝑚 < ⟨𝑋⟩𝑛 + 𝑧𝛼 2⁄
𝑆
√𝑛
Povprečje 𝑚: porazdelitev 𝑋 normalna, 𝜎 neznana, 𝑛 < 30 → 𝑇 =⟨𝑋⟩𝑛−𝑚
𝑆 √𝑛⁄, 𝑡𝑛−1; 𝛼 2⁄ : iz tabele
⟨𝑋⟩𝑛 − 𝑡𝑛−1; 𝛼 2⁄
𝑆
√𝑛< 𝑚 < ⟨𝑋⟩𝑛 + 𝑡𝑛−1; 𝛼 2⁄
𝑆
√𝑛
Varianca 𝜎2: porazdelitev 𝑋 normalna → 𝜒2 =(𝑛−1)𝑆2
𝜎2, 𝜒𝑛−1; 𝛼/22 , 𝜒𝑛−1; 1−𝛼/2
2 : iz tabele
(𝑛 − 1)𝑆2
𝜒𝑛−1; 𝛼/22 < 𝜎2 <
(𝑛 − 1)𝑆2
𝜒𝑛−1; 1−𝛼/22
Delež populacije 𝑝: porazdelitev 𝑋 binomska, lahko jo aproksimiramo z normalno
�̂� − 𝑧𝛼 2⁄ √�̂�(1 − �̂�)
𝑛< 𝑝 < �̂� + 𝑧𝛼 2⁄ √
�̂�(1 − �̂�)
𝑛
Vsota/razlika povprečij 𝑚1 ±𝑚2: porazdelitvi 𝑋1, 𝑋2 normalni, 𝜎1, 𝜎2 znani
⟨𝑋1⟩𝑛 ± ⟨𝑋2⟩𝑛 − 𝑧𝛼 2⁄ √𝜎12
𝑛1+𝜎22
𝑛2< 𝑚1 ±𝑚2 < ⟨𝑋1⟩𝑛 ± ⟨𝑋2⟩𝑛 + 𝑧𝛼 2⁄ √
𝜎12
𝑛1+𝜎22
𝑛2
Vsota/razl. povpr. 𝑚1 ±𝑚2: 𝑋1, 𝑋2 normalni, 𝜎1, 𝜎2 neznani, 𝑛1, 𝑛2 < 30; 𝑆𝑝 = √(𝑛1−1)𝑆1
2+(𝑛2−1)𝑆22
𝑛1+𝑛2−2
⟨𝑋1⟩𝑛 ± ⟨𝑋2⟩𝑛 − 𝑡𝑛1+𝑛2−2; 𝛼 2⁄ 𝑆𝑝√1
𝑛1+1
𝑛2< 𝑚1 ±𝑚2 < ⟨𝑋1⟩𝑛 ± ⟨𝑋2⟩𝑛 + 𝑡𝑛1+𝑛2−2; 𝛼 2⁄ 𝑆𝑝√
1
𝑛1+1
𝑛2
Vsota/razlika deležev populacij 𝑝1 ± 𝑝2: porazdelitvi 𝑋1, 𝑋2 binomski, lahko ju aproksimiramo z
normalnima
�̂�1 ± �̂�2 − 𝑧𝛼 2⁄ √�̂�1(1 − �̂�1)
𝑛1+�̂�2(1 − �̂�2)
𝑛2< 𝑝1 ± 𝑝2 < �̂�1 ± �̂�2 + 𝑧𝛼 2⁄ √
�̂�1(1 − �̂�1)
𝑛1+�̂�2(1 − �̂�2)
𝑛2
10
9. Preverjanje parametričnih hipotez
Statistična hipoteza je trditev o parametru ali verjetnostni porazdelitvi ene ali več populacij. Če se
hipoteza nanaša na parameter porazdelitve, jo imenujemo parametrična. Preverjanje hipoteze
(statistični test) je postopek ugotavljanja njene pravilnosti.
Preverjano hipotezo imenujemo ničelna hipoteza 𝐻0, njej nasprotujočo hipotezo pa alternativna
hipoteza 𝐻1. Ničelna hipoteza vedno trdi, da je parameter 𝑞 porazdelitve populacije enak neki
vrednosti 𝑞0: 𝐻0(𝑞 = 𝑞0), alternativna pa, da bodisi ni enak – dvostranska: 𝐻1(𝑞 ≠ 𝑞0), da je manjši –
leva enostranska: 𝐻1(𝑞 < 𝑞0) ali večji – desna enostranska: 𝐻1(𝑞 > 𝑞0).
Hipoteze preverjamo v osmih korakih:
1. Glede na nalogo izberemo parameter porazdelitve, katerega vrednost preverjamo.
2. Za izbrani parameter postavimo ničelno hipotezo 𝐻0.
3. Glede na nalogo postavimo alternativno hipotezo 𝐻1, ki je lahko dvostranska, leva enostranska
ali desna enostranska.
4. Izberemo stopnjo značilnosti testa 𝛼, običajno vzamemo 𝛼 = 0,05.
5. Na podlagi cenilke v 1. koraku izbranega parametra izberemo primerno testno statistiko.
6. Za izbrano testno statistiko določimo področje zavračanja 𝑆𝐶.
7. Izračunamo vrednost testne statistike.
8. Glede na (ne)vključenost vrednosti testne statistike v področje zavračanja 𝑆𝐶 ničelno hipotezo
𝐻0 zavrnemo ali ne in odločitev utemeljimo.
Pri testiranju hipotez so glede na dejansko veljavnost 𝐻0 možne naslednje štiri situacije:
𝐻0 dejansko pravilna 𝐻0 dejansko nepravilna
𝐻0 s testom zavrnemo Napaka 1. vrste, 𝑃 = 𝛼 Pravilna odločitev, 𝑃 = 1 − 𝛽
𝐻0 s testom ne zavrnemo Pravilna odločitev, 𝑃 = 1 − 𝛼 Napaka 2. vrste, 𝑃 = 𝛽
Napako 1. vrste (tveganje proizvajalca/dobavitelja) naredimo, če zavrnemo dejansko pravilno ničelno
hipotezo 𝐻0. Verjetnost 𝛼 za nastop napake 1. vrste izberemo pred izvajanjem testa.
Napako 2. vrste (tveganje kupca) naredimo, če ne zavrnemo dejansko nepravilne ničelne hipoteze 𝐻0.
Verjetnosti 𝛽 za nastop napake 2. vrste ne moremo določiti vnaprej, ker je odvisna od dejanskega
stanja preverjane populacije, ki ga ne poznamo.
P vrednost testa (𝑝) je najmanjša vrednost stopnje značilnosti 𝛼, s katero še zavrnemo ničelno
hipotezo 𝐻0 pri danem vzorcu.
11
V nadaljevanju so navedeni primeri pogostejših testnih statistik in ustreznih območij zavračanja.
Zapisani so le primeri dvostranskih 𝐻1. V primeru enostranske 𝐻1 ohranimo le ustrezno mejo intervala
zavračanja kjer nadomestimo 𝛼/2 z 𝛼.
Povprečje 𝑚 a) normalno porazdeljene populacije z znano varianco in poljubnim 𝑛 ali b) poljubno
porazdeljene populacije z neznano varianco in 𝑛 > 30, kjer ocenimo 𝜎 = √𝑆2:
𝐻0(𝑚 = 𝑚0), 𝐻1(𝑚 ≠ 𝑚0), 𝑍 =⟨𝑋⟩𝑛 −𝑚0
𝜎 √𝑛⁄, 𝑆𝐶 = {(𝑧 < −𝑧𝛼 2⁄ ) ∪ (𝑧 > 𝑧𝛼 2⁄ )}
Povprečje 𝑚 normalno porazdeljene populacije z neznano varianco in 𝑛 < 30:
𝐻0(𝑚 = 𝑚0), 𝐻1(𝑚 ≠ 𝑚0), 𝑇 =⟨𝑋⟩𝑛 −𝑚0
𝑆 √𝑛⁄, 𝑆𝐶 = {(𝑡 < −𝑡𝑛−1; 𝛼 2⁄ ) ∪ (𝑡 > 𝑡𝑛−1; 𝛼 2⁄ )}
Varianca 𝜎2 normalno porazdeljene populacije:
𝐻0(𝜎2 = 𝜎0
2), 𝐻1(𝜎2 ≠ 𝜎0
2), 𝜒2 =(𝑛 − 1)𝑆2
𝜎02 , 𝑆𝐶 = {(𝜒
2 < 𝜒𝑛−1; 1−𝛼 2⁄2 ) ∪ (𝜒2 > 𝜒𝑛−1; 𝛼 2⁄
2 )}
Delež populacije 𝑝, če lahko binomsko porazdelitev aproksimiramo z normalno:
𝐻0(𝑝 = 𝑝0), 𝐻1(𝑝 ≠ 𝑝0), 𝑍 =�̂� − 𝑝0
√𝑝0(1 − 𝑝0)𝑛
, 𝑆𝐶 = {(𝑧 < −𝑧𝛼 2⁄ ) ∪ (𝑧 > 𝑧𝛼 2⁄ )}
Vsota/razlika povprečij 𝑚1 ±𝑚2 a) normalno porazdeljenih populacij z znanima variancama in
poljubnima 𝑛1 in 𝑛2 ali b) poljubno porazdeljenih populacij z neznanima variancama in 𝑛1, 𝑛2 > 30,
kjer ocenimo 𝜎1,22 = 𝑆1,2
2 :
𝐻0(𝑚1 ±𝑚2 = ∆0), 𝐻1(𝑚1 ±𝑚2 ≠ ∆0), 𝑍 =⟨𝑋1⟩𝑛1 ± ⟨𝑋2⟩𝑛2 − ∆0
√𝜎12
𝑛1+𝜎22
𝑛2
, 𝑆𝐶 = {(𝑧 < −𝑧𝛼 2⁄ ) ∪ (𝑧 > 𝑧𝛼 2⁄ )}
Vsota/razlika povprečij 𝑚1 ±𝑚2 normalno porazdeljenih populacij z neznanima, a podobnima
variancama in poljubnima 𝑛1 in 𝑛2, 𝑆𝑝 = √(𝑛1−1)𝑆1
2+(𝑛2−1)𝑆22
𝑛1+𝑛2−2:
𝐻0(𝑚1 ±𝑚2 = ∆0), 𝐻1(𝑚1 ±𝑚2 ≠ ∆0), 𝑇 =⟨𝑋1⟩𝑛1 ± ⟨𝑋2⟩𝑛2 − ∆0
𝑆𝑝√1𝑛1+1𝑛2
, 𝑆𝐶 = {(𝑡 < −𝑡𝑛1+𝑛2−2; 𝛼 2⁄ ) ∪ (𝑡 > 𝑡𝑛1+𝑛2−2; 𝛼 2⁄ )}
Vsota/razlika deležev populacij 𝑝1 ± 𝑝2, če lahko binomski porazdelitvi aproksimiramo z normalnima:
𝐻0(𝑝1 ± 𝑝2 = ∆0), 𝐻1(𝑝1 ± 𝑝2 ≠ ∆0), 𝑍 =�̂�1 ± �̂�2 − ∆0
√�̂�1(1 − �̂�1)
𝑛1+�̂�2(1 − �̂�2)
𝑛2
, 𝑆𝐶 = {(𝑧 < −𝑧𝛼 2⁄ ) ∪ (𝑧 > 𝑧𝛼 2⁄ )}
Razmerje varianc 𝜎12 𝜎2
2⁄ normalno porazdeljenih populacij:
𝐻0 (𝜎12
𝜎22 = ∆0) , 𝐻1 (
𝜎12
𝜎22 ≠ ∆0) , 𝐹 =
𝑆12 𝜎1
2⁄
𝑆22 𝜎2
2⁄=
𝑆12
𝑆22 ∆0
, 𝑆𝐶 = {(𝑓 < 1/𝑓𝑛2−1,𝑛1−1; 𝛼 2⁄ ) ∪ (𝑓 > 𝑓𝑛1−1,𝑛2−1; 𝛼 2⁄ )}
Pri tem smo uporabili lastnost Snedecorjeve porazdelitve: 𝑓𝑛1−1,𝑛2−1; 1−𝛼 2⁄ = 1 𝑓𝑛2−1,𝑛1−1; 𝛼 2⁄⁄ .
12
10. Preverjanje neparametričnih hipotez
Prilagoditveni test Hipotezi se nanašata na tip porazdelitvene funkcije. Ničelna hipoteza 𝐻0 trdi, da je obravnavana
naključna spremenljivka 𝑋 porazdeljena z verjetnostno porazdelitvijo 𝑓0(𝑥), alternativna pa, da to ne
drži: 𝐻0(𝑓(𝑥) = 𝑓0(𝑥)) in 𝐻1(𝑓(𝑥) ≠ 𝑓0(𝑥)).
𝐻0 preverimo na podlagi naključnega vzorca 𝒗 = (𝑥1, 𝑥2,⋯ , 𝑥𝑛). Razpon vzorca razdelimo na 𝑟
intervalov oziroma razredov in določimo število (frekvenco) 𝑛𝑖 meritev iz vzorca, ki pripada
posameznemu razredu. 𝐻0 nato preverimo s primerjavo vzorčnih frekvenc 𝑛𝑖 in predpostavljenih
frekvenc 𝑛𝑖0 = 𝑝𝑖0𝑛, ki jih izračunamo na podlagi v 𝐻0 predpostavljene porazdelitve. Za izračun
verjetnosti 𝑝𝑖0 nadomestimo parametre porazdelitve 𝑓0(𝑥) s cenilkami iz danega vzorca. Za primerjavo
uporabimo testno statistiko, ki je utežena vsota kvadratov relativne razlike frekvenc:
𝜒2 =∑(𝑛𝑖 − 𝑛𝑖0𝑛𝑖0
)
2
𝑛𝑖0
𝑟
𝑖=1
=∑(𝑛𝑖 − 𝑛𝑖0)
2
𝑛𝑖0
𝑟
𝑖=1
= 𝑛∑(𝑝𝑖 − 𝑝𝑖0)
2
𝑝𝑖0
𝑟
𝑖=1
= (∑𝑛𝑖2
𝑛𝑖0
𝑟
𝑖=1
) − 𝑛.
Porazdelitev testne statistike 𝜒2 se asimptotično bliža porazdelitvi 𝜒𝑟−𝑙−12 , kjer je 𝑙 število parametrov
predpostavljene porazdelitve, ki smo jih morali oceniti iz vzorca, da smo lahko izračunali frekvence 𝑛𝑖0.
Pri normalni porazdelitvi je 𝑙 = 2, pri eksponentni in Poissonovi 𝑙 = 1 in pri enakomerni 𝑙 = 0. Če je 𝑛
velik in če je 𝑛𝑖 > 5 za vsak razred, je porazdelitev statistike 𝜒2 zelo podobna porazdelitvi 𝜒𝑟−𝑙−12 . Če
vrednost testne statistike presega kritično vrednost 𝜒𝑟−𝑙−1; 𝛼2 , 𝐻0 zavrnemo. Za večjo preglednost
računa navadno naredimo tabelo s stolpci 𝑥𝑖, 𝑛𝑖, 𝑛𝑖2, 𝑛𝑖0 = 𝑝𝑖0𝑛 in 𝑛𝑖
2 𝑛𝑖0⁄ . Vrednost testne statistike je
po gornji enačbi enaka vsoti zadnjega stolpca minus 𝑛.
Test neodvisnosti Hipotezi se nanašata na (ne)odvisnost dveh naključnih spremenljivk oziroma vplivov 𝑋 in 𝑌, katerih
vrednosti lahko razdelimo na 𝑟 oziroma 𝑐 razredov. Na vzorcu 𝑛 vrednosti za vsak par razredov (𝑥𝑖, 𝑦𝑗)
določimo frekvence 𝑛𝑖𝑗 in jih vpišemo v kontingenčno tabelo, kjer znak ∗ na mestu indeksa pomeni
vsoto po tem indeksu: 𝑛𝑖∗ = ∑ 𝑛𝑖𝑗𝑐𝑗=1 ali 𝑛∗𝑗 = ∑ 𝑛𝑖𝑗
𝑟𝑖=1 :
𝑌
𝑛𝑖∗ 𝑦1 𝑦2 ⋯ 𝑦𝑐
𝑋
𝑥1 𝑛11 𝑛12 ⋯ 𝑛1𝑐 𝑛1∗
𝑥2 𝑛21 𝑛22 ⋯ 𝑛2𝑐 𝑛2∗
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑥𝑟 𝑛𝑟1 𝑛𝑟2 ⋯ 𝑛𝑟𝑐 𝑛𝑟∗
𝑛∗𝑗 𝑛∗1 𝑛∗2 ⋯ 𝑛∗𝑐 𝑛∗∗ = 𝑛
Ničelna hipoteza pri tem testu trdi, da sta 𝑋 in 𝑌 neodvisni, alternativna hipoteza pa, da nista:
𝐻0 (𝑝𝑖𝑗 = 𝑝𝑖 ∙ 𝑝𝑗 , za vsak par (𝑖, 𝑗)) , 𝐻1 (𝑝𝑖𝑗 ≠ 𝑝𝑖 ∙ 𝑝𝑗 , za vsaj en par (𝑖, 𝑗)).
Predpostavljeno povezano verjetnost 𝑝𝑖𝑗0 na podlagi 𝐻0 izračunamo s produktom robnih relativnih
frekvenc: 𝑝𝑖𝑗0 = 𝑝𝑖0𝑝𝑗0 = 𝑛𝑖∗𝑛∗𝑗 𝑛2⁄ . Ničelno hipotezo preverimo s testno statistiko:
13
𝜒2 = 𝑛∑∑(𝑝𝑖𝑗 − 𝑝𝑖𝑗0)
2
𝑝𝑖𝑗0
𝑐
𝑗=1
𝑟
𝑖=1
= 𝑛∑∑(𝑛𝑖𝑗 − 𝑛𝑖∗𝑛∗𝑗/𝑛)
2
𝑛𝑖∗𝑛∗𝑗
𝑐
𝑗=1
𝑟
𝑖=1
= 𝑛(∑∑𝑛𝑖𝑗2
𝑛𝑖∗𝑛∗𝑗
𝑐
𝑗=1
𝑟
𝑖=1
− 1).
Testna statistika 𝜒2 je 𝜒(𝑟−1)(𝑐−1)2 porazdeljena. V kolikor je vrednost testne statistike večja od kritične
vrednosti 𝜒(𝑟−1)(𝑐−1); 𝛼2 , 𝐻0 zavrnemo.
Test homogenosti Hipotezi se nanašata na (ne)homogenost 𝑟 skupin glede na predpisani kriterij, ki ima 𝑐 možnih
vrednosti. Za vsako skupino imamo vzorec z 𝑛𝑖 vrednostmi, ki so glede na kriterij razdeljene v 𝑐
razredov. Tako določimo frekvence 𝑛𝑖𝑗, ki jih vpišemo v kontingenčno tabelo, ki je podobna kot pri
testu neodvisnosti, le da so v tem primeru robne frekvence 𝑛𝑖 = 𝑛𝑖∗ določene že pred testom z
velikostjo vzorca posamezne skupine in niso odvisne od razvrščanja:
Kriterij
𝑛𝑖∗ = 𝑛𝑖 𝑦1 𝑦2 ⋯ 𝑦𝑐
Skupine
𝑥1 𝑛11 𝑛12 ⋯ 𝑛1𝑐 𝑛1∗ = 𝑛1
𝑥2 𝑛21 𝑛22 ⋯ 𝑛2𝑐 𝑛2∗ = 𝑛2
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑥𝑟 𝑛𝑟1 𝑛𝑟2 ⋯ 𝑛𝑟𝑐 𝑛𝑟∗ = 𝑛𝑟
𝑛∗𝑗 𝑛∗1 𝑛∗2 ⋯ 𝑛∗𝑐 𝑛∗∗ = 𝑛
Ničelna hipoteza pri tem testu trdi, da so skupine homogene glede na kriterij, alternativna hipoteza pa,
da niso:
𝐻0(𝑝1𝑗 = 𝑝2𝑗 = ⋯ = 𝑝𝑟𝑗 = 𝑝∗𝑗, za vsak 𝑗), 𝐻1 (𝑝𝑖𝑗 ≠ 𝑝𝑘𝑗, za vsaj eno trojico (𝑖, 𝑗, 𝑘)).
Predpostavljeno verjetnost za vsak razred kriterija ocenimo s 𝑝∗𝑗0 = 𝑛∗𝑗 𝑛⁄ . Predpostavljene vrednosti
𝑝𝑖𝑗0 so torej 𝑝𝑖𝑗0 = 𝑛𝑖𝑝∗𝑗0 𝑛⁄ = 𝑛𝑖∗𝑛∗𝑗 𝑛2⁄ . Cenilka za 𝑝𝑖𝑗0 je enaka kot pri testu neodvisnosti, zato je
tudi testna statistika enaka:
𝜒2 = 𝑛∑∑(𝑝𝑖𝑗 − 𝑝𝑖𝑗0)
2
𝑝𝑖𝑗0
𝑐
𝑗=1
𝑟
𝑖=1
= 𝑛∑∑(𝑛𝑖𝑗 − 𝑛𝑖∗𝑛∗𝑗/𝑛)
2
𝑛𝑖∗𝑛∗𝑗
𝑐
𝑗=1
𝑟
𝑖=1
= 𝑛(∑∑𝑛𝑖𝑗2
𝑛𝑖∗𝑛∗𝑗
𝑐
𝑗=1
𝑟
𝑖=1
− 1).
Testna statistika je 𝜒(𝑟−1)(𝑐−1)2 porazdeljena. V kolikor je vrednost testne statistike večja od kritične
vrednosti 𝜒(𝑟−1)(𝑐−1); 𝛼2 , 𝐻0 zavrnemo.
14
11. Analiza variance in linearna regresija
Analiza variance (ANOVA) Vpliv nekega faktorja na določeno lastnost opazovanega procesa/izdelka lahko preverimo s testom, ki
se imenuje analiza variance. Pri tem preverjamo enakost povprečij 𝑟 populacij, kjer je 𝑟 ≥ 2 in ki
ustrezajo 𝑟 nivojem (različnim vrednostim) faktorja vpliva. Pri testu predpostavljamo, da so populacije
normalno porazdeljene in da imajo podobne variance.
Ničelna hipoteza trdi, da so povprečja vseh populacij med seboj enaka: 𝐻0(𝑚1 = 𝑚2 = ⋯ = 𝑚𝑟),
alternativna pa, da se vsaj eno povprečje razlikuje od drugih: 𝐻1(𝑚𝑖 ≠ 𝑚𝑗, za vsaj en par (𝑖, 𝑗)). Za
preverjanje 𝐻0 potrebujemo iz vsake od 𝑟 populacij po en vzorec z 𝑛𝑖 elementi, skupaj torej 𝑟 vzorcev s
skupaj 𝑛 = ∑ 𝑛𝑖𝑟𝑖=1 elementi.
Test temelji na primerjavi odstopanja izmerjene spremenljivke med vzorci z odstopanjem
spremenljivke znotraj vzorcev. Odstopanje med vzorci izrazimo s povprečnim kvadratičnim
odstopanjem 𝑆12 med povprečji vzorca in celotnim povprečjem, odstopanje znotraj vzorcev pa s
povprečnim kvadratičnim odstopanjem 𝑆22 med meritvami vzorca in povprečji vzorcev. V kolikor so
odstopanja med vzorci značilno večja kot odstopanja znotraj vzorcev, 𝐻0 zavrnemo. Za testiranje
uporabimo testno statistiko 𝐹:
𝐹 =𝑆12
𝑆22,
ki je Snedecorjevo porazdeljena s številom prostostnih stopenj (𝑟 − 1, 𝑛 − 𝑟). Interval zavračanja je
𝑆𝐶 = (𝑓𝑟−1,𝑛−𝑟; 𝛼,∞). Količine, potrebne za izračun testne statistike, vpisujemo v naslednjo tabelo:
Odstopanje
Vsota kvadratičnih
odstopanj 𝑆𝑆
Število prostostnih
stopenj 𝑑𝑓
Povprečje kvadratičnih
odstopanj 𝑀𝑆
Testna
statistika 𝐹
Med skupinami
𝑞1 𝑟 − 1 𝑆12 =
𝑞1𝑟 − 1
𝐹 =𝑆12
𝑆22
Znotraj skupin
𝑞2 𝑛 − 𝑟 𝑆22 =
𝑞2𝑛 − 𝑟
Celotno 𝑞 𝑛 − 1
Za izračun vrednosti v tabeli uporabimo naslednje formule:
𝑛 =∑𝑛𝑖
𝑟
𝑖=1
, 𝑞 = (∑∑𝑥𝑖𝑗2
𝑛𝑖
𝑗=1
𝑟
𝑖=1
) − 𝑛𝑚2,
𝑚𝑖 =1
𝑛𝑖∑𝑥𝑖𝑗
𝑛𝑖
𝑗=1
, 𝑞1 = (∑𝑛𝑖𝑚𝑖2
𝑟
𝑖=1
) − 𝑛𝑚2,
𝑚 =1
𝑛∑∑𝑥𝑖𝑗
𝑛𝑖
𝑗=1
𝑟
𝑖=1
=1
𝑛∑𝑛𝑖𝑚𝑖
𝑟
𝑖=1
, 𝑞2 = 𝑞 − 𝑞1.
15
Linearna regresija S korelacijskim koeficientom 𝑟 opišemo primernost uporabe linearne regresije za ocenjevanje
medsebojne odvisnosti naključnih spremenljivk 𝑋 in 𝑌:
𝑟 =Cov[𝑋, 𝑌]
√Var[𝑋]∙Var[𝑌].
Zaloga vrednosti za 𝑟 je [−1, 1]. Vrednosti |𝑟| ≈ 1 kažejo na izrazito linearno odvisnost med 𝑋 in 𝑌,
medtem ko vrednosti |𝑟| < 0,5 kažejo, da je regresijska premica neprimerna za upodobitev
povezanosti 𝑋 in 𝑌, saj sta spremenljivki bodisi neodvisni ali pa je njuna odvisnost nelinearna. Linearno
regresijo je smiselno uporabljati, če je 𝑟 ≥ 0,75.
Na podlagi vzorca meritev {(𝑥1, 𝑦1), (𝑥2, 𝑦2),⋯ , (𝑥𝑛, 𝑦𝑛)} določimo cenilko �̂� korelacijskega koeficienta
𝑟 tako, da v gornji enačbi kovarianco in varianci nadomestimo z ustreznimi vzorčnimi količinami:
Cov[𝑋, 𝑌] = E[𝑋𝑌] − E[𝑋]E[𝑌] → Cov̂[𝑋, 𝑌] =1
𝑛∑𝑥𝑖𝑦𝑖
𝑛
𝑖=1
−1
𝑛2∑𝑥𝑖
𝑛
𝑖=1
∑𝑦𝑖
𝑛
𝑖=1
,
Var[𝑋] = E[𝑋2] − 𝐸[𝑋]2 → Var̂[𝑋] =1
𝑛∑𝑥𝑖
2
𝑛
𝑖=1
− (1
𝑛∑𝑥𝑖
𝑛
𝑖=1
)
2
,
Var[𝑌] = E[𝑌2] − 𝐸[𝑌]2 → Var̂[𝑌] =1
𝑛∑𝑦𝑖
2
𝑛
𝑖=1
− (1
𝑛∑𝑦𝑖
𝑛
𝑖=1
)
2
.
Pri linearni regresiji vzamemo za matematični model odvisnosti linearno funkcijo:
𝑌 = 𝑎𝑋 + 𝑏,
cilj pa je določiti regresijska koeficienta 𝑎 in 𝑏 tako, da bo vsota kvadratov odstopanj med meritvami in
regresijsko premico najmanjša. Rešitev je:
𝑎 =Cov[𝑋, 𝑌]
Var[𝑋], 𝑏 = E[𝑌] − 𝑎E[𝑋].
Cenilki �̂� in �̂� koeficientov 𝑎 in 𝑏 določimo na podlagi vzorca meritev z gornjima enačbama, kjer
uporabimo vzorčne količine kot pri korelacijskem koeficientu.
Z linearnim modelom si lahko pomagamo tudi, kadar zveza med spremenljivkama 𝑋 in 𝑌 ni linearna. V
nekaterih primerih zvezo lahko lineariziramo z logaritmiranjem ali z uvedbo nove spremenljivke:
Izvorna zveza Linearizirana zveza
𝑌 = 𝑏𝑒𝑎𝑋 → 𝑍 = ln 𝑏 + 𝑎𝑋, kjer je 𝑍 = ln𝑌,
𝑌 = 𝑎𝑋2 + 𝑏 → 𝑌 = 𝑎𝑍 + 𝑏, kjer je 𝑍 = 𝑋2.
16
12. Naključni procesi
Povprečna vrednost 𝐸[𝑋(𝑡1)] naključnega procesa 𝑋(𝑡) pri času 𝑡1 je definirana z:
𝐸[𝑋(𝑡1)] = ∫ 𝑥 𝑓𝑋(𝑡1)(𝑥) 𝑑𝑥.
po zalogi vrednosti 𝑋
Avtokorelacijska funkcija 𝑅𝑋𝑋(𝑡1, 𝑡2) naključnega procesa 𝑋(𝑡) pri časih 𝑡1 in 𝑡2 je definirana z:
𝑅𝑋𝑋(𝑡1, 𝑡2) = 𝐸[𝑋(𝑡1)𝑋(𝑡2)] = ∬ 𝑥1𝑥2 𝑓𝑋(𝑡1)𝑋(𝑡2)(𝑥1, 𝑥2) 𝑑𝑥1𝑑𝑥2po zalogi vrednosti
𝑋(𝑡1) in 𝑋(𝑡2)
.
Stacionarnost naključnega procesa 𝑋(𝑡) v ožjem (=strogem) pomenu:
𝑃(𝑋(𝑡1) ≤ 𝑥1, 𝑋(𝑡2) ≤ 𝑥2,⋯ ) = 𝑃(𝑋(𝑡1 + 𝑡0) ≤ 𝑥1, 𝑋(𝑡2 + 𝑡0) ≤ 𝑥2,⋯ ).
Stacionarnost naključnega procesa 𝑋(𝑡) v širšem (=blagem) pomenu:
𝐸[𝑋(𝑡1)] = 𝐸[𝑋(𝑡1 + 𝑡0)] = konst.,
𝑅𝑋𝑋(𝑡1, 𝑡2) = 𝑅𝑋𝑋(𝑡1 − 𝑡2) = 𝑅𝑋𝑋(𝜏).
Lastnosti avtokorelacijske funkcije 𝑅𝑋𝑋(𝜏) stacionarnega naključnega procesa:
𝑅𝑋𝑋(𝜏) = 𝑅𝑋𝑋(−𝜏) (sodost),
𝑅𝑋𝑋(𝜏 = 0) = 𝐸[𝑋(0)2] = 𝑀 (vrednost pri 𝜏 = 0 je enaka moči signala 𝑀),
𝑅𝑋𝑋(𝜏 = 0) ≥ 𝑅𝑋𝑋(𝜏) (največja vrednost je dosežena pri 𝜏 = 0),
za periodični naključni proces je tudi 𝑅𝑋𝑋(𝜏) periodična z enako periodo.
Križnokorelacijska funkcija 𝑅𝑋𝑌(𝑡1, 𝑡2), uporabna pri opisu vektorskega naključnega procesa
𝒁(𝑡) = (𝑋(𝑡), 𝑌(𝑡)), je definirana z:
𝑅𝑋𝑌(𝑡1, 𝑡2) = 𝐸[𝑋(𝑡1)𝑌(𝑡2)] = ∬𝑥 𝑦 𝑓𝑋(𝑡1)𝑌(𝑡2)(𝑥, 𝑦) 𝑑𝑥 𝑑𝑦.
Ergodičnost naključnega procesa 𝑋(𝑡). Naj bo 𝑔(𝑋(𝑡1),⋯ , 𝑋(𝑡𝑛)) poljubna merljiva funkcija, za katero
obstaja povprečje po parametru 𝑡:
�̅�(𝑋(𝑡1),⋯ , 𝑋(𝑡𝑛)) = lim𝑇→∞
1
𝑇∫ 𝑔(𝑋(𝑡1 + 𝑡′),⋯ , 𝑋(𝑡𝑛 + 𝑡′)) 𝑑𝑡′
𝑇/2
−𝑇/2
.
Proces 𝑋(𝑡) je ergodičen, če je to povprečje enako povprečju po skupini: 𝑃(�̅� = 𝐸[𝑔]) = 1.
17
Iz vzorčnih funkcij 𝑥(𝑡) = {𝑥1, 𝑥2, ⋯ , 𝑥𝑛} in 𝑦(𝑡) = {𝑦1, 𝑦2, ⋯ , 𝑦𝑛} stacionarnih ergodičnih procesov
𝑋(𝑡) in 𝑌(𝑡) lahko oceno avtokorelacijske in križnokorelacijske funkcije dobimo po enačbah:
�̂�𝑋𝑋(𝑡) =1
𝑛 − 𝑡∑𝑥𝑖 𝑥𝑖+𝑡 ,
𝑛−𝑡
𝑖=1
�̂�𝑋𝑌(𝑡) =1
𝑛 − 𝑡∑𝑥𝑖 𝑦𝑖+𝑡 ,
𝑛−𝑡
𝑖=1
kjer je 𝑡 = 0,1,⋯ , 𝑛 − 1 diskretizirani čas.
Spektralna gostota 𝑆𝑋𝑋(𝜔) stacionarnega naključnega procesa je definirana kot Fourierjeva
transformacija avtokorelacijske funkcije 𝑅𝑋𝑋(𝑡):
𝑆𝑋𝑋(𝜔) = ∫ 𝑅𝑋𝑋(𝑡) 𝑒−𝑖𝜔𝑡 𝑑𝑡
∞
−∞
.
Fizikalni pomen spektralne gostote. Avtokorelacijsko funkcijo 𝑅𝑋𝑋(𝑡) lahko izrazimo kot obratno
Fourierjevo transformacijo spektralne gostote 𝑆𝑋𝑋(𝜔):
𝑅𝑋𝑋(𝑡) =1
2𝜋∫ 𝑆𝑋𝑋(𝜔) 𝑒
𝑖𝜔𝑡 𝑑𝜔
∞
−∞
.
Avtokorelacijska funkcija pri 𝑡 = 0 je torej:
𝑅𝑋𝑋(0) =1
2𝜋∫ 𝑆𝑋𝑋(𝜔) 𝑑𝜔
∞
−∞
= ∫ 𝑆𝑋𝑋(2𝜋𝑓) 𝑑𝑓
∞
−∞
= 𝑀,
kjer smo upoštevali zvezo med krožno in navadno frekvenco 𝜔 = 2𝜋𝑓 ter lastnost, da je 𝑅𝑋𝑋(𝑡 = 0)
enaka moči signala 𝑀. Sledi zveza:
𝑆𝑋𝑋(2𝜋𝑓) =𝑑𝑀
𝑑𝑓,
kar pomeni, da je spektralna gostota 𝑆𝑋𝑋(2𝜋𝑓) gostota moči, ki jo komponente s frekvenco 𝑓 v
intervalu širine 𝑑𝑓 prispevajo k celotni moči 𝑀 signala 𝑥(𝑡).