6
常常常常常常常常常常常 常常常常常常常常常常常 ,一。,,,。,一,。 Binomial Distribution常 常常常常常常 常常常 ,、。,, 常 常常常常 。一: 常常 Δt 常 常常常常常常常常常常常常常 常常常常常 「」「 」 Δt常 常常常常 ,一 p常常常常 1-pΔt 常常常常常 常 常常常常常常常常常常常常常 」。 常常常常常常常常常常常常常常常常 常常常常常常常常常常常 常常常常常常常常 常常常 常常常常常常 常常常常常常常常常 常常常常常常常常 「」「」。 ,:,;一, 常常 n 常常常 nΔt 常 常常常常常常常 X 常常常常常常常常常常 P 1 =P ( X =k )=C k n p k ( 1p) nk 常常常常 Uniform Distrbution 常常常常常常 常常常常常常常常常常常常常常常常常常常常常常常 常常常常常常常 一。 n 常常常 nΔt 常 常 1常 常常常常 常常 ,一 常常 Δt_i 常常常常常常常 常常 n 常常常 nΔt 常 常 Δt_i 常常常常常常常常常常常常常常常常常常常常常常 P 2 =P ( σ j =1 ,j=i¿ σ j =0 ,j≠i ) = p( 1p) n1 常常 nΔt 常常常 常常常常常常常常常常 Δt_i 常常常常常常常 P 3 = P 2 P 1 = 1 n 常常常 常 常常常常常常 常常常常常常常 常常 常常常常常常常常常常常常常常常常常 「」。 ,: 一 , 一 常常常常常常常常常 n 常常常 nΔt 常 常 k 常 常常常常常常常 常常 n 常常常 nΔt 常 常 Δt_i 常常常常常常常常常 P 2 '=p×C k1 n1 p k1 ( 1p ) nk =C k1 n1 p k ( 1p) nk 常常常常常常常

常見統計模型的來由簡介

Embed Size (px)

Citation preview

Page 1: 常見統計模型的來由簡介

常見統計模型的來由簡介常常和其他人討論統計學的時候,發現對於初學者來說最困難的事情之一在於理解不同統計模型背後代表的現實意義。不知道為什麼會有這種機率分布,所以學習初統時就是死背活記,應用時則落於窠臼,知其然而不知其所以然。有鑑於此,我決定寫一篇簡單的文章討論各個統計模型產生的來龍去脈,以增進大家使用時的理解。二項式分布(Binomial Distribution)在所有機率分布當中,二項式分布是最基礎、也最重要的統計模型。事實上,所有初等統計學會遇到的機率分布,幾乎可以說都是從二項式分布來的。它的來由是由對於隨機事件一個很直觀的假設:在一段時間內 Δt內,我們感興趣的隨機事件只有「發生」和「沒發生」兩種結果。在該段時間 Δt內事件「發生」的機率是固定的,為一常數 p;「沒發生」的機率則為 1-p。Δt以後事件「發生」與「不發生」的機率不受之前的結果影響。世界上所有的隨機事件,最後簡化之後都可以看出類似的特性:黑箱中等量的黑球和白球,抽取之後再放回去;投擲一枚公正硬幣,出現正面次數的機率。我們很容易理解,不論抽球或是擲幣,兩次事件之間是沒有影響的,故事件「發生」與「不發生」的機率都是固定的。就像高中有講的,在 n段時間 nΔt內,事件發生總次數X之隨機事件機率分布為

P1=P (X=k )=C kn pk (1−p)n−k

均勻分布Uniform Distrbution均勻分布是第一個能簡易從二項式分布推導出來的統計模型的範例。假設我們已知在 n段時間 nΔt內,事件總共發生了 1次,那麼這一件事件發生在任意一個時間間隔 Δt_i內的機率是多少?從二項式分布可以看出,在 n段時間 nΔt內任何一個特定的時間間隔 Δt_i內事件發生而其他時間間隔內事件不發生的機率為

P2=P (σ j=1 , j= i∧¿σ j=0 , j ≠i )= p(1− p)n−1

因此 nΔt內發生一次而且發生在時間間隔 Δt_i內的條件機率為

Page 2: 常見統計模型的來由簡介

P3=P2

P1= 1n

這就是不同時間區間的「無異性」特質,也是均勻分布的由來:在沒有更進一步的資訊底下,每一個時間間格內發生事件的機率沒有不同。現在我們來看看如果 n段時間 nΔt內,事件總共發生了 k次,結果會有何不同。此時 n段時間 nΔt內任何一個特定的時間間隔 Δt_i內事件發生的機率為

P2 '=p×C k−1n−1 pk−1(1−p)n−k=C k−1

n−1 pk (1−p)n−k

故條件機率變為

P3' =

P2 'P1

=C k−1

n−1

C kn =

(n−1 ) !(k−1 )! (n−k )!

n !k ! (n−k ) !

= kn

依舊滿足無異性的特性。帕松分布 Poisson Distribution剛剛的討論都假設 Δt是一個很明確可以界定的間隔,比如以擲硬幣而言每個 Δt就是擲兩次硬幣之間間隔的時間。然而現實中也有些事件的時間間隔 Δt無法如此界定出來,比如說十字路口上出現車輛的時間,或者是一段時間內化學物質逸散的數量。此時我們的做法就是將 Δt趨近於零,或者說是在 nΔt取一定值 t的情況下,將 n趨近無限。這個時候,我們必須要多做一個假設,那就是事件在極小段時間內發生的機率和極小段時間的量值成正比。比如說,一個含有化學質量為m的黑盒子,物質從中逸散速率為 v,則在極小段時間 Δt內某特定分子離開黑盒子的機率即為(v/m)*Δt,和取的時間長度成正比。若定義 v/m為 λ則

P1=P (X=k )=C kn ( λΔt )k (1−λΔt )n−k= n!

k ! (n−k ) ! ( λtn )k

(1− λtn )

n−k

¿( λt )kn!

k ! (n−k )! ( 1n )

k

∑i=0

Cin−k (−1 )i( λtn )

i

¿( λt )k n!

k ! (n−k )! nk ∑i=0

∞ (n−k )!i ! (n−k−i )!

(−1 )i( λtn )i

→ (λt)k

k ! ∑i=0

∞ (n−k )i

i !(−1 )i( λtn )

i

=( λt )k

k ! ∑i=0

∞ (−1 )i

i ! ( λt (n−k )n )

i

→ (λt )k

k ! ∑i=0

∞ (−λt )i

i!=

(λt)k

k !e−λt

注意 k值是從零到無限的自然數,機率質量加起來也剛好為 1。

Page 3: 常見統計模型的來由簡介

幾何分布Geometric Distribution與指數分布 Exponential Distribution如果我們對於二項式分布的關心並非 n段時間 nΔt內發生的次數X的機率分布,而是第一次事件發生時落在的時間區間 Δt_i的機率分布。亦即在前 i-1個區間事件不發生而第 i個區間發生的機率,即幾何分布:

P4=P (σ j=1 , j=i∧¿ σ j=0 , j<i )=p(1−p)i−1= p1−p

(1−p)i

若時間間隔為連續的,則在特定的時間 t第一次發生的機率沒有意義。此時要求的是時間 t以前尚未發生任何一次的機率 q。和處理 Poisson Distribution一樣,在 iΔt取一定值 t的情況下,將 i趨近無限。

q=(1− λΔt )i=∑j=0

C ji (−λt

i )j

=∑j=0

∞ i !j ! (i− j )! (− λt

i )j

→∑j=0

∞ 1j !

(−λt ) j=e−λt

可以發現這是X=0之 Poisson Distribution;按照定義也確實應該如此。接著我們考慮 1-q,即時間 t以內事件皆未發生的累積機率,並取微分,得出以時間為變數之機率密度函數:

f (t )=d (1−q( t))dt

=d (1−e−λt)dt

=λe− λt

得出之結果即為指數分布。指數分布代表的是事件至 t時刻為止尚未發生的機率分布,實際物理意義比如化學物質停留在盒內的時間、特定週期的洪患發生以後到下一次發生的時間都可用此分布模擬。我們也可以按照機率密度函數的定義直接求出它來:

f (t )= limΔt→0

ΔpΔt

=limΔt→0

λΔt

Δt (1−λΔt)(1−λΔt )

tΔt=λe− λt

負二項分佈Negative Binomial 和伽碼分佈Gamma Distribution現在我們改成關心第 k次事件發生時落在的時間區間 Δt_i的機率分布。即前 i-1個區間事件發生 k-1次,而第 k次事件發生時落在的時間區間 Δt_i內。此即負二項分布。

P5=C k−1i−1 pk (1−p)i−k

同樣地我們考慮時間是連續的狀況。此時要求的是時間 t以前發生 k次事件以上的機率 r。按照定義我們可以直接使用 Poisson distribution

Page 4: 常見統計模型的來由簡介

r (t )=1−∑j=0

k−1 ( λt )j

j !e−λt

對 r微分,得出機率密度函數:drdt

=∑j=1

k−1

(( λt ) j

j !−

( λt ) j−1

( j−1 )!) λe−λt+λe− λt=

( λt )k−1

(k−1) !λ e−λt

得出之結果即為Gamma Distribution。這不是得到Gamma分布的唯一方法;n個指數分布的加總的機率分布也是Gamma distribution。

∫❑

(n )

λne− λ∑

i=1

n

x i

d x⃑=∫0

∫dΩ|s

λn e−λs dΩ¿∇ s (Ω( x⃑ ))∨¿ds

¿

由圖中的幾何關係可以看出:Ω (s=k )= √n

(n−1 )!kn−1 ,∇ s (s=k )= 1

√n所以(也幸好幾何特性上的容易操作)

f ( s )=∫dΩ|s

λne− λs dΩ|∇ s (Ω ( x⃑ ) )|

=λn e−λs sn−1

(n−1 )!=¿¿

為什麼會有這個關係呢?記得一開始說Gamma是負二項式的連續型,那假設我

Page 5: 常見統計模型的來由簡介

們要求在 t時間內事件發生兩次的機率,我們也可以看成把 t時間切成兩個段,計算兩段發生各一次事件的機率。作法如下:

∫0

t

f (τ) f (t−τ )dτ=∫0

t

λe− λτ λe−λ(t−τ )dτ=λ2∫0

t

e− λtdτ=λ2 t e− λt

此作法即疊積(convolution),其實也就是我們剛剛做的比較複雜的運算。常態分布Normal Distribution常態分布是二項式分布試驗做無限次以後平均值會得到的機率分布模型。「中央極限定理」Central Limit Theorem的證明,不論是泰勒展開法還是傅立葉轉換法,都能夠嚴謹地證明這項結果:所有初統會遇到的機率分布,試驗無限次以後其平均值會是一常態分布。但我們這邊還是回歸到二項式分布來看常態分布的來由,因為這是最根本的物理上的意義。想像一個停在原點的人,每次投擲硬幣投到正面就往前走 1格,投到反面就不動。很明顯每次移動的事件是一個二項式分布的隨機事件;那麼經過 n次投幣以後該人所在位置會是一個怎麼樣的隨機分布?我們用 σ表示二項式分布中隨機事件的機率;事件「發生」時 σ=1,「沒發生」σ=0。這樣就可以定義「經過 n次投幣以後該人所在位置」為隨機變數 Z:

Z=∑i=1

n

σ i

第一件事情,我們可以直接計算的期望值和變異數。E [Z ]=∑

i=1

n

E [σ ¿¿ i ]=n2

¿

E [Z2 ]=E [(∑i=1

n

σ i)(∑i=1

n

σ i)]=E [∑i=1

n

σ i2]+E [∑i=1

n

∑j=1 ,i ≠ j

n

σ iσ j]¿ n

2+n (n−1 )

4=n2

4+ n

4

Var [Z2 ]=E [Z2 ]−(E [Z ] )2=n4

接著我們來看接近 n/2的機率分佈。根據二項式定理,該區取到 k個的機率是P=Cn /2

n pn= n!

( n2 (1+x))! ( n2 (1−x))!pn

Page 6: 常見統計模型的來由簡介

其中

x=k−n

2n2

取對數並使用 Stirling Approximation(ln(n!)->nln(n)-n)

ln (P )→nln (n )−n−(n2(1+x )) ln( n2 (1+x))+ n

2(1+ x)−¿¿

( n2(1−x )) ln( n2 (1−x ))+ n

2(1−x )+nln ( p )

¿nln (n )−n ln( n2 )−n2(1+x) ln (1+x )−n

2(1−x) ln (1−2 x )−nln (2 )

→−n2

(1+x ) x+ n2

(1−x ) x=−n x2

P=C e−nx2

=√ 1πn e

−4 (k−n2)

2

n

開方分佈Chi Square Distribution開方分佈是描述 n個標準常態分布樣本平方和的機率分布。我們能夠直接從這個定義推導出它的函數形式嗎?n個標準常態分布的函數形式如下:

f ( x⃑ )=(2π )−n

2 e−12 ∑

i=1

n

x i2

而開方分佈的變數 s之對應函數形式如下:f ( s )=∫

dΩ|s

f ( x⃑ ) dΩ|∇s (Ω ( x⃑ ) )|

=∫dΩ|s

(2 π)−n2 e

− s2 dΩ

2√ s

讀者諸君可以發現,Ω其實就是 n維空間上的球表面。此球表面積如何得出?從

∫❑

(n )

e−u2

dnu=√ πn=∫C|u|n−1 e−u2

d|u|=∫C sn−1

2 e−s ds2√s

Page 7: 常見統計模型的來由簡介

¿∫C2 s

n2−1e−sds=C

2 Γ ( n2 ) ,C=2π

n2

Γ (n2 ),Ωn (s )= 2 π

n2

Γ (n2 )sn−1

2

故f ( s )=Ωn (s ) (2 π )

−n2 e

−s2

2√s=

2 πn2 s

n−12 (2 π )

−n2

Γ (n2)2√s

e−s2 =

sn2−1

2n2 Γ (

n2 )

e− s2

此即開方分佈。注意開方分佈也是一個Gamma Distribution。以上便是初等統計學會遇到的幾個常見統計模型,其他常用的模型比如 t分佈、F分佈和 Beta分佈,由於涉及兩個機率密度函數的比值,形式較複雜,本文就先略過不表。上述的關於統計模型的來由說明在一般課程中較少見,希望讀者精通之後能更理解統計學運作的原理。