ผศ.ดร. วีระชาติ กิเลนทอง มหาวิทยาลัยหอการค าไทยriped.utcc.ac.th/tee/wp-content/uploads/sites/3/2018/11/10_1point... ·

หลักการประมาณคาแบบจุด (Principle of Estimation)

ผศ.ดร. วีระชาติ กิเลนทองมหาวิทยาลัยหอการคาไทย

©Kilenthong 2018

ผศ.ดร. วีระชาติ กิเลนทอง มหาวิทยาลัยหอการคาไทย Principle of Estimation 1 / 36

บทนำ

บทนี้นำเสนอหลักการพื้นฐานของการประมาณคา (estimation) โดยพิจารณาวิธีการประมาณคาทั้งหมด 3 วิธี

I วิธีการประมาณคาแบบเบส (Bayes Estimation)I วิธีการประมาณคาดวยความเปนไปไดสูงสุด (Maximum Likelihood Estimation หรือเรียก

สั้นๆ วา MLE)I วิธีการประมาณคาดวยโมเมนต (Method of Moments หรือเรียกสั้นๆ วา MM)


นิยามพารามิเตอร (Parameter)

Definitionพารามิเตอร (parameter) θ ∈ Θ หมายถึงลักษณะเฉพาะ (characteristics) ที่กำหนดการแจกแจงรวม (joint distribution) ของตัวแปรสุมที่สนใจ โดยเรียกเซ็ต Θ วาปริภูมิพารามิเตอร(parameter space)


นิยามแบบจำลองทางสถิติ (Statistical Model)

Definitionแบบจำลองทางสถิติ (statistical model) ประกอบไปดวย

1 การระบุอยางชัดเจนวา “ตัวแปรสุมที่สนใจมีอะไรบาง ทั้งที่สามารถสังเกตได (observable) และไมสามารถสังเกตได(unobservable)” แตกำหนดใหมีอยูในทางทฤษฎี เชน รายได, อัตราดอกเบี้ย หรือ อัตราผลตอบแทนสุทธิ์ของสินทรัพยตางๆ

2 “ขอกำหนดหรือสมการที่บอกถึงความสัมพันธระหวางตัวแปรสุมที่สนใจ” โดยอาจอยูในรูปของการแจกแจงรวม (jointdistribution) สำหรับตัวแปรสุมที่สามารถสังเกตได (observable random variables)

3 “การระบุคาของพารามิเตอร (parameter identification) θ” ที่ทำหนาที่กำหนดการแจกแจงรวม (joint distribution)ของตัวแปรสุมที่สนใจ โดยในสวนนี้จะมองวา พารามิเตอรที่ไมทราบคา (unknown parameters) เปนคาคงที่ นั่นคือ สิ่งที่ตองการทราบคาเปนคาจำนวนจริงหรือจุด ทำใหเรียกการประมาณคาแบบนี้วา การประมาณคาแบบจุด (point estimation)

4 ในบางกรณีที่ “สมมุติใหพารามิเตอร θ เปนตัวแปรสุม” สิ่งที่จำเปนสำหรับแบบจำลองทางสถิติอีกอยางหนึ่งคือ การกำหนดรูปแบบการแจกแจงรวม (joint distribution) ของพารามิเตอรที่ไมทราบคา (unknown parameters) สวนการแจกแจงรวมของตัวแปรสุมที่สามารถสังเกตได (observable random variables) ซึ่งขึ้นอยูกับพารามิเตอร θ จะตองพิจารณาเปนการแจกแจงรวมแบบมีเงื่อนไข (joint conditional probability) สำหรับคาที่เกิดขึ้นจริง (realized value)ของ θ นั่นคือ f (x|θ)


นิยามการอนุมานทางสถิติ (Statistical Inference)

โดยทั่วไป เราจำเปนตองประมาณคาพารามิเตอรเพราะ เราตองการ ทดสอบสมมุติฐาน(hypothesis testing) ที่ตองการทราบการทดสอบสมมุติฐานจะอยูในรูปของขอความเชิงความนาจะเปน (probabilisticstatement) ที่เรียกอยางเปนทางการวา การอนุมานทางสถิติ (statistical inference)ยกตัวอยางเชน เราอาจจะสนใจวา สามารถบอกดวยความมั่นใจแคไหนวาคาพารามิเตอร θมีคามากกวาศูนย นั่นคือ ตองการทดสอบสมมุติฐานที่วา θ > 0 เปนตน

Definitionการอนุมานทางสถิติ (statistical inference) คือกระบวนการ (procedure) ที่สรางขอความเชิงความนาจะเปน (probabilistic statement) ที่เกี่ยวของกับแบบจำลองทางสถิติ (statisticalmodel)


รูปแบบของการอนุมานทางสถิติ

การอนุมานทางสถิติ (statistical inference) แบงไดเปน 4 รูปแบบดังนี้การคาดการณ (prediction) เปนคาดเดาคาตัวแปรสุมหรือฟงกชันของตัวแปรสุมที่ยังไมทราบคา

I ยกตัวอยางเชน การคาดการณวาคาเฉลี่ยของผลตอบแทนของกองทุนรวมในปหนามีคาเทากับเทาใด? การคาดการณวาผลิตภัณฑมวลรวม (GDP) ของประเทศในปหนาจะขยายตัวรอยละเทาใด? หรือ การคาดการณวาในปหนาจะมีเด็กที่มีพัฒนาชากวาวัยรอยละเทาใด?

I เรามักเรียกการคาดการณในกรณีที่สิ่งที่ตองคาดการณหรือพยากรณวา การประมาณคา(estimation) ซึ่งคือประเด็นหลักของบทนี้

การออกแบบการทดลอง (experimental design) เปนการกำหนดวาควรจะเก็บขอมูลอยางไรและมากนอยเพียงใด รวมทั้งรูปแบบการทดลอง

I ยกตัวอยางเชน การทดลองแบบสุม (randomized controlled trials) ที่ดีควรจะมีการออกแบบจำนวนกลุมตัวอยางที่เหมาะสม เพื่อใหมั่นใจไดวาการทดสอบสมมุติฐานที่จะดำเนินการมีพลังทางสถิติ (statistical power) มากเพียงพอ


รูปแบบของการอนุมานทางสถิติ Con’t

ปญหาการตัดสินใจทางสถิติ (statistical decision problems) หมายถึงกระบวนการตัดสินใจที่ผลที่ตามมาขึ้นอยูกับคาของพารามิเตอรที่ไมทราบคา (แตตองใชขอมูลและเครื่องมือทางสถิติประมาณคา) เพื่อใหสามารถตัดสินใจไดอยางมีหลักการ จึงจำเปนจะตองพยายามประมาณคาพารามิเตอรดังกลาว

I โดยธรรมชาติแลว เราไมมีทางที่จะแนใจไดวาพารามิเตอรดังกลาวมีคาเทาใดกันแน แตเปนไปไดที่จะทราบการแจกแจงของพารามิเตอร ดังนั้น การตัดสินใจในกรณีจึงตองทำภายใตเงื่อนไขเชิงความนาจะเปน ซึ่งขึ้นอยูกับ การแจกแจงของตัวประมาณคา (distribution ofestimators)

I ยกตัวอยางเชน เราจะตัดสินใจซื้อกองทุนรวม A ถาคาดวาอัตราผลตอบแทนไมนอยกวารอยละ 3 ดังนั้น ปญหาทางสถิติในกรณีคือ ความนาจะเปนที่อัตราผลตอบแทนของกองทุน A จะมีคาไมนอยกวารอยละ 3 มีคาเทาใด?

I วิธีการอนุมานทางสถิติ (statistical inference) แบบนี้เกี่ยวของกับสิ่งที่เรียกวา การทดสอบสมมุติฐาน (hypothesis testing)ในบทถัดไป

การอนุมานทางสถิติแบบอื่นๆ ที่ไมสามารถจัดอยูในสามประเภทแรกได


นิยามตัวประมาณคา (Estimator)

Definitionกำหนดให X1, . . . , Xn เปนขอมูลที่สังเกตคาได (observed data) ที่การแจกแจงรวมกำหนดไดดวยพารามิเตอร θ ∈ Θ ตัวประมาณคา (estimator) ของพารามิเตอร θ หมายถึงฟงกชันจำนวนจริง θ̂ (X1, . . . , Xn) และกำหนดให xi คือคาที่เกิดขึ้นจริง (realized value) ของ Xiแลวเราจะเรียก θ̂ (x1, . . . , xn) วาคาประมาณ (estimate) ของพารามิเตอร θ

ในขณะเดียวกัน เรามักเรียกฟงกชันของตัวอยาง θ̂ (X1, . . . , Xn) วาคาสถิติ (statistic) ดังนั้น จึงอาจจะสรุปไดวา “ตัวประมาณคา (estimator) ก็คือคาสถิติ (statistic) อยางหนึ่ง”


นิยามของฟงกชันความนาจะเปนกอนการสังเกต (Prior P.F.)

Definitionกำหนดให θ คือพารามิเตอรที่ไมทราบคาซึ่งสมมุติใหเปนตัวแปรสุม การแจกแจงกอนการสังเกต(prior distribution) คือการแจกแจง (distribution) ของพารามิเตอร θ ที่กำหนดขึ้นกอนที่จะสังเกตคาของตัวแปรสุมอื่นๆ ซึ่งมักแทนดวยฟงกชันความหนาแนนของความนาจะเปนกอนการสังเกต (prior p.d.f.) หรือฟงกชันความนาจะเปนกอนการสังเกต (prior p.f.) h (θ)


ตัวอยางของฟงกชันความนาจะเปนกอนการสังเกต (Prior P.F.)

Exampleกำหนดให θ แทนความนาจะเปนที่จะไดผลการโยนเหรียญดังกลาวเปนหัว ซึ่งในที่นี้เปนพารามิเตอรของแบบจำลองทางสถิติที่สนใจ สมมุติวาเหรียญหนึ่งอาจจะเปนเหรียญที่ดานหนึ่งเปนหัวสวนอีกดานหนึ่งเปนกอย หรืออาจจะเปนเหรียญที่มีแตหัวทั้งสองดาน

จากการสมมติดังกลาว θ เปนไปไดสองคาคือ θ = 12 และ θ = 1

การแจกแจงกอน (prior distribution) สำหรับกรณีคือการแจกแจงของ θ คือh(θ = 1

2

)= 0.6 และ h (θ = 1) = 0.4

สังเกตวา h ตองรวมแลวเทากับหนึ่งเพราะเปนฟงกชันความนาจะเปนกอนการสังเกต(prior p.f.)


นิยามของฟงกชันความนาจะเปนหลังการสังเกต (Posterior P.F.)

Definitionกำหนดให θ คือพารามิเตอรที่ไมทราบคาซึ่งสมมุติใหเปนตัวแปรสุมและ X1, . . . , Xn คือตัวแปรสุมที่สังเกตคาได การแจกแจงหลังการสังเกต (posterior distribution) คือ การแจกแจงแบบมีเงื่อนไขของ θ เมื่อทราบคา X1 = x1, X2 = x2, . . . , Xn = xn ซึ่งมักแทนดวยฟงกชันความหนาแนนของความนาจะเปนหลังการสังเกต (posterior p.d.f.) หรือฟงกชันความนาจะเปนหลังการสังเกต (posterior p.f.) h (θ|x)

สังเกตวาความแตกตางเชิงสัญลักษณระหวางการแจกแจงกอนการสังเกต (priordistribution) h (θ) และการแจกแจงหลังการสังเกต (posterior distribution) h (θ|x)คือ “การที่อันแรกไมมีเงื่อนไขแตอันหลังเปนการแจกแจงแบบมีเงื่อนไข”


ทฤษฎีการแปลงการแจกแจงกอนการสังเกต (prior distribution) ใหเปนการแจกแจงหลังการสังเกต (posterior distribution)

ทฤษฎีบทตอไปนี้ประยุกตใช ทฤษฎีบทของเบส เพื่อแปลงการแจกแจงกอนการสังเกต(prior distribution) ใหเปนการแจกแจงหลังการสังเกต (posterior distribution) โดยอาศัยสารสนเทศ (information) ที่ไดจากขอมูลที่สังเกตได x = (x1, . . . , xn)ประเด็นทางเทคนิคที่สำคัญในที่นี้คือหลักการที่วา ขอมูลที่ไดมานั้นมาจากการสุมจากการแจกแจงแบบมีเงื่อนไข (conditional distribution) ที่ถูกกำหนดโดยพารามิเตอร θ ซึ่งมักแทนดวย f (x|θ)

Theoremกำหนดให X1, . . . , Xn คือตัวอยางสุมที่เกิดจากการสุมเลือกจากการแจกแจง f (x|θ) และกำหนดให h0 (θ) แทนการแจกแจงกอนการสังเกต (prior distribution) ของ θ แลว ฟงกชันความหนาแนนของความนาจะเปนหลังการสังเกต (posterior p.d.f.) หรือฟงกชันความนาจะเปนหลังการสังเกต (posterior p.f.) เทากับ

h (θ|x) = f (x1|θ) · · · f (xn|θ) h (θ)∫θ̂∈Θ f

(x|θ̂

)h(θ̂)dθ̂

, สำหรับ θ ∈ Θ (1)


การพิสูจนทฤษฎีProof.

จากนิยามของการแจกแจงแบบมีเงื่อนไข เราสามารถเขียนไดวา

h (θ|x) =f (x, θ)g (x)

, สำหรับ θ ∈ Θ

โดยที่ g (x) แทนฟงกชันความหนาแนนของความนาจะเปนตามขอบ (marginal p.d.f.) ซึ่งมีคาเทากับ

g (x) =

∫θ̂∈Θ

f(x|θ̂)

h(θ̂)

dθ̂

สวนตัวตั้งสามารถเขียนใหมไดเปน

f (x, θ) = f (x|θ) h (θ)

ในขณะเดียวกัน การที่ X1, . . . , Xn เปนตัวอยางสุม ชวยใหสามารถเขียน f (x|θ) ไดเปน

f (x|θ) = f (x1|θ) · · · f (xn|θ)

ดังนั้น จึงสามารถสรุปไดวา

h (θ|x) =f (x1|θ) · · · f (xn|θ) h (θ)∫

θ̂∈Θf(x|θ̂)

h(θ̂)

dθ̂, สำหรับ θ ∈ Θ


การแปรผันตามสวน (proportionality) ของการแจกแจงหลังการสังเกต(posterior distribution)

ประเด็นที่นาสังเกตอันหนึ่งคือ ตัวหารในสมการที่ 1 ไมขึ้นอยูกับพารามิเตอร θ เพราะไดอินทิเกรต θ ออกไปหมดแลวและอันที่จริงพจนนี้ทำหนาที่หลักเปนคาคงที่ที่ทำใหการแจกแจงหลังการสังเกต (posterior distribution) มีคุณสมบัติที่เหมาะสม ซึ่งในที่นี้หมายถึง การที่ผลรวมหรือผลการอินทิเกรตของการแจกแจงหลังการสังเกต (posterior distribution) มีคาเทากับหนึ่งนั่นเองบางครั้งเราอาจจะมองขามพจนนี้ไปไดและเขียน h (θ|x) ในรูปของการแปรผันตามสวน(proportionality) ไดเปน

h (θ|x) ∝ f (x1|θ) · · · f (xn|θ) h (θ) (2)


ตัวอยางการประยุกตการแปรผันตามสวนของการแจกแจงหลังการสังเกต(posterior distribution)Exampleกำหนดให θ แทนสัดสวนของสินคาที่มีตำหนิ (defective items) ที่ยังไมทราบคา และการแจกแจงกอนการสังเกต (priordistribution) เปนแบบเอกรูป (uniform distribution) ในชวง [0, 1] สิ่งที่ตองการทราบคือการแจกแจงหลังการสังเกต (posteriordistribution) ของ θ หลังจากสุมตรวจสินคาทั้งหมด n ชิ้น

กำหนดให Xi แทนผลการตรวจสินคาชิ้นที่ i = 1, . . . , n โดยที่ Xi = 1 ถาสินคาที่ i มีตำหนิ ไมเชนนั้นจะมีคาเทากับศูนยนั่นคือ Xi มีการแจกแจงแบบเบอรนูลลี ซึ่งมีฟงกชันความนาจะเปน (p.f.) เทากับ

f (xi|θ) ={

θxi (1− θ)1−xi , สำหรับ xi = 0, 1

0, ถาเปนอยางอื่น

การที่ตัวอยางที่ไดมาเปนตัวอยางสุุุุม (random sample) ทำใหสามารถเขียนไดวา

f (x1|θ) · · · f (xn|θ) =n∏

i=1

θxi (1− θ)1−xi = θ∑n

i=1 xi (1− θ)n−∑n

i=1 xi = θy (1− θ)n−y

โดยที่ y = ∑ni=1 xi สวนการที่การแจกแจงกอนการสังเกต (prior distribution) เปนแบบเอกรูป (uniform distribution)

ในชวง [0, 1] ทำใหเขียนไดวา h (θ) = 1


ตัวอยางการประยุกตการแปรผันตามสวนของการแจกแจงหลังการสังเกต(posterior distribution) Con’tExample

ดังนั้น การแจกแจงหลังการสังเกต (posterior distribution) ของ θ เทากับ

h (θ|x) ∝ θy (1− θ)n−y

เมื่อพิจารณาใหดีแลวจะเห็นวาพจนดานขวานั้นเปนสวนหนึ่งของการแจกแจงเบตา (beta distribution) ของ θ ที่มีคาพารามิเตอร α = y + 1 และ β = n − y+ 1 ดังนั้น จึงสามารถกำหนดคาคงที่ที่ตองการไดโดยไมตองอินทิเกรต ทำใหไดการแจกแจงหลังการสังเกต (posterior distribution) ของ θ เปน

h (θ|x) = Γ (n + 2)

Γ (y + 1)Γ (n − y + 1)θy (1− θ)n−y

สังเกตไดวา ในกรณีนี้ เราสามารถเขียนการแจกแจงรวมในรูปของคาสถิติ y = ∑ni=1 xi นั่นคือ เราไมจำเปนตองทราบคา xi

แตละคา สิ่งเดียวที่ตองการทราบคือผลรวมหรือจำนวนสินคาที่มีตำหนิเทานั้นหลักการนี้ชวยใหเราวิเคราะหปญหาที่สนใจไดสะดวกขึ้นมากเพราะคาผลรวมนี้เปนคาสถิติที่รวบรวมเอาสารสนเทศ(information) ทั้งหมดจาก x ที่จำเปนในการวิเคราะหปญหานี้ไวอยางครบถวน เราจะอภิปรายประเด็นนี้อยางละเอียดในหัวขอสถิติที่เพียงพอ (sufficient statistics)


การแปลงการแจกแจงไดดวยการปรับเปนลำดับ (sequential updating)ในกรณีที่มีตัวอยางสุมมากกวาหนึ่งตัวอยาง เราสามารถแปลงการแจกแจงไดดวยการปรับเปนลำดับ (sequential updating) โดยเริ่มการแจกแจงหลังการสังเกต (posteriordistribution) ซึ่งเปนผลจากการสังเกตุ X1

h (θ|x1) ∝ f (x1|θ) h (θ) (3)

หลังจากนั้นจึงคำนวณหาการแจกแจงหลังการสังเกต (posterior distribution) จากX1, X2 โดยใช h (θ|x1) เปนการแจกแจงกอนการสังเกต (prior distribution)

h (θ|x1, x2) ∝ f (x2|θ) h (θ|x1) ∝ f (x1|θ) f (x2|θ) h (θ) (4)

ดังนั้น การดำเนินการในรูปแบบนี้ตอไปจนครบทั้งหมด n ครั้งก็จะไดการแจกแจงหลังการสังเกต (posterior distribution)

h (θ|x) ∝ f (x1|θ) · · · f (xn|θ) h (θ) = f (x|θ) h (θ) (5)

ตรงกับการแจกแจงหลังการสังเกต (posterior distribution) ที่แสดงในสมการ (1) ซึ่งไดจากการปรับเพียงโดยใชขอมูล X1, . . . , Xn เพียงครั้งเดียว


การแปลงการแจกแจงไดดวยการปรับเปนลำดับ (sequential updating)Con’t

อยางไรก็ตาม การปรับเปนลำดับ (sequential updating) นี้มีความสำคัญอยางมากในโลกของขอมูลขนาดใหญ (big data)เพราะ พัฒนาการทางเทคโนโลยีทำใหมีการเพิ่มขอมูลตลอดเวลาในขณะเดียวกัน ก็มีความตองการพยากรณที่ทันทวงที ซึ่งในที่นี้สามารถทำไดโดยการปรับการแจกแจงทุกครั้งที่มีการรับขอมูลเขามาใหม ดวยหลักการปรับเปนลำดับ (sequential updating) ซึ่งเปน พื้นฐานสำคัญอันหนึ่งของรูปแบบการเรียนรูของเครื่องจักร (machine learning)โดยทั่วไป การแจกแจงหลังการสังเกต (posterior distribution) จะมี ความแตกตาง จากการแจกแจงกอนการสังเกต (priordistribution) โดยสิ้นเชิง

I ในตัวอยางที่ผานมา เริ่มจากการแจกแจงเอกรูป (uniform distribution) แตไดการแจกแจงหลังการสังเกตที่เปนการแจกแจงแบบเบตา (beta distribution)

บางครั้งมีการแจกแจงบางรูปแบบที่ถาเริ่มจากการแจกแจงกอนการสังเกต (prior distribution) แลวยังคงทำให การแจกแจงหลังการสังเกต (posterior distribution) นั้น ยังคง มีการแจกแจงเหมือนเดิม เราเรียกการแจกแจงที่มีคุณสมบัติแบบนี้วา“การแจกแจงกอนการสังเกตคู (conjugate prior distribution)”

I ตัวอยางที่สำคัญอันหนึ่งของการแจกแจงกอนการสังเกตคูคือ การแจกแจงปกติ (normal distribution)

นอกจากนี้ เครื่องมือที่นิยมใชในการปรับการแจกแจงหรือปรับความเชื่อ (updating beliefs) ในทางเศรษฐศาสตรและการเงินคือการกรองแบบคาลแมน (Kalman filtering)


การแจกแจงกอนการสังเกตคู (conjugate prior distribution) ของการแจกแจงปกติ (normal distribution)Theoremสมมุติวา X1, . . . , Xn คือตัวอยางสุมที่สุมเลือกมาจากการแจกแจงปกติ (normal distribution)ที่มีคาคาดหมายเทากับ µ ซึ่งไมทราบคา และคาความแปรปรวนเทากับ σ2

x ซึ่งทราบคา และสมมุติวาการแจกแจงกอนการสังเกต (prior distribution) ของ µ เปนการแจกแจงปกติ (normaldistribution) ที่มีคาคาดหมายเทากับ µ0 และคาความแปรปรวนเทากับ σ2

0 แลวการแจกแจงหลังการสังเกต (posterior distribution) ของ µ หลังจากทราบคาของ X1, . . . , Xn เปนการแจกแจงปกติ (normal distribution) ที่มีคาคาดหมายเทากับ µ1 และคาความแปรปรวนเทากับσ21 โดยที่

µ1 =σ2x

σ2x + nσ20

µ0 +nσ2

0

σ2x + nσ20

x̄n (6)

σ21 =

σ2x

σ2x + nσ20

σ20 (7)


การพิสูจนการแจกแจงกอนการสังเกตคู (conjugate prior distribution)ของการแจกแจงปกติ (normal distribution)Proof.

พิจารณาฟงกชันความเปนไปได (likelihood function)

f (x|µ) ∝ exp[−

1

2σ2

n∑i=1

(xi − µ)2

]

เนื่องจากสิ่งที่เราตองการจริงๆ คือ รูปแบบของการแจกแจงหลังการสังเกต (posterior distribution) ที่เกี่ยวของกับ µ ดังนั้นเราจึงสามารถที่จะละเลยพจนที่แยกออกไปและที่ไมเกี่ยวของกับ µ ไดโดยไมสงผลเสียตอสิ่งที่ตองการพิสูจน โดยเริ่มจาก

n∑i=1

(xi − µ)2 =n∑

i=1

((xi − x̄n) + (̄xn − µ))2 =n∑

i=1

(xi − x̄n)2 +n∑

i=1

(̄xn − µ)2

+ (̄xn − µ)n∑

i=1

(xi − x̄n)

=

n∑i=1

(µ− x̄n)2 +

n∑i=1

(xi − x̄n)2


การพิสูจนการแจกแจงกอนการสังเกตคู (conjugate prior distribution)ของการแจกแจงปกติ (normal distribution) Con’tProof.

เนื่องจากพจนดานขวาไมขึ้นอยูกับ µ ดังนั้น เราสามารถสรุปไดวาฟงกชันความเปนไปได (likelihood function)

f (x|µ) ∝ exp[−

1

2σ2n (µ− x̄n)2

]

ในขณะเดียวกัน การแจกแจงกอนการสังเกต (prior distribution) ของ µ เขียนไดเปน

h (µ) ∝ exp[−

1

2σ20

(µ− µ0)2

]

ดังนั้น การแจกแจงหลังการสังเกต (posterior distribution) เทากับ

h (θ|x) ∝ exp[−

n2σ2

(µ− x̄n)2]exp

[−

1

2σ20

(µ− µ0)2

]= exp

{−1

2

[ nσ2

(µ− x̄n)2 +1

σ20

(µ− µ0)2

]}


การพิสูจนการแจกแจงกอนการสังเกตคู (conjugate prior distribution)ของการแจกแจงปกติ (normal distribution) Con’tProof.ขั้นตอนตอไปคือการแยกพจนที่ไมเกี่ยวกับ µ ออกโดยการจัดรูป

nσ2

(µ − x̄n)2 +1

σ20

(µ − µ0)2

=nσ2

(µ2 − 2µx̄n + x̄2n

)+

1

σ20

(µ2 − 2µµ0 + µ

20

)=

1

σ2σ20

[(σ2+ nσ2

0

)µ2 − 2

(σ2µ0 + nσ2

0 x̄n)µ]+

1

σ2σ20

[σ2µ20 + nσ2

0 x̄2n]

=

(σ2 + nσ2

0

)σ2σ2

0

[µ2 − 2

(σ2µ0 + nσ2

0 x̄nσ2 + nσ2

0

)µ +

(σ2µ0 + nσ2

0 x̄nσ2 + nσ2

0

)2]

+1

σ2σ20

[σ2µ20 + nσ2

0 x̄2n −(σ2+ nσ2

0

)(σ2µ0 + nσ20 x̄n

σ2 + nσ20

)2]

=1

σ21

(µ − µ1)2+

nσ2 + nσ2

0

(̄xn − µ0)2

โดยที่ µ1 =σ2x

σ2x +nσ20

µ0 +nσ2

0σ2x +nσ2

0

x̄n และ σ21 =

(σ2+nσ2

0

)σ2σ2

0

เนื่องจากพจนดานขวาไมเกี่ยวของ µ ดังนั้นเราสามารถสรุปไดวา

h (θ|x) ∝ exp[−

1

σ21

(µ − µ1)2

]


ตัวอยาง การประมาณคาแบบเบส (Bayes Estimator) ของความเสี่ยงเชิงระบบ (systematic risks) βExampleพิจารณากองทุน หลักทรัพย AIT ในชวงป 2016 และสมมุติวาความเสี่ยงเชิงระบบของหลักทรัพยมีการแจกแจงปกติ (normal distribution) ที่มีความแปรปรวนคือ 14.56(σ2

β = 14.66) เราสามารถหาไดวา ความเสี่ยงเชิงระบบในชวงป 2016 คือ 0.91 (β2016 = 0.91) ความแปรปรวนของความเสี่ยงเชิงระบบในชวงป 2016 คือ 0.04(σ2

2016 = 0.04) และ เมื่อใชอัตราผลตอบแทนสุทธิ์รายสัปดาหทั้งสิ้น 52 สัปดาห (n = 52) และกำหนดให คาเฉลี่ยของความเสี่ยงเชิงระบบในชวงป 2016 ของทุกหลักทรัพยที่อยูในตลาดคือ 0.77 (β̄ = 0.77) จงหา ความเสี่ยงเชิงระบบและความแปรปรวนของความเสี่ยงเชิงระบบในชวงป 2017

เราสามารถหา ความเสี่ยงเชิงระบบและความแปรปรวนของความเสี่ยงเชิงระบบในชวงป 2017 ไดจากทฤษฎีกอนหนานี้I ความเสี่ยงเชิงระบบในชวงป 2017

β2017 =σ2β

σ2β

+ nσ22016

β2016 +nσ2

2016

σ2β

+ nσ22016

β̄ (8)

=14.66

14.66 + 52 × 0.04× 0.91 +

0.04

14.66 + 52 × 0.04× 0.77 ≈ 0.893 (9)

I ความแปรปรวนของความเสี่ยงเชิงระบบในชวงป 2017

σ22017 =

σ2β

σ2β

+ nσ22016

σ22016 (10)

=14.66

14.66 + 52 × 0.04× 0.04 ≈ 0.035 (11)


นิยามฟงกชันสูญเสีย (loss function)ตัวประมาณคาแบบเบส (Bayes Estimator) ของ θ คือตัวประมาณคา (estimator)θ̂ (X1, . . . , Xn) ซึ่งทำใหคาคาดหมายของฟงกชันสูญเสีย (loss function) ที่คำนวณโดยใช การแจกแจงหลังการสังเกต (posterior distribution) มีคาต่ำที่สุด”

Definitionฟงกชันสูญเสีย (loss function) หมายถึงฟงกชันของสองกลุมตัวแปร L (θ, a) ซึ่งตีความวาเปนการสูญเสียทางสถิติถาพารามิเตอรมีคาเทากับ θ แตตัวประมาณคามีคาเทากับ a

ในทางปฏิบัติ เรามักจะใช “คาคาดหมายของการสูญเสีย (expected loss) ”

E [L (θ, a) |x] =∫ΘL (θ, a) h (θ|x) dθ (12)

เปนฟงกชันเปาหมาย (objective function) ที่ใชในการเลือกตัวประมาณคาแบบเบส(Bayes Estimator)


ตัวประมาณคาแบบเบส (Bayes Estimator)Definitionกำหนดให L (θ, a) แทนฟงกชันสูญเสีย (loss function) และ θ̂ (x) เปนคำตอบของปญหาการหาคาต่ำสุด (minimization problem) ตอไปนี้

E[L(θ, θ̂ (x)

)]= min

aE [L (θ, a) |x] (13)

แลว ฟงกชัน θ̂ (X) คือตัวประมาณคาแบบเบส (Bayes Estimator) สวนคา θ̂ (x) คือคาประมาณแบบเบส (Bayes estimate) ของ θ เมื่อขอมูลที่ใชในการประมาณคาคือ x

ตัวประมาณคาแบบเบส (Bayes Estimator) ขึ้นอยูกับรูปแบบคาคาดหมายของการสูญเสีย(expected loss) ซึ่งเปนฟงกชันเปาหมาย (objective function)กลาวอีกนัยหนึ่งไดวา การกำหนดรูปแบบฟงกชันสูญเสียที่ แตกตางกัน ยอมนำไปสูตัวประมาณคาที่ แตกตางกันในขณะเดียวกัน ก็ ไมมีทฤษฎีที่บอกไดวาควรจะใชฟงกชันสูญเสียแบบใดดี ดังนั้น จึงเปนหนาที่ของนักวิเคราะหที่จะตองเลือกฟงกชันสูญเสียใหเหมาะสม ซึ่งอาจจะตองอาศัยประสบการณเปนสำคัญ


นิยามของฟงกชันสูญเสียกำลังสอง (square error loss function)

Definitionฟงกชันสูญเสียกำลังสอง (square error loss function) นิยามไดเปน

L (θ, a) = (θ − a)2 (14)

ทฤษฎีบทตอไปนี้ระบุวา คาคาดหมายแบบมีเงื่อนไข (conditional expectation) คือตัวประมาณคาแบบเบส (Bayes Estimator) ในกรณีที่ฟงกชันสูญเสียเปนแบบกำลังสอง(square error loss function)


ตัวประมาณคาแบบเบส (Bayes Estimator) เมื่อใช ฟงกชันสูญเสียกำลังสอง (square error loss function)Theoremสมมุติวาฟงกชันสูญเสียที่ใชสำหรับการประมาณคาเปนแบบฟงกชันสูญเสียกำลังสอง (square error loss function) ดังแสดงในสมการที่ 14 แลว ตัวประมาณคาแบบเบส(Bayes Estimator)

θ̂ (X) = E [θ|X] =∫Θ

θh (θ|X) dθ (15)

สังเกตวา คาคาดหมายในที่นี้คำนวณจากการแจกแจงหลังการสังเกต (posterior distribution) ของ θ

Proof.พิจารณาปญหาการหาคาคาดหมายของการสูญเสีย (expected loss) ที่ต่ำที่สุดดังตอไปนี้

mina E [L (θ, a) |x] = mina

∫Θ

(θ − a)2 h (θ|x) dθ

เงื่อนไขอันดับที่หนึ่ง (first-order condition) สำหรับปญหานี้คือ

∂E [L (θ, a) |x]∂a

∣∣∣∣a=θ̂(x)

= 0

∫Θ

∂ (θ − a)2

∂ah (θ|x) dθ

∣∣∣∣a=θ̂(x)

= −2

∫Θ

(θ − θ̂ (x)

)h (θ|x) dθ = 0 ⇒ θ̂ (x) =

∫Θ

θh (θ|x) dθ = E [θ|x]


ตัวอยางเมื่อใชฟงกชันสูญเสียกำลังสอง (square error loss function)Exampleพิจารณาตัวอยางสุม X1, . . . , Xn ซึ่งสุมเลือกมาจากการแจกแจงปกติ (normal distribution) ที่มีคาคาดหมาย µ และคาความแปรปรวน σ2 สมมุติวาเราทราบคาความแปรปรวน แตไมทราบคาคาดหมาย ดังนั้น จึงตองการประมาณคาคาดหมาย µ จากขอมูลที่มีอยูดวยการประมาณคาแบบเบส (Bayes estimation) สมมุติอีกวา การแจกแจงกอนการสังเกต (prior distribution) ของ µเปนการแจกแจงแบบปกติ (normal distribution) ที่มีคาคาดหมายเทากับ µ0 และคาความแปรปรวนเทากับ σ0

ทฤษฏีบทลาสุดระบุวาตัวประมาณคาของเบสในกรณีที่ฟงกชันสูญเสียเปนแบบกำลังสองคือคาคาดหมายแบบมีเงื่อนไข (conditional expectation) นั่นคือ

θ̂ (X) = E [θ|X] = σ2x

σ2x + nσ20

µ0 +nσ2

0

σ2x + nσ20

X̄n

ทฤษฏีบทตอไปนี้แสดงถึงตัวประมาณคาแบบเบส (Bayes Estimator) ในกรณีที่ฟงกชันสูญเสียเปนแบบคาสัมบูรณของผลตาง (absolute error loss function)


นิยามฟงกชันสูญเสียแบบคาสัมบูรณของผลตาง (absolute error lossfunction)Definitionฟงกชันสูญเสียแบบคาสัมบูรณของผลตาง (absolute error loss function) นิยามไดเปน

L (θ, a) = |θ − a| (16)

Theoremสมมุติวาฟงกชันสูญเสียที่ใชสำหรับการประมาณคาเปนแบบคาสัมบูรณของผลตาง (absoluteerror loss function) ดังแสดงในสมการที่ 16 แลว ตัวประมาณคาแบบเบส (Bayes Estimator)มีคาเทากับ คามัธยฐาน (median) ของการแจกแจงหลังการสังเกต (posterior distribution)ของ θ

โดยทั่วไป ฟงกชันสูญเสียที่แตกตางกันมักจะนำไปสูตัวประมาณคาที่ตางกันดังแสดงในทฤษฏีบทที่แลวคาประมาณ (estimate) ที่ไดจากตัวประมาณที่แตกตางกันมีคาเทากัน ทั้งนี้ขึ้นอยูกับรูปแบบการแจกแจงหลังการสังเกต


ตัวอยางที่มีคาคาดหมายและคามัธยฐานมีคาเทากัน

Exampleพิจารณาสถานการณที่เหมือนกับตัวอยางที่ 17 แตคราวนี้กำหนดใหฟงกชันสูญเสียที่ใชสำหรับการประมาณคาเปนแบบคาสัมบูรณของผลตาง (absolute error loss function) ดังนั้น จากทฤษฎีบทที่ 19 ตัวประมาณคาแบบเบส (Bayes Estimator) มีคาเทากับคามัธยฐาน (median)ของการแจกแจงหลังการสังเกต (posterior distribution) ของ µ ซึ่งในที่นี้จะมีคาเทากับคาคาดหมาย นั่นคือ

θ̂ (X) = E [θ|X] = σ2x

σ2x + nσ20

µ0 +nσ2

0

σ2x + nσ20

X̄n


คุณสมบัติความคงเสนคงวาของตัวประมาณคาแบบเบสเมื่อตัวอยางมีขนาดใหญ

ความคงเสนคงวา (consistency) เปนคุณสมบัติการลูเขาของตัวประมาณคาที่เกิดจากการเพิ่มขึ้นของ ขนาดตัวอยาง (sample size) จนมีขนาดเขาใกลอนันต (n → ∞) โดยใชหลักการลูเขาเชิงความนาจะเปน (convergence in probability) เปนเครื่องมือในการวิเคราะหถึงแมวาในโลกความจริง เราจะไมเคยมีขอมูลขนาดอนันต แตหลักการความคงเสนคงวา(consistency) ก็เปนเครื่องมือทางสถิติที่มีประโยชนและสะดวกในการใชงาน โดยที่บางครั้งอาจจะเปนเครื่องมือเดียวที่สามารถบอกถึงความแมนยำของตัวประมาณคา เพราะไมสามารถพิสูจนในกรณีที่มีตัวอยางจำกัดได (finite sample)คุณสมบัติของการลูเขาเชิงความนาจะเปน (convergence in probability) สามารถสงผานฟงกชันที่ตอเนื่องใดๆ ในขณะที่หลักการหาคาคาดหมาย (expectation) สามารถสงผานไดเพียงฟงกชันเชิงเสนเทานั้น


คุณสมบัติความคงเสนคงวาของตัวประมาณDefinitionตัวประมาณคา θ̂ ของพารามิเตอร θ มีความคงเสนคงวา (consistent) ถา

θ̂p−→ θ (17)

คำถามที่ตามมาก็คือ ตัวประมาณคาแบบเบส (Bayes estimator) มีความคงเสนคงวา(consistent) หรือไม?คำตอบโดยทั่วไปก็คือ ภายใตเงื่อนไขที่คอนขางมาตรฐาน ตัวประมาณคาแบบเบส (Bayesestimator) มีความคงเสนคงวา (consistent)แตการพิสูจนความคงเสนคงวาของตัวประมาณคาแบบเบส (Bayes estimator) อยูเหนือขอบเขตของหนังสือเลมนี้ เพราะจำเปนตองใชเทคนิคขั้นสูงของทฤษฎีการวัด (measuretheory)แตอยางไรก็ตาม ยังสามารถแสดงใหเห็นถึงความคงเสนคงวา (consistency) ของตัวประมาณคาแบบเบส (Bayes estimator) ไดอยางไมยากเย็น โดยใชตัวอยางตอไปนี้


ตัวอยางความคงเสนคงวาของตัวประมาณExampleพิจารณาสถานการณที่เหมือนกับตัวอยางที่แลวดังนั้น ตัวประมาณคาแบบเบส (Bayesestimator) เทากับ

θ̂ (X) = σ2x

σ2x + nσ20

µ0 +nσ2

0

σ2x + nσ20

X̄n

ขั้นตอนตอไปคือ การตรวจสอบวา θ̂ (X) ลูเขาเชิงความนาจะเปนสู µ หรือไม?

plimn→∞θ̂ (X) =[

limn→∞

σ2x

σ2x + nσ20

]µ0 +

[lim

n→∞

nσ20

σ2x + nσ20

][plimn→∞X̄n]

= [0]µ0 + [1] [plimn→∞X̄n] = µ

โดยที่สมการสุดทายเปนผลมาจากกฎวาดวยตัวอยางขนาดใหญ (Law of Large Numbers)


สรุปคุณสมบัติความคงเสนคงวาของตัวประมาณคาแบบเบสเมื่อตัวอยางมีขนาดใหญ

บทเรียนอีกอยางหนึ่งที่ไดจากตัวอยางนี้คือ โดยทั่วไป การแจกแจงกอนการสังเกต (priordistribution) ที่ แตกตางกัน มักนำไปสูการแจกแจงหลังการสังเกต (posteriordistribution) ที่ แตกตางกัน ซึ่งสงผลใหไดตัวประมาณคาแบบเบส (Bayes estimator) ที่แตกตางกัน ดวยเมื่อ ตัวอยางมีขนาดใหญมากพอ ผลของการแจกแจงกอนการสังเกต (prior distribution)ดังกลาว จะหมดไป ทำใหไดตัวประมาณคาแบบเบส (Bayes estimator) เหมือนกัน ไมวาจะเริ่มดวยการแจกแจงกอนการสังเกต (prior distribution) แบบใดหากพิจารณาจากมุมมองของการปรับเปนลำดับ (sequential updating) อาจจะสรุปไดวาเมื่อเราปรับการแจกแจง (updating distribution) ไปเรื่อยๆ ก็จะไดตัวประมาณคาแบบเบส (Bayes estimator) ที่เหมือนกัน ไมวาจะเริ่มดวยการแจกแจงกอนการสังเกต (priordistribution) แบบใดก็ตาม


ตัวอยางคุณสมบัติความคงเสนคงวาของตัวประมาณคาแบบเบส เมื่อมีการแจกแจงกอนการสังเกต (prior distribution) 2 การแจกแจง

Exampleตัวอยางตอไปนี้แสดงการประมาณคาแบบเบส (Bayes estimation) จากการแจกแจงกอนการสังเกต (prior distribution) ที่แตกตางกันสองอันคือ

อันแรกเปนการแจกแจงปกติที่มีคาคาดหมาย µ0 = 10 และคาความแปรปรวน σ20 = 10

สวนอันที่สองเปนการแจกแจงปกติที่มีคาคาดหมาย µ0 = 100 และคาความแปรปรวนσ20 = 100

ในขณะที่ กลุมตัวอยางที่ใชในตัวอยางนี้สุมเลือกมาจากการแจกแจงปกติที่มีคาคาดหมายµ = 50 และคาความแปรปรวน σ2 = 50 (ดวยการจำลอง (simulation) ในคอมพิวเตอร)


ตัวอยางคุณสมบัติความคงเสนคงวาของตัวประมาณคาแบบเบส เมื่อมีการแจกแจงกอนการสังเกต (prior distribution) 2 การแจกแจง

รูปแสดงคาประมาณแบบเบส (Bayes estimate) สำหรับการแจกแจงกอนการสังเกต (priordistribution) ทั้งสองการแจกแจง

บทเรียนที่สำคัญจากตัวอยางนี้คือI ในชวงแรกที่ขนาดของตัวอยางยัง ไมมากนัก คาประมาณแบบเบส (Bayes estimate) ที่ได

จากการแจกแจงกอนการสังเกต (prior distribution) ทั้งสองอัน มี ความแตกตางกันอยางชัดเจน

I เมื่อตัวอยางมี จำนวนมากพอ ความแตกตางดังกลาวแทบจะไมเหลืออยูเลยผศ.ดร. วีระชาติ กิเลนทอง มหาวิทยาลัยหอการคาไทย Principle of Estimation 36 / 36

Documents

ผศ.ดร. วีระชาติ กิเลนทอง มหาวิทยาลัยหอการค าไทยriped.utcc.ac.th/tee/wp-content/uploads/sites/3/2018/11/10_1point... ·