22
3 โมเดลเชิงเสนและการประมาณคา การประมาณคาอิทธิพลตางๆจากโมเดลเชิงเสน เปนขั้นตอนหนึ่งที่มีความเกี่ยวของกับ การประเมินพันธุกรรมสัตว ปจจุบันมีวิธีการทางสถิติที่ใชในการประมาณอิทธิพลเหลานี้อยูหลาย แบบ และแมวาจะมีโปรแกรมคอมพิวเตอรที่ชวยในการวิเคราะหคาเหลานี้อยูบางแลวก็ตาม แต นักปรับปรุงพันธุควรทําความเขาใจถึงหลักการ คุณสมบัติ และขอจํากัดของตัวประมาณที่ไดมา ดวยวิธีการตางๆ ซึ่งจะชวยใหเขาใจและสามารถนําไปใชไดอยางถูกตอง เนื่องจากในทาง ปรับปรุงพันธุสัตวนิยมใชโมเดลผสม (mixed model) จึงมีการประมาณคาอิทธิพลหลัก 2 แบบ ไดแกการประมาณอิทธิพลคงที(fixed effects) และอิทธิพลสุ(random effects) ซึ่งจะมีความ เกี่ยวของกับการประมาณคาการผสมพันธุ (breeding value) และในการประมาณชั้นสูงตอๆไป เนื้อหาสังเขป โมเดลเชิงเสน โมเดลแบบบวกสะสมและสมการถดถอย : : การสรางโมเดลเชิงเสนทั่วไป : : การหาคําตอบของระบบสมการ : : การประมาณคา ดวยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS), Maximum Likelihood (ML) และ Best Linear Unbiased Estimation (BLUE)

โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

3 โมเดลเชิงเสนและการประมาณคา

การประมาณคาอิทธิพลตางๆจากโมเดลเชิงเสน เปนขั้นตอนหนึ่งที่มีความเกี่ยวของกับ

การประเมินพันธุกรรมสัตว ปจจุบันมีวิธีการทางสถิติที่ใชในการประมาณอิทธิพลเหลานี้อยูหลาย

แบบ และแมวาจะมีโปรแกรมคอมพิวเตอรที่ชวยในการวิเคราะหคาเหลานี้อยูบางแลวก็ตาม แต

นักปรับปรุงพันธุควรทําความเขาใจถึงหลักการ คุณสมบัติ และขอจํากัดของตัวประมาณที่ไดมา

ดวยวิธีการตางๆ ซึ่งจะชวยใหเขาใจและสามารถนําไปใชไดอยางถูกตอง เนื่องจากในทาง

ปรับปรุงพันธุสัตวนิยมใชโมเดลผสม (mixed model) จึงมีการประมาณคาอิทธิพลหลัก 2 แบบ

ไดแกการประมาณอิทธิพลคงที่ (fixed effects) และอิทธิพลสุม (random effects) ซึ่งจะมีความ

เกี่ยวของกับการประมาณคาการผสมพันธุ (breeding value) และในการประมาณชั้นสูงตอๆไป

เน้ือหาสังเขป โมเดลเชิงเสน โมเดลแบบบวกสะสมและสมการถดถอย : : การสรางโมเดลเชิงเสนทั่วไป : : การหาคําตอบของระบบสมการ : : การประมาณคา

ดวยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS), Maximum Likelihood (ML) และ Best Linear Unbiased

Estimation (BLUE)

Page 2: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

50

I. โมเดลเชิงเสน โมเดลบวกสะสม และสมการถดถอย

ในทางปรับปรุงพันธุสัตวนั้น เรานิยมแสดงความสัมพันธระหวางลักษณะการผลิต

(production traits) หรือคาสังเกต (observations) กับอิทธิพลที่มีตอคาสังเกตนั้นในรูปของ

ผลบวกของอิทธิพลตางๆ เชน หากกําหนดใหการใหนมของโคนมขึ้นกับอิทธิพลเนื่องจากพอ

พันธุ ( s ) และฝูงการจัดการ ( h ) เราจะไดโมเดลเปน ijkjiijk hsy εμ +++= เมื่อ μ

เปน overall mean, ijkε เปนความคลาดเคลื่อน, เปนปริมาณน้ํานมที่วัดไดจากสัตว

ตัวที่ ซึ่งเกิดจากพอพันธุ และอยูในฝูงที่ ในทางสถิติสามารถเรียกรูปสมการที่มีคา

อิทธิพลตางๆ อยูในรูปของผลบวกลักษณะนี้วาโมเดลแบบบวกสะสม (additive model) ซึ่ง

มีความหมายเชนเดียวกับความสัมพันธทางคณิตศาสตรในรูปของโมเดลเชิงเสน (linear

model) ซึ่งมีรูปทั่วไปเปน

ijky

k i j

bxa

Linear model Additive model Regression

y += ดังนั้นจึงเห็นไดวาโมเดลแบบบวกสะสมและโมเดล

เชิงเสนมีรูปแบบเชนเดียวกัน และเนื่องจากอิทธิพลที่แทจริงของพอพันธุแตละตัวและ

อิทธิพลจากแตละฝูงเปนพารามิเตอรที่ไมทราบคา (unknown parameter) จึงตองมีการ

ประมาณขึ้นดวยวิธีการทางเมทริกซและสถิติ ซึ่งจะไดกลาวตอไป

สมการถดถอย (regression) เปนรูปหนึ่งของโมเดลเชิงเสน โดยพบวารูปทั่วไปของ

สมการถดถอยจะมีลักษณะ เปน εββββ +++++= mm XXXy ...22110 เมื่อ เปน

คาสังเกตหรือตัวแปรตาม (dependent variable),

y

mββββ ,...,,, 210 เปนคาสัมประสิทธิ์

ความถดถอย (regression coefficients) ซึ่งเปนพารามิเตอรที่ไมทราบคา (unknown

parameter), เปนตัวแปรอิสระ (independent variables) ที่มีลักษณะเปน

ตัวแปรตอเนื่อง (continuous variable) ซึ่งบางครั้งอาจเรียกวา regressor และ mXXX ,...,, 21

ε เปน

ความคลาดเคลื่อน

ในกรณีที่บางตัวแปรของอิทธิพลในโมเดลเชิงเสนมีลักษณะเปนตัวแปรไมตอเนื่อง

(discrete variable) หรือสามารถจําแนกเปนกลุมไดชัดเจน (classification variable) ซึ่งใน

การวิเคราะหจะมีการแปลงตัวแปรนั้นเปนตัวแปรรหัส (dummy variable) โมเดลแบบนี้จะ

ถูกเรียกวา general linear model ซึ่งจากโมเดลการใหน้ํานมของโคนมขางตน เราจะไดวา

0β = overall mean, 1β , 2β ,… เปนอิทธิพลเนื่องจากพอพันธุตัวที่ 1, 2, … ตามลําดบั

และหากพอพันธุมีทั้งหมด 3 ตัว คาสัมประสิทธิ์ตอไปซึ่งไดแก 4β , 5β , … mβ จะเปน

อิทธิพลเนื่องจากฝูงที่ 1, 2, … ตามลําดับ ในขณะที่ ของโมเดลเชิงเสนจะ

มีคาเปน 0 หรือ 1 ที่แสดงความสัมพันธระหวางคาสังเกตกับการปรากฏของอิทธิเนื่องจาก

พอพันธุและฝูง (

mXXX ,...,, 21

mββββ ,...,,, 210 ) นั้นๆ

โดยนิยาม โมเดลเชิงเสน (linear model) หมายถึงฟงกชั่นเชิงเสน (linear function)

ของพารามิเตอร mββββ ,...,,, 210 แมวาตัวแปร จะอยูในรูปที่ไมใชเชิง

เสนก็ตาม เชน และ mXXX ,...,, 21

,222110 εβββ +++= XXy ,10 εββ ++= Xey

Page 3: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

51

εββ ++= )(10 Xlny เปนตน หากพารามิเตอรไมอยูในรูปฟงก็ชั่นเชิงเสนจะไมถูกเรียกวา

โมเดลเชิงเสน เชน ,10 εβ β += Xey )1/(1 10 εββ +++= Xey เปนตน

จะเห็นไดวาความสัมพันธเชิงเสนขางตนสามารถเขียนใหอยูในรูปของเมทริกซได

เปน εXβy += เมื่อ y เปนเวคเตอรสุม (random vector) ของคาสังเกต, X เปน เมท

ริกซของตัวแปรอิสระหรือ incidence matrix หรือ design matrix หรือ dummy-coding

matrix, β เปนเวคเตอรของพารามิเตอร และ ε เปนเวคเตอรสุมของความคลาดเคลื่อน

II. การสรางโมเดลเชิงเสน (Setting Up Linear Model)

การสรางความสัมพันธระหวางอิทธิพลตางๆ ที่มีตอคาสังเกตในรูปของโมเดลเชิงเสนเปน

ขั้นตอนแรกที่นําไปสูวิธีการประมาณทางสถิติอื่นๆตอไป หากกําหนดใหโมเดลเชิงเสนของ

การใหผลผลิตนมในฟารมมีรูปสมการเปน

ijiij hy εμ ++=

เมื่อ เปนคาปริมาณน้ํานม, ijy μ เปนคา overall mean, เปนอิทธิพลเนื่องจากฝูง

สัตวที่ , และ ih

i ijε เปนคา error ของสัตวจากฝูงที่ i ตัวที่ โดยมีขอมูลดังนี้ j

Example 3.1

h1 h2 h3 10 11 12

10 11

10 15 20

จากโมเดลการใหนมของสัตวตามสมการขางตน เราสามารถดัดแปลงใหอยูในรูปของ

สมการถดถอยหรือโมเดลเชิงเสนไดเปน

ijij

ihhhhy εμ ++++=

43421 321

ซึ่งจากขอมูลในตารางขางตน สามารถแสดงความสัมพันธของอิทธิพลตางๆ ตอการให

นมไดเปน

333

323

313

222

212

131

121

111

002000150010

00110010001200110010

εμεμεμεμεμεμεμεμ

++++=++++=++++=++++=++++=++++=++++=++++=

hhh

hh

hhh

Page 4: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

52

จากขอมูลขางตน สังเกตวาคาสังเกตที่ 1, 2 และ 3 นั้น ถึงแมจะไดรับอิทธิจากการ

จัดการหรือการเลี้ยงดูในฝูงเดียวกันแตการตอบสนองการผลิตจะไมเทากันทั้งนี้เนื่องจาก

ความคลาดเคลื่อนของสัตวแตละตัว ( ijε ) ที่แตกตางกัน

ซึ่งสามารถสรางรหัส (dummy coding) การปรากฏของอิทธิพลตางๆ เมื่อกําหนดให

รหัส 1 = ปรากฏ และ 0 = ไมปรากฏ ไดเปน Dummy coding

33

32

31

22

21

13

12

11

321

100120100115100110010111010110001112001111001110

εεεεεεεεεμ

++++=++++=++++=++++=++++=++++=++++=++++=

ijij hhhy

ระบบสมการเชิงเสนขางตนสามารถเขียนในรูปของเมทริกซไดเปน Linear model in matrix form

εXβy +=

ซึ่งมีรายละเอียดดังนี้

{

{

3214434421ε

β

Xy⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

=

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

33

32

31

22

21

12

11

3

2

1

3

10011001100101010101001100110011

2015101110121110

εεεεεεεε

μ

hhh

เมื่อ y เปนเวคเตอรของคาสังเกต (response variable), β เปนเวคเตอรของอิทธิพล

คงที่ (parameter), X ถูกเรียกวา design matrix หรือ incidence matrix ที่สัมพันธกับการ

ปรากฏของอิทธิพลคงที่ β และ ε เปนเวคเตอรของอิทธิพลสุมของความคลาดเคลื่อน

(error)

Design matrix Incidence matrix

Page 5: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

53

2.1 ขอกําหนดของโมเดล

Model assumption โดยทั่วไปในการเขียนโมเดลเชิงเสนใดๆ ควรระบุขอกําหนดตางๆ ของอิทธิพลตางๆ ที่

จําเพาะกับโมเดลนั้นไวดวย เชนการแจกแจง, คาคาดคะเน และความแปรปรวนของอิทธิพล

เหลานั้นเปนตน เชน หากกําหนดใหเขียนโมเดลขางตนเปน εXβy += เมื่อ

ซึ่งแสดงถึง ),(~ 2eσI0ε 0ε =)(E และ และมีหมายความวาคาเฉลี่ยของ

ความคลาดเคลื่อนของประชากรมีคาเปน และความแปรปรวนของความคลาดเคลื่อน

ของประชากรมีคาเปน

2)( eV σIε =

02eσI โดยมีโครงสราง ดังนี้

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

⎥⎥⎥⎥

⎢⎢⎢⎢

=

2

2

2

22

00

0000

100

010001

e

e

e

ee

σ

σσ

σσ

L

MOMM

L

L

L

MOMM

L

L

I

Independent error Uncorrelated error

ซึ่งหมายความวาความคลาดเคลื่อนจากสัตวแตละตัวมีความแปรปรวนคาเทากับ 2eσ

โดยความคลาดเคลื่อนจากสัตวแตละตัวจะเปนอิสระตอกัน เรียก independent error หรือ

uncorrelated error (สังเกตวาคา covariance เทากับ 0)

2.2 การหาคาดคะเนและความแปรปรวนของโมเดล

นอกจากการกําหนดคาคาดคะเน (expectation) และความแปรปรวน (variance) ของ

อิทธิพลตางๆ ในโมเดลแลว การระบุคาคาดคะเนและความแปรปรวนของโมเดลเปน

ส่ิงจําเปนที่ตองระบุ เชนกัน ทั้งนี้เนื่องจากในแตละโมเดลประกอบดวยอิทธิพลคงที่ (fixed

effects) และอิทธิพลสุม (random effects) ที่แตกตางกัน ซึ่งในการหาคาดคะเนและความ

แปรปรวนของตัวแปร (variable) อื่นๆ ใชหลักการการหาคาดคะเนของเวคเตอรและเมทริกซ

ที่กลาวไวแลวในบทที่ 2 ตามปกติ หากกําหนดให

Model expectation and variance

εXβy += , โดย 0ε =)(E และ 2)( eV σIε =

เมื่อ เปนเวคเตอรของคาสังเกต, y β เปนเวคเตอรของอิทธิพลคงที่, X เปน

incidence matrix ที่แสดงการปรากฏของอิทธิพลคงที่ β ในคาสังเกตและ ε เปนเวคเตอร

ของอิทธิพลสุมของความคลาดเคลื่อน

Page 6: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

54

0),(,0)(;

),(2)()()()(

2 ===

++=+=

εXβXβI

εXβεXβεXβy

CovV

CovVVVV

22 )(),(,0),(;

),(),(),(),(

ee VCovCov

CovCovCovCov

σσ IεεεεXβI

εεεXβεεXβεy

====

+=+=

สังเกตวา variance ของ fixed effects ( β ) มีคาเปน 0 และกําหนดให covariance

ของ fixed effects กับ random มีคาเปน 0 เชนกัน

III. การหาคําตอบของระบบสมการ (Solving System of Linear Equation)

เนื่องจากคาพารามิเตอร ( β ) เปนคาของประชากรซึ่งเราไมทราบคา ดังนั้นเราจึงตองมี

การประมาณคาของอิทธิพลเหลานั้นขึ้นมา ตัวประมาณของอิทธิพลเนื่องจากปจจัยคงที่

(fixed effect) เรียกวา estimator สวนตัวประมาณของอิทธิพลเนื่องจากปจจัยสุมเรียกวา

predictor สวนคาอิทธิพลที่ประมาณไดอาจเรียกรวมๆวาคาประมาณ (estimates) เรา

สามารถสรางตัวประมาณจากระบบสมการเชิงเสนขางตนไดหลายวิธี ซึ่งในบทนี้จะได

กลาวถึงวิธีการประมาณคาของอิทธิพลเนื่องจากตัวแปรคงที่ที่นิยม 4 วิธี ไดแกi) Ordinary

Least Squares (OLS), ii) Generalized Least Squares (GLS), iii) Maximum Likelihood

(ML), และ iv) Best linear Unbiased Estimator (BLUE)

3.1 การสรางตัวประมาณดวยวิธี Ordinary Least Squares (OLS)

กําหนดใหโมเดลเชิงเสนมีลักษณะดังนี้

εXβy += , โดย 0ε =)(E และ 2)( eV σIε =

เมื่อ เปนเวคเตอรขนาด y 1×n ของคาสังเกต, β เปนเวคเตอรขนาด ของ

อิทธิพลคงที่,

1×m

X เปน incidence matrix ขนาด mn× ที่แสดงการปรากฏของอิทธิพลคงที่

β ในแตละคาสังเกต, ε และเวคเตอรขนาด 1×n ของความคลาดเคลื่อน โดยมีคาเฉล่ีย

เปนศูนยและมีความแปรปรวนเปน (uncorrelated error variance) 2eσI Uncorrelated error

variance ตัวประมาณแบบ ordinary least squares (OLS) หมายถึงตัวประมาณคาของ β ที่ให

คากําลังสองของความคลาดเคลื่อน ( ε ) ของโมเดลต่ําสุด เมื่อ Xβyε −= ดังนั้นตัว

ประมาณจึงไดจากการ minimize คา sum of squares of error หรือ ซึ่งพบวา

คาประมาณแบบ OLS จะประเมินไดจาก

}{ εε ′Min

OLS estimator

yXXXβ ′′= −)(ˆ

Page 7: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

55

จากตัวอยางที่ 3.1 คาประมาณของ β ดวยวิธี OLS สามารถคํานวณไดดังนี้ Example 3.2

, ⎥⎥⎥⎥

⎢⎢⎢⎢

=′

3003020200333238

XX⎥⎥⎥⎥

⎢⎢⎢⎢

=′

45213399

yX

เนื่องจาก XX ′ เปน not of full rank ดังนั้น

⎥⎥⎥⎥

⎢⎢⎢⎢

=

⎥⎥⎥⎥

⎢⎢⎢⎢

=

⎥⎥⎥⎥

⎢⎢⎢⎢

⎥⎥⎥⎥

⎢⎢⎢⎢

=

⎥⎥⎥⎥

⎢⎢⎢⎢

⎥⎥⎥⎥

⎢⎢⎢⎢

=

′′=

3

2

1

ˆˆˆˆ

0.145.100.110.0

45213399

3/100002/100003/100000

45213399

3003020200333238

)(ˆ

hhhμ

yXXXβ

ขอสังเกต

เรียกวาเปนตัวประมาณแบบลีสทสแควร (OLS estimator) ซึ่งในที่นี้เปนเวคเตอร

ของคาประมาณของอิทธิพล (estimated effects) เนื่องจากฝูง (herd) ซึ่งไดแก

นอกจากนี้คา ถูกเรียกวาคาเฉลี่ยลีสทสแควร (least squares

means, LSM) เนื่องจากเปนคาเฉลี่ยที่คํานวณจากคาของอิทธิพลตางๆที่ประมาณขึ้นดวย

วิธี least squares ดังนั้น

β̂

321ˆ,ˆ,ˆ hhh

321ˆˆ,ˆˆ,ˆˆ hhh +++ μμμ

OLS estimator Estimated effects

0.140.140ˆˆ)3(

5.105.100ˆˆ)2(

0.110.110ˆˆ)1(

3

2

1

=+=+=

=+=+=

=+=+=

hherdLSM

hherdLSM

hherdLSM

μ

μ

μ

เนื่องจาก XX ′ เปน not of full rank matrix จึงทําให มีคําตอบไดหลายรูปแบบ

ขึ้นอยูกับ generalized inverse ที่ใช

β̂

Page 8: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

56

Solution 1

(set 0ˆ =μ )

Solution 2

(set ) 01̂ =h

Solution 3

(set ) 0ˆ2 =h

Solution 4

(set ) 0ˆ2 =h

0.15ˆ5.10ˆ0.11ˆ

0.0ˆ

3

2

1

=

=

=

=

h

h

h

μ

0.4ˆ5.0ˆ

0.0ˆ0.11ˆ

3

2

1

=

−=

=

=

h

h

h

μ

5.4ˆ0.0ˆ5.0ˆ5.10ˆ

3

2

1

=

=

=

=

h

h

h

μ

0.0ˆ5.4ˆ0.4ˆ

0.15ˆ

3

2

1

=

−=

−=

=

h

h

h

μ

อยางไรก็ตาม แมวาคาประมาณของอิทธิพล จะแตกตางกันไป แต linear

combination ( ) ของคาประมาณของอิทธิพลเหลานี้ เชน คาเฉลี่ยลีสทสแควร

( ) จะไมเปล่ียนแปลง

321ˆ,ˆ,ˆ,ˆ hhhμ

βk ˆ′

321ˆˆ,ˆˆ,ˆˆ hhh +++ μμμ

3.2 การสรางตัวประมาณดวยวิธี Generalized Least Squares (GLS)

กําหนดใหโมเดลเชิงเสนมีลักษณะดังนี้

εXβy += , โดย 0ε =)(E และ Vε =)(V

เมื่อ y เปนเวคเตอรขนาด 1×n ของคาสังเกต, β เปนเวคเตอรขนาด 1×m ของ

อิทธิพลคงที่, X เปน incidence matrix ขนาด mn× ที่แสดงการปรากฏของอิทธิพลคงที่

β ในแตละคาสังเกต, ε และเวคเตอรขนาด 1×n ของความคลาดเคลื่อน โดยมีคาเฉล่ีย

เปนศูนยและมีโครงสรางของความแปรปรวนและความแปรปรวนรวมระหวางความ

คลาดเคลื่อนเปน V (correlated error variance)

Correlated error variance

Weighted least square

ตัวประมาณแบบ generalized least squares (GLS) หมายถึงตัวประมาณคาของ β

ที่ใหคากําลังสองของความคลาดเคลื่อนของโมเดลต่ําสุดเชนกัน แตสามารถใชกับโมเดลที่มี

ความคลาดเคลื่อนที่มีความสัมพันธกัน โดยวิธีการ weighted least squares จะถูกนํามาใช

ในการจัดการ correlated error ดังนั้นตัวประมาณจึงไดจากการ minimize คา

standardized residual sum of squares หรือ ซึ่งพบวาคาประมาณแบบ

GLS จะประเมินไดจาก

}{ εVε 1−′Min

GLS estimator

yVXXVXβ 11ˆ −−− ′′= )(

Page 9: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

57

ขอสังเกต

ขอเปรียบเทียบบางประการจากตัวประมาณแบบ Ordinary Least Squares (OLS)

และ Generalized Least Squares (GLS) สามารถสรุปไดดังนี้

Comparisons of OLS and GLS estimator

OLS GLS

ขอกําหนดของ error term ),(~ 2eσI0ε ),(~ V0ε

สูตรตัวประมาณของ β yXXXβ ′′= −)(ˆ yVXXVXβ 11 )(ˆ −−− ′′= Var( ) β̂ 2)( eσ

−′XX −−′ )( 1XVX Var( y ) 2)( eσXXXX ′′ − XXVXX ′′ −− )( 1

3.3 การสรางตัวประมาณดวยวิธี Maximum Likelihood (ML)

กําหนดใหโมเดลเชิงเสนมีลักษณะเชนเดียวกับโมเดลเชิงเสนในการสรางตัวประมาณ

แบบ GLS ในหัวขอ 3.2 ตัวประมาณแบบ Maximum Likelihood (ML) หมายถึงตัว

ประมาณคาของ β ที่ใหภาวะนาจะเปน (likelihood) ที่คาประมาณที่ไดจะเปนคาของ

พารามิเตอรสูงสุด ดังนั้นตัวประมาณจึงไดจากการ maximize likelihood function (L )

หรือ เมื่อ L เปน joint distribution function ของ }{LMax y ซึ่งพบวาภายใตการแจก

แจงแบบปกติ (normality) คาประมาณแบบ ML จะประเมินไดจาก

Maximum likelihood estimator

yVXXVXβ 11ˆ −−− ′′= )(

3.4 การสรางตัวประมาณดวยวิธี Best Linear Unbiased Estimator (BLUE)

กําหนดใหโมเดลเชิงเสนมีลักษณะเชนเดียวกับโมเดลเชิงเสนในการสรางตัวประมาณ

แบบ GLS ในหัวขอ 3.2 ตัวประมาณแบบ BLUE หมายถึงตัวประมาณคาที่อยูในรูป linear

combination ของคาสังเกต ( ) โดยมีคุณสมบัติไมเอนเอียง (unbiasedness)

กลาวคือคาคาดคะเนของของคาประมาณมีคาเทากับคาพารามิเตอรหรือ และ

เปนตัวประมาณที่ดีที่สุด (best estimator) ซึ่งหมายถึงเปนตัวประมาณที่มีคาความ

แปรปรวนของความคลาดเคลื่อนของตัวประมาณต่ําสุด (estimation error variance

ต่ําสุด) หรือมีคา ซึ่งพบวาคาประมาณแบบ BLUE จะประเมินไดจาก

yLβ ′=ˆ

ββ =)ˆ(E

})ˆ({ 2ββ −EMin

Best linear unbiased estimator

yVXXVXβ 11ˆ −−− ′′= )(

Page 10: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

58

ขอสังเกต

ทั้งตัวประมาณแบบ GLS, ML, และ BLUE มีรูปเดียวกัน ดังนั้นอาจกลาวไดวาการ

ประมาณคาอิทธิพลตางๆ ดวยสมการ จะทําใหคาประมาณที่ได

มีคุณสมบัติเปนตัวประมาณที่ 1) มีคากําลังสองของ sum of squares of error (SSE) ของ

โมเดลต่ําที่สุด 2) ใหภาวะนาจะเปนที่คาประมาณที่ไดจะเปนคาพารามิเตอรของประชากร

สูงสุดหากขอมูลมีการแจกแจงปกติ และ 3) มีคุณสมบัติไมเอนเอียง (unbiasedness) และมี

คา estimation error variance ของตัวประมาณต่ําสุด

yVXXVXβ 11ˆ −−− ′′= )(

จากตัวอยางที่ 3.1 หากกําหนดให V มีคาดังนี้ Example 3.3

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

=

2011000010120100000112000000000305000000530000000002055000005205

1000005520

V

คาประมาณคาของ β ดวยวิธี GLS, ML และ BLUE สามารถคํานวณไดดังนี้

1) คํานวณ และ XVX 1−′ −−′ )( XVX 1

⎥⎥⎥⎥

⎢⎢⎢⎢

−=

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥

⎢⎢⎢⎢

=′

15.0002.013.0006.0006.0

02.0011.009.013.006.009.028.0

10011001100101010101001100110011

2011000010120100000112000000000305000000530000000002055000005205

1000005520

11000000000110000000011111111111

1

1XVX

⎥⎥⎥⎥

⎢⎢⎢⎢

=′ −−

75.6032.10050.170032.1054.900000

)( 1XVX

Page 11: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

59

2) คํานวณ yVX 1−′

⎥⎥⎥⎥

⎢⎢⎢⎢

=

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎥⎥⎥⎥

⎢⎢⎢⎢

=′

19.260.073.052.3

10011001100101010101001100110011

2011000010120100000112000000000305000000530000000002055000005205

1000005520

11000000000110000000011111111111

1

1 yVX

3) เนื่องจาก เปนเมทริกซ not of full rank ดังนั้น XVX 1−′

⎥⎥⎥⎥

⎢⎢⎢⎢

=

⎥⎥⎥⎥

⎢⎢⎢⎢

=

⎥⎥⎥⎥

⎢⎢⎢⎢

⎥⎥⎥⎥

⎢⎢⎢⎢

=

′′= −−−

3

2

1

11

ˆˆˆˆ

73.1550.1087.900.0

05.260.010.175.3

75.6032.10050.170032.1054.900000

)(ˆ

hhhμ

yVXXVXβ

3.5 สรุปคุณสมบัติบางประการและที่มาของตัวประมาณแบบตางๆ Some properties of

estimators

ขอเปรียบเทียบบางประการจากตัวประมาณแบบ OLS, GLS, ML และ BLUE สามารถ

สรุปไดดังตาราง

OLS GLS ML* BLUE

Derive by minimizing sum squares of residual x x

Derive by minimizing mean squares of

estimation error

x

Derive by maximizing likelihood function x

Unbiased estimator x x x x

Best estimator (minimize error variance) x x x

Note: * ML ภายใต normality assumption

Page 12: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

60

IV. ที่มาทางทฤษฎีของตัวประมาณ (Theoretical Background of Estimator)*

ในสวนนี้จะเนนการพิสูจนที่มาของตัวประมาณแบบตางๆที่กลาวไวในสวนที่ III โดยตัว

ประมาณแบบลีสทสแควรชนิด OLS ถูกสรางจากพื้นฐานของโมเดล εXβy += เมื่อ

0ε =)(E และ ในขณะที่ตัวประมาณแบบลีสทสแควรชนิด GLS, Maximum

likelihood (ML) และ Best Linear Unbiased estimator (BLUE) ถูกสรางจากพื้นฐานของ

โมเดล

2)( eV σIε =

εXβy += เมื่อ 0ε =)(E และ Vε =)(V

4.1 ที่มาของตัวประมาณแบบ Ordinary Least Squares (OLS)

กําหนดใหโมเดลเชิงเสนมีลักษณะดังนี้

εXβy += , โดย 0ε =)(E และ 2)( eV σIε =

ตัวประมาณแบบ OLS ถูกสรางจากการ minimize คา sum of squares of error ของ

โมเดลหรือ }{ εε ′Min ซึ่งมีขั้นตอนดังนี้

1) หาคาความคลาดเคลื่อน ( ε ) จากโมเดลพบวา

Xβyε −=

2) สราง residual sum of squares หรือ sum of squares of error (SSE) ซึ่งจาก

สมการใน 1) ทําใหสามารถสราง SSE ในรูปของ quadratic form ของพารามิเตอร

( β ) ที่ตองการประมาณคาได ดังนี้

Construct residual SS

XβXβXβyyXβyyXβyXβyXβyXβy

εεβ

′′+′−′′−′=−′′−′=

−′−=

′=

))(()()(

)(Q

3) จาก quadratic form หรือ SSE ที่ได ทําใหมีคาต่ําสุดไดโดยหาอนุพันธตาม β

แลวเทียบใหเทากับศูนยซึ่งจะไดวา Minimize residual SS

{ }

XβXyXXβXyXyX

XβXβXβyyXβyyβ

ββ

′+′−=

′+′−′−=

′′+′−′′−′∂∂

=∂∂

2220

)(Q

เมื่อเทียบอนุพันธใหเทากับ 0 จะไดวา

yXXβX ′=′

*

เนื้อหาขั้นสูง สําหรับผูที่สนใจในเชิงทฤษฎี

Page 13: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

61

4) สมการที่เกิดจากการเทียบอนุพันธอันดับแรกใหเทากับศูนยขางตนเรียกวา normal

equation ซึ่งจากสมการนี้ทําใหประมาณ β ไดจาก

yXXXβ ′′= −)(ˆ

Normal equation

4.2 ที่มาของตัวประมาณแบบ Generalized Least Squares (GLS)

กําหนดใหโมเดลเชิงเสนมีลักษณะดังนี้

εXβy += , โดย 0ε =)(E และ Vε =)(V

ตัวประมาณแบบ GLS ถูกสรางจากการ minimize คา standardized residual sum of

squares ของโมเดลหรือ ซึ่งมีขั้นตอนดังนี้ }{ 1εVε −′Min

1) Standardize โมเดลดวย error term โดยใช คูณเขาทั้งสองขางของสมการ

ดังนั้น

2/1−V

εVXβV

εXβVyV2/12/1

2/12/1 )(−−

−−

+=

+=

2) หาคาความคลาดเคลื่อน (ในรูป standardized) จากโมเดล

XβVyVεV 2/12/12/1 −−− −=

3) สราง sum of squares of error (SSE) ซึ่งจากสมการใน 1) ทําใหสามารถสราง

Standardized residual SS ในรูปของ quadratic form ของพารามิเตอร ( β ) ที่

ตองการประมาณคาได ดังนี้

Construct standardized residual SS

XβVXβXβVyyVXβyVy

XβVyVVXβVy

XβVyVXβVyV

εVεVβ

1111

2/12/12/12/1

2/12/12/12/1

2/12/1

))((

)()(

)()()(

−−−−

−−−−

−−−−

−−

′′+′−′′−′=

−′′−′=

−′−=

′=Q

4) จาก quadratic form หรือ SSE ที่ได ทําใหมีคาต่ําสุดไดโดยหาอนุพันธตาม β

แลวเทียบใหเทากับศูนยซึ่งจะไดวา Minimize standardized residual SS

XβVXyVX

XβVXyVXyVX

XβVXβXβVyyVXβyVyβ

ββ

11

111

1111

22

2

}{)(

−−

−−−

−−−−

′+′−=

′+′−′=

′′+′−′′−′∂∂

=∂∂ Q

เมื่อเทียบอนุพันธใหเทากับ 0 จะไดวา

yVXXβVX 11 −− ′=′

Page 14: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

62

5) สมการที่เกิดจากการเทียบอนุพันธอันดับแรกใหเทากับศูนยขางตนเรียกวา normal

equation ซึ่งจากสมการนี้ทําใหประมาณ β ไดจาก

yVXXVXβ 11ˆ −−− ′′= )(

4.3 ที่มาของตัวประมาณแบบ Maximum Likelihood (ML)

กําหนดใหโมเดลเชิงเสนมีลักษณะดังนี้

εXβy += , โดย 0ε =)(E และ Vε =)(V

ตัวประมาณแบบ Maximum Likelihood (ML) หมายถึงตัวประมาณคาของ β ที่ให

ภาวะนาจะเปนที่คาประมาณจะเปนคาของพารามิเตอรสูงสุด โดยการ maximize

likelihood function (L ) หรือ ซึ่งพบวาคาประมาณแบบ ML จะประเมินไดมี

ขั้นตอนดังนี้

}{LMax

1) สรางฟงกชันภาวะนาจะเปนของพารามิเตอร

จากทฤษฎีทางสถิติ ฟงกชันภาวะนาจะเปน (likelihood function) ของ

พารามิเตอรจากคาสังเกต ( y ) สามารถอธิบายไดจากฟงกชันของการแจกแจง

รวม (joint density หรือ products of density) ของคาสังเกตเมื่อกําหนด

พารามิเตอร (likelihood function of parameters given data is a product of

density function of data given parameters)

Likelihood function

เนื่องจากในการสราง likelihood function ตองทราบการแจกแจงรวม ดังนั้น

ในการสรางตัวประมาณดวยวิธีนี้จึงตองทราบชนิดของการแจกแจง ซึ่งโดยทั่วไป

นิยมสรางขอกําหนดใหมีการแจกแจงปกติ (normality assumption) ดังนั้นโมเดล

เชิงเสนจึงมีรูปแบบเปน

εXβy += , โดย ),(~ V0ε MVN

เมื่อ MVN หมายถึง multivariate normal distribution ดังนั้น likelihood

function (L ) จะมีรูปดังนี้ Construct likelihood function

( )

)}()(21{||)2(

),|(|,

12/12/ XβyVXβyV

VβyyVβ

−′−−=

=

−−−

exp

f

L

2) ทําใหคา likelihood function สูงสุด ซึ่งในการหาคาสูงสุดของฟงกชันที่อยูในรูป

ผลคูณหรือ exponential family นิยมแปลงฟงกชันนั้นใหอยูในรูปลอการิทึมกอน

แลวจึงหาอนุพันธ ดังนั้น log likelihood function (L) จะมีคาดังนี้

Construct log likelihood

Page 15: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

63

)

(21||ln

21)2ln(

2

)()(21||ln

21)2ln(

2

)()(21||ln

21)2ln(

2ln

)}()(21{||)2(

1

111

1

1

12/12/

XβVXβ

XβVyyVXβyVyV

XβyVXβyV

XβyVXβyV

XβyVXβyV

−−−

−−−

′′+

′−′′−′−−−=

−′′−′−−−=

−′−−−−=

−′−−=

π

π

π

π

n

nL

n

expn

L

L

3) ทําใหมีคาสูงสุดไดโดยหาอนุพันธตาม β แลวเทียบใหเทากับศูนยซึ่งจะไดวา

XβVXyVX

XβVXyVX

XβVXyVXyVX

XβVXβXβVy

yVXβyVyVββ

11

11

111

11

112/1

)22(21

)2(21

)}

(21||ln

21)2ln(

2{

−−

−−

−−−

−−

−−−

′−′=

′+′−−=

′+′−′−−=

′′+′−

′′−′−−−∂∂

=∂∂ πnL

Maximize log likelihood

เมื่อเทียบอนุพันธใหเทากับศูนยจะไดวา

yVXXβVX 11 −− ′=′

6) จาก normal equation ที่ได ซึ่งจากสมการนี้ทําใหประมาณ β ไดจาก

yVXXVXβ 11ˆ −−− ′′= )(

4.4 ที่มาของ Best Linear Unbiased Estimator (BLUE)

กําหนดใหโมเดลเชิงเสนมีลักษณะดังนี้

εXβy += , โดย 0ε =)(E และ Vε =)(V

ตัวประมาณแบบ BLUE หมายถึงตัวประมาณที่อยูในรูป linear combination ของคา

สังเกต ( ) โดยมีคุณสมบัติไมเอนเอียง (unbiasedness) และมีเปนตัวประมาณที่ดี

ที่สุด (best estimator) ซึ่งหมายถึงเปนตัวประมาณที่มีคา estimation error variance

ต่ําสุด

yLβ ′=ˆ

Page 16: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

64

ดังนั้น การประมาณคาดวยวิธีนี้ใชหลักการสรางตัวประมาณจากฟงกชันเชิงเสนของคา

สังเกต กลาวคือสรางตัวประมาณใหอยูในรูป y yL′ เมื่อ เปน linear combination

matrix ( ) จากนั้นตองสรางตัวประมาณใหมีคุณสมบัติไมเอนเอียง

(unbiasedness) และเปน best estimator หรือสรางตัวประมาณใหมีความแปรปรวนของ

ความคลาดเคลื่อนของการประมาณต่ําสุด (estimation error variance ต่ําสุด) ซึ่งคา

estimation error variance จะคํานวณจาก mean squares of estimation error ดังนั้นหาก

กําหนดให เปน estimation error แลว วิธีการนี้จึงตองการตัวประมาณที่สรางจาก

ซึ่งในการหาตัวประมาณจากสมการขางตนตองใชหลายขั้นตอน ดังนี้

L

yLβ ′=ˆ

δ

)}({ δδ ′EMin

1) หาคาความคลาดเคลื่อนของตัวประมาณ (estimation error, ) หากกําหนดให δ

β เปนพารามิเตอรที่ไมทราบคา และ เปนตัวประมาณที่สรางขึ้น คา

estimation error หาไดจาก

β̂ Estimation error

ββδ −= ˆ

2) สราง mean squares of estimation error ในรูปของ matrix form ของ

พารามิเตอร ( β ) ที่ตองการประมาณคาได ดังนี้

Construct mean squares of estimation error

)}ˆˆˆˆ{(

)}ˆ)(ˆ{(

})ˆ)(ˆ{(

)()(

ββββββββ

ββββ

ββββ

δδβ

′+′−′−′=

′−′−=

′−−=

′=

E

E

E

EM

กําหนดให ดังนั้น yLβ ′=ˆ

βββyLLyβLyyLβββyLLyβLyyL

βββyLLyβLyyLβββyLyLβyLyLβ

′+′′−′−′′=

′+′′−′−′′=

′+′′−′−′′=

′+′′−′′−′′′=

)()()(}{

)})()())({()})()())({()(

EEEEEEM

คํานวณคา Expectation เพื่อแทนคาในสมการ )(βM

จาก )()()()( εXβεXβy EEEE +=+= , เมื่อ ดังนั้น 0)( =εE Xβy =)(E

VεεεεVXβXβεεεXβXβεXβXβ

εεεXβXβεXβXβεXβεXβ

εXβεXβyy

==′=+′′=

′+′+′′+′′=

′+′+′′+′′=

′+′′+=

′++=′

)()(,0)(;)()()(

}{))({(

))({()(

VEEEEE

EEEE

แทนคา ,)( yE )( y ′E และ )( yy ′E ลงในสมการ จะไดวา )(βM

βββXβLLXββVLLLXβXβLβββXβLLXββLVXβXβLβ

′+′′−′′−′+′′′=

′+′′−′′−+′′′= )()()()(M

Page 17: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

65

3) สรางเงื่อนไขที่จะทําใหตัวประมาณ มีคุณสมบัติไมเอนเอียง

(unbiasedness) ซึ่งพบวา จะมีคุณสมบัติดังกลาวเมื่อ

yLβ ′=ˆ

β̂ 0ββ =− )ˆ(E Find unbiased condition

จาก

)()(;

)()()()ˆ(

XLIβXβyXβLβ

yLβyLβββ

′−==′−=

′−=

′−=−

EEE

EE

ดังนั้น จะมีคุณสมบัติไมเอนเอียงเมื่อ β̂ 0βXLI =′− )( และเนื่องจาก β

เปนคาจํานวนจริงใดๆ ทําใหสมการขางตนจะเปนจริงไดตอเมื่อ 0XLI =′− )(

4) สรางเงื่อนไข unbiased estimator ที่กําหนดไวใน 3) ใหกับ โดยการใช

เทคนิคของการเพิ่ม Lagrange multiplier ใหกับฟงกชัน ดังนั้นหากกําหนดให

เปน Lagrange multiplier vector จะไดวาฟงกชันที่เราตองการทําใหมีคาต่ําสุด

จะเพิ่มสวนของผลคูณของ กับ condition ที่ตองการ (condition ที่ตองการในที่

ไดจากขอ 3) ซึ่งไดแก

)(βM

θ

θ

0XLI =′− )( ) ดังนั้น

Construct restricted mean squares of estimation error with Lagrange multiplier.

θXLIββ )()()(~ ′−+= MM

เพื่อความสะดวกในขั้นตอไป เราสามารถกําหนด Lagrange muliplier ใหอยู

ในรูปสองเทาของ condition matrix เนื่องจากหาก 0XLI =′− )( แลว

0XLI =′− )(2 ดังนั้นตัวประมาณจะถูกสรางจาก

LXβXβLβXβLLXββXθLθββVLLXθLθβββXβLLXββVLLLXβXβLθXLIβββXβLLXββVLLLXβXβL

θXLIββ

′′′+′′−′′−′−+′+′=

′−+′+′′−′′−′+′′′=

′−+′+′′−′′−′+′′′=

′−+=

2222

2)(2)()()(~ MM

ดังนั้นในขั้นตอไป ตัวประมาณจะถูกสรางจากการ )}(~{ βMMin

5) ทําการ )}(~{ βMMin เพื่อหา และ ที่ทําให estimator error variance มีคา

ต่ําสุด โดยหาอนุพันธของ

L θ

)(~ βM ตาม และ แลวเทียบใหเทากับศูนยซึ่งจะ

ไดวา

L θ

Minimize estimation error variance

a) หาคาอนุพันธตาม L

)}({22222

222

}22{)(~

LXIβXβXθVLLXβXββXβXθVL

LXβXββXββXβXθVL

LXβXβLβXβLLXββXθLθββVLLL

βL

′+′−−=

′′+′−−=

′′+′−′−−=

′′′+′′−′′−′−+′+′∂∂

=∂∂ M

Page 18: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

66

เนื่องจากขอกําหนดในขั้นตอนที่ 3) ตองการใหตัวประมาณที่จะสรางขึ้น

มี 0LXIXLI =′−=′− )()( ซึ่งทําใหไดวาคา สมการอนุพันธนี้จะเปน

จริงเมื่อ

L

0LXIβXβ =′+′ )( ดังนั้นเมื่อเทียบอนุพันธใหเทากับศูนยจะไดวา

)(1 iLXθVL

XθVL0XθVL

−=

==−

b) หาคาอนุพันธตาม θ

)(222

}22{)(~

LXILXI

LXβXβLβXβLLXββXθLθββVLLθ

βθ

′−=

′−=

′′′+′′−′′−′−+′+′∂∂

=∂∂ M

ดังนั้นเมื่อเทียบอนุพันธใหเทากับศูนยจะไดวา

)(0

iiLILXLXI

=′=′−

เมื่อแทนคา จาก ลงใน จะไดวา L )(i )(ii

)()(

)(1

1

iiiL−−

′=

=′

XVXθ

IXθVX

เมื่อแทนคา จาก ลงใน จะไดวา θ )(iii )(i

−−− ′= )( 11 XVXXVL

6) เมื่อแทนคา ลงในสมการ ทําใหไดวาตัว

ประมาณของ

11 )( −−− ′=′ VXXXVL yLβ ′=ˆ

β ดวยวิธี BLUE มีรูปแบบเปน

yVXXVXβ 11ˆ −−− ′′= )(

V. สรุป

โมเดลเชิงเสน (linear model) มีรูปทั่วไปเปน bxay += ในทางสถิติสามารถเรียกรูป

สมการที่มีคาอิทธิพลตางๆ อยูในรูปของผลบวกลักษณะนี้วาโมเดลแบบบวกสะสม

(additive model) หากพิจารณาโมเดลเชิงเสนในรูปของการประเมินอิทธิพลเนื่องจาก

ตัวแปรอิสระ (independent variables) ที่มีตอตัวแปรตาม (dependent variable)

โดยมีวัตถุประสงคหลักเพื่อสรางสมการทํานาย (prediction equation) จะนิยมเรียกวา

โมเดลเชิงเสนนั้นวาสมการถดถอย (regression)

Page 19: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

67

โมเดลเชิงเสนสามารถเขียนใหอยูในรูปของเมทริกซไดเปน εXβy += เมื่อ เปน

เวคเตอรสุม (random vector) ของคาสังเกต,

y

X เปนเมทริกซของตัวแปรอิสระหรือ

incidence matrix หรือ design matrix หรือ dummy-coding matrix, β เปนเวคเตอร

ของพารามิเตอร และ ε เปนเวคเตอรสุมของความคลาดเคลื่อน

ในแตละโมเดลควรระบุขอกําหนดใหชัดเจน เชน แสดงถึง ),(~ 2eσI0ε 0ε =)(E

และ หมายถึงคาเฉลี่ยของความคลาดเคลื่อนของประชากรมีคาเปน

โดยมีความแปรปรวนของความคลาดเคลื่อนเปน

2)( eV σIε = 02eσI เมื่อทราบขอกําหนดของโมเดล

ทําใหสามารถหาคาคาดคะเน (expectation) และความแปรปรวน (variance) อื่นๆ

ของโมเดลได เชน เมื่อ εXβy += โดยมี ดังนั้น ),(~ 2eσI0ε Xβy =)(E และ

เปนตน 2)( eyV σI=

การประมาณคาพารามิเตอรของโมเดลเชิงเสนเมื่อมีแตอิทธิพลคงที่ (fixed effects) ที่

กลาวถึงในบทนี้มี 4 วิธีไดแกวิธี OLS (Ordinary Least Squares), GLS (Generalized

Least squares), ML (Maximum Likelihood) และ BLUE (Best Linear Unbiased

Estimator) ตัวประมาณที่ไดจาก OLS จะมีคาเปน ในขณะที่ตัว

ประมาณที่ไดจาก GLS, ML และ BLUE จะเหมือนกัน ไดแก

อยางไรก็ตามในการใชการประมาณคาแบบ OLS ตองการ

ขอกําหนดวาความแปรปรวนของความคลาดเคลื่อนมีคาเทากับ หรือไมมี

covariance ระหวางความคลาดเคลื่อน หากขอมูลที่ไดอาจไมเปนไปตามขอกําหนด

ดังกลาวควรใชตัวประมาณแบบ GLS, ML หรือ BLUE เนื่องจากมีการ standardize

โมเดลดวย ซึ่งเปนเมทริกซความแปรปรวนของคาสังเกต อยางไรก็ตามตัวประมาณ

แบบ ML ตองการขอกําหนดที่วาการแจกแจงของขอมูลตองเปน multivariate normal

distribution ในขณะที่ตัวประมาณแบบอื่นไมจําเปนตองมีขอกําหนดนี้

yXXXβ ′′= −)(ˆ

yVXXVXβ 11ˆ −−− ′′= )(2eσI

V

บรรณานุกรม

Henderson, C.R. 1973. Sire evaluation and genetic trends. pp 10-41. In Proceeding of The Animal

Breeding and Genetics Symposium in Honor of Dr. Jay L. Lush. American Society of Animal

Science, IL.

Lynch, M., and B. Walsh. 1998. Genetics and Analysis of Quantitative Traits. Sinauer Associates, Inc.,

NY.

Raymond, H.M., and J.S. Milton. 1991. A First Course in the Theory of Linear Statistical Models. PWS-

KENT Publishing Company, Boston.

Schaeffer, L.R. 1994. Course Note in Linear model. Guelph University, Guelph.

Searle, S.R. 1982. Matrix Algebra Useful for Statistics. John Wiley and Sons, Toronto.

.

Page 20: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

68

Page 21: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

69

คําถามทายบท III

1. กําหนดให

εXβy += , V)(0,~ε

เมื่อ โดย 2eσRV = R เปนเมทริกซคาสหสัมพันธของความคลาดเคลื่อน จงพิสูจนวาหากแปลงตัวแบบใหอยู

ในรูป แลวจะไดวา yR 1/2− )I(0,~ε 2eσ

2. จงพิสูจนวา และ เมื่อ เปนตัวประมาณแบบ OLS βKβK ′=′ )ˆ(E 2)ˆ( eVar σ−′= X)X(β β̂

3. กําหนดใหน้ําหนักแรกเกิดในโคจากงานวิจัยครั้งหนึ่ง มีขอมูลดังตาราง

ID Sex Breed BW 1 2 3 4 5 9

F F M M F F

B B B A A C

34 36 28 32 41 38

และกําหนดใหตัวแบบของน้ําหนักแรกเกิดเปน

εXβy += , V)(0,~ε

เมื่อ เปนเวคเตอรของคาสังเกตน้ําหนักแรกเกิด, y X เปน incidence matrix, β เปนเวคเตอรเนื่องจาก

อิทธิพลคงที่เนื่องจากเพศและพันธุ, และ ε เปนความคลาดเคลื่อน โดยมีความแปรปรวนเปน V

โดยกําหนดให

⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢

=

105551151055115510511555101111111011111110

V

i) จงประมาณคาของอิทธิพลเนื่องจากพันธุและเพศที่มีตอน้ําหนักลูกโค ดวยวิธี OLS

ii) จงประมาณคาของอิทธิพลในขอ i) อีกครั้งดวยวิธี GLS

iii) กําหนดให จากนั้นทําซ้ําในขอ ii) อีกครั้ง 2eσIV =

iv) เปรียบเทียบคาประมาณที่ไดจากขอ i, ii, iii พรอมทั้งวิจารณ

Page 22: โมเดลเชิ งเสนและการประมาณค าChapter3.pdf · ด วยวิธี Ordinary Least Squares (OLS), Generalized Least Squares (GLS),

70

v) คํานวณคา LS-MEAN หรือ Least squares mean ของแตละเพศและแตละพันธุ

vi) ตรวจสอบ estimability ตอไปนี้

a) MF ββ − b) BA ββ − c) )()( breedBLSMbreedALSM −

d) )()( breedALSMsexFLSM −

เมื่อ MF ββ , เปนอิทธิพลเนื่องจากเพศเมียและเพศผู และ เปนอิทธิพลเนื่องจากพันธุ A และ B

ตามลําดับ = Least squares mean LSM

4. กําหนดให

εXβy += , R)(0,~ε

เมื่อ เปนเวคเตอรของคาสังเกต, y X เปน incident matrix, β เปนเวคเตอรเนื่องจากอิทธิพลคงที่, และ ε

เปนความคลาดเคลื่อน โดยมีความแปรปรวนเปน R จงสรางตัวประมาณคาของ β ดวยวิธี Maximum likelihood