Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
การประมาณคาสญหายในการวเคราะหการถดถอยเชงเสนพหคณ
รตตกาล จอมประพนธ
วทยานพนธนเปนสวนหนงของการศกษาตามหลกสตร วทยาศาสตรมหาบณฑต (สถต)
คณะสถตประยกต สถาบนบณฑตพฒนบรหารศาสตร
2555
บทคดยอ ชอวทยานพนธ การประมาณคาสญหายในการวเคราะหการถดถอยเชงเสนพหคณ ชอผเขยน นางสาวรตตกาล จอมประพนธ ชอปรญญา วทยาศาสตรมหาบณฑต (สถต) ปการศกษา 2555
งานวจยครงนเปนการศกษาวธการประมาณคาสญหายของตวแปรตามในการวเคราะหการ
ถดถอยเชงเสนพหคณ โดยน าเสนอวธประมาณคาสญหายของตวแปรตาม 4 วธ คอ วธอตราสวน ควอไทลท1 วธอตราสวนควอไทลท3 วธสมการถดถอย-อตราสวนควอไทลท1 และวธสมการถดถอย-อตราสวนควอไทลท3 ซงพฒนาขนมาจากตวประมาณอตราสวน การเปรยบเทยบประสทธภาพของวธทน าเสนอ 4 วธดงกลาวกบวธประมาณคาสญหายดวยคาเฉลยและดวยคาท านายทไดจากการวเคราะหการถดถอย ใชคาประมาณของรากทสองของคาเฉลยความคลาดเคลอนก าลงสองและคาเฉลยของเปอรเซนตความคลาดเคลอนสมบรณ เปนเกณฑในการเปรยบเทยบประสทธภาพซงไดจากการจ าลองสถานการณ เมอขอมลมการแจกแจงปกตทมขนาดตวอยาง ความแปรปรวน และเปอรเซนตการสญหายตางๆ ผลการศกษาพบวา วธสมการถดถอย-อตราสวนควอไทลท1 จะมประสทธภาพสงกวาวธอนๆในหลายสถานการณไดแก (1) เมอตวอยางมขนาดเลก (n=1) เปอรเซนตขอมลสญหายมาก (20%) ความแปรปรวนของความคลาดเคลอนคอนขางสง ( 2
= 1.5, 2) (2) ขนาดตวอยางมขนาดกลาง (n=40, 60) เปอรเซนตขอมลสญหายนอย (10%) ความแปรปรวนของความคลาดเคลอนต าสง ( 2 = 0.5, 1) (3) ตวอยางขนาดกลาง(n=40, 60) เปอรเซนตขอมลสญหายปานกลาง (15%) ความแปรปรวนของความคลาดเคลอนปานกลาง ( 2 = 1, 1.5) และ (4) ตวอยางมขนาดใหญ (n=100) เปอรเซนตขอมลสญหายปานกลาง (15%) ความแปรปรวนของความคลาดเคลอนปานกลาง ( 2 = 1.5) สวนวธสมการถดถอย-อตราสวนควอไทลท3 จะมประสทธภาพสงกวาวธอนๆเมอตวอยางมขนาดใหญ (n=100) เปอรเซนตขอมลสญหายปานกลาง (15%) ความแปรปรวนของความคลาดเคลอนปานกลาง ( 2 = 1) อยางไรกตามประสทธภาพของวธประมาณคาสญหายทง 2 วธนมความแตกตางกนไมมากนกทกสถานการณ
ABSTRACT
Title of Thesis Missing Estimation in Multiple Linear Regression Analysis Author Miss Ruttikan Jomprapan Degree Master of Science (Statistics) Year 2012
The objective of this research is to propose methods of imputation when there are
missing data on dependent variable in the multiple linear regression analysis. The proposed
methods of estimation are called ratio-Q1 method (RQ1), ratio-Q3 method (RQ3), regression-
ratio-Q1 method (RRQ1) and regression-ratio-Q3method (RRQ3). Efficiency of the proposed
methods are compared to mean imputation method and regression imputation method, in
variances simulation situation, by using estimated root mean squares error (RMSE) and mean
absolute percentage error (MAPE) as the criterion. In each situation, linear regression model with
2 independent variables are considered under the assumption that the error is distributed as
normal with various values of variance, sample size and percentages of missing observation on
dependent variable. The results show that the RRQ1 method has more efficient in the following
situations: (1) when the small sample size (n=20), large percentage of missing (20%), large value
of variance ( 2 = 1.5, 2), (2) medium sample size (n=40, 60), small percentage of missing
(10%), large value of variance ( 2 = 0.5, 1), (3) medium sample size (n=40, 60), medium
percentage of missing (15%), medium value of variance ( 2 = 1, 1.5), and (4) large sample size
(n=100), medium percentage of missing (15%), medium value of variance ( 2 = 1.5). The RRQ3
method has efficient when the large sample size (n=100), medium percentage of missing (15%),
medium value of variance ( 2 = 1).
กตตกรรมประกาศ
วทยานพนธฉบบนส าเรจลลวงไดดวยความชวยเหลอเปนอยางดยงจาก รศ.ดร.พาชตชนต ศรพานช อาจารยทปรกษาวทยานพนธ ซงกรณาสละเวลาใหความชวยเหลอ ใหค าปรกษาแนะน า ตดตามความคบหนาในการจดท าวทยานพนธทกขนตอน ตลอดจนควบคมดแล แกไขขอบกพรองตางๆ จนกระทงวทยานพนธฉบบนเสรจสมบรณ ผเขยนขอกราบขอบพระคณและส านกในบญคณอยางยง
ขอขอบพระคณทานคณะกรรมการสอบวทยานพนธซงไดแก ศ.ดร.ประชม สวตถ และ ผศ.ดร.ปรชา วจตรธรรมรส ทสละเวลาเปนกรรมการสอบวทยานพนธ ชวยใหค าปรกษา ขอแนะน า ตลอดจนตรวจสอบแกไขขอบกพรองตางๆใหวทยานพนธฉบบนมความสมบรณยงขน
ขอขอบพระคณคณาจารยทกทานของคณะสถตประยกต ทไดถายทอดวชาความรอนเปนประโยชนยงใหแกผเขยน รวมถงเจาหนาทคณะสถตประยกตและเจาหนาทส านกบรรณสารการพฒนาทกทานทใหความชวยเหลอในการตดตอ ประสานงานในเรองตางๆ ขอขอบคณเพอนๆทกคนทใหความชวยเหลอในการเขยนโปรแกรมและเปนก าลงใจใหกนมาโดยตลอด ขอขอบคณทกๆทานทมสวนรวมในวทยานพนธฉบบน
ทายสด ผเขยนขอกราบขอบพระคณและมอบความส าเรจนแด นายประยร และนางยพาพร จอมประพนธ ผซงเปนคณพอและคณแมของผเขยน รวมถงคนในครอบครวของผเขยนทกคน ทคอยใหการสนบสนน กระตนเตอน และเปนแรงบลดาลใจอนส าคญยงตลอดมาจนประสบผลส าเรจตามทตงใจ
รตตกาล จอมประพนธ พฤศจกายน 2555
สารบญ
หนา
บทคดยอ (3) ABSTRACT (4) กตตกรรมประกาศ (5) สารบญ (6) สารบญตาราง (8) สารบญภาพ (9) บทท 1 บทน า 1
1.1 ทมาและความส าคญของปญหา 1 1.2 วตถประสงคของการวจย 3
1.3 ขอตกลงเบองตน 3 1.4 ขอบเขตของการวจย 4 1.5 ระเบยบวธวจย 5 1.6 ประโยชนทคาดวาจะไดรบ 5
บทท 2 ทฤษฎและผลงานวจยทเกยวของ 6 2.1 วธก าลงสองนอยทสด 6 2.2 ประเภทของขอมลสญหาย 8 2.3 วธประมาณคาขอมลสญหาย 9
บทท 3 วธประมาณคาขอมลสญหาย 13 3.1 แนวคดพนฐานส าหรบวธการประมาณคาทน าเสนอ 13 3.2 ตวประมาณคาขอมลสญหายทน าเสนอ 15 3.3 เกณฑทใชการตดสนใจ 17 3.4 ขนตอนการด าเนนงาน 18
(7)
บทท 4 ผลการศกษา 24 4.1 ผลการเปรยบเทยบคาประมาณของรากทสองของคาเฉลยของความคลาดเคลอน 25 ก าลงสอง (RMSE) 4.2 ผลการเปรยบเทยบคาเฉลยของเปอรเซนตความคลาดเคลอนสมบรณ (MAPE) 30
บทท 5 สรป อภปรายผล และขอเสนอแนะ 35 5.1 สรปผลการวจย 35 5.2 อภปรายผลการวจย 40 5.2 ขอเสนอแนะ 42
บรรณานกรม 43 ภาคผนวก 45 ภาคผนวก โปรแกรมทใชในการสรางและวเคราะหขอมล 46 ประวตผเขยน 65
สารบญตาราง
ตารางท หนา
4.1 คา RMSE เมอคาความแปรปรวนของความคลาดเคลอนเทากบ 0.5 25 4.2 คา RMSE เมอคาความแปรปรวนของความคลาดเคลอนเทากบ 1 26 4.3 คา RMSE เมอคาความแปรปรวนของความคลาดเคลอนเทากบ 1.5 27 4.4 คา RMSE เมอคาความแปรปรวนของความคลาดเคลอนเทากบ 2 28 4.5 คา MAPE เมอคาความแปรปรวนของความคลาดเคลอนเทากบ 0.5 30 4.6 คา MAPE เมอคาความแปรปรวนของความคลาดเคลอนเทากบ 1 31 4.7 คา MAPE เมอคาความแปรปรวนของความคลาดเคลอนเทากบ 1.5 32 4.8 คา MAPE เมอคาความแปรปรวนของความคลาดเคลอนเทากบ 2 32 5.1 วธการประมาณคาสญหายทมประสทธภาพสงกวาวธประมาณคาสญหายวธอนๆ 36 ทน ามาเปรยบเทยบดวยเกณฑของคา RMSE 5.2 วธการประมาณคาสญหายทมประสทธภาพสงกวาวธประมาณคาสญหายวธอนๆ 38 ทน ามาเปรยบเทยบดวยเกณฑของคา MAPE
สารบญภาพ
ภาพท หนา
3.1 ขนตอนการสรางประชากร 21 3.2 การสมตวอยางและการวเคราะหขอมล 22 4.1 คา RMSE ของวธการประมาณคาสญหาย จ าแนกตามคาความแปรปรวนของ 29 ความคลาดเคลอน 2 4.2 คา MAPE ของวธการประมาณคาสญหาย จ าแนกตามคาความแปรปรวนของ 34 ความคลาดเคลอน 2
บทท 1
บทน ำ
1.1 ทมำและควำมส ำคญของปญหำ
การวเคราะหการถดถอยเปนการวเคราะหขอมลเชงสถตวธหนงทมการประยกตใชในดาน
ตางๆอยางกวางขวางอาทเชน วศวกรรม อตสาหกรรม วทยาศาสตร สงคมศาสตร และในดานธรกจ
เพอน ามาชวยท านายคาตวแปรทสนใจ (ในกรณนจะเรยกวาตวแปรตาม (Dependent variable))หรอ
ใชในการพยากรณสงทจะเกดขนในอนาคตโดยอาศยความสมพนธระหวางตวแปรทสนใจดงกลาว
กบตวแปรทเปนปจจยภายนอก (ในทนจะเรยกวาตวแปรอสระ (Independent variable)) หากมตว
แปรอสระเพยงตวเดยวจะเรยกวา การวเคราะหการถดถอยอยางงาย (Simple Regression) และถาม
ตวแปรอสระมากกวา 1 ตว ในการอธบายตวแปรตาม จะเรยกวาการวเคราะหการถดถอยพหคณ
(Multiple Regression) ปญหาหนงทผวจยพบบอยคอ ขอมลทรวบรวมมาไดนนมค าตอบไมครบถวน
สมบรณ ขอมลไดรบค าตอบเพยงบางสวน ซงอาจเกดจากขนตอนการจดเกบขอมล ปญหาจากการ
ปอนขอมล เครองมอจดเกบหรอ การโอนถายขอมลเกดความผดพลาด หรอเกดจากขอจ ากดของ
เทคโนโลยทใชงาน ท าใหเกดขอมลสญหายซงสงผลใหไมสามารถใชประโยชนจากขอมลชดนนได
เตมท
โดยปกตแลวการวเคราะหการถดถอย จะใชขอมลหรอคาสงเกตทมความครบถวนสมบรณ
ทกตวแปรมาใชในการพจารณา แตถาหากขอมลทรวบรวมมาไดนนมบางคาสญหายไป ไมวาจะ
ดวยสาเหตใดกตาม ทเราไมสามารถไปตามเกบเพมเตมได ท าใหขอมลของตวอยางไมสมบรณเกด
ปญหาในการวเคราะห ซงดวยสาเหตนผวจยบางคนอาจแกปญหาโดยการตดคาสงเกตชดนนทงไป
และวเคราะหขอมลเทาทมอย วธดงกลาวนไมเหมาะสมเนองจาก ขอมลทเหลออยอาจมจ านวนนอย
กวาทวางแผนไวมาก เปนผลท าใหสญเสยประสทธภาพทางสถตไปไดมาก และอาจท าให
2
คาประมาณทไดมความเอนเอยงหรอมความคลาดเคลอนมาตรฐานสงโดยเฉพาะอยางยงเมอหนวยท
ทงไปแตกตางจากทเหลออยมาก (ประชม สวตถ, 2552: 518) ท าใหการประมาณคาขาดความ
นาเชอถอได ดงนน การประมาณคาของขอมลสญหายจงมความส าคญมาก
ในงานวจยโดยทวไปจะใชการวเคราะหการถดถอยในการท านายคาของตวแปรตาม ประมาณ
คาเฉลยหรอแนวโนมของตวแปรตาม โดยอาศยอทธพลของตวแปรอสระทมผลตอตวแปรตาม ใน
การประมาณคาพารามเตอรหรอสมประสทธการถดถอย (Regression Coefficient) ซงวธทนยมใชใน
การประมาณคาพารามเตอรหรอสมประสทธการถดถอย คอวธก าลงสองนอยทสด (Least Squares
Method-LS) ซงเปนวธทใหตวประมาณทมคณสมบตท ไมเอนเอยง (Unbiased) และมความ
แปรปรวนต าสด (Minimum Variance) ในบรรดาตวประมาณเชงเสน แตเมอคาสงเกตสญหายไป
บางสวนท าใหประสทธภาพของตวประมาณลดลงหรออาจไมเหมาะสมในการใชวธ LS โดยปกต
วธการแกปญหาเมอมคาสงเกตสญหายไป อาจจะใชวธตดคาสงเกตนนทงไปดงทไดกลาวไวแลว
ขางตน หรอประมาณคาสงเกตทสญหายดวยวธการตางๆ กอนทจะใชวธก าลงสองนอยทสดเพอ
ตองการใหขอมลมความสมบรณ
การจดการกบขอมลสญหายมหลายวธ ซงจะขนอยกบลกษณะของขอมลสญหายทเกดขน
หากเลอกใชวธจดการกบขอมลสญหายทไมเหมาะสมยอมสงผลกระทบท าใหเกดการบดเบอนตอ
ผลการวเคราะหได ซงโดยทวไปมกจ าแนกขอมลสญหายออกเปน 3 ประเภท (Little และ Rubin,
1987) คอ Missing completely at random (MCAR), Missing at random (MAR) และNot missing at
random (NMAR) วธการจดการกบขอมลสญหายกรณขอมลสญหายเกดจากการไมตอบเฉพาะบาง
ค าถามหรอบางตวแปร (Item Non-response) อาจใชวธประมาณคาสญหาย (Imputation) ซงแบง
ออกเปน 2 กลมหลก (Laaksonen, 2000) คอ
1) Model-donor Imputation คอการประมาณคาทไดมาจากตวแบบ (Model) ไดแก Mean Imputation, Regression Imputation, Ratio Imputation และMultiple Imputation เปนตน
2) Real-donor Imputation คอการประมาณคาทไดจากเซตขอมลของคาทสงเกตได ไดแก
Cold Deck Imputation, Hot Deck Imputation และNearest Neighbor Imputation เปนตน
ในการวจยครงน ผวจยสนใจศกษาวธการประมาณคาสญหายเพอประมาณคาสญหายของตวแปรตามในการวเคราะหการถดถอยเชงเสนพหคณ และใชวธก าลงสองนอยทสดหาสมประสทธการถดถอยเชงเสนในการพยากรณ ซงวธการประมาณคาสญหายทผวจยสนใจท าการศกษานน คอ
3
วธคาเฉลย วธสมการถดถอย และวธทไดแนวคดมาจากตวประมาณของ Al-Omari และคณะ ในป 2009 ซงเปนตวประมาณแบบอตราสวน โดยจะน าวธดงกลาวมาประยกตเพอใหเหมาะสมกบการประมาณคาสญหาย และจะใชเกณฑคาประมาณของรากทสองของคาเฉลยความคลาดเคลอนก าลงสอง (The Estimated Squares Root of Mean Squares Error - RMSE) และคาเฉลยของเปอรเซนตความคลาดเคลอนสมบรณ (Mean Absolute Percentage Error - MAPE) ในการเปรยบเทยบประสทธภาพของตวประมาณ
1.2 วตถประสงคของกำรวจย
1) เสนอแนะวธประมาณคาสญหายของตวแปรตามโดยอาศยวธ Single
imputation ไดแก วธคาเฉลย วธสมการถดถอย วธอตราสวน
2) เปรยบเทยบความคลาดเคลอนของคาพยากรณทไดจากวธทน าเสนอกบวธทมผ
เสนอแนะไวกอนหนา
1.3 ขอตกลงเบองตน
1) รปแบบทวไปของตวแบบการถดถอยเชงเสนพหคณ มรปแบบดงน
XY (1.1)
โดยท คอ Y คอ เวกเตอรของตวแปรตาม ขนาด 1n
X คอ เมตรกซของตวแปรอสระขนาด ( 1)n k
คอ เวกเตอรของพารามเตอรของตวแบบขนาด ( 1) 1k
คอ เวกเตอรของความคลาดเคลอนขนาด 1n ภายใตขอก าหนด 2~ 0,n nN I nI คอ เมตรกซเอกลกษณขนาด n n
n คอ ขนาดตวอยาง
k คอ จ านวนตวแปรอสระในตวแบบ
4
2) ความคลาดเคลอนมการแจกแจงปกต 2
i ,0 ~ N ทมคาเฉลยเทากบ 0
และมความแปรปรวนเทากบ 2
3) การสญหายเกดขนกบตวแปรตามเทานน และเปนการสญหายเชงสม (Missing
At Random)
4) ไมมสหสมพนธในตวเองระหวางตวแปรอสระ (Multicollinearity)
1.4 ขอบเขตกำรวจย
1) ก าหนดใหมการสญหายเฉพาะขอมลของตวแปรตาม และเปนการสญหายเชง
สม ซงลกษณะของขอมลในงานวจยมรปแบบดงน
ล าดบทของคาสงเกต
ตวแปรอสระ ตวแปรตาม
1X 2X Y
1 2 3
r
11x
12x
13x
rx1
21x
22x
23x
rx2
1,2 rx
nx2
1y
2y
3y
ry
1r n
1,1 rx
nx1
Missing
2) การเปรยบเทยบวธการประมาณคาสญหายในการวเคราะหการถดถอยเชงเสน
พหคณ โดยใชการจ าลองขอมล
3) วธ Imputation ทเลอกมาเปรยบเทยบ คอ วธคาเฉลย วธสมการถดถอย และวธ
ทไดน าตวประมาณของ Al-Omari และคณะในป 2009 ซงเปนตวประมาณแบบอตราสวนมา
ประยกตเพอใหเหมาะสมส าหรบการประมาณคาสญหาย
5
1.5 ระเบยบวธวจย
เปนการผสมผสานระหวางการวจยเอกสารและการวจยเชงประจกษ โดยมขนตอนดงน
1) ศกษาเอกสารในเรองตางๆไดแก
(1) ขอมลสญหายและผลกระทบ
(2) การจดการและการวเคราะหขอมลสญหาย
(3) การประมาณคาขอมลสญหาย (Imputation)
(4) เรองอนๆทเกยวของ
2) ศกษาการประมาณคาขอมลแบบอตราสวนและการประมาณคาขอมลแบบอนๆ
ทเกยวของ
3) ศกษาการจ าลองกรณขอมลสญหาย
4) ศกษาวธเปรยบเทยบประสทธภาพของตวประมาณคาในกรณทมขอมลสญหาย
1.6 ประโยชนทคำดวำจะไดรบ
1) เพมทางเลอกในการแกปญหาขอมลทสญหายส าหรบการวเคราะหการถดถอย
2) เพอเปนแนวทางในการตดสนใจเลอกใชวธการประมาณคาสญหายของตวแปร
ตามในสมการถดถอยเชงเสนเพอใชในการพยากรณ ใหเหมาะสมกบสถานการณในการวจย
บทท 2
ทฤษฎและงานวจยทเกยวของ
ในบทนเปนการศกษาเกยวกบวธการประมาณคาขอมลสญหายของตวแปรตามในการวเคราะหการถดถอยเชงเสนพหคณ โดยจะท าการศกษาเกยวกบทฤษฎและงานวจยทเกยวของ ซงมรายละเอยดดงน
2.1 วธก าลงสองนอยทสด (Least Squares Method - LS)
วธการหาสมประสทธการถดถอยโดยวธก าลงสองนอยทสด คอ การหาคาประมาณของ
พารามเตอรทท าใหผลบวกก าลงสองของผลตางระหวางคาทสงเกตไดและคาคาดหวงของตวแปรม
คาต าทสด (สายชล สนสมบรณทอง, 2554:195)
จากสมการความสมพนธระหวางตวแปรตาม Y และตวแปรอสระ X (Montgomery และ
Peck, 2001) คอ
ikikiii XXXY ...22110 (2.1)
โดยท คอ iY คอ ตวแปรตาม คาท i
kiX คอ ตวแปรอสระ ตวท k คาท i
k คอ คาพารามเตอรของตวแบบ
i คอ คาความคลาดเคลอน คาท i ซงม 0E และ 2 V
k คอ จ านวนตวแปรอสระในตวแบบ
i = 1, 2, …, n
7
หรอตวแบบการถดถอยเชงเสนในรปเมตรกซ ดงน XY (2.2)
โดยท
nknk
k
k
nnn X
X
X
XX
XX
XX
Y
Y
Y
2
1
1
0
2
1
21
2221
1211
2
1
1
1
1
เมอ Y เปนเวกเตอรของตวแปรตามขนาด 1n X เปนเมทรกซของตวแปรอสระขนาด 1 kn เปนเวกเตอรของพารามเตอรขนาด 11 k n เปนขนาดตวอยาง k เปนจ านวนตวแปรอสระ เปนเวกเตอรของความคลาดเคลอนขนาด 1n โดยท 0E และ nI22 ดงนน
XEYE n 1
EXE X (เนองจาก 0E )
โดยทวไปเมอมขอมลครบถวน วธก าลงสองนอยทสดในการประมาณคาสมประสทธของการถดถอย จะท าใหผลบวกก าลงสองของความคลาดเคลอน (Sum of Square of Error - SSE) มคานอยทสด นนคอ
SSE ˆˆˆ2 XXYXYY
การหาคาก าลงสองนอยทสดของผลบวกก าลงสองของความคลาดเคลอน ท าไดโดยหา
อนพนธเทยบกบ แลวก าหนดใหเทากบศนย
0ˆˆˆ2ˆ
XXYXYY
8
YXXX 1
(2.3)
ดงนน เปนตวประมาณแบบก าลงสองนอยทสดของ
YXEXXE1ˆ
และ เปนตวประมาณทไมเอนเอยงของ
ดงนนสมการถดถอยทใชพยากรณคอ
ˆ XY (2.4)
โดยท ˆE และ 21ˆ
XXV
2.2 ประเภทของขอมลสญหาย
การจ าแนกประเภทของขอมลสญหายนนเปนสงจ าเปนอยางยง หากเลอกใชวธจดการกบ
ขอมลสญหายทไมเหมาะสมยอมสงผลกระทบท าใหเกดการบดเบอนตอผลการวเคราะหได ซง
โดยทวไปมกจ าแนกขอมลสญหายออกเปน 3 ประเภท (Little และ Rubin, 1987: 13-16) คอ
1) Missing completely at random (MCAR) เปนลกษณะของขอมลสญหายท
เกดขนอยางสมจากคาสงเกตทงหมด นนคอขอมลทสญหายไมขนอยกบคาใดคาหนง ขอมลทสญ
หายเปนอสระกน
2) Missing at random (MAR) เปนลกษณะของขอมลสญหายซงไมไดเกดขนอยาง
สมจากคาสงเกตทงหมด แตเกดขนอยางสมภายในบางสวนหรอบางกลมของคาสงเกต นนคอ คา
ของขอมลสญหายขนอยกบตวแปรบางตวอนๆ ในฐานขอมลซงไมไดเปนตวแปรทเกดขอมลสญ
หาย
3) Not missing at random (NMAR) เปนลกษณะของขอมลสญหายซงไมได
เกดขนอยางสม โดยคาของขอมลสญหายขนอยกบคาของขอมลสมบรณในตวแปรเดยวกน รวมถง
ตวแปรอนๆดวย หรอในบางกรณคาของขอมลสญหายอาจไมขนอยกบตวแปรใดๆ ในฐานขอมล
เลย แตขนอยกบตวแปรอนทไมไดถกเกบรวบรวมไวในการศกษาครงนน
9
2.3 วธประมาณคาขอมลสญหาย
วธการประมาณคาขอมลสญหาย (Imputation) มมากมายหลายวธ ทงวธทอาศยตวแบบแน
ชด (Explicit Model) และวธทไมมตวแบบแนชด (Implicit Model) นอกจากนยงมวธทอาศยตวแบบ
ในการประมาณคาสญหาย นนคอ Model-Donor Imputation ซงไดแก วธคาเฉลย (Mean imputation)
เสนอโดย Wilks (1932) ซงวธนเปนการแทนคาสญหายดวยคาเฉลยของตวแปรทสญหายเมอตดคา
สญหายออกโดยไมใชตวแปรชวย ตอมา Buck (1960) ไดน าเงอนไขของวธคาเฉลยมาใชในรปแบบ
ของวธสมการถดถอย (Regression imputation) โดยการน าขอมลของตวแปรทสนใจกบตวแปรชวย
มาใชในการประมาณคาสญหาย และอกรปแบบหนงทใชขอมลของตวแปรทสนใจกบตวแปรชวย คอวธ
อตราสวน (Ratio imputation) ซงทงวธคาเฉลย, วธสมการถดถอย และวธอตราสวน นนเปนวธ
Single imputation คอการแทนคาสญหายดวยคาเดยว ในป 1987 Rubin ไดเสนอวธการใสคาหลาย
คาแทนขอมลทสญหายแตละคา (Multiple imputation) เพอลดขอเสยของวธ Single imputation และ
นอกจากนยงมวธการประมาณคาสญหายดวย Real-Donor Imputation ซงเปนการประมาณคาสญ
หายทไดจากเซตขอมลของคาทสงเกตได ไดแก วธ Hot Deck Imputation, Cold Deck Imputation และ
Nearest Neighbor Imputation นอกจากนยงมผน าวธประมาณคาสญหายดงกลาวไปศกษาเพอน าไปใช
กบขอมลในสถานการณตางๆ ดงน
ชตมา ชยมสก (2533) ไดศกษาเปรยบเทยบการประมาณขอมลสญหายในการวเคราะหการ
ถดถอยเชงซอน ซงเปนการสญหายของขอมลตวแปรอสระ 4 วธ คอ วธสมการถดถอย วธ
Maximum likelihood วธคาเฉลย และวธคามธยฐาน เกณฑทใชในการเปรยบเทยบคอ คา
ความคลาดเคลอนก าลงสองเฉลย (MSE) ของสมการถดถอยของวธทไมมขอมลสญหาย ผล
การศกษาพบวา วธการประมาณขอมลสญหายในการวเคราะหการถดถอยเชงซอนทง 4 วธให
ผลตางกนตามสถานการณตางๆ ซงโดยสวนใหญวธคาเฉลยใหผลดทสด ยกเวนเมอมขนาดตวอยาง
นอยและจ านวนตวแปรอสระมาก วธสมการถดถอยจะใหผลดทสด แตถาตวอยางมขนาดใหญและ
จ านวนตวแปรอสระมนอย การตดชดของขอมลสญหายทงจะไมมผลกระทบตอการวเคราะหการ
ถดถอยดวยวธก าลงสองนอยทสด
วารณ ตรบ ารงศกด (2538) ศกษาการพยากรณดวยวธการถดถอยเชงเสนพห เมอตวแปร
ตามมคาสญหาย วธทใชในการประมาณคาตวแปรตามเมอมขอมลสญหาย คอ วธคาเฉลย วธสมการ
10
ถดถอย วธอเอม (EM algorithm) และวธของฮนท (Hunt's Method) โดยใชคารากทสองของคาเฉลย
ของความคลาดเคลอนก าลงสอง (The Squares Root of Mean Squares Error - RMSE) เปนเกณฑใน
การตดสนใจ ผลการศกษาพบวาวธการของฮนทเปนวธการทด เมอกลมตวอยางมขนาดเลก
ความคลาดเคลอนนอย และสดสวนการสญหายมาก แตถาความคลาดเคลอนสง วธคาเฉลยจะเปน
วธทดในทกสดสวนการสญหายของตวแปรตาม สวนในสถานการณทขนาดตวอยางมขนาดใหญ
วธสญหายจะเหมาะสมเกอบทกกรณ
จรยา แสงสวรรณ (2551) ไดศกษาเปรยบเทยบวธการประมาณคาสญหายของตวแปรตาม
ในการวเคราะหการถดถอยพหคณ โดยท าการประมาณคาสญหายตวแปรตาม 4 วธคอ วธสญหาย
วธคาเฉลย วธสมการถดถอย และวธการใสคาหลายคาแทนขอมลทสญหายแตละคา (วธเอมไอ)
เกณฑทใชในการเปรยบเทยบคอ คาประมาณของรากทสองของคาเฉลยของความคลาดเคลอนก าลง
สอง (RMSE) ผลการศกษาสรปวา เมอเปอรเซนตการสญหายเพมขน วธสมการถดถอยและวธเอม
ไอใหคาประมาณของ RMSE ลดลง และวธการประมาณคาสญหายทง 4 วธ ใหคาประมาณของ
RMSE แตกตางกน วธสมการถดถอยและวธเอมไอ ใหคาประมาณของ RMSE ใกลเคยงกน แต
เนองจากวธสมการถดถอยเปนวธทงายและไมซบซอน ดงนน วธสมการถดถอย จงเปนวธท
เหมาะสมในการประมาณคาสญหายของตวแปรตามในการวเคราะหการถดถอยพหคณ
Olinsky A., Chen S. และHarlow L. (2003) ไดศกษาเปรยบเทยบประสทธภาพของเทคนค
ในตวแบบโครงสรางสมการ (The comparative efficacy of imputation methods for missing data in
structural equation modeling) ส าหรบขอมลทมคาสญหาย 5 วธ เปนเทคนคทางสถตทนยมใช คอ
วธ EM (Expected Maximization) วธ FIML (Full Information Maximum Likelihood) วธเชงพห
(Multiple imputation-MI) วธแทนทคาเฉลย (Mean Substitution-Mean) และการวเคราะหสมการ
การถดถอย (Regression)
Bono C. และคณะ (2007) ไดศกษาขอมลสญหายใน The Center for Epidemiologic Studies
Depression Scale โดยท าการการเปรยบเทยบเทคนค Imputation 4 วธ คอ Item-mean, Person-mean,
Regression, และHot-deck imputation techniques และเปรยบเทยบกบขอมลทสมบรณ ผลของ
การศกษาพบวา วธคาเฉลยทกวธมความคลายคลงกนกบคาเฉลยของวธสมบรณ ยกเวนวธ Regression
ในการแทนคาสญหายไมท าใหระดบนยส าคญของขอสรปเปลยนแปลงไป
11
ส าหรบในงานวจยครงนผวจยใชวธการประมาณคาขอมลสญหาย 2 วธตอไปน
1) วธคาเฉลย (Mean Method)
วธน Wilks ไดน าเสนอเปนคนแรกในป ค.ศ.1932 ซงเปนวธทแทนคาสญหายดวย
คาคงท (Little และ Rubin, 1987: 60) โดยการประมาณคาตวแปรทสญหายหรอเกบไมไดดวย
คาเฉลยของตวแปรเดยวกนจากหนวยทเกบคาได (ประชม สวตถ, 2552: 519) นนคอ
*
1*ˆ
r
y
yy
r
i
i
M
(2.5)
เมอ i = 1, 2, 3, …, r
*y เปนคาเฉลยของขอมลทไมสญหายของตวแปร y
*r เปนจ านวนขอมลทไมสญหายของตวแปร y
เมอแทนขอมลทสญหายดวยคาเฉลยแลว จะท าการประมาณคาสมประสทธการ
ถดถอยโดยวธก าลงสองนอยทสดเพอหาสมการถดถอย
2) วธสมการถดถอย (Regression Method)
วธนใชการประมาณคาทเกบไมไดโดยอาศยความสมพนธเชงฟงกชนระหวางตว
แปรทสนใจศกษา ( y ) กบตวแปรอน ( x ) กลาวคอ หาสมการถดถอยของ y บน x ตวหนงหรอ
มากกวาจากหนวยตวอยางทเกบคา y และ x ได ( r หนวยแรกในตวอยาง) หนวยทเหลอในตวอยาง
ถอวาเกบคา x ได ซงจะใชในการประมาณคา y ของหนวยทเกบคาไมได ( rn หนวยหลงใน
ตวอยาง) (ประชม สวตถ, 2554: 285) แนวความคดนเปนผลจากการเสนอของ Buck ในป1960
ประกอบดวย 3 ขนตอน คอ
ขนตอนท 1 ใชขอมล yx, ทเหลออยประมาณคาสมประสทธการถดถอย โดยวธ
ก าลงสองนอยทสด ดงน
yxxx1* (2.6)
เมอ x และ y เปนชดขอมลทเหลออยทงของ x และ y
ขนตอนท 2 น าคาสมประสทธการถดถอยทไดจากขนตอนท 1 มาประมาณคาสญ
หายของตวแปรตาม โดยพจารณาจากสมการถดถอยเชงเสนพหคณ ดงน
12
*ˆˆˆ ijjreg xyy (2.7)
เมอ jy เปนคาประมาณของคาสญหายตวท j
ijx เปนคาสงเกตของตวแปรอสระตวท i คาท j
ขนตอนท 3 น าคา jy จากการประมาณคาแทนในคาสญหายตวท j ของตวแปร
ตาม แลวท าการประมาณคาสมประสทธการถดถอย โดยวธก าลงสองนอยทสด
บทท 3
วธประมาณคาขอมลสญหาย
3.1 แนวคดพนฐานส าหรบวธการประมาณคาทน าเสนอ
การประมาณคาสญหายโดยใชวธคาเฉลย ซงเปนวธทงายตอการเขาใจและการค านวณ แต
วธการประมาณคานอาจไมดเนองจากเปนวธทใชตวประมาณเพยงคาเดยวในการแทนคาสญหายทก
ตว ซงจะท าใหคาความแปรปรวนของขอมลทงหมด (คาทมอยเดมรวมทงคาทน าไปแทน) ต ากวาท
ควรจะเปน และวธคาเฉลยยงเปนวธทใชขอมลเฉพาะตวแปรทสนใจเทานนมาค านวณคา นนคอ
การใชขอมลทเหลออยของตวแปรทเกดคาสญหายมาใชในการค านวณคาเฉลยเพอน ามาแทนคาสญ
หาย ดงนนผวจยจงมแนวคดในการใชประโยชนจากตวแปรชวย (ในทนคอตวแปร X ) ทม
ความสมพนธกบตวแปรทสนใจ (ในทนคอตวแปรY ) มาใชในการประมาณคาสญหาย ซงวธหนง
นอกจากวธสมการถดถอย นนคอ วธอตราสวน
3.1.1 ตวประมาณอตราสวน (Ratio Estimators)
ตวประมาณอตราสวนเปนวธทใชประมาณคา Y โดยอาศยความสมพนธระหวางตวแปร
ชวย X กบตวแปรY ภายใตเงอนไขวาคาเฉลยประชากร X เปนพารามเตอรททราบซงนยาม
ภายใตการสมอยางงาย (Simple Random Sampling - SRS) ไดดงน
SRS
SRS
XYSRSx
y (3.1)
14
เมอ
n
i
iSRS xn
x1
1 และ
n
i
iSRS yn
y1
1 คอคาเฉลยตวอยางของตวแปรอสระ X และตวแปร
ตาม Y ตามล าดบ โดยมเงอนไขวาตองทราบคาเฉลยของตวแปรอสระ X ซงความแปรปรวนของ
SRSx และ SRSy คอ
n
xVar XSRS
2 และ
nyVar Y
SRS
2
ความคลาดเคลอนก าลงสองเฉลย (Mean Square Error - MSE) ของ YSRS คอ
DRn
fMSE XYYSRS 21
1ˆ 222
(3.2)
เมอ N
nf โดยท N คอขนาดของประชากรและ n คอขนาดของตวอยาง
2
X และ 2
Y คอความแปรปรวนของประชากรตวแปรอสระ X และตวแปรตาม Y ตามล าดบ
X
YR
,
X
Y
C
CD ,
YX
XY
,
X
XXC
,
Y
YYC
และ YXCovXY ,
(Cochran, 1977) 3.1.2 วธประมาณคาอตราสวนโดยใชควอไทลท 1 และ 3 Al-Omari และคณะ ในป 2009 น าเสนอตวประมาณแบบอตราสวนเพอใชในการประมาณคาเฉลยประชากรของตวแปร Y โดยน าประโยชนจากคาควอไทลท 1 และ 3 ของตวแปร X มาประยกตใชในตวประมาณ ตวประมาณทไดน าเสนอนนจะเปนการศกษาภายใตการสมอยางงาย (Simple Random Sampling - SRS) ซงมรายละเอยดดงน
1
11
ˆqx
qy
SRS
xSRSYSRS
(3.3)
3
33
ˆqx
qy
SRS
xSRSYSRS
(3.4)
โดยท x คอคาเฉลยประชากรของตวแปร X
SRSx และ SRSy คอคาเฉลยตวอยางของตวแปร และ ตามล าดบ
15
1q และ 3q คอคาควอรไทลท 1 และ3 ของประชากรตวแปร X
และ 0ˆ YSRSBias
yxhyxhySRShYSRSh KKnn
xVarKMSE 21
11
ˆ 222222
เมอ SRSSRSSRS xVaryxCov , , 222 11
ySRSSRSn
xVaryVar , X
Y
และhx
y
hq
K
ส าหรบ h 1, 3
3.2 ตวประมาณคาขอมลสญหายทน าเสนอ
ตวประมาณอตราสวนของ Al-Omari และคณะ (2009) เปนตวประมาณคาเฉลยของ
ประชากรโดยอาศยควอไทลท 1 และ 3 ดงแสดงในสมการท (3.3) และ (3.4) นอกจากนยงเปนตว
ประมาณทมความเอนเอยงต ามาก 0Bias อยางไรกตามตวประมาณนใชส าหรบขอมลสมบรณ
และมเงอนไขวา ทราบคาเฉลยทแทจรงของตวแบบ X (ตวแปรชวย) ในกรณทศกษาน เปนกรณท
มขอมลสญหายและโดยทวไปในการวเคราะหการถดถอย เราจะไมทราบคาเฉลยทแทจรงของตว
แปร X (ซงในทนท าหนาทเปนตวแปรอสระ) อยางไรกตามในการประมาณคาสญหายผวจยสนใจ
ใชการประมาณคาวธอตราสวน เนองจากเปนวธประมาณทใชตวแปรชวย X โดยอาศย
ความสมพนธระหวางตวแปร Y และตวแปร X ซงมลกษณะใกลเคยงกบการวเคราะหการถดถอย
จากสตรในสมการ(3.3) และ (3.4) ใช inx แทนคาเฉลยตวอยางทสมบรณของตวแปร x
และ irx แทนคาเฉลยตวอยางทตดคาสญหายออกของตวแปร x ซงผวจยไดน าคา inx มาแทนคา x
เนองจากในความเปนจรงการหาคาเฉลยของประชากรนนสามารถท าไดยาก ดงนนผวจยจงใช
คาเฉลยของตวอยางแทน จงท าใหไดตวประมาณคาขอมลสญหาย 2 ตว ในทนจะเรยกวา RQ1 และ
RQ3 ซงมสตรดงน
k
i ir
in
jRQqx
qxyyy
1 1
1
1ˆˆ (3.5)
16
k
i ir
in
jRQqx
qxyyy
1 3
3
3ˆˆ (3.6)
อยางไรกตามการใชตวประมาณเพยงคาเดยวแทนคาสญหายทกตว อาจไมเหมาะสม
เนองจากการใชคาคงทแทนคาสญหายทกตวท าใหความแปรปรวนของตวประมาณมคาต ากวาทควร
จะเปน (Underestimate) ดงนนผวจยจงน าคาประมาณจากวธสมการถดถอย คอ regy มาแทน y ใน
สมการ (3.5) และ (3.6) ซงจะเรยกวา RRQ1 และ RRQ3 ดงน
k
i ir
in
regjRRQqx
qxyyy
1 1
1
1ˆˆˆ (3.7)
k
i ir
in
regjRRQqx
qxyyy
1 3
3
3ˆˆˆ (3.8)
เมอ jy คอคาประมาณ y ตวท j
y คอคาเฉลยตวแปร y ทสมบรณ
1q และ 3q คอคาควอไทลท1 และ3 ของตวแปร x ขนาด n
k คอจ านวนตวแปร x
i = 1, 2, 3, …, r
j = r+1, r+2, …, n
การแทนคา y ดวยคาประมาณจากวธสมการถดถอย ( regy ) นน เนองจากคาเฉลยเปนคา
กลางหรอทเรยกวา การวดแนวโนมเขาสสวนกลางของขอมลซงเปนการน าคาของขอมลทกคามา
ค านวณหาคาเฉลย ดวยสาเหตนคาเฉลยทไดจากการค านวณอาจสงหรอต ามากเกนไปเนองจาก
อทธพลของคาสงเกตบางคาทสงหรอต ากวาปกต (outlier) จงท าใหเกดความคลาดเคลอนของการ
ประมาณคาสง ดงนนผวจยจงใชคาประมาณจากวธสมการถดถอยมาแทน เนองจากเปนคาทตอง
อาศยความสมพนธระหวางตวแปรอสระทถกก าหนดขนกบตวแปรตาม
17
3.3 เกณฑทใชในการตดสนใจ
เกณฑการเปรยบเทยบวาการประมาณคาสญหายดวยวธใดใชไดดกวา จะพจารณาโดยการเปรยบเทยบคาความคลาดเคลอนระหวางคาพยากรณของตวแปรตามกบคาจรง ซงในการวจยครงนไดใชเกณฑเปรยบเทยบประสทธภาพ 2 เกณฑดงน
1) คาประมาณของรากทสองของคาเฉลยความคลาดเคลอนก าลงสอง (The Estimated Squares Root of Mean Squares Error - RMSE) วธการใดใหคาประมาณของ RMSE ต ากวาจะเปนวธการประมาณทดกวา โดยค านวณจากสตร
2
1,0001
1
ˆ1
1,000
n
it it
i
t
y y
RMSEn p
(3.10)
เมอ ity คอ คาจรงของขอมลตวแปรตามตวท i ในการท าซ ารอบท t ˆity คอ คาประมาณของขอมลตวแปรตามตวท i ในการท าซ ารอบท t t คอ จ านวนรอบของการท าซ า t = 1, 2, …, 1000 n คอ ขนาดตวอยาง p คอ จ านวนสมประสทธการถดถอย
2) คาเฉลยของเปอรเซนตความคลาดเคลอนสมบรณ (Mean Absolute Percentage
Error - MAPE) วธการใดใหคา MAPE ต ากวา แสดงวาเปนวธการประมาณทดกวา โดยการค านวณ
จากสตร
1
ˆ
100
ni i
i it
y yy
MAPEn
(3.11)
เมอ tMAPE คอ คาเฉลยของเปอรเซนตความคลาดเคลอนสมบรณ รอบท t iy~ คอคาประมาณทไดจากคาจรงของขอมลตวแปรตาม y ตวท i iy คอคาประมาณของตวแปร y ทไดจากการน าคา impy มาหาคาสมประสทธการถดถอย แลวน าคาสมประสทธทไดมาประมาณคา impy คอคา y ทไดท าการประมาณคาสญหายดวยวธตางๆ
18
n คอ ขนาดตวอยาง คา y~ คอคาประมาณทไดจากคาจรง ซงผวจยไดน าคาของขอมลทสมบรณจากการจ าลองมาหาคาประมาณ y~ ขนใหม โดยท าการประมาณคาสมประสทธการถดถอยใหมดวยวธก าลงสองนอยทสดของขอมลจรงทไดจากการจ าลอง จากนนจงประมาณคา y~ ดวยคาสมประสทธการถดถอยดงกลาวทไดประมาณขน หลงจากนนน าคา tMAPE มาหาคาเฉลยจากการท าซ า 1,000 รอบ ดงสตร
1,000
1
1,000
tt
MAPEMAPE
(3.12)
3.4 ขนตอนการด าเนนงาน ในการวจยครงนไดท าการจ าลองขอมล (Simulation) ในการวจยตามสถานการณตางๆเพอเปรยบเทยบประสทธภาพของวธประมาณคาสญหาย ซงไดแกวธคาเฉลย วธสมการถดถอย วธ RQ1 วธ RQ3 วธ RRQ1 และวธ RRQ3 โดยทวธประมาณคาสญหาย 2 ตวแรกเปนวธประมาณคาทไดมผน าเสนอไวแลว สวนวธประมาณคาทเหลอเปนวธประมาณคาทผวจยไดน าเสนอ การจ าลองขอมลจะกระท าภายใตสถานการณตางๆ ซงมรายละเอยดและขนตอนการด าเนนงานดงตอไปน
1) สรางขอมลประชากรของตวแปรอสระ 1X , 2X และขอมลของความคลาดเคลอนมขนาดเทากบ 100,000 ใหมการแจกแจงแบบปกต โดยมฟงกชนความหนาแนนของความนาจะเปน คอ
2
2
1
2
1
x
exf , x (3.13)
เมอ คาคาดหวงคอ XE และความแปรปรวนคอ 2XV ซงในงานวจยครงนก าหนดให ตวแปรอสระ 1X มพารามเตอร = 3 และ 2 = 2.25
ตวแปรอสระ 2X มพารามเตอร = 5 และ 2 = 4 ความคลาดเคลอน มพารามเตอร = 0 และ 2 = 0.5, 1, 1.5, 2 2) ท าการสมตวอยางของตวแปรอสระ 1X , 2X และความคลาดเคลอนจากประชากรทสรางขนในขอท 1) โดยจะท าการสมตวอยางแบบงาย (Simple Random Sampling) ซงม
19
ขนาดตวอยางในการท าการศกษาคอ 20, 40, 60 และ100 ในแตละการสมตวอยางจะกระท าซ าเปนจ านวน 1,000 รอบ 3) ก าหนดคาพารามเตอรในการสรางตวแปรตามทตองการศกษา และไมวาขนาดตวอยางจะเพมขนเทาไรกตามคาพารามเตอรทท าการศกษากยงเปนชดเดมโดยก าหนดให 0 = 0.5,
1 = 1 และ 2 = -0.3 4) สรางตวแปรตาม y ทมความสมพนธเชงเสนกบตวแปรอสระ คาสมประสทธการถดถอยและคาความคลาดเคลอน โดยใชรปแบบความสมพนธเชงเสน
iiii xxy 22110 ; i 1, 2, …, n (3.14)
โดยท iy คอ ตวแปรตาม ix1 , ix2 คอ ตวแปรอสระตวท1 และ 2 0 , 1 , 2 คอ คาพารามเตอรของตวแบบ
i คอ คาความคลาดเคลอน 5) ค านวณหาจ านวนขอมลทสญหายและสมต าแหนงทสญหายของขอมลตวแปรตาม (1) ค านวณหาจ านวนขอมลทสญหายจาก
จ านวนขอมลทสญหาย = ขนาดตวอยาง x เปอรเซนตการสญหาย
100 หากคาทค านวณไดเปนเลขทศนยม จะใชเลขจ านวนเตมทนอยทสดทมคามากกวาคานน (2) ท าการสมขอมลสญหายของตวแปรตาม โดยก าหนดใหเปนการสญหายเชงสม ซงผวจยก าหนดใหการสญหายครงนขนอยกบตวแปร 2X และก าหนดใหเปอรเซนตขอมลสญหายคอ 10%, 15%, 20% 6) ท าการประมาณคาสญหายของขอมลตวแปรตามทง 6 วธคอ (1) วธคาเฉลย (Mean Method) เปนวธประมาณคาสญหายของตวแปรตามโดยใชคาเฉลยของขอมลทไมสญหายของตวแปรตาม (2) วธสมการถดถอย (Regression method) เปนวธประมาณคาสญหายของตวแปรตามโดยใชขอมล 1x , 2x และ y ทไมสญหายประมาณคาสมประสทธการถดถอยโดยวธก าลงสองนอยทสด
20
(3) วธอตราสวนควอไทลท 1 (Ratio Quartile 1 – RQ1) เปนวธการประมาณคาสญหายดวยอตราสวนโดยการใชประโยชนจากคาควอไทลท 1 ของตวแปร kx ; k = 1, 2 (4) วธอตราสวนควอไทลท 3 (Ratio Quartile 3 - RQ3) เปนวธการประมาณคาสญหายดวยอตราสวนโดยการใชประโยชนจากคาควอไทลท 3 ของตวแปร kx ; k = 1, 2 (5) วธสมการถดถอย-อตราสวนควอไทลท 1(Regression –Ratio Quartile 1 – RRQ1) เปนการวธการประมาณคาสญหายดวยอตราสวน ซงประยกตโดยการใชคา regy ซงเปนคา y ทไดจากการประมาณคาสญหายดวยวธสมการถดถอย มาแทนคา y และใชประโยชนจากคาควอไทลท 1 ของตวแปร kx ; k = 1, 2 (6) วธสมการถดถอย-อตราสวนควอไทลท 3 (Regression–Ratio Quartile 3 – RRQ3) เปนการวธการประมาณคาสญหายดวยอตราสวน ซงประยกตโดยการใชคา regy ซงเปนคา y ทไดจากการประมาณคาสญหายดวยวธสมการถดถอย มาแทนคา y และใชประโยชนจากคาควอไทลท 3 ของตวแปร kx ; k = 1, 2 7) น าขอมลทไดประมาณคาสญหายแลว มาท าการประมาณคาสมประสทธการถดถอยใหมดวยวธก าลงสองนอยทสด เพอหาสมการถดถอยเชงเสนพหคณทใชในการพยากรณคาของตวแปร y
8) เปรยบเทยบวธการประมาณคาสญหายของตวแปรตามจากการประมาณคาดวยวธคาประมาณของรากทสองของคาเฉลยความคลาดเคลอนก าลงสอง (The Estimated Squares Root of Mean Squares Error - RMSE) และคาเฉลยของเปอรเซนตความคลาดเคลอนสมบรณ (Mean Absolute Percentage Error - MAPE)
โดยการกระท าตามขนตอนตางๆจะเปลยน คาความแปรปรวนของความคลาดเคลอนของขอมล 4 ระดบ ทขนาดตวอยาง 4 ระดบ และสดสวนการสญหายของขอมลตวแปรตาม 3 ระดบ โดยในแตละสถานการณมการท าซ า 1,000 รอบ จนครบทกสถานการณ
21
เรมตน
จบการท างาน
การจ าลองขอมลตามทไดกลาวไวในสถานการณตางๆขางตน สามารถเขยนสรปเปนแผนผงการด าเนนงานไดดงภาพท 3.1 และ 3.2
ก าหนดขนาดประชากร (N) 100,000 ขนาดตวอยาง (n) 20, 40, 60 และ 100
สรางขอมลตวแปร X
1 (3,2.25)X N
2 (5,4)X N
สรางขอมลความคลาดเคลอน 2(0, )N
โดยท 2 = 0.5, 1, 1.5, 2
ภาพท 3.1 ขนตอนการสรางประชากร
22
เรมตน
ขอมลจากประชากรทสรางขน
จ านวนรอบท t
สมตวอยางจากประชากรโดยใชวธการสมตวอยางแบบงาย ตามขนาดตวอยาง (n) ทก าหนด
สรางขอมลตวแปรตาม iiii XXY 22110
เมอ 0 = 0.5, 1 =1 และ 2 =-0.3
ท าการสมขอมลสญหายของตวแปรตาม Y ก าหนดใหเปนการสญหายเชงสม
ซงการสญหายของขอมลตวแปร Y ขนอยกบตวแปร 2X ก าหนดขอมลสญหายเทากบ 10%, 15% และ 20%
1 2
ภาพท 3.2 การสมตวอยางและการวเคราะหขอมล
23
จบการท างาน
ท าการประมาณคาสญหาย 6 วธ คอวธ Mean, Regression, RQ1, RQ3, RRQ1 และ RRQ3
ค านวณคาสมประสทธการถดถอยดวยวธก าลงสองนอยทสด (LS) เพอสรางสมการพยากรณของตวแปรตามขนใหม
t = 1,000
เปรยบเทยบคา RMSE และคา MAPE ของวธประมาณคาสญหายแตวธ ภายใตแตละสถานการณทก าหนด
ภาพท 3.2 (ตอ)
1 2
ค านวณคา MAPE ของวธประมาณคาสญหายแตละวธ ตามสมการ(3.11) และ (3.12)
ค านวณคา RMSE ของวธประมาณคาสญหายแตละวธ ตามสมการ(3.10)
ใช
ไมใช
บทท 4
ผลการศกษา
ผลการศกษาในงานวจยครงน เปนการน าเสนอวธประมาณคาสญหายของตวแปรตาม 6 วธ คอวธคาเฉลย (Mean) วธสมการถดถอย (Regression) และวธทน าเสนอคอวธทไดประยกตมาจากตวประมาณแบบอตราสวนของ Al-Omari และคณะในป 2009 ไดแกวธอตราสวนควอไทลท1 (RQ1) วธอตราสวนควอไทลท3 (RQ3) วธสมการถดถอย-อตราสวนควอไทลท1 (RRQ1) และวธสมการถดถอย-อตราสวนควอไทลท3 (RQ3) ซงมวตถประสงคเพอเปรยบเทยบความคลาดเคลอนของคาพยากรณกบคาจรง โดยมเกณฑการเปรยบเทยบคอคาประมาณของรากทสองของคาเฉลยความคลาดเคลอนก าลงสอง (The Estimated Squares Root of Mean Squares Error - RMSE) และคาเฉลยของเปอรเซนตความคลาดเคลอนสมบรณ (Mean Absolute Percentage Error - MAPE) หากวธประมาณคาสญหายวธใดมคา RMSE และคา MAPE ต าทสดจะเปนตวประมาณทมประสทธภาพสงทสดในสถานการณนน จ าลองขอมลโดยใชโปรแกรมทางสถต SAS ก าหนดขนาดตวอยาง (n) เทากบ 20, 40, 60, 100 คาความแปรปรวนของความคลาดเคลอน( 2 ) เทากบ 0.5, 1, 1.5, 2 และเปอรเซนตขอมลสญหายเทากบ 10, 15, 20 กระท าซ าในแตละสถานการณเปนจ านวน 1,000 รอบ และเพอใหเกดความสะดวกในการอธบายผลการเปรยบเทยบประสทธภาพของวธประมาณคาสญหายแตละวธและมความเขาใจทถกตองตรงกน ผวจยจงไดก าหนดสญลกษณทใชและความหมายแทนสญลกษณดงตอไปน Mean คอ วธประมาณคาโดยใชคาเฉลย ตามสมการ (2.5) Regression คอ วธประมาณคาโดยวธสมการถดถอย ตามสมการ (2.7) RQ1 คอ วธประมาณคาโดยวธอตราสวนควอไทลท1 ตามสมการ (3.5)
RQ3 คอ วธประมาณคาโดยวธอตราสวนควอไทลท3 ตามสมการ (3.6) RRQ1 คอ วธประมาณคาโดยวธสมการถดถอย-อตราสวนควอไทลท1 ตามสมการ (3.7) RRQ3 คอ วธประมาณคาโดยวธสมการถดถอย-อตราสวนควอไทลท3 ตามสมการ (3.8)
25
โดยผลการศกษาจะจ าแนกตามคาความแปรปรวนของความคลาดเคลอนซงไดแสดงรายละเอยดดงตอไปน
4.1 ผลการเปรยบเทยบคาประมาณของรากทสองของคาเฉลยของความคลาดเคลอนก าลงสอง (RMSE)
ผลการเปรยบเทยบคาประมาณของรากทสองของคาเฉลยของความคลาดเคลอนก าลงสอง(RMSE) เมอคาความแปรปรวนของความคลาดเคลอน ( 2 ) เทากบ 0.5, 1, 1.5, 2 โดยจ าแนกตามขนาดตวอยางและเปอรเซนตขอมลสญหาย จะไดผลดงแสดงในตารางท 4.1 ถง 4.4 ซงรายละเอยดมดงน
ตารางท 4.1 คา RMSE เมอคาความแปรปรวนของความคลาดเคลอนเทากบ 0.5
ขนาดตวอยาง
คาสญหาย (%)
วธประมาณคาสญหาย
Mean Regression RQ1 RQ3 RRQ1 RRQ3 20 10 0.723875 0.708959 0.723370 0.723471 0.709000 0.708988
15 0.739440 0.713329 0.738565 0.738745 0.713465 0.713432
20 0.758893 0.719543 0.757601 0.757875 0.719548 0.719525
40 10 0.719039 0.709425 0.718901 0.718931 0.709417 0.709417
15 0.729124 0.711472 0.728714 0.728796 0.711485 0.711480
20 0.744094 0.714001 0.743432 0.743567 0.714063 0.714045
60 10 0.716900 0.708566 0.716792 0.716814 0.708559 0.708559
15 0.726337 0.709689 0.726061 0.726115 0.709685 0.709684
20 0.738497 0.711167 0.738008 0.738104 0.711176 0.711171
100 10 0.715908 0.708892 0.715861 0.715872 0.708895 0.708894
15 0.723876 0.709737 0.723720 0.723751 0.709739 0.709737
0.710575
20 0.735596 0.710540 0.735642 0.735641 0.710588
จากตารางท 4.1 พบวาเมอขนาดตวอยางเทากบ 20 เปอรเซนตขอมลสญหายเทากบ 10, 15
ขนาดตวอยางเทากบ 40 เปอรเซนตขอมลสญหายเทากบ 15, 20 ขนาดตวอยางเทากบ 60 เปอรเซนต
ขอมลสญหายเทากบ 20 ขนาดตวอยางเทากบ 100 เปอรเซนตขอมลสญหายเทากบ 10, 20 วธ
26
Regression มคา RMSE นอยทสด ขนาดตวอยางเทากบ 20 เปอรเซนตขอมลสญหายเทากบ 20
ขนาดตวอยางเทากบ 60 เปอรเซนตขอมลสญหายเทากบ 15 วธRRQ3 มคา RMSE นอยทสด ขนาด
ตวอยางเทากบ 40, 60 เปอรเซนตขอมลสญหายเทากบ 10 วธRRQ1 และวธRRQ3 มคา RMSE นอย
ทสด และขนาดตวอยางเทากบ 100 เปอรเซนตขอมลสญหายเทากบ 15 วธRegression และวธRRQ3
มคา RMSE นอยทสด
ตารางท 4.2 คา RMSE เมอคาความแปรปรวนของความคลาดเคลอนเทากบ 1
ขนาดตวอยาง
คาสญหาย (%)
วธประมาณคาสญหาย
Mean Regression RQ1 RQ3 RRQ1 RRQ3 20 10 1.012617 1.002629 1.012251 1.012324 1.002667 1.002656
15 1.026446 1.008809 1.025809 1.025941 1.008948 1.008917
20 1.043409 1.017597 1.042431 1.042637 1.017503 1.017502
40 10 1.009708 1.003288 1.009607 1.009629 1.003275 1.003276
15 1.018043 1.006183 1.017746 1.017805 1.006192 1.006188
20 1.030205 1.009760 1.029727 1.029825 1.009799 1.009787
60 10 1.007806 1.002073 1.007726 1.007743 1.002063 1.002064
15 1.015336 1.003662 1.015136 1.015176 1.003654 1.003654
20 1.024805 1.005752 1.024448 1.024518 1.005756 1.005753
100 10 1.007468 1.002535 1.007434 1.007442 1.002536 1.002536
15 1.013629 1.003729 1.013517 1.013539 1.003729 1.003728
20 1.022358 1.004865 1.022392 1.022392 1.004910 1.004899
จากตารางท 4.2 พบวาเมอขนาดตวอยางเทากบ 20 เปอรเซนตขอมลสญหายเทากบ 10, 15
ขนาดตวอยางเทากบ 40 เปอรเซนตขอมลสญหายเทากบ 15, 20 ขนาดตวอยางเทากบ 60 เปอรเซนต
ขอมลสญหายเทากบ 20 ขนาดตวอยางเทากบ 100 เปอรเซนตขอมลสญหายเทากบ 10, 20 วธ
Regression มคา RMSE นอยทสด ขนาดตวอยางเทากบ 20 เปอรเซนตขอมลสญหายเทากบ 20
ขนาดตวอยางเทากบ 100 เปอรเซนตขอมลสญหายเทากบ 15 วธRRQ3 มคา RMSE นอยทสด ขนาด
ตวอยางเทากบ 40, 60 เปอรเซนตขอมลสญหายเทากบ 10 วธRRQ1 มคา RMSE นอยทสด และ
27
ขนาดตวอยางเทากบ 60 เปอรเซนตขอมลสญหายเทากบ 15 วธRRQ1 และวธRRQ3 มคา RMSE
นอยทสด
ตารางท 4.3 คา RMSE เมอคาความแปรปรวนของความคลาดเคลอนเทากบ 1.5
ขนาดตวอยาง
คาสญหาย (%)
วธประมาณคาสญหาย
Mean Regression RQ1 RQ3 RRQ1 RRQ3 20 10 1.235545 1.227965 1.235244 1.235304 1.228002 1.227992
15 1.248992 1.235533 1.248469 1.248578 1.235679 1.235649
20 1.265277 1.246297 1.264445 1.264620 1.246138 1.246149
40 10 1.233702 1.228772 1.233617 1.233635 1.228756 1.228758
15 1.241453 1.232318 1.241208 1.241257 1.232325 1.232322
20 1.252533 1.236699 1.252140 1.252221 1.236723 1.236714
60 10 1.231815 1.227283 1.231749 1.231762 1.227273 1.227274
15 1.238614 1.229230 1.238448 1.238481 1.229219 1.229220
20 1.246979 1.231790 1.246684 1.246742 1.231792 1.231789
100 10 1.231845 1.227849 1.231817 1.231823 1.227850 1.227850
15 1.237281 1.229312 1.237188 1.237207 1.229311 1.229311
20 1.244708 1.230704 1.244738 1.244737 1.230749 1.230738
จากตารางท 4.3 พบวาเมอขนาดตวอยางเทากบ 20 เปอรเซนตขอมลสญหายเทากบ 10, 15
ขนาดตวอยางเทากบ 40 เปอรเซนตขอมลสญหายเทากบ 15, 20 ขนาดตวอยางเทากบ 100 เปอรเซนต
ขอมลสญหายเทากบ 10, 20 วธRegression มคา RMSE นอยทสด ขนาดตวอยางเทากบ 20
เปอรเซนตขอมลสญหายเทากบ 20 ขนาดตวอยางเทากบ 40 เปอรเซนตขอมลสญหายเทากบ 10
ขนาดตวอยางเทากบ 60 เปอรเซนตขอมลสญหายเทากบ 10, 15 วธRRQ1 มคา RMSE นอยทสด
ขนาดตวอยางเทากบ 60 เปอรเซนตขอมลสญหายเทากบ 20 วธRRQ3 มคา RMSE นอยทสด และ
ขนาดตวอยางเทากบ 100 เปอรเซนตขอมลสญหายเทากบ 15 วธRRQ1 และวธRRQ3 มคา RMSE
นอยทสด
28
ตารางท 4.4 คา RMSE เมอคาความแปรปรวนของความคลาดเคลอนเทากบ 2
ขนาดตวอยาง
คาสญหาย (%)
วธประมาณคาสญหาย
Mean Regression RQ1 RQ3 RRQ1 RRQ3 20 10 1.423958 1.417928 1.423695 1.423747 1.417965 1.417955
15 1.437426 1.426667 1.436974 1.437069 1.426821 1.426790
20 1.453598 1.439096 1.452853 1.453009 1.438886 1.438906
40 10 1.422863 1.418860 1.422787 1.422804 1.418842 1.418844
15 1.430388 1.422955 1.430175 1.430218 1.422960 1.422957
20 1.440942 1.428013 1.440601 1.440671 1.428027 1.428020
60 10 1.420931 1.417141 1.420872 1.420884 1.417129 1.417131
15 1.427368 1.419389 1.427223 1.427252 1.419377 1.419378
20 1.435145 1.422345 1.434887 1.434938 1.422345 1.422343
100 10 1.421224 1.417795 1.421200 1.421205 1.417795 1.417795
15 1.426277 1.419484 1.426197 1.426213 1.419482 1.419482
20 1.432957 1.421090 1.432985 1.432984 1.421137 1.421127
จากตารางท 4.4 พบวาเมอขนาดตวอยางเทากบ 20 เปอรเซนตขอมลสญหายเทากบ 10, 15
ขนาดตวอยางเทากบ 40 เปอรเซนตขอมลสญหายเทากบ 15, 20 ขนาดตวอยางเทากบ 100 เปอรเซนต
ขอมลสญหายเทากบ 10, 20 วธRegression มคา RMSE นอยทสด 2 ขนาดตวอยางเทากบ 20
เปอรเซนตขอมลสญหายเทากบ 20 ขนาดตวอยางเทากบ 40 เปอรเซนตขอมลสญหายเทากบ 10
ขนาดตวอยางเทากบ 60 เปอรเซนตขอมลสญหายเทากบ 10, 15 วธRRQ1 มคา RMSE นอยทสด
ขนาดตวอยางเทากบ 60 เปอรเซนตขอมลสญหายเทากบ 20 วธRRQ3 มคา RMSE นอยทสด และ
ขนาดตวอยางเทากบ 100 เปอรเซนตขอมลสญหายเทากบ 10, 15 วธRRQ1 และวธRRQ3 มคา
RMSE นอยทสด
ผลจากตารางท 4.1 ถง 4.4 จะแสดงไดดงภาพท 4.1 และจากภาพท 4.1 จะเหนวาความสง
ของกราฟมลกษณะทใกลเคยงกน ซงจะท าใหเหนผลงานวจยไมชดเจน ดงนนผวจยจงใชคาเฉลย
ของเปอรเซนตความคลาดเคลอนสมบรณ (MAPE) เปนเกณฑในการเปรยบเทยบอกวธหนง ดง
ผลการวจยในหวขอถดไป
29
(ก) 2 = 0.5 (ข) 2 = 1
(ค) 2 = 1.5 (ง) 2 = 2
ภาพท 4.1 คา RMSE ของวธการประมาณคาสญหาย จ าแนกตามคาความแปรปรวนของความ
คลาดเคลอน 2
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
% 10 15 20 10 15 20 10 15 20 10 15 20
n 20 40 60 100
RM
SE
Mean RQ1 RQ3 Regression RRQ1 RRQ3
missing 0
0.2
0.4
0.6
0.8
1
1.2
% 10 15 20 10 15 20 10 15 20 10 15 20
n 20 40 60 100
RM
SE
Mean RQ1 RQ3 Regression RRQ1 RRQ3
missing
0
0.2
0.4
0.6
0.8
1
1.2
1.4
% 10 15 20 10 15 20 10 15 20 10 15 20
n 20 40 60 100
RM
SE
Mean RQ1 RQ3 Regression RRQ1 RRQ3
missing
0 0.2 0.4 0.6 0.8
1 1.2 1.4 1.6
% 10 15 20 10 15 20 10 15 20 10 15 20
n 20 40 60 100
RM
SE
Mean RQ1 RQ3 Regression RRQ1 RRQ3
missing
30
4.2 ผลการเปรยบเทยบคาเฉลยของเปอรเซนตความคลาดเคลอนสมบรณ (MAPE)
ผลการเปรยบเทยบคาเฉลยของเปอรเซนตความคลาดเคลอนสมบรณ (MAPE) เมอคาความแปรปรวนของความคลาดเคลอน ( 2 ) เทากบ 0.5, 1, 1.5, 2 โดยจ าแนกตามขนาดตวอยางและเปอรเซนตขอมลสญหาย จะไดผลดงแสดงในตารางท 4.5 ถง 4.8 ซงรายละเอยดมดงน ตารางท 4.5 คา MAPE เมอคาความแปรปรวนของความคลาดเคลอนเทากบ 0.5
ขนาดตวอยาง
คาสญหาย (%)
วธประมาณคาสญหาย
Mean Regression RQ1 RQ3 RRQ1 RRQ3 20 10 18.20081 9.48845 18.01594 18.05371 9.48327 9.48349
15 27.94389 13.57058 27.77708 27.81909 13.59827 13.59368
20 29.81033 13.80985 29.23210 29.34063 13.73854 13.74771
40 10 16.08161 5.48670 15.88162 15.92039 5.50593 5.50167
15 23.52623 7.09308 23.36096 23.39477 7.08126 7.08334
20 26.08396 9.15485 25.84606 25.88972 9.15017 9.14893
60 10 15.97179 4.68592 15.86682 15.88702 4.68147 4.68170
15 24.24839 7.63947 24.09851 24.12734 7.62888 7.63091
20 31.57739 9.16628 31.25051 31.30321 9.28025 9.26290
100 10 11.18051 3.57242 11.11708 11.12899 3.57112 3.57111
15 19.27245 4.32358 19.22859 19.23721 4.33188 4.32969
20 28.40513 5.45506 28.76869 28.70985 5.42509 5.42877
จากตารางท 4.5 พบวา เมอขนาดตวอยางเทากบ 20 เปอรเซนตขอมลสญหายเทากบ 10, 20 ขนาดตวอยางตวอยางเทากบ 40 เปอรเซนตขอมลสญหายเทากบ 15 ขนาดตวอยางเทากบ 60 เปอรเซนตขอมลสญหายเทากบ 10, 15 ขนาดตวอยางเทากบ 100 เปอรเซนตขอมลสญหายเทากบ 20 วธRRQ1 มคา MAPE ต าทสด ขนาดตวอยางเทากบ 40 เปอรเซนตขอมลสญหายเทากบ 20 ขนาดตวอยางเทากบ 100 เปอรเซนตขอมลสญหายเทากบ 10 วธRRQ3 มคา MAPE ต าทสด และขนาดตวอยางเทากบ 20, 100 เปอรเซนตขอมลสญหายเทากบ 15 ขนาดตวอยางเทากบ 40 เปอรเซนตขอมลสญหายเทากบ 10 ขนาดตวอยางเทากบ 60 เปอรเซนตขอมลสญหายเทากบ 20 วธRegression มคา MAPE ต าทสด
31
ตารางท 4.6 คา MAPE เมอคาความแปรปรวนของความคลาดเคลอนเทากบ 1
ขนาดตวอยาง
คาสญหาย (%)
วธประมาณคาสญหาย
Mean Regression RQ1 RQ3 RRQ1 RRQ3
10 38.66492 24.94750 38.53323 38.56138 24.95297 24.95120
20 15 53.27186 30.79129 53.33831 53.33449 30.88059 30.86402
20 56.66253 34.64248 56.21369 56.29525 34.54218 34.55802
10 28.82947 14.39443 28.37828 28.45836 14.26844 14.28796
40 15 45.00489 19.25736 44.41591 44.51969 19.16421 19.17998
20 37.98397 19.21228 37.54952 37.62793 19.18864 19.19317
10 13.71474 6.56442 13.63909 13.65360 6.55580 6.55712
60 15 20.65494 8.51071 20.54488 20.56612 8.48860 8.49273
20 28.12173 10.22065 27.99477 28.02053 10.21913 10.21938
10 12.49089 4.61417 12.43038 12.44167 4.61400 4.61374
100 15 19.69526 6.48602 19.61662 19.63144 6.48560 6.48511
20 26.58320 8.61403 26.87553 26.82888 8.64172 8.63584
จากตารางท 4.6 พบวาเมอขนาดตวอยางเทากบ 40, 60 ทกเปอรเซนตขอมลสญหายคอ10,
15, 20 ขนาดตวอยางเทากบ 20 เปอรเซนตขอมลสญหายเทากบ 20 วธRRQ1 มคา MAPE ต าทสด
ขนาดตวอยางเทากบ 20 เปอรเซนตขอมลสญหายเทากบ 10, 15 ขนาดตวอยางเทากบ 100 เปอรเซนต
ขอมลสญหายเทากบ 20 วธRegression มคา MAPE ต าทสด ขนาดตวอยางเทากบ 100 เปอรเซนต
ขอมลสญหายเทากบ 10, 15 วธRRQ3 มคา MAPE ต าทสด
จากตารางท 4.7 พบวาเมอขนาดตวอยางเทากบ 20 เปอรเซนตขอมลสญหายเทากบ 20 ขนาดตวอยางเทากบ 40, 100 เปอรเซนตขอมลสญหายเทากบ 10, 15 ขนาดตวอยางเทากบ 60 เปอรเซนตขอมลสญหายเทากบ 15, 20 วธ RRQ1 มคา MAPE ต าทสด ขนาดตวอยางเทากบ 20 เปอรเซนตขอมลสญหายเทากบ 10, 15 ขนาดตวอยางเทากบ 60 เปอรเซนตขอมลสญหายเทากบ 10 ขนาดตวอยางเทากบ 100 เปอรเซนตขอมลสญหายเทากบ 20 วธRegression มคา MAPE ต าทสด และขนาดตวอยางเทากบ 40 เปอรเซนตขอมลสญหายเทากบ 20 วธRRQ3 มคา MAPE ต าทสด
32
ตารางท 4.7 คา MAPE เมอคาความแปรปรวนของความคลาดเคลอนเทากบ 1.5
ขนาดตวอยาง
คาสญหาย (%)
วธประมาณคาสญหาย
Mean Regression RQ1 RQ3 RRQ1 RRQ3
10 38.00024 23.35377 37.57422 37.67354 23.44908 23.43346
20 15 59.79342 32.36084 59.02352 59.20623 32.45460 32.43445
20 66.69154 30.41961 64.66140 65.09981 30.21133 30.25211
10 24.99724 12.46728 24.79795 24.83780 12.45661 12.45794
40 15 46.34170 22.23529 45.97337 46.05780 22.17004 22.18442
20 55.63172 31.82949 55.21172 55.29339 31.82934 31.82649
10 15.52098 9.15747 15.43220 15.44968 9.15901 9.15852
60 15 23.43602 10.77639 23.29990 23.32604 10.76585 10.76751
20 32.29011 12.79971 32.13112 32.16306 12.78845 12.79009
10 15.40272 6.78762 15.33313 15.34601 6.78386 6.78428
100 15 23.30502 9.60801 23.22493 23.23976 9.60276 9.60334
20 32.37109 10.61091 32.68533 32.63650 10.64722 10.63987
ตารางท 4.8 คา MAPE เมอคาความแปรปรวนของความคลาดเคลอนเทากบ 2
ขนาดตวอยาง
คาสญหาย (%)
วธประมาณคาสญหาย Mean Regression RQ1 RQ3 RRQ1 RRQ3
10 37.95029 24.74611 37.65057 37.71311 24.70551 24.71334
20 15 49.94820 31.07876 49.75309 49.80477 31.09947 31.09946
20 57.33338 31.71277 56.44624 56.60958 31.54778 31.57538
10 18.00197 12.12684 17.87764 17.90344 12.13262 12.12983
40 15 28.21087 19.60226 28.10052 28.12368 19.58914 19.59143
20 34.05896 19.80577 33.70757 33.77639 19.79437 19.79188
10 20.83830 17.88690 20.92845 20.91165 17.96649 17.94871
60 15 32.39106 18.78922 32.21883 32.25318 18.79892 18.79723
20 42.81256 24.09577 42.56855 42.61932 24.05321 24.06175
10 18.59255 8.44431 18.48048 18.50137 8.42817 8.43116
100 15 25.21082 12.94307 25.11133 25.12937 12.95515 12.95235
20 41.46723 14.08079 41.87239 41.80836 14.15342 14.14099
33
จากตารางท 4.8 พบวาเมอขนาดตวอยางเทากบ 20 เปอรเซนตขอมลสญหายเทากบ 10, 20 ขนาดตวอยางเทากบ 40 เปอรเซนตขอมลสญหายเทากบ 15 ขนาดตวอยางเทากบ 60 เปอรเซนตขอมลสญหายเทากบ 20 ขนาดตวอยางเทากบ 100 เปอรเซนตขอมลสญหายเทากบ 10 วธRRQ1 มคา MAPE ต าทสด ขนาดตวอยางเทากบ 20 เปอรเซนตขอมลสญหายเทากบ 15 ขนาดตวอยางเทากบ 40 เปอรเซนตขอมลสญหายเทากบ 10 ขนาดตวอยางเทากบ 60 เปอรเซนตขอมลสญหายเทากบ 10, 15 ขนาดตวอยางเทากบ 100 เปอรเซนตขอมลสญหายเทากบ 15, 20 วธRegression มคา MAPE ต าทสด และขนาดตวอยางเทากบ 40 เปอรเซนตขอมลสญหายเทากบ 20 วธRRQ3 มคา MAPE ต าทสด
ผลจากตารางท 4.5 ถง 4.8 จะแสดงไดดงภาพท 4.2
34
(ก) 2 = 0.5 (ข) 2 = 1
(ค) 2 = 1.5 (ง) 2 = 2
ภาพท 4.2 คา MAPE ของวธการประมาณคาสญหาย จ าแนกตามคาความแปรปรวนของความ
คลาดเคลอน 2
0
5
10
15
20
25
30
35
% 10 15 20 10 15 20 10 15 20 10 15 20
n 20 40 60 100
MA
PE
Mean RQ1 RQ3 Regression RRQ1 RRQ3
missing
0
10
20
30
40
50
60
70
80
% 10 15 20 10 15 20 10 15 20 10 15 20
n 20 40 60 100
MA
PE
Mean RQ1 RQ3 Regression RRQ1 RRQ3
missing
0
10
20
30
40
50
60
% 10 15 20 10 15 20 10 15 20 10 15 20
n 20 40 60 100
MA
PE
Mean RQ1 RQ3 Regression RRQ1 RRQ3
missing
0
10
20
30
40
50
60
70
% 10 15 20 10 15 20 10 15 20 10 15 20
n 20 40 60 100
MA
PE
Mean RQ1 RQ3 Regression RRQ1 RRQ3
missing
บทท 5
สรป อภปรายผลและขอเสนอแนะ
การศกษาครงนเปนการศกษาเพอเปรยบเทยบวธการประมาณคาสญหายเมอตวแปรตามเกดคาสญหายดวยวธMean, วธRegression, วธRQ1, วธRQ3, วธRRQ1 และวธRRQ3 โดยท าการจ าลองขอมลทมขนาดตวอยางเทากบ 20, 40, 60 และ 100 ซงไดมาโดยใชวธการสมตวอยางอยางงายจากประชากรขนาด 100,000 และขอมลมลกษณะดงน เปอรเซนตขอมลสญหายเทากบ 10, 15 และ 20 คาความแปรปรวนของความคลาดเคลอนเทากบ 0.5, 1, 1.5 และ 2 เกณฑทใชในการตดสนใจวาการประมาณคาสญหายดวยวธใดใชไดดกวาจากการเปรยบเทยบคาความคลาดเคลอนระหวางคาพยากรณของตวแปรตามกบคาจรง ในรปแบบคาประมาณของรากทสองของคาเฉลยความคลาดเคลอนก าลงสอง (The Estimated Squares Root of Mean Squares Error - RMSE) และคาเฉลยของเปอรเซนตความคลาดเคลอนสมบรณ (Mean Absolute Percentage Error - MAPE) ซงหวขอทจะไดกลาวในบทน มดงน
5.1 สรปผลการวจย 5.2 อภปรายผลการวจย 5.3 ขอเสนอแนะ
5.1 สรปผลการวจย
ผวจยไดสรปผลการวจยออกเปน 3 สวนดงน 5.1.1 ผลการเปรยบเทยบคาประมาณของรากทสองของคาเฉลยความคลาดเคลอนก าลง
สอง (RMSE) จากผลการเปรยบเทยบคา RMSE ของทง 6 วธ สามารถสรปไดวาในทกคาความแปรปรวนของความคลาดเคลอนคอ 0.5, 1, 1.5, 2 วธทใชคาคงทในการประมาณคาสญหาย นนคอวธ Mean, วธ RQ1 และวธ RQ3 มคา RMSE ทสงกวาวธทใชความสมพนธระหวางตวแปรโดยการน าคาของตวแปรชวย (ทนคอตวแปร X ) ในต าแหนงทสญหายแตละต าแหนงมาประมาณคาสญหายของตว
36
แปรทสนใจ (ทนคอตวแปร Y ) ในต าแหนงนน และจากตารางท 4.1 ถง 4.4 สามารถสรปวธทมคา RMSE นอยทสดโดยจะจ าแนกตามสถานการณตางๆไดดงตารางท 5.1 ตารางท 5.1 วธการประมาณคาสญหายทมประสทธภาพสงกวาวธประมาณคาสญหายวธอนๆท น ามาเปรยบเทยบดวยเกณฑของคา RMSE
ขนาดตวอยาง
คาสญหาย(%)
คาความแปรปรวนของความคลาดเคลอน 0.5 1 1.5 2
10 Regression Regression Regression Regression
20 15 Regression Regression Regression Regression
20 RRQ3 RRQ3 RRQ1 RRQ1
10 RRQ1, RRQ3 RRQ1 RRQ1 RRQ1
40 15 Regression Regression Regression Regression
20 Regression Regression Regression Regression
10 RRQ1,RRQ3 RRQ1 RRQ1 RRQ1
60 15 RRQ3 RRQ1,RRQ3 RRQ1 RRQ1
20 Regression Regression RRQ3 RRQ3
10 Regression Regression Regression Regression
100 15 Regression, RRQ3 RRQ3 RRQ1, RRQ3 RRQ1, RRQ3
20 Regression Regression Regression Regression
เพอความสะดวกในการอธบายผลการเปรยบเทยบประสทธภาพของวธประมาณคาสญหาย
และมความเขาใจทถกตองตรงกน ผวจยจงไดก าหนดความหมายไวดงน ขนาดตวอยางขนาดเลก คอ ขนาดตวอยางเทากบ 20 ขนาดตวอยางขนาดกลาง คอ ขนาดตวอยางเทากบ 40 และ 60 ขนาดตวอยางขนาดใหญ คอ ขนาดตวอยางเทากบ 100 เปอรเซนตขอมลสญหายนอย คอ 10% เปอรเซนตขอมลสญหายปานกลาง คอ 15% เปอรเซนตขอมลสญหายมาก คอ 20% จากตารางท 5.1 วธทผวจยไดน าเสนอสามารถสรปไดดงน 1) วธRRQ1 จะมประสทธภาพดงสถานการณตอไปน คอ
37
(1) กรณทตวอยางมขนาดเลก เปอรเซนตขอมลสญหายมาก และความแปรปรวนของความคลาดเคลอนเทากบ 1.5 และ 2
(2) กรณทตวอยางมขนาดกลาง เปอรเซนตขอมลสญหายนอย ความแปรปรวนของความคลาดเคลอนเทากบ 1, 1.5 และ 2 และตวอยางมขนาดกลาง (n=60) เปอรเซนตขอมลสญหายปานกลาง ความแปรปรวนของความคลาดเคลอนเทากบ 1.5 และ 2
2) วธRRQ3 จะมประสทธภาพดงสถานการณตอไปน คอ (1) กรณทตวอยางมขนาดเลก เปอรเซนตขอมลสญหายมาก และความ
แปรปรวนของความคลาดเคลอนเทากบ 0.5 และ 1 (2) กรณทตวอยางมขนาดกลาง (n=60) เปอรเซนตขอมลสญหายปาน
กลาง ความแปรปรวนของความคลาดเคลอนเทากบ 0.5 และตวอยางมขนาดกลาง (n=60) เปอรเซนตขอมลสญหายมาก ความแปรปรวนของความคลาดเคลอนเทากบ 1.5 และ 2
(3) กรณทตวอยางมขนาดใหญ เปอรเซนตขอมลสญหายปานกลาง และความแปรปรวนของความคลาดเคลอนเทากบ 1
3) วธRRQ1 และวธRRQ3 จะมประสทธภาพทเทากนดงสถานการณตอไปน คอ (1) กรณทตวอยางมขนาดกลาง เปอรเซนตขอมลสญหายนอย ความ
แปรปรวนของความคลาดเคลอนเทากบ 0.5 และตวอยางมขนาดกลาง (n=60) เปอรเซนตขอมลสญหายปานกลาง ความแปรปรวนของความคลาดเคลอนเทากบ 1
(2) กรณทตวอยางมขนาดใหญ เปอรเซนตขอมลสญหายปานกลาง และความแปรปรวนของความคลาดเคลอนเทากบ 1.5 และ 2
4) ส าหรบสถานการณอนๆทเหลอ วธRegression จะมประสทธภาพทสด 5.1.2 ผลการเปรยบเทยบคาเฉลยของเปอรเซนตความคลาดเคลอนสมบรณ (MAPE) จากผลการเปรยบเทยบคา MAPE ของทง 6 วธ สามารถสรปไดเชนเดยวกบเกณฑการ
เปรยบเทยบโดยใชคา RMSE นนคอในทกคาความแปรปรวนของความคลาดเคลอนคอ 0.5, 1, 1.5, 2 วธทใชคาคงทในการประมาณคาสญหาย นนคอวธMean, วธRQ1, วธRQ3 มคา MAPE ทสงกวาวธทใชความสมพนธระหวางตวแปรโดยการน าคาของตวแปรชวย (ทนคอตวแปร X ) ในต าแหนงทสญหายแตละต าแหนงมาประมาณคาสญหายของตวแปรทสนใจ(ทนคอตวแปร Y ) ในต าแหนงนน และจากตารางท 4.5 ถง 4.8 สามารถสรปวธทมคา MAPE โดยจะจ าแนกตามสถานการณตางๆไดดงตารางท 5.2
38
ตารางท 5.2 วธการประมาณคาสญหายทมประสทธภาพสงกวาวธประมาณคาสญหายวธอนๆท น ามาเปรยบเทยบดวยเกณฑของคา MAPE
ขนาดตวอยาง
คาสญหาย(%)
คาความแปรปรวนของความคลาดเคลอน
0.5 1 1.5 2
10 RRQ1 Regression Regression RRQ1
20 15 Regression Regression Regression Regression
20 RRQ1 RRQ1 RRQ1 RRQ1
10 Regression RRQ1 RRQ1 Regression
40 15 RRQ1 RRQ1 RRQ1 RRQ1
20 RRQ3 RRQ1 RRQ3 RRQ3
10 RRQ1 RRQ1 Regression Regression
60 15 RRQ1 RRQ1 RRQ1 Regression
20 Regression RRQ1 RRQ1 RRQ1
10 RRQ3 RRQ3 RRQ1 RRQ1
100 15 Regression RRQ3 RRQ1 Regression
20 RRQ1 Regression Regression Regression
จากตารางท 5.2 วธทผวจยไดน าเสนอสามารถสรปไดดงน 1) วธ RRQ1 จะมประสทธภาพดงสถานการณตอไปน คอ (1) กรณทตวอยางมขนาดเลก เปอรเซนตขอมลสญหายนอย ความ
แปรปรวนของความคลาดเคลอนเทากบ 0.5 และ 2 และเปอรเซนตขอมลสญหายมาก ความแปรปรวนของความคลาดเคลอนเทากบ 0.5, 1, 1.5 และ 2
(2) กรณทตวอยางมขนาดกลาง เปอรเซนตขอมลสญหายนอย ความแปรปรวนของความคลาดเคลอนเทากบ 1 เปอรเซนตขอมลสญหายปานกลาง ความแปรปรวนของความคลาดเคลอนเทากบ 0.5, 1 และ1.5 และเปอรเซนตขอมลสญหายมาก ความแปรปรวนของความคลาดเคลอนเทากบ 1
(3) กรณทตวอยางมขนาดใหญ เปอรเซนตขอมลสญหายนอย ความแปรปรวนของความคลาดเคลอนเทากบ 1.5 และ 2 เปอรเซนตขอมลสญหายปานกลาง ความ
39
แปรปรวนของความคลาดเคลอนเทากบ 1.5 และเปอรเซนตขอมลสญหายมาก ความแปรปรวนของความคลาดเคลอนเทากบ 0.5
2) วธ RRQ3 จะมประสทธภาพดงสถานการณตอไปน คอ (1) กรณทตวอยางมขนาดกลาง (n=40) เปอรเซนตขอมลสญหายมาก
ความแปรปรวนของความคลาดเคลอนเทากบ 0.5, 1.5 และ 2 (2) กรณทตวอยางมขนาดใหญ เปอรเซนตขอมลสญหายนอย ความ
แปรปรวนของความคลาดเคลอนเทากบ 0.5 และ 1 และเปอรเซนตขอมลสญหายปานกลาง ความแปรปรวนของความคลาดเคลอนเทากบ 1
3) ส าหรบสถานการณอนๆทเหลอ วธ Regression จะมประสทธภาพทสด
5.1.3 สรปผลการเปรยบเทยบเมอใชเกณฑ RMSE และ MAPE จากผลการเปรยบเทยบทง 2 เกณฑ สามารถสรปผลทตรงกนไดดงน
1) วธ RRQ1 จะมประสทธภาพดงสถานการณตอไปน คอ (1) กรณทตวอยางมขนาดเลก เปอรเซนตขอมลสญหายมาก ความ
แปรปรวนของความคลาดเคลอนเทากบ 1.5 และ 2 (2) กรณทตวอยางมขนาดกลาง เปอรเซนตขอมลสญหายนอย ความ
แปรปรวนของความคลาดเคลอนเทากบ 0.5 และ 1 เปอรเซนตขอมลสญหายปานกลาง ความแปรปรวนของความคลาดเคลอนเทากบ 1 และ 1.5
(3) กรณทตวอยางมขนาดใหญ เปอรเซนตขอมลสญหายปานกลาง ความแปรปรวนของความคลาดเคลอนเทากบ 1.5
2) วธRRQ3 จะมประสทธภาพดงสถานการณตอไปน คอ กรณทตวอยางมขนาดใหญ เปอรเซนตขอมลสญหายปานกลาง ความแปรปรวน
ของความคลาดเคลอนเทากบ 1 5.1.4 ปจจยทมผลตอประสทธภาพของวธประมาณคาสญหายทง 6 วธทใชในงานวจย
1) ขนาดตวอยาง เมอขนาดตวอยางเพมขน คา RMSE และคา MAPE ของทกวธมแนวโนมลดลง เพราะขนาดตวอยางทเพมขนจะสงผลใหคาความคลาดเคลอนในการประมาณคาสญหายลดลง เมอพจารณาคา RMSE และคา MAPE ของวธประมาณคาทใชคาคงทในรปแบบของคาเฉลย นนคอวธMean, วธRQ1 และวธRQ3 เปรยบเทยบคา RMSE และคา MAPE ทลดลงเมอขนาดตวอยางเพม
40
ขนกบวธทใชความสมพนธเชงเสนของตวแปรชวย ณ ต าแหนงทตวแปรตามมคาสญหาย นนคอวธRRQ1, วธRRQ3 และวธRegression พบวาวธทใชคาคงทมแนวโนมในการลดลงมากกวาวธทใชความสมพนธเชงเสนของตวแปรชวย ณ ต าแหนงทตวแปรตามมคาสญหาย เนองจากการแทนคาสญหายดวยคาคงทเมอเปอรเซนตคาสญหายและคาความแปรปรวนของความคลาดเคลอนคงท แตขนาดตวอยางเพมขนจะท าใหคาคลาดเคลอนในการประมาณคาลดลง
2) จ านวนขอมลสญหายในตวแปรตาม เมอเปอรเซนตของคาสญหายในตวแปรตามเพมขน คา RMSE และคา MAPE ของทกวธมแนวโนมเพมขน เนองจากมการประมาณคาขอมลสญหายจงท าใหคาความคลาดเคลอนจากการประมาณคาสญหายเพมขน โดยเมอพจารณาคา RMSE และคา MAPE ของวธประมาณคาทใชคาคงทในรปแบบของคาเฉลย นนคอวธMean, วธRQ1 และวธRQ3 เปรยบเทยบคา RMSE และคา MAPE เมอเปอรเซนตคาสญหายในตวแปรตามเพมขนกบวธทใชความสมพนธของตวแปรชวย ณ ต าแหนงทตวแปรตามมคาสญหาย นนคอวธRRQ1, วธRRQ3 และวธRegression พบวาวธทใชคาคงทมแนวโนมในการเพมขนมากกวาวธทใชความสมพนธของตวแปรชวย ณ ต าแหนงทตวแปรตามมคาสญหาย เนองจากการแทนคาสญหายดวยคาคงทเมอเปอรเซนตคาสญหายเพมขนการแทนคาสญหายดวยคาคงทในรปแบบของคาเฉลยจะท าใหการประมาณคาสญหายเกดความคลาดเคลอนได ซงอาจมผลกระทบมาจากคาสงเกตทใชในการค านวณคาเฉลยมคาทสงหรอต ากวาปกตมาก 3) คาความแปรปรวนของความคลาดเคลอน เมอคาความแปรปรวนของความคลาดเคลอนเพมขน คา RMSE และคา MAPE ของทกวธจะมแนวโนมเพมขน เพราะเมอคาความแปรปรวนเพมขน นนแสดงวาความคลาดเคลอนของคาพยากรณกบคาจรงมการกระจายมากขน จงสงผลใหคา RMSE และคา MAPE มคาเพมขนและมผลท าใหในการประมาณคาสญหายคลาดเคลอนไปจากความเปนจรง ซงในทกวธมคา RMSE และคา MAPE ทเพมขนในอตราทใกลเคยงกน
5.2 อภปรายผลการวจย จากการจ าลองขอมลในแตละสถานการณ พบวาวธประมาณคาสญหายทใชรปแบบคาคงทในลกษณะของคาเฉลยมาประมาณคาสญหาย ดงเชนวธMean, วธRQ1 และวธRQ3 นน ท าใหคาความคลาดเคลอนมคาสง เพราะการแทนคาสญหายของทกต าแหนงจะแทนดวยคาคงท ซงเปนคาเฉลยโดยคานนอาจจะสงหรอต ากวาความเปนจรง เนองจากรปแบบของคาเฉลยนนเปนการน าทกคาสงเกตมาหาคาเฉลย ดวยเหตนหากขอมลทน ามาค านวณนนมบางคาสงเกตสงหรอต ากวาปกต
41
ท าใหคาทค านวณไดอาจสงหรอต ามากเกนไป แตเมอใชวธในรปแบบของการอาศยความสมพนธระหวางตวแปรอสระกบตวแปรตามทก าหนดมาสรางคาประมาณในลกษณะของความสมพนธเชงเสน ท าใหคาความคลาดเคลอนมคาต า ดงเชนวธRRQ1, วธRRQ3 และวธRegression จงท าใหเหมาะสมกวาวธประมาณคาสญหายทใชรปแบบคาคงทในลกษณะของคาเฉลย แตอยางไรกตามหากขอมลของตวแปรตามกบตวแปรอสระมความสมพนธเชงเสนกนนอย คาทน าไปประมาณคาสญหายกอาจจะมความคาความคลาดเคลอนสงไดเชนกน
นอกจากนนเมอพจารณาผลการวจยในวธทผวจยไดน าเสนอนนคอวธRQ1, วธRQ3, วธRRQ1 และวธRRQ3 โดยสวนใหญเมอพจารณาจากคา MAPE แลววธทใชคาของควอไทลท 1 จะมประสทธภาพกวาการใชคาของควอไทลท 3 ซงจะสอดคลองกบผลงานวจยของ Al-Omari และคณะ (2009) ทกลาววาผลการวจยทน าคาควอไทลท 1 มาใชจะใหประสทธภาพทดกวาการใชคาควอไทลท 3 อกทงจากผลการวจยท าใหทราบวาวธประมาณคาสญหายในลกษณะของคาเฉลยทกรปแบบทใชในงานวจยครงน นนคอวธMean, วธRQ1 และ วธRQ3 ใหผลไมแตกตางกน ซงจะสอดคลองกบผลการวจยของ Bono และคณะ ในป 2007 ทกลาววา วธคาเฉลยทกวธมความคลายคลงกนกบคาเฉลยของวธสมบรณ รวมทงผลทไดนนท าใหคาความคลาดเคลอนสงกวาการใชวธในรปแบบทตองอาศยความสมพนธเชงเสนระหวางตวแปรอสระกบตวแปรตาม ซงจะสอดคลองกบ Little and Rubin (1989) ทไดกลาววาการใชเทคนคในการน าคาของตวแปร ix โดยท i = 1, 2, …, r มาอธบายคาของตวแปร y จะเปนเทคนคทด ดงนนหากตวแปรอสระกบตวแปรตามมความสมพนธเชงเสน ควรเลอกใชวธประมาณคาสญหาย วธRRQ1, วธRRQ3 หรอวธRegression จะเหมาะสมกวาการประมาณคาสญหายดวยคาคงท (เชนวธMean, วธRQ1 หรอวธRQ3) เนองจากเปนวธทท าใหคาความคลาดเคลอนต า การศกษานยงพบวาเมอเปอรเซนตคาสญหายเพมขน คาความคลาดเคลอนจะสงขนดวยเชนกน แตจะขดแยงกบผลการวจยของ จรยา (2551) ทกลาววา เมอเปอรเซนตการสญหายเพมขน วธสมการถดถอยจะมคาความคลาดเคลอนนอยลง
42
5.3 ขอเสนอแนะ แนวทางในการเลอกใชวธการประมาณคาสญหายในการวเคราะหการถดถอยเชงเสนพหคณเมอขอมลสญหายเกดขนในตวแปรตาม สามารถเสนอแนะแนวทางไดเปน 2 ดานดงน 5.3.1 ดานการน าไปใชประโยชน จากการศกษางานวจยในครงนพบวาวธการประมาณคาสญหายทผวจยไดน าเสนอคอวธRRQ1 และ RRQ3 มประสทธภาพในการประมาณคาสญหายสงกวาวธMean, RQ1 และRQ3 ยกเวนวธ Regression ทมประสทธภาพใกลเคยงกน และจากผลการวจยท าใหทราบวาเมอขอมลของตวแปรอสระกบตวแปรตามมความสมพนธกนสงการประมาณคาสญหายโดยใชรปแบบของความสมพนธระหวางตวแปรในลกษณะของความสมพนธเชงเสนจะมประสทธภาพสงกวาการใชวธในรปแบบของคาคงทในลกษณะของคาเฉลย ดงแสดงไดจากการจ าลองขอมลภายใตสถานการณตางๆ ดงนนหากงานวจยทตองการประมาณคาสญหายของต วแปรตามโดยน าสารสนเทศของตวแปรอสระเขามาใช และขอมลของตวแปรอสระมความแปรปรวนสง กอาจพจารณาเลอกวธการประมาณคาสญหายทผวจยไดน าเสนอในครงนไปใชใหเปนประโยชนได 5.3.2 ดานการวจยครงตอไป งานวจยในครงตอไป อาจก าหนดลกษณะของขอมลใหคาความคลาดเคลอนมการแจกแจง
แบบอนๆ ก าหนดเปอรเซนตคาสญหายของตวแปรตามและขนาดตวอยางใหหลากหลายมากขน
และในสวนของคาความแปรปรวนอาจก าหนดคาความแปรปรวนของความคลาดเคลอนและคา
ความแปรปรวนของตวแปรอสระใหตางออกไปจากงานวจยครงน เพราะความแปรปรวนของตว
แปรอสระหรอตวแปร X จะมผลตอคาควอไทลท 1 และคาควอไทลท 3 ซงนาจะมผลตอตว
ประมาณทผวจยไดเสนอแนะ และควรศกษาเกณฑทใชในการเปรยบเทยบเพมเตมจากเกณฑทผวจย
ไดใชในงานวจยครงน
บรรณานกรม
จรยา แสงสวรรณ. 2551. การศกษาเปรยบเทยบวธการประมาณคาสญหายในการวเคราะห การถดถอยพหคณ. วทยานพนธมหาบณฑต มหาวทยาลยเกษตรศาสตร. ชตมา ชยมสก. 2533. การวเคราะหการถดถอยเชงซอนเมอขอมลของตวแปรอสระสญหาย.
วทยานพนธมหาบณฑต จฬาลงกรณมหาวทยาลย. ทรงศร แตสมบต. 2548. การวเคราะหการถดถอย. พมพครงท 3. กรงเทพฯ: ส านกพมพ
มหาวทยาลยเกษตรศาสตร. ประชม สวตถ. 2552. การส ารวจดวยตวอยาง การชกตวอยางและการวเคราะห. กรงเทพฯ:
ส านกงานกจการโรงพมพ องคการสงเคราะหทหารผานศก ในพระบรมราชปถมภ. ประชม สวตถ. 2554. ทฤษฎการชกตวอยาง. กรงเทพฯ: ส านกงานกจการโรงพมพ องคการ
สงเคราะหทหารผานศก ในพระบรมราชปถมภ. มนตทพย เทยนสวรรณ. 2549. สถตและการวจย. กรงเทพฯ: มสเตอรกอปป. วารณ ตรบ ารงศกด. 2538. การพยากรณดวยวธการถดถอยเชงเสนพหเมอตวแปรตามมคาสญหาย.
วทยานพนธมหาบณฑต จฬาลงกรณมหาวทยาลย. สายชล สนสมบรณทอง. 2554. สถตคณตศาสตร1. พมพครงท 5. กรงเทพฯ: จามจรโปรดกท. Al-Omari, A.I.; Ibrahim, K. and Jemain, A.A. 2009. New ratio estimators of the mean using
simple random sampling and ranked set sampling methods. Revista investigacion operacional. 30(2): 97-108.
Bono, C.; Ried, L.D.; Kimberlin, C and Vogel, B. 2007. Missing data on the Center for Epidemiologic Studies Depression Scale. Research in Social and Administrative Pharmacy. 3(May): 1-27.
Chen, S.; Harlow, L. and Olinsky, A. 2003. The Comparative Efficacy of Imputation Methods for Missing Data in Structural Equation Modeling. European Journal of Operational Research. 151(November): 53-79. Cochran, W.G. 1977. Sampling Techniques. 3rd ed. New York: Wiley.
44
Daniels, M.J. and Hogan, J.W. 2008. Missing data in longitudinal studies strategies for bayesian modeling and sensitivity analysis. New York: Taylor & Francis.
Laaksonen, S. 2000. Regression-Based Nearest Neighbor Hot Decking. Computation Statistics. 15(1): 65-71.
Little, R.J.A. and Rubin, D.B. 1987. Statistical Analysis with Missing Data. New York: Wiley.
Little, R.J.A. and Rubin, D.B. 1989. Analysis of Social Science Data with Missing Values. Sociological Methods and Research. 18(November): 292-326. Montgomery, D.C. and Peck, E.A. 2001. Introduction to Linear Regression Analysis. 3rd ed.
New York: Wiley. Rubin, D.B. 1976. Inference and Missing Data. Biometrika. 63(3): 581-592. U.S. Energy Information Administration. 2003. State Energy Data. Retrieved October 30, 2012 from http://www.eia.doe.gov/emeu/states/_seds.html
ภาคผนวก
ภาคผนวก
โปรแกรมทใชในการสรางและวเคราะหขอมล
ตวอยางโปรแกรมทใชในการจ าลองขอมล
/*Generate Population*/
DATA gen.X1;
Do I = 1 TO 100000;
Z=RANNOR(15378);
X1=Z*1.5 + 3;
OUTPUT;
END;
DROP Z I;
RUN;
DATA gen.X2;
DO I = 1 TO 100000;
Z=RANNOR(26432);
47
X2=Z*2 + 5;
OUTPUT;
END;
DROP Z I;
RUN;
DATA gen.E;
DO I = 1 TO 100000;
E = RANNOR (35423);
OUTPUT;
END;
DROP I;
RUN;
/*Sampling n=20*/
PROC SURVEYSELECT DATA = gen.delout_x1
METHOD=SRS N=20
REP = 1000
SEED= 38924 OUT= gen20.x1_20;
RUN;
PROC SURVEYSELECT DATA = gen.delout_x2
48
METHOD=SRS N=20
REP = 1000
SEED= 27354 OUT= gen20.x2_20;
RUN;
PROC SURVEYSELECT DATA = gen.E
METHOD=SRS N=20
REP = 1000
SEED= 24814 OUT= gen20.E_20;
RUN;
/* CREATE VARIABLE Y */
DATA gen20.COMB_20;
MERGE gen20.x1_20 gen20.x2_20 gen20.E_20;
Y = 0.5+1*X1-0.3*X2+E;
DROP E;
RUN;
/* ขนตอนการสมคาสญหายของตวแปร Y*/
PROC MEANS data = gen20.comb_20 mean ;
class Replicate;
var x2 ;
49
output out= gen20.M_20 mean(x2)= m ;
RUN;
DATA gen20.merg;
MERGE gen20.COMB_20 gen20.M_20;
BY Replicate;
RUN;
DATA gen20.group;
set gen20.merg;
IF x2 < m THEN GROUP = 'L' ;
ELSE IF x2 >= m THEN GROUP = 'U';
DROP _TYPE_ _FREQ_ m ;
RUN;
QUIT;
%MACRO group;
%LOCAL II;
%DO II=1%TO 1000;
PROC SQL;
CREATE TABLE gen20.G&II AS
SELECT*
50
FROM gen20.group
WHERE REPLICATE = &II;
RUN;
%END;
%MEND;
%group;
%MACRO GL;
%LOCAL I;
%DO I=1%TO 1000;
DATA gen20_L.MAR_L_&I;
SET gen20.G&I;
IF GROUP='L';
RUN;
%END;
%MEND;
%GL;
%MACRO GU;
%LOCAL I;
%DO I=1%TO 1000;
51
DATA gen20_U.MAR_U_&I;
SET gen20.G&I;
IF GROUP='U';
RUN;
%END;
%MEND;
%GU;
/* MISSING 10%*/
%MACRO MAR10_L;
%LOCAL I;
%DO I=1 %TO 1000;
DATA miss10_L.MAR_L&I;
SET gen20_L.MAR_L_&I;
IF uniform(10675)<0.06 THEN DO;
Y='.';
END;
RUN;
%END;
%MEND;
52
%MAR10_L;
%MACRO MAR10_U;
%LOCAL I;
%DO I=1 %TO 1000;
DATA miss10_U.MAR_U&I;
SET gen20_u.MAR_U_&I;
IF uniform(10675)<0.04 THEN DO;
Y='.';
END;
RUN;
%END;
%MEND;
%MAR10_U;
%MACRO MAR10;
%LOCAL I;
%DO I=1 %TO 1000;
data mar10.MAR&I;
set miss10_L.MAR_L&I miss10_U.MAR_U&I;
drop group;
53
run;
%END;
%MEND;
%MAR10;
DATA mar10_t.mar10_total;
merge mar10.MAR1-mar10.MAR1000;
by replicate;
RUN;
RPOC UNIVARIATE data=mar10_t.mar10_total plot normal;
var Y;
RUN;
/*Imputation with mean method*/
%MACRO MAR10_im;
%LOCAL I;
%DO I=1 %TO 1000;
data im10_20.MAR&I;
set miss10_L.MAR_L&I miss10_U.MAR_U&I;
drop group;
run;
54
%END;
%MEND;
%MAR10_im;
%MACRO Me10_im;
%LOCAL I;
%DO I=1 %TO 1000;
data me10_20.MAR&I;
set im10_20.MAR&I;
run;
%END;
%MEND;
%Me10_im;
%MACRO re;
%LOCAL I;
%DO I=1 %TO 1000;
data mm10_20.imput_mar&I;
set me10_20.MAR&I (rename=(y =_y_));
run;
%END;
55
%MEND;
%re;
%MACRO IMPUTATION;
%LOCAL I;
%DO I=1 %TO 1000;
PROC SQL noprint;
create table me10_20.MAR&I as
select *
,CASE _y_
when . then MEAN(_y_) else _y_
end as y
from mm10_20.imput_mar&I ;
Quit;
%END;
%MEND;
%IMPUTATION;
DATA me10_20.imme_10;
merge me10_20.MAR1-me10_20.MAR1000;
drop _y_ ;
56
by replicate;
RUN;
/*Imputation with regression method*/
%MACRO delete_y;
%LOCAL I;
%DO I=1 %TO 1000;
data d20_y10.del&I;
set im10_20.mar&I;
IF y=. then delete;
run;
%END;
%MEND;
%delete_y;
DATA d20_y10.delete_t;
merge d20_y10.del1 - d20_y10.del1000;
by replicate;
RUN;
PROC REG data=d20_y10.delete_t outest= r20_10.reg_t SIMPLE;
model y = x1 x2 ;
57
by replicate;
RUN;
DATA r20_10.reg_beta;
set r20_10.reg_t;
beta0 = Intercept ;
beta1 = X1;
beta2 = X2;
drop _MODEL_ _TYPE_ _DEPVAR_ Y _RMSE_ Intercept X1 X2;
RUN;
DATA r20_10.bt_m;
merge mar10_t.mar10_total r20_10.reg_beta;
by replicate;
RUN;
DATA r20_10.y_imput;
set r20_10.bt_m;
Y_imput = beta0+(beta1*x1)+(beta2*x2);
RUN;
DATA r20_10.im_reg;
set r20_10.y_imput;
58
if Y='.' then Y = Y_imput;
drop beta0 beta1 beta2 Y_imput;
RUN;
/*Imputation with RQ method (Missing 10%)*/
PROC MEANS data=gen20.comb_20 mean Q1 Q3;
var y x1 x2;
output out= m20.q1 Q1(x1 x2)=q1_x1 q1_x2;
output out= m20.q3 Q3(x1 x2)=q3_x1 q3_x2 ;
output out= m20.m20 mean(y x1 x2)=m20_y m20_x1 m20_x2 ;
by replicate;
RUN;
PROC MEANS DATA=d20_y10.delete_t mean ;
VAR y x1 x2;
OUTPUT OUT=m_del.m20_d10 mean= m_y m_x1 m_x2;
by replicate;
RUN;
DATA ym20_q.y_q10;
set m20.m20;
set m20.q1;
59
set m20.q3;
set m_del.m20_d10 ;
y_q1 = m_y*((m20_x1+q1_x1)/(m_x1+q1_x1))*((m20_x2+q1_x2)/(m_x2+q1_x2));
y_q3 = m_y*((m20_x1+q3_x1)/(m_x1+q3_x1))*((m20_x2+q3_x2)/(m_x2+q3_x2));
drop m20_x1 m20_x2 m20_y q1_x1 q1_x2 q3_x1 q3_x2 m_y m_x1 m_x2 _TYPE_ _FREQ_ ;
RUN;
DATA ym20_q.y10_q1;
merge mar10_t.mar10_total ym20_q.y_q10;
by replicate;
if Y='.' then Y = Y_q1;
drop y_q1 y_q3;
RUN;
DATA ym20_q.y10_q3;
merge mar10_t.mar10_total ym20_q.y_q10;
by replicate;
if Y='.' then Y = Y_q3;
drop y_q1 y_q3;
RUN;
DATA rrm20_q.mer_q10;
60
merge m20.m20
m20.q1
m20.q3
m_del.m20_d10
r20_10.y_imput;
by replicate;
RUN;
DATA rrm20_q.y_q10;
set rrm20_q.mer_q10;
y_rr_q1 = y_imput*((m20_x1+q1_x1)/(m_x1+q1_x1))*((m20_x2+q1_x2)/(m_x2+q1_x2));
y_rr_q3 = y_imput*((m20_x1+q3_x1)/(m_x1+q3_x1))*((m20_x2+q3_x2)/(m_x2+q3_x2));
drop m20_x1 m20_x2 m20_y q1_x1 q1_x2 q3_x1 q3_x2 m_y m_x1 m_x2 beta0 beta1 beta2
y_imput _TYPE_ _FREQ_;
RUN;
DATA rrm20_q.y10_q1;
set rrm20_q.y_q10;
if Y='.' then Y =y_rr_q1;
drop y_rr_q1 y_rr_q3;
RUN;
61
DATA rrm20_q.y10_q3;
set rrm20_q.y_q10;
if Y='.' then Y = y_rr_q3;
drop y_rr_q1 y_rr_q3;
RUN;
/*หาสมการท านายและค านวณคาตวแปร Y ใหม*/
PROC REG data=im10_20.imme_10 outest= y20_new.beta_10 SIMPLE;
model y = x1 x2 ;
by replicate;
RUN;
DATA y20_new.beta10;
set y20_new.beta_10;
beta0 = Intercept ;
beta1 = X1;
beta2 = X2;
drop _MODEL_ _TYPE_ _DEPVAR_ Y _RMSE_ Intercept X1 X2;
RUN;
DATA y20_new.data_beta10;
62
merge gen_20.comb_20 y20_new.beta10;
by replicate;
RUN;
DATA y20_new.y_new10;
set y20_new.data_beta10;
Y_new = beta0+(beta1*x1)+(beta2*x2);
drop beta0 beta1 beta2;
RUN;
/*ค านวณเกณฑ RMSE และ MAPE*/
/*RMSE*/
DATA RMSE_20.error_10;
set y20_new.y_new10;
e= (y-y_new)**2;
RUN;
PROC MEANS data=RMSE_20.error_10 sum ;
var e;
by replicate;
output out = RMSE_20.total_e10 sum=e;
63
RUN;
DATA RMSE_20.Rmse_10;
set RMSE_20.total_e10;
rmse= sqrt(e/(20-3));
RUN;
PROC MEANS data = RMSE_20.Rmse_10 mean var;
var rmse;
output out = RMSE_20.Rmse_m10 mean=rmse;
output out = RMSE_20.var_m10 var=sigma2;
RUN;
/*MAPE*/
DATA MAPE_20.error_10;
set y20_new.y_new10 ;
set Yhat_20.y_hat;
e= abs((Y_hat-y_new)/Y_hat);
drop y;
RUN;
PROC MEANS data=MAPE_20.error_10 sum ;
var e;
64
by replicate;
output out = MAPE_20.t_e10 sum=e_total;
RUN;
DATA MAPE_20.MAPE_10;
set MAPE_20.t_e10;
MAPE= (e_total/20)*100;
RUN;
PROC MEANS data = MAPE_20.MAPE_10 mean var;
var MAPE;
output out = MAPE_20.MAPE_m10 mean=MAPE_m;
output out = MAPE_20.var10 var=var_m;
RUN;
ประวตผเขยน
ชอ ชอสกล นางสาวรตตกาล จอมประพนธ ประวตการศกษา บรหารธรกจบณฑต (การบญช) มหาวทยาลยสงขลานครนทร ปทส าเรจการศกษา พ.ศ. 2552 การเผยแพรผลงานวทยานพนธ การประมาณคาสญ หายในการวเคราะหการ
ถดถอยเชงเสนพหคณ วารสารพฒนบรหาร ศาสตร ปท 55 ฉบบท 1/2558 (มกราคม-มนาคม 2558)