Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
การแยกอนพากยภาษาไทยดวยการใชแบบจ าลองซพพอรตเวกเตอรแมชชน
นางสาวนลน อนตะซาว
วทยานพนธนเปนสวนหนงของการศกษาตามหลกสตรปรญญาอกษรศาสตรมหาบณฑต สาขาวชาภาษาศาสตร ภาควชาภาษาศาสตร คณะอกษรศาสตร จฬาลงกรณมหาวทยาลย
ปการศกษา 2556 ลขสทธของจฬาลงกรณมหาวทยาลย
Thai Clause Segmentation Using a Support Vector Machine Model
Miss Nalinee Intasaw
A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of Arts Program in Linguistics
Department of Linguistics Faculty of Arts
Chulalongkorn University Academic Year 2013
Copyright of Chulalongkorn University
หวขอวทยานพนธ การแยกอนพากยภาษาไทยดวยการใชแบบจ าลองซพพอรตเวกเตอรแมชชน
โดย นางสาวนลน อนตะซาว สาขาวชา ภาษาศาสตร อาจารยทปรกษาวทยานพนธหลก รองศาสตราจารย ดร. วโรจน อรณมานะกล
คณะอกษรศาสตร จฬาลงกรณมหาวทยาลย อนมตใหนบวทยานพนธฉบบนเปนสวนหนงของการศกษาตามหลกสตรปรญญามหาบณฑต
คณบดคณะอกษรศาสตร
(ผชวยศาสตราจารย ดร. ประพจน อศววรฬหการ)
คณะกรรมการสอบวทยานพนธ
ประธานกรรมการ
(รองศาสตราจารย ดร. สมชาย ประสทธจตระกล)
อาจารยทปรกษาวทยานพนธหลก
(รองศาสตราจารย ดร. วโรจน อรณมานะกล)
กรรมการภายนอกมหาวทยาลย
(ดร. เทพชย ทรพยนธ)
ง
บทคดยอภาษ าไทย
นลน อนตะซาว : การแยกอนพากยภาษาไทยดวยการใชแบบจ าลองซพพอรตเวกเตอรแมชชน. (Thai Clause Segmentation Using a Support Vector Machine Model) อ.ทปรกษาวทยานพนธหลก: รศ. ดร. วโรจน อรณมานะกล, 98 หนา.
วตถประสงคของวทยานพนธน คอ เพอหาลกษณทางภาษาศาสตรทจะน าไปใชในการแยกอนพากยภาษาไทยดวยแบบจ าลองซพพอรพเวกเตอรแมชชน และเปรยบเทยบลกษณทางภาษาศาสตรทใช วาสงผลตอประสทธภาพของระบบการแยกอนพากยอยางไรบาง
คลงขอมลทใชในการศกษานเปนภาษาเขยนทางวชาการ มขนาด 76,460 ค า ประกอบไปดวย 8,102 อนพากย แบบจ าลองซพพอรตเวกเตอรแมชชนทใชในการแยกอนพากยในงานน คอฟงกชน SMO ของโปรแกรมวกา (Weka) และฟงกชนเคอรเนลทใชคอโพลโนเมยล ระบบท าการแยกอนพากยโดยรบขอมลเขาเปนค าเพอใหแบบจ าลองตดสนใจวาค านนเปนค าขอบเขตเรมตนอนพากยหรอไม การตดสนใจของแบบจ าลองอาศยลกษณทางภาษาศาสตร ไดแก ลกษณหมวดค าปจจบน หมวดค ากอนหนา หมวดค าตามหลง รายการค าเชอมอนพากย ความนาจะเปนของชองวางทจะเปนตวแบงอนพากย และเครองหมายวรรคตอน การเปรยบเทยบประสทธภาพของแตละลกษณท าโดยการก าหนดชดของลกษณรปแบบตาง ๆ แลวน าไปทดสอบ รปแบบของลกษณทสงผลตอประสทธภาพของระบบมากทสด คอการใชทกลกษณรวมกนทงหมด สามารถวดคาความถกตอง (F-measure) ได 81.17 เปอรเซนต นอกจากน เมอปรบคาพารามเตอรของเคอรเนลโพลโนเมยลใหสงขน พบวาสามารถชวยเพมประสทธภาพของระบบได กลาวคอ วดคาความถกได 84.74 เปอรเซนต เมอปรบคาพารามเตอรไวท D=4
ภาควชา ภาษาศาสตร
สาขาวชา ภาษาศาสตร
ปการศกษา 2556
ลายมอชอนสต
ลายมอชอ อ.ทปรกษาวทยานพนธหลก
จ
บทคดยอภาษ าองกฤษ
# # 5380139422 : MAJOR LINGUISTICS KEYWORDS: THAI CLAUSE SEGMENTATION / CLAUSE SEGMENTATION / SUPPORT VECTOR MACHINE / SVM / ELEMENTARY DISCOURSE UNIT
NALINEE INTASAW: THAI CLAUSE SEGMENTATION USING A SUPPORT VECTOR MACHINE MODEL. ADVISOR: ASSOC. PROF. WIROTE AROONMANAKUN, Ph.D., 98 pp.
The purposes of this study are to find out linguistic features to be used in Thai clause segmentation using support vector machine (SVM) model as well as to compare efficiency of those features on clause segmentation system.
The corpus used in the study is a 76,460 word collection of Thai academic written language, consisting of 8,102 clauses. SMO, which is one of the functions in Weka, is used for training SVM. The kernel function used with SVM is polynomial kernel. The clause segmentation system uses words as inputs and decides whether a particular word is the beginning of the clause. The system's decision relies on linguistic-based features including the word's present part-of-speech, the word's previous part-of-speech, the word's following part-of-speech, lists of discourse markers, possibility of white space to be a clause separator, and punctuations. The performances of linguistic features are compared by preparing the set of feature patterns and testing those patterns. The feature pattern that performs the best is the mix of all linguistic features which claims the F-measure of 81.17 percent. In addition, when changing the value of the kernel parameter to higher value, it is found that the performance of the system increases. That is, when adjusting the exponent D to the value of 4, the system claims the F-measure of 84.74 percent.
Department: Linguistics
Field of Study: Linguistics
Academic Year: 2013
Student's Signature
Advisor's Signature
ฉ
กตตกรรมประกาศ
ผวจยขอขอบพระคณ รองศาสตราจารย ดร.วโรจน อรณมานะกล อาจารยทปรกษาวทยานพนธเปนอยางสง ทไดเสยสละเวลาในการใหค าแนะน าและความชวยเหลอผวจยมาโดยตลอด ทงการท างานวจยเพอตพมพ งานวทยานพนธ ตลอดจนการใหโอกาสรบเงนทนผ ชวยวจย จนท าใหผวจยสามารถท างานวจยส าเรจลลวงไปดวยด
ขอขอบพระคณ ศาสตราจารย ดร.สมชาย ประสทธจตระกล ประธานกรรมการสอบวทยานพนธ และ ดร.เทพชย ทรพยนธ กรรมการสอบวทยานพนธ ทเสยสละเวลาชวยตรวจแกวทยานพนธ อกทงยงใหขอชแนะในการท างานวจย อนท าใหงานวทยานพนธฉบบนมความสมบรณยงขน
ขอขอบพระคณ ศาสตราจารย ดร.ธระพนธ เหลองทองค า , รองศาสตราจารย ดร.กงกาญจน เทพกาญจนา, ผชวยศาสตราจารย ดร.สดา รงกพนธ, ผชวยศาสตราจารย ดร.ธราภรณ รตธรรมกล, ผชวยศาสตราจารย ดร.พทยาวฒน พทยาภรณ รวมถงคณาจารยภาควชาภาษาศาสตรทานอน ๆ ทไดใหความรขณะผวจยศกษาเลาเรยน ซงเปนการเพมพนความรและประสบการณทางดานภาษาศาสตรใหแกผวจย
ขอขอบคณเพอน ๆ ทภาควชาภาษาศาสตร ทนอกจากจะมอบมตรภาพอนดแลว ยงคอยใหค าแนะน า ก าลงใจ และความชวยเหลอทางดานการเรยนแกผวจย และขอขอบคณเจาหนาทภาควชาภาษาศาสตรทกทาน ทคอยใหค าแนะน าและการชวยเหลอตลอดระยะเวลาทผวจยศกษาอย ณ จฬาลงกรณมหาวทยาลย
สดทายน ผวจยตองขอขอบพระคณบดา มารดา คณบญชวย และคณจนท รา อนตะซาว เปนอยางสง ทใหการสนบสนน และมความเชอมนในผวจยมาโดยตลอด และขอขอบคณ คณมาลาทพย จอหนสน, คณศรรตน มอรแกน, และคณณรนช พรยะสกลยง ส าหรบมตรภาพและก าลงใจทมอบใหเสมอมา
สารบญ หนา
บทคดยอภาษาไทย ............................................................................................................................. ง
บทคดยอภาษาองกฤษ ....................................................................................................................... จ
กตตกรรมประกาศ............................................................................................................................. ฉ
สารบญ .............................................................................................................................................. ช
สารบญตาราง ................................................................................................................................... ญ
สารบญภาพ ...................................................................................................................................... ฏ
บทท 1 .............................................................................................................................................. 1
บทน า ................................................................................................................................................ 1
1.1 ความเปนมาและความส าคญของปญหา ................................................................................. 1
1.2 วตถประสงค ........................................................................................................................... 4
1.3 สมมตฐาน ............................................................................................................................... 4
1.4 ขอบเขตของการวจย .............................................................................................................. 4
1.5 วธด าเนนการวจย ................................................................................................................... 4
1.6 ประโยชนทคาดวาจะไดรบ ..................................................................................................... 5
1.7 เครองมอทใชในการวจย ......................................................................................................... 5
บทท 2 .............................................................................................................................................. 6
ทบทวนวรรณกรรม ........................................................................................................................... 6
2.1 การศกษาอนพากยตามแนวภาษาศาสตร ................................................................................ 6
2.2 ทฤษฎเกยวกบอนพากยทใชในการแยกอนพากย .................................................................... 9
2.2.1 Linguistic Discourse Model .................................................................................... 9
2.2.2 Rhetorical Structure Theory................................................................................ 10
2.2.3 การใช RST วเคราะหภาษาไทย ................................................................................. 12
2.3 แนวทางการแยกอนพากยดวยเครอง .................................................................................... 15
2.3.1 แนวทางการใชกฎ (Rule-based approaches) ....................................................... 15
2.3.2 แนวทางการเรยนรดวยเครอง (Machine Learning) ................................................. 16
2.4 งานวจยทเกยวของกบการแยกอนพากยในภาษาไทย ........................................................... 17
2.5 ซพพอรตเวกเตอรแมชชน (Support Vector Machine: SVM) ........................................... 19
ซ
หนา
2.6 ตวอยางงานประมวลผลภาษาธรรมชาตทผานมาทใชซพพอรตเวกเตอรแมชชน .................... 21
บทท 3 ............................................................................................................................................ 23
คลงขอมลและการก ากบขอมล ........................................................................................................ 23
3.1 การจดท าคลงขอมล .............................................................................................................. 23
3.2 การก ากบคลงขอมล.............................................................................................................. 23
3.2.1 หมวดค าภาษาไทยและการก ากบหมวดค า ................................................................. 24
3.2.2 การก ากบขอบเขตหนวยปรจเฉทพนฐาน ................................................................... 28
บทท 4 ............................................................................................................................................ 30
การก าหนดขอบเขตอนพากยภาษาไทย ........................................................................................... 30
บทท 5 ............................................................................................................................................ 44
การแยกอนพากยภาษาไทยดวยแบบจ าลองซพพอรตเวกเตอรแมชชน............................................. 44
5.1 ระบบการแยกอนพากยภาษาไทยดวยแบบจ าลองซพพอรตเวกเตอรแมชชน ........................ 44
5.2 การก าหนดลกษณทใชในการฝกฝนและทดสอบแบบจ าลอง ................................................. 44
5.2.1 ลกษณะทางโครงสราง EDU ภาษาไทย ...................................................................... 45
5.2.1.1 EDU ทมโครงสรางระดบอนพากย ............................................................... 45
5.2.1.2 EDU ทมลกษณะทางโครงสรางต ากวาระดบอนพากย ................................. 50
5.2.2 ลกษณทใชในการฝกฝนและทดสอบแบบจ าลอง ........................................................ 51
5.3 การเตรยมไฟลขอมลส าหรบฝกฝนและทดสอบแบบจ าลอง................................................... 58
5.4 เคอรเนลฟงกชนและการตงคาพารามเตอร ........................................................................... 60
5.5 การประเมนประสทธภาพของแบบจ าลอง ............................................................................ 61
5.6 ผลการทดสอบ ...................................................................................................................... 62
5.6.1 ผลการทดสอบของลกษณรปแบบตาง ๆ ของลกษณ พารามเตอร C=1 และ D=1 .... 63
5.6.2 ผลการทดสอบทปรบคาพารามเตอร C=1 และ D=2, D=3, D=4.............................. 66
บทท 6 ............................................................................................................................................ 70
ลกษณทางภาษาทมผลตอประสทธภาพของแบบจ าลอง .................................................................. 70
6.1 ประสทธภาพของลกษณทางภาษาทใช ................................................................................. 70
6.1.1 หมวดค า .................................................................................................................... 70
ฌ
หนา
6.1.2 ค าเชอมหนาอนพากย ................................................................................................ 72
6.1.4 เครองหมายวรรคตอน ............................................................................................... 75
6.1.5 การใชทกลกษณรวมกน ............................................................................................. 75
6.2 ประสทธภาพของแบบจ าลองเมอปรบคาพารามเตอรของเคอรเนลใหสงขน .......................... 76
บทท 7 ............................................................................................................................................ 80
สรปผลการศกษา ปญหา และขอเสนอแนะ ..................................................................................... 80
7.1 สรปผลการศกษา .................................................................................................................. 80
7.2 ปญหาทพบในการศกษา ....................................................................................................... 82
7.3 ขอเสนอแนะ ......................................................................................................................... 83
รายการอางอง ................................................................................................................................. 85
ภาคผนวก........................................................................................................................................ 91
ภาคผนวก ก ตวอยางคลงขอมลและการก ากบขอมล .................................................................. 92
ภาคผนวก ข ตวอยางไฟล ARFF ซงเปนรปแบบไฟลทใชในการฝกฝนและทดสอบแบบจ าลอง ... 93
ภาคผนวก ค ตวอยางผลลพธทแสดงบนหนาจอของโปรแกรมวกา .............................................. 95
ประวตผเขยนวทยานพนธ ............................................................................................................... 98
สารบญตาราง
ตารางท หนา
2.1 ชนดและตวอยางของอนพากยปรจเฉทในภาษาไทยวเคราะหตามแนวทฤษฏ RST .............. 18 3.1 แสดงสญลกษณทใชในการก ากบคลงขอมล ......................................................................... 29 3.2 ตวอยางคลงขอมลทก ากบขอมลแลว ................................................................................... 29 4.1 แสดงเครองหมายวรรคตอนทใชในภาษาไทย ...................................................................... 44 5.1 แสดงตวอยางคาลกษณ POS ของคลงขอมล....................................................................... 53 5.10 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงทแบบจ าลองระบ
ขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 4 (POS-P, POS-B, POS-A, Space) ....................................................................................................................................... 68
5.11 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงทแบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 5 (POS-P, POS-B, POS-A, Punc) ......................................................................................................................................... 68
5.12 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงทแบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 6 (POS-P, POS-B, POS-A, DM, Space, Punc) .................................................................................................................... 69
5.13 แสดงคาเฉลยของผลการทดสอบแบบจ าลองทใชลกษณรปแบบท 1 - 6 ในการฝกฝนและทดสอบ ประกอบไปดวยคาความแมนย า คาความครบถวน F-measure และจ านวนครงทแบบจ าลองระบขอบเขต EDU ไดถกตอง .................................................................................... 69
5.14 แสดงคาเฉลยของผลการทดสอบทงหมด 10 ครง ทมการปรบคาพารามเตอรของเคอรเนล D=2 ใหกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน ............................................................. 71
5.15 แสดงคาเฉลยของผลการทดสอบทงหมด 10 ครง ทมการปรบคาพารามเตอรของเคอรเนล D=3 ใหกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน ............................................................. 71
5.16 แสดงคาเฉลยของผลการทดสอบทงหมด 10 ครง ทมการปรบคาพารามเตอรของเคอรเนล D=4 ใหกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน ............................................................. 72
5.17 สรปคาเฉลยของผลการทดสอบทงหมด 10 ครง ทมการปรบคาพารามเตอรของเคอรเนลตาง ๆ ใหกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน ........................................................ 72
5.2 แสดงรายการค าเชอม แบงตามรปภาษา ............................................................................. 55 5.3 แสดงตวอยางจากคลงขอมลและลกษณรายการค าเชอม ..................................................... 56 5.4 แสดงจ านวนครงท POS ตาง ๆ ปรากฏหลงชองวาง และจ านวนครงทชองวางจะเปนตวแบง
อนพากย ..................................................................................................................................... 58 5.5 แสดงตวอยางจากคลงขอมลและการก าหนดลกษณชองวาง ................................................ 59 5.6 แสดงตวอยางจากคลงขอมลและการก าหนดลกษณเครองหมายวรรคตอน .......................... 60 5.7 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงทแบบจ าลองระบ
ขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 1 (POS-P) ....................... 67
ฎ
ตารางท .........................................................................................................................................หนา 5.8 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงทแบบจ าลองระบ
ขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 2 (POS-P, POS-B, POS-A) ................................................................................................................................................... 67
5.9 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงทแบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 3 (POS-P, POS-B, POS-A, DM) ............................................................................................................................................ 68
6.1 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณ POS ของ 3 ค า .............................. 78 6.2 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณค าเชอม ........................................... 79 6.3 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณชองวาง ........................................... 81 6.4 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณเครองหมายวรรคตอน ..................... 82 6.5 ตวอยางขอความจากคลงขอมล แสดงผลการใชทกลกษณรวมกน ....................................... 83 6.6 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณชองวางเมอปรบคาพารามเตอรตางกน
................................................................................................................................................... 85 6.7 ตวอยางขอความจากคลงขอมล แสดงความผดพลาดทเกดขนกบการใชลกษณชองวางเมอ
ปรบคาพารามเตอร D=3 ............................................................................................................. 85 6.8 ตวอยางขอความจากคลงขอมล เปรยบเทยบผลการทดสอบลกษณชดท 1 และ 2 .............. 86
สารบญภาพ
ภาพท หนา
2.1 โครงสรางตนไมประโยคภาษาองกฤษตามแนวไวยากรณบทบาทและการอางอง ................... 7 2.2 แผนภมตนไมทไดจากการวเคราะหขอความภาษาองกฤษตามแนวทฤษฎ LDM .................. 10 2.3 ตวอยางการวเคราะหโครงสรางปรจเฉทตามแนวทฤษฎ RST .............................................. 11 2.4 แผนภมตนไม RST แสดงปรจเฉทสมพนธของขอความ 1 .................................................... 13 2.5 แผนภมตนไม RST แสดงปรจเฉทสมพนธของขอความ 2 .................................................... 14 2.6 แผนภมตนไม RST แสดงปรจเฉทสมพนธของขอความ 3 .................................................... 14 2.7 ตวอยางกฎเพอใชในการตดประโยคภาษาองกฤษ ............................................................... 15 2.8 แสดงสมการเสนตรงของเสนขอบและเสนแบง .................................................................... 19 2.9 แสดงการจดขอมลใหอยในมตทสงขน ................................................................................. 20
บทท 1
บทน า
1.1 ความเปนมาและความส าคญของปญหา
อนพากยเปนหนวยทางไวยากรณ ทประกอบไปดวยภาคประธานและภาคแสดง ในการศกษาโครงสรางและความสมพนธในปรจเฉท อนพากยถอเปนหนวยพนฐาน (Elementary unit) ทใชเปนหนวยการวเคราะห การแยกอนพากยจงเปนงานทมความส าคญตองานการประมวลผลภาษาธรรมชาตทตองใชขอมลจากโครงสรางปรจเฉท เชน text summarization, machine translation, text generation, text-to-speech, discourse parsing เปนตน นอกจากนอนพากยยงสามารถใชเปนขอมลรบเขา (Input) ในบางงานไดอกดวย เนองจากอนพากยเปนหนวยทเลกกวาประโยคและยอหนา แตกเปนถอยความทประกอบไปดวยขอมลเนอหาอยางครบถวน
ส าหรบการประมวลผลภาษาไทยดวยเครองนน อนพากยกนาจะสามารถเปนหนวยของขอมลรบเขาทมความเหมาะสมมากกวาประโยค เนองจากการระบขอบเขตประโยคในภาษาไทยยงมปญหา กลาวคอ ภาษาเขยนของภาษาไทยไมมการใชเครองหมายวรรคตอนเมอจบประโยค มเพยงการเวนวรรคหรอการใชชองวางเมอตองการขนใจความใหม แตการเวนวรรคกมวธการใชและหนาทหลากหลาย เชน เวนวรรคระหวางค าในรายการค า เวนวรรคระหวางชอและนามสกล เวนวรรคหนาและหลงตวเลข ฯลฯ
นอกจากน การระบขอบเขตของสงทเรยกวา “ประโยค” ในภาษาไทยกไมสามารถท าไดโดยงายอยางในภาษาองกฤษ เนองจากภาษาไทยไมไดมธรรมเนยมการเขยนใหเปนประโยคอยางในภาษาองกฤษทมลกษณะของการเรยงค าตางๆใหอยภายในเครองหมาย “.” ดงนนหนวยทอยภายในเครองหมายนจงเปนประโยคเดยวกน ในขณะทภาษาไทย การเขยนเปนการรวมค าใหเปนกลมค าหรอวล จากวลกรวมกนเปนอนพากย และ ค า วล อนพากยยงสามารถเช อมโครงสรางและความหมายกนไดโดยการใชตวเชอม (Connector) สวนหนวยในภาษาไทยทเทยบเทากบ “ประโยค” ในภาษาองกฤษกยงเปนสงทตองตงค าถามวา ภาษาไทยมประโยคหรอไม และหากเชอวาภาษาไทยมสงทเรยกวา “ประโยค” จรง กจะตองแกปญหาใหไดวา ชองวางใดทถกใชในการแยกสองประโยคออกจากกน เพราะชองวางกอาจจะไมไดใชเพอแบงประโยคกได ดงทไดกลาวไวแลวขางตน จงเปนทมาของปญหาการระบขอบเขตของประโยคภาษาไทย ขอความตอไปนเปนตวอยางทชใหเหนปญหาการตดประโยคภาษาไทย เปรยบเทยบกบภาษาองกฤษ
2
จากขอความขางตน จะพบวาขอความภาษาองกฤษมการใชเครองหมายจบประโยค (.)
ทงหมด 3 แหง และขนตนประโยคใหมดวยอกษรตวใหญ ดงนนขอความนประกอบดวย 3 ประโยค คอ
1 In Thailand which has the lowest breastfeeding rate in Asia and one of the lowest in the world, only 5.4 per cent of babies are exclusively breastfed during the first six months of life.
2 Napat, who recently visited several flood-ravaged areas in Chainat, Lopburi and Singburi provinces to assess the situation of children and families affected by floods, said most mothers are maintaining the same infant feeding practice as before the floods.
3 Unsurprisingly, infant formula is among the items most requested by mothers affected by the flooding.
In Thailand which has the lowest breastfeeding rate in Asia and one of the lowest in
the world, only 5.4 per cent of babies are exclusively breastfed during the first six months of
life. Napat, who recently visited several flood-ravaged areas in Chainat, Lopburi and Singburi
provinces to assess the situation of children and families affected by floods, said most mothers
are maintaining the same infant feeding practice as before the floods. Unsurprisingly, infant
formula is among the items most requested by mothers affected by the flooding.
ในประเทศไทยซงมอตราการเลยงลกดวยนมแมต าทสดในเอเชยและต าทสดประเทศหนงใน
โลก^มทารกเพยงรอยละ^5.4^เทานนทไดรบการเลยงดวยนมแมเพยงอยางเดยวในชวงหกเดอนแรกของ
ชวต^ นภทรซงไดไปเยยมพนททไดรบผลกระทบหลายแหงในจงหวดชยนาท^ลพบรและสงหบรเพอ
ประเมนสถานการณของเดกและครอบครวทไดรบผลกระทบจากน าทวมกลาววา^แมสวนใหญยงคง
ปฏบตเหมอนเดม^คอถาใหนมแมกยงคงใหนมแมตอไป^หรอใหนมผงกยงใหนมผงตอไป^อยางไรกตาม
เนองจากแมสวนใหญในประเทศไทยเลยงลกดวยนมผง^จงไมนาแปลกใจทนมผงเปนสงทแมตองการมาก
ทสด
(บทความเรอง นมแมปลอดภยทสดส าหรบภาวะน าทวม ดดแปลงจาก
http://www.unicef.org/thailand/tha/reallives_17802.html)
3
สวนในขอความภาษาไทย จะพบวามชองวางอยทงหมด 10 แหง ซงแทนทโดยเครองหมาย ^ ชองวางมการใชเพอเวนวรรคระหวางอนพากย กอนและหลงตวเลข และระหวางรายการค า ดงนนชองวางในภาษาไทยจงไมใชตวบงบอกขอบเขตประโยคทปราศจากความคลมเคลอ นอกจากนการระบจ านวนประโยคกเปนสงทมปญหา จากขอความตวอยางขางตน อาจะมค าถามทวา ขอความหลงค าวา “กลาววา” ควรจะถอวาเปนประโยคเดยวกนหมดภายใตกรยา “กลาววา” หรอไม หรอจะพจารณาวามมากกวา 1 ประโยค นอกจากนยงมการศกษาของ Aroonmanakun (2007) ทไดท าการทดลองใหกลมตวอยางผพดภาษาไทยเปนภาษาแมตดขอความเดยวกนออกเปนประโยค ผลปรากฏวาผพดแตละคนมการตดประโยคทแตกตางกนออกไป นจงเปนอกหลกฐานหนงทพสจนใหเหนถงปญหาการระบขอบเขตประโยคภาษาไทย
จากทกลาวมา แสดงใหเหนแลววา การศกษาการแยกอนพากยภาษาไทยมความส าคญยง เพราะอนพากยเปนหนวยทมระบขอบเขตไดชดเจนมากกวา สามารถใชเปนหนวยทเปนขอมลรบเขาส าหรบงานการประมวลผลภาษาธรรมชาตภาษาไทย อกทงเปนหนวยพนฐานทใชในการศกษาโครงสรางปรจเฉทอกดวย ดงนนในงานน ผวจยจงไดศกษาการตดอนพากยภาษาไทยโดยใชซพพอรตเวกเตอรแมชชน (Support Vector Machines: SVMs) ซงเปนตวจ าแนกประเภท (Classifier) ทอาศยการฝกฝน (Supervised-learning) และสรางแบบจ าลอง โดยใชลกษณตาง ๆ ในการตดสนใจและจ าแนกขอมล
ผวจยไดเลอกใชซพพอรตเวกเตอรแมชชน เนองจากเปนตวจ าแนกประเภททเปนทนยมใชในงานทางดานการประมวลผลภาษาธรรมชาต นอกจากจะสามารถก าหนดลกษณทใชในการฝกฝนและสรางแบบจ าลองไดแลว การใชเทคนคซพพอรตเวกเตอรแมชชนยงสามารถใชเคอรเนลฟงกชนในการชวยเพมประสทธภาพการท างานของตวจ าแนกประเภทไดอกดวย ทงน ยงไมมขอสรปวาเคอรเนลฟงกชนแบบใดใหผลลพธทดทสด เนองจากเคอรเนลฟงกชนหนงอาจใหผลทนาพอใจในงานประเภทหนง และใหผลทไมนาพอใจในงานอกประเภทหนง (Nguyen, Ohn et al. 2004, Liberati, Howe et al. 2009) สวนเคอรเนลฟงกชนทเปนทนยมและพบในงานการประมวลผลภาษาธรรมชาต ไดแก ฟงกชนโพลโนเมยล (Polynomial function) ฟงกชนเรเดยลเบสส (Radial basis function) และฟงกชนซกมอยด (sigmoid function)
งานประมวลผลภาษาธรรมชาตทผานมาทใชซพพอรตเวกเตอรแมชชน ไดแก งานการแจงสวนประโยค (Pradhan, Ward et al. 2004, Xu and Zhang 2006, Hernault, Prendinger et al. 2010) การก ากบหมวดค า (Giménez and Márquez 2003, Poel, Stegeman et al. 2007, Antony, Mohan et al. 2010) การจ าแนกประเภทเอกสาร (Joachims 1998, Basu, Walters et al. 2003, Al-Saleem 2010) การแกปญหาความก ากวมของค าหลายความหมาย (Lee, Ng et al.
4
2004, Buscaldi, Rosso et al. 2006) การรจ าเสยง (Ganapathiraju 2002) และการรจ าตวอกษร (Borji and Hamidi 2007) นอกจากนวาทน นยเพยร, สมชาย ปราการเจรญ et al. (2553) ไดท าการทดลองเปรยบเทยบประสทธภาพของอลกอรทมตางๆทใชในการจ าแนกขอมล ไดแก โครงขายประสาทเทยม (Neural Network) ซพพอรตเวกเตอรแมชชน (Support Vector Machines) นาอฟเบย (Naïve Bayes) และเคเนยรเรสตเนเบอร (K-Nearest Neighbor) ผลปรากฏวาอลกอรทมทท างานไดอยางมประสทธภาพสงสดคอซพพอรตเวกเตอรแมชชน
1.2 วตถประสงค
1. วเคราะหหาลกษณทางภาษาทจะใชในการตดอนพากยภาษาไทยดวยซพพอรตเวกเตอร- แมชชน
2. พฒนาระบบการตดอนพากยดวยซพพอรตเวกเตอรแมชชน 3. เปรยบเทยบประสทธภาพของลกษณทใชในการตดอนพากยภาษาไทย
1.3 สมมตฐาน
1. ลกษณทางภาษาทสามารถใชในการตดอนพากยดวยเครอง ไดแก ค าไวยากรณ ตวเชอม ประเภทของค า ระยะหางระหวางตวเชอมท 1 และตวเชอมท 2 ในตวเชอมทเปนค (Correlative conjunctions) เครองหมายวรรคตอน อนภาคทาย และชองวาง
2. ลกษณทางภาษาทมประสทธภาพดทสดคอตวเชอม รองลงมาไดแก ประเภทของค า ชองวาง และอนพากยทาย
1.4 ขอบเขตของการวจย
ใชขอมลภาษาเขยนจากคลงขอมลขาวทมอนพากยจ านวนไมต ากวา 1,000 อนพากย
1.5 วธด าเนนการวจย
1. ทบทวนวรรณกรรมทเกยวของกบการแยกอนพากยดวยเครอง 2. ก าหนดขอบเขตของอนพากยภาษาไทย 3. สรางคลงขอมลทใชในการฝกฝนและทดสอบ โดยใชคลงขอมลการฝกฝน 90 เปอรเซนต และ
คลงขอมลทดสอบ 10 เปอรเซนต 4. วเคราะหหาลกษณทางภาษาศาสตรทเหมาะสมส าหรบซพพอรตเวกเตอรแมชชน 5. ฝกฝนแบบจ าลองโดยใชซพพอรตเวกเตอรแมชชน 6. ทดสอบระบบการแยกอนพากยดวยโดยใชคลงขอมลทดสอบ
5
7. ประเมนผลการทดสอบ และประเมนลกษณทมผลตอประสทธภาพของซพพอรตเวกเตอร- แมชชน
8. สรปผลการวจย
1.6 ประโยชนทคาดวาจะไดรบ
1. เปนแนวทางในการศกษาวเคราะหหนวยทซบซอนกวาทเกดจากการรวมตวกนของอนพากย ซงไดแก ประโยค ปรจเฉท เปนตน
2. เปนแนวทางในการศกษาการแยกอนพากยในภาษาอน ๆ ดวยเครอง
1.7 เครองมอทใชในการวจย
1. โปรแกรมภาษา Python ของมลนธซอฟตแวรไพทอน (Python Software Foundation: PSF)
2. โปรแกรมวกา (Weka) เวอรชน 3.6.10 พฒนาโดย The University of Waikato ประเทศนวซแลนด
6
บทท 2
ทบทวนวรรณกรรม
การศกษาการแยกอนพากยดวยซพพอรตเวกเตอรแมชชนจ าเปนตองมความรพนฐานในเรองอนพากยตามแนวภาษาศาสตร และการจะแยกอนพากยไดตองมการก าหนดขอบเขตขอบอนพากย ซงทฤษฎภาษาแตละทฤษฎกกลาวถงสงทเรยกวาอนพากยแตกตางกนทงเรองขอบเขตและความสมพนธระหวางอนพากย จงมความจ าเปนตองทบทวนทฤษฎเหลานเพอเลอกทฤษฎทเหมาะสมทสดทจะใชในงาน และเนองจากงานนเปนการแยกอนพากยแบบใชการเรยนรของเครอง จงตองศกษาหลกการและการท างานของแบบจ าลองซพพอรตเวกเตอรแมชชนดวย
เนอหาในบทนจงจะขอกลาวถงหวขอตาง ๆ ทไดทบทวนมา ไดแก การศกษาอนพากยตามแนวภาษาศาสตร ทฤษฎเกยวกบอนพากยทใชในการแยกอนพากย แนวทางการตดอนพากยดวยเครอง งานวจยทเกยวของกบการตดอนพากยดวยเครอง ซพพอรตเวกเตอรแมชชน และงานประมวลผลภาษาธรรมชาตทใชซพพอรตเวกเตอรแมชชน ตามล าดบ
2.1 การศกษาอนพากยตามแนวภาษาศาสตร
ในไวยากรณภาษาศาสตรดงเดม (Traditional Grammar) อนพากย (Clause) คอ หนวยทางไวยากรณทประกอบไปดวยภาคประธานและภาคแสดง อนพากยแบงออกเปนอนพากยหลกหรอประโยคหลก (Main clause) และอนประโยคหรอประโยคยอย (Subordinate clause) โดยทอนพากยหลก 1 อนพากยจะมฐานะเทยบเทาประโยคความเดยว (Simple sentence) มใจความสมบรณและสามารถอยโดยล าพงได สวนอนประโยคจะไมสามารถอยไดโดยล าพง มใจความไมสมบรณ ตองพงพาอนพากยหลกเสมอ ในต าราหลกภาษาไทยของพระยาอปกตศลปะสาร (2533) อนประโยคภาษาไทยแบงตามเกณฑหนาทได 3 ชนด ดงน
1 นามานประโยค คอ อนประโยคทท าหนาทแทนค านาม ค าสรรพนาม หรอกรยาสภาวมาลา
2 คณานประโยค คอ อนประโยคทท าหนาทแทนค าวเศษณทใชประกอบนามหรอสรรพนาม
3 วเศษณานประโยค คอ อนประโยคทท าหนาทเปนวเศษณประกอบกรยา หรอวเศษณ
ทางดานไวยากรณหนาท (Functional Grammar) Dik ( 1997) กลาวถงอนพากยในลกษณะทเปนหนวยทางอรรถศาสตรหนวยหนง หนวยทางอรรถศาสตร (Semantic units) ในไวยากรณหนาทประกอบไปดวย กรยา (Predicate), ค า (Term), ภาคแสดง (Predication) ,
7
ประพจน (Proposition), และ อนพากย (Clause) โครงสรางของอนพากยจะมลกษณเปนชน (Layers) ของหนวยตาง ๆ ทางอรรถศาสตร โดยชนทอยสงสดคออนพากย ประโยคความเดยวเกดจากอนพากย 1 อนพากยทมใจความสมบรณ สวนประโยคซบซอน (Complex sentence) เกดจากอนพากยมากกวา 2 อนพากยเชอมเขาดวยกนดวยตวเชอม โครงสรางในประโยคซบซอนม 2 ประเภท คอ โครงสรางแบบคขนาน (Coordination) และ โครงสรางซอน (Embedding) โดยทโครงสรางแบบแรกประกอบไปดวย 2 อนพากยหรอมากกวาทมความเทาเทยมกนเชงหนาท อยในโครงสรางระดบเดยวกน และเชอมเขาดวยกนโดยตวเชอม สวนโครงสรางซอนเปนโครงสรางทมอนพากยหนงอยภายในอกอนพากยหนง
ไวยากรณหนาทอกไวยากรณหนง คอไวยากรณบทบาทและการอางอง (Role and Reference Grammar) ของ Foley and VanValin (1984) อธบายวาอนพากยประกอบดวยสวนหลก (Core) และ สวนชายขอบ (Periphery) โดยทสวนหลกประกอบไปดวยนวเคลยส (Nucleus) และอารกวเมนต (Argument) สวนชายขอบ ประกอบดวยสวนทไมใชอารกวเมนตของกรยา โครงสรางของอนพากยสามารถแสดงในรปโครงสรางตนไมไดดงภาพท 2.1
ภาพท 2.1 โครงสรางตนไมประโยคภาษาองกฤษตามแนวไวยากรณบทบาทและการอางอง
ดดแปลงจากหนงสอ Structure and Function: A Guide to Three Major Structural-Functional Theories (Part 2: From clause to discourse and beyond) ของ Butler ( 2003)
ในไวยากรณน อนพากยมากกวา 1 อนพากยสามารถเชอมเขาดวยกนเปนประโยคซบซอน และความสมพนธระหวางอนพากยม 3 ประเภท ไดแก coordination, subordination และ cosubordination เรยกความสมพนธเหลานวาเนกซส (Nexus) แตละเนกซสจะอยในโครงสรางระดบใดกไดใน 3 ระดบ คอ นวเคลยส สวนหลก หรออนพากย ดงนนจงไดโครงสรางรวมทงสน 9 โครงสราง ไดแก coordination nucleus, coordination core, coordination clause,
8
subordination nucleus, subordination core, subordination clause, cosubordination nucleus, cosubordination core, และ cosubordination clause (Butler 2003)
นอกจากนในไวยากรณระบบหนาท (Systemic Functional Grammar) ของ Halliday (1994) อนพากยเปนหนวยทส าคญทสดในการวเคราะหวากยสมพนธ ส าหรบไวยากรณระบบหนาท "ประโยค" เปนค าทใชอางถงหนวยทเกดจากรปเขยนของภาษา ซงอยภายในเครองหมาย "." Halliday เรยกประโยควาเปนหนวยสรางของการเขยน (Constituent of writing) ในขณะทอนพากยเปนหนวยสรางของไวยากรณ (Constituent of grammar) ในไวยากรณนอนพากยประกอบดวยกลม (Groups) แตละกลมประกอบดวยค า (Words) และค าแตละค าประกอบดวยหนวยค า (Morphemes) เรยกอนพากยตงแต 2 อนพากยทเชอมกนดวยตวเชอมวาอนพากยซบซอน (Clause complex) ซงเทยบไดกบประโยคซบซอนในไวยากรณอน ๆ ความสมพนธระหวางอนพากยในอนพากยซบซอนมดวยกน 2 มต คอ แทกซส (Taxis) และ ลอจกโคซแมนตก (Logico-semantic) โดยทแทกซสเปนความสมพนธระหวางอนพากยทแสดงถงสถานะเชงโครงสรางและความหมายของอนพากยภายในอนพากยซบซอนแบงอออกเปน 2 สถานะความสมพนธ คอพาราแทกซส (Parataxis) และไฮโปแทกซส (Hypotaxis) ในความสมพนธแบบพาราแทกซส 2 อนพากยหรอมากกวาเชอมเขาดวยกนโดยมสถานะทเทาเทยมกน และในความสมพนธแบบไฮโปแทกซส 2 อนพากยหรอมากกวาจะมสถานะทตางกน โดยทมอนพากยหนงเปนอนพากยหลก และอนพากยอน ๆ เปนอนพากยพงพา สวนความสมพนธแบบลอจกโคซแมนตก เปนความสมพนธเชงตรรกะและความหมาย แบงออกเปน 2 ชนด คอ การขยายความ (Expansion) และโปรเจคชน (Projection) แตละชนดจะแบงออกเปนชนดยอยอก การขยายความประกอบไปดวย 3 ชนดไดแก การซ าความ (Elaboration) การเพมความ (Extension) และการใหเหตผล (Enhancement) สวนการโปรเจคชนประกอบไปดวย 2 ชนดไดแก ค าพดทอางถง (Locution) และความคดทอางถง (Idea)
จากงานททบทวนมาขางตน จะเหนวา อนพากยเปนหนวยปรจเฉทพนฐานทมองคประกอบและขอบเขตของโครงสรางทางวากยสมพนธทชดเจน อนพากยสามารถประกอบเขาดวยกนเปนโครงสรางทซบซอนและใหญขนได นนคอ ประโยค และปรจเฉทนนเอง ในขณะทประโยคเปนหนวยทก าหนดจากการเขยน ในภาษาไทยซงไมมการก าหนดวธเขยนเปนประโยคทชดเจน อนพากยจงนาจะเปนหนวยทเหมาะสมมากกวาประโยค ทงส าหรบการศกษาโครงสรางปรจเฉท และการศกษางานทางดานการประมวลผลภาษาธรรมชาตภาษาไทย
9
2.2 ทฤษฎเกยวกบอนพากยทใชในการแยกอนพากย
อนพากยเปนหนวยพนฐานทเมอประกอบหลาย ๆ อนพากยเขาดวยกนแลวจะไดโครงสรางปรจเฉท ส าหรบงานทางดานการประมวลผลภาษาธรรมชาต อนพากยสามารถน าไปใชเปนหนวยพนฐานของการประมวลผล การระบขอบเขตและแยกอนพากยจงเปนงานหนงทมความส าคญ กรอบทฤษฎทเปนทยอมรบและมการอางองอยางแพรหลายทสามารถใชก าหนดขอบเขตของอนพากยเพอใหไดหนวยทสามารถใชอธบายความสมพนธภายในโครงสรางปรเฉทได ไดแก Linguistic Discourse Model หรอ LDM ของ Polanyi (1988) และ Rhetorical Structure Theory หรอ RST ของ Mann and Thompson (1988) ทง 2 ทฤษฎนตางมความเหนตรงกนทวา อนพากยเปนหนวยทมความส าคญตอการศกษาโครงสรางปรจเฉท เพราะเปนหนวยทเลกทสดทมขอมลเชงเนอหาและความหมาย และเรยกหนวยทเลกทสดในปรจเฉทนวา หนวยปรจเฉทพนฐาน (Elementary Discourse Unit: EDU) ซงแตละหนวยจะไมคาบเกยวกน (Non-overlapping) การศกษาโครงสรางปรจเฉทจงหมายถงการศกษาความสมพนธระหวางหนวยปรจเฉทพนฐานวามการเชอมโยงความกนอยางไร และทายทสดจะสามารถน าโครงสรางปรจเฉททวเคราะหมาแสดงในรปของแผนภมตนไมได การอธบายโครงสรางและขอบเขตอนพากยปรจเฉทของทง 2 ทฤษฎนมรายละเอยดดงน
2.2.1 Linguistic Discourse Model
Linguistic Discourse Model หรอ LDM (Polanyi 1988) มการอธบายปรจเฉทสมพนธวาขนอยกบการตความ (Interpretation) ยดหลกการทางวากยสมพนธเปนหลกในการระบประเภทความสมพนธระหวางสองหนวยวามความสมพนธกนแบบคขนาน, ไมคขนาน หรอความสมพนธแบบเปนค (Coordination, Subordination, and Binary) โครงสรางผวของปรจเฉทประกอบไปดวยหนวยพนฐาน 2 หนวย คอ หนวยปรจเฉทพนฐาน (Elementary Discourse Constituent Units: e-DCUs) และโอเปอรเรเตอร (Discourse Operators: DOs) โดยทหนวยปรจเฉทพนฐานเปนหนวยทแสดงอาการ หรอเหตการณหนง มเนอหาเชงประพจน (Propositional content) หนวยนอาจอยในรปของประโยคความเดยวหรออนพากยกได สวนโอเปอรเรเตอรเปนหนวยทไมไดแสดงเนอหาเชงประพจน (Non-propositional content) แตมหนาทแสดงความสมพนธระหวางหนวยปรจเฉทพนฐาน หนวยทเปนโอเปอรเรเตอร ไดแก logical operators, vocatives, affirmations/disaffirmations, particles, exclamations, และ connectives การตดอนพากยตามแนว LDM คอการหาขอบเขตของหนวยพนฐาน 2 หนวยน
ขอความตอไปนเปนตวอยางขอความภาษาองกฤษทวเคราะหดวย LDM ซงน ามาจากงานของ Joshi et al. (2006) โดยหนวยปรจเฉทพนฐานจะอยในเครองหมายวงเลบสเหลยม และม
10
ตวเลขล าดบของหนวยปรจเฉทพนฐานแสดงไวขางวงเลบปด และเมอวเคราะหโครงสรางและปรจเฉทสมพนธของขอความนแลว จะสามารถสรางแผนภมตนไมไดดงภาพท 2.2
ขอความ [Whatever advances we may have seen in knowledge management,]1 [knowledge sharing remains a major issue.]2 [A key problem is]3 [that documents only assume value]4 [when we reflect upon their content.]5 [Ultimately,]6 [the solution to this problem will probably reside in the documents themselves.]7 [In other words,]8 [the real solution to the problem of knowledge sharing involves authoring,]9 [rather than document management.]10 [This paper is a discussion of several new approaches to authoring and opportunities for new technologies]11 [to support those approaches.]12
ภาพท 2.2 แผนภมตนไมทไดจากการวเคราะหขอความภาษาองกฤษตามแนวทฤษฎ LDM
ดดแปลงจาก Discourse Annotation Tutorial ของ Joshi, Prasad et al. (2006)
2.2.2 Rhetorical Structure Theory
ทฤษฎ Rhetorical Structure Theory หรอ RST (Mann and Thompson 1988) เปนทฤษฏทใชในการอธบายความสมพนธระหวางหนวยตาง ๆ ในปรจเฉท และแสดงออกมาโดยใชแผนภมโครงสรางตนไม (Tree diagram) การวเคราะหโครงสรางปรจเฉทจะค านงถงความสมพนธระหวางเจตนาของผสงสารและสาระของตวสาร ทฤษฎนเสนอวา หนวยปรจเฉทพนฐานแตละหนวยจะมสถานะความส าคญไมเทากน สถานะความส าคญ (Nuclearity status) นแบงออกได 2 สถานะ
11
ไดแก สถานะนวเคลยส (Nucleus) และสถานะแซทเทลไลต (Satellite) หนวยปรจเฉทพนฐานทมสถานะนวเคลยสคออนพากยทเปนใจความหลกของถอยค า เปนสวนทจ าเปนและไมสามารถละทงได สวนหนวยปรจเฉทพนฐานทมสถานะแซทเทลไลต คออนพากยทท าหนาทขยายอนพากยสถานะนวเคลยส เปนสวนทสามารถละทงไดโดยไมกระทบใจความหลก หนวยปรจเฉทพนฐานแตละหนวยไมวาจะมสถานะใดกตามเมอประกอบเขาดวยกนจะแสดงความสมพนธหรอมปรจเฉทสมพนธ (Rhetorical relation) อยางใดอยางหนงตอกนเสมอ ประเภทปรจเฉทสมพนธทเสนอใน RST มทงหมด 78 ประเภท ยกตวอยางปรจเฉทสมพนธ ไดแก การขดแยง (Contrast), เงอนไข (Condition), การสรป (Summary), และการแสดงเจตนา (Purpose) เปนตน
ตวอยางขอความภาษาองกฤษตอไปน “Lactose and Lactase Lactose is milk sugar, the enzyme lactose breaks it down. For want of lactase most adults cannot digest milk. In populations that drink milk the adults have more lactase, perhaps through natural selection.”
ประกอบไปดวยหนวยปรจเฉทพนฐานจ านวน 5 หนวย และสามารถเขยนใหอยในรปโครงสรางตนไม ซงแสดงปรจเฉทสมพนธ 4 ความสมพนธ ไดแก preparation, background, elaboration, และ contrast ไดดงภาพท 2.3
ภาพท 2.3 ตวอยางการวเคราะหโครงสรางปรจเฉทตามแนวทฤษฎ RST ดดแปลงจาก
Mann and Taboada (2005)
เนองจากหนวยปรจเฉทพนฐานในทฤษฎ RST กคออนพากยตามไวยากรณภาษาศาสตรทวไป ดงนนการระบขอบเขตหนวยปรจเฉทพนฐานกคอการระบขอบเขตอนพากย การก าหนดวา
12
หนวยใดบางทเปนอนพากยปรจเฉทตามทฤษฎ RST ไดมการเขยนอธบายไวในคมอการก ากบหนวยทางปรจเฉทส าหรบใชสรางคลงขอมล RST Discourse Treebank ของ Carlson and Marcu (2001) และคมอนกถกใชเปนแบบอยางและแนวทางส าหรบการศกษาการตดหนวยปรจเฉทพนฐานอยางแพรหลาย หนวยทก าหนดใหเปนหนวยปรจเฉทพนฐานจะพจารณาจากความละเอยดของการก ากบ (Granularity of tagging) และความเปนไปไดทจะใชในการศกษาหนวยทใหญขน โดยใชโครงสรางทางวากยสมพนธและค าเชอมตาง ๆ ในการชวยระบขอบเขตของหนวยปรจเฉทพนฐาน ตวอยางหนวยทถอวาเปนหนวยปรจเฉทพนฐานตามการวเคราะหในคมอน เชน superordinate clauses, subordinate clauses, infinitival modifiers, Prepositional phrases with a clausal object, coordinated clauses, syntactic focusing devices (เชน cleft, extraposition, pseudo-cleft constructions), correlative subordinators, relative clauses, nominal postmodifier with non-finite clause, appositives, parentheticals, phrases with strong discourse markers (เชน because, in spite of, as a result of, according to) ฯลฯ
สวนหนวยทไมถอวาเปนหนวยปรจเฉทพนฐานไดแก clausal subjects and objects of verbs, clausal objects of prepositional phrases, infinitival complements, และ participial complements เปนตน อยางไรกตามการนยามขอบเขตหนวยปรจเฉทพนฐานตามแนวทฤษฏ RST อาจจะแตกตางกนได ขนอยกบวตถประสงคของการวเคราะหและลกษณะภาษาทแตกตางกนออกไป
เมอเปรยบเทยบขอบเขตของอนพากยปรจเฉทตามแนวทฤษฎ RST และ LDM จะพบวาค าเชอมใน RST เปนสวนหนงของหนวยปรจเฉทพนฐาน ในขณะทค าเชอมใน LDM ไมถอวาเปนสวนหนงของหนวยปรจเฉทพนฐาน แตเปนอกหนวยทมหนาทแสดงความสมพนธระหวางหนวยปรจเฉทพนฐาน ในงานวจยน ผวจยจะยดตามแนวทฤษฎ RST อนพากยซงเปนหนวยพนฐานของการวเคราะหปรจเฉททตองการแยกในงานน จงองตามหนวยพนฐานทตองใชในการวเคราะหแบบ RST สาเหตทเลอกทฤษฎน เนองจาก RST ใหความส าคญตอความสมพนธระหวางเจตนาของผสงสารและสาระของตวสาร ท าใหสามารถอธบายประเภทความสมพนธไดละเอยดกวา เหนไดจากมการแบงประเภทยอยของความสมพนธไดเปนจ านวนมาก การก าหนดขอบเขตอนพากยตามแนวทฤษฎน จงนาจะสามารถใชอธบายความสมพนธและโครงสรางปรจเฉทไดอยางครบถวน
2.2.3 การใช RST วเคราะหภาษาไทย
ส าหรบการใช RST ในการวเคราะหปรจเฉทนน ขนแรกจะตองแยกหนวยพนฐานตาง ๆ ภายในปรจเฉท ในทนจะขอเรยกหนวยพนฐานส าหรบการวเคราะหโครงสรางปรจเฉท หรอ Elementary discourse unit วา “หนวยปรจเฉทพนฐาน” หรอ “EDU” อนประกอบไปดวยอน
13
พากยและวลทขนตนดวยค าเชอมเดน เมอแยก EDU ไดแลว กท าการวเคราะหและระบประเภทความสมพนธระหวาง EDU ทอยตดกน ซงในทสดแลวจะสามารถสรางแผนภมตนไมเพอแสดงโครงสรางและความสมพนธภายในปรจเฉทได
ในสวนของประเภทความสมพนธ Mann and Thompson (1988) ผพฒนาทฤษฎน กลาวไววา ในการวเคราะหปรจเฉท ไมจ าเปนตองใชประเภทความสมพนธทงหมด 78 ประเภทตามทเสนอเอาไวใน RST นนคอ ผศกษาปรจเฉทสามารถเลอกความละเอยดของการแบงประเภทปรจเฉทสมพนธได โดยสามารถพจารณาไดจากลกษณะของภาษาทตองการศกษา และเปาประสงคของการศกษาหรอการน าไปใช
งานวจยหนงของเมธ วฒนะเมธานนท (2549) ซงศกษาระบบการรจ าความสมพนธระดบปรจเฉทในภาษาไทยโดยใชแบบจ าลองนาอฟเบย ไดน า RST มาเปนกรอบในการก าหนดประเภทปรจเฉทสมพนธในภาษาไทย งานนไดน าเสนอการวเคราะหปรจเฉทภาษาไทยดวย RST อยางละเอยด ประเภทปรเฉทสมพนธทใชในงานนมจ านวนทงหมด 78 ประเภทความสมพนธ ซงในทน จะขอน าเสนอตวอยางการวเคราะหภาษาไทยของงานเมธ ซงผวจยเหนวามประโยชน ท าใหเหนภาพการใช RST ในการวเคราะหปรจเฉทภาษาไทย ขอความและรปภาพตอไปนเปนตวอยางขอความภาษาไทยทใช RST ในการวเคราะห โดยเครองหมายวงเลบสเหลยมใชส าหรบแสดงขอบเขตของ EDU และตวเลขทก ากบขางวงเลบปดแสดงล าดบทของ EDU
ขอความ 1 [รอคอมพรฟเปนพนธลกผสม]1[ซงใหผลผลตสงกวาสายพนธอน]2
จากขอความ 1 แยกได 2 EDU ค าวา “ซง” เปนค าเชอมแสดงการขยายความ นนคอ EDU ท 2 ขยาย EDU แรก จงกลาวไดวาทง 2 หนวยมปรจเฉทสมพนธแบบขยายความ (Elaboration relation) เมอน าขอความนไปสรางแผนภมตนไม จะเหนขอบเขตขอบเขตของทง 2 EDU ชดเจนมากขน และปรจเฉทสมพนธสามารถแสดงโดยการโยงเสนพรอมระบชอความสมพนธไวเหนอเสนนน แผนภมตนไมส าหรบขอความ 1 จะไดดงภาพท 2.4
Elaboration
รอคอมพรฟเปนพนธลกผสม ซงใหผลผลตสงกวาสายพนธอน ภาพท 2.4 แผนภมตนไม RST แสดงปรจเฉทสมพนธของขอความ 1
14
ขอความ 2 [เนองจากเมลดพนธมะเขอเทศมราคาแพง]1[ดงนนกอนปลกจงควรทดสอบการงอกของเมลดกอน]2
จากขอความ 2 แยกได 2 EDU ค าเชอม “เนองจาก” และ “ดงนน” เปนค าเชอมแสดงความสมพนธแบบใหเหตและผล (Cause-Result relation) โดย EDU แรกเปนสาเหต และ EDU ท 2 เปนผลจากสาเหตดงกลาว สามารถสรางแผนภมตนไมแสดงโครงสรางและปรจเฉทสมพนธไดดงภาพท 2.5
Cause-Result
เนองจากเมลดพนธมะเขอเทศมราคาแพง ดงนนกอนปลกจงควรทดสอบการงอกของเมลดกอน ภาพท 2.5 แผนภมตนไม RST แสดงปรจเฉทสมพนธของขอความ 2
ขอความ 3 [เกษตรกรน าเมลดไปแชน า]1[หลงจากนนน าผาขาวบางซบ]2
จากขอความ 3 แยกได 2 EDU ค าเชอม “หลงจากนน” เปนค าเชอมแสดงล าดบของเหตการณ สงทตามหลงค าเชอมนจะเปนเหตการณทเกดขนทหลง ในทน EDU แรกเปนเหตการณทเกดขนกอน และ EDU ท 2 เกดขนในล าดบตอมา ดงนนสามารถกลาวไดวาทง 2 EDU นมปรจเฉทสมพนธแบบเปนล าดบ (Sequence relation) และสามารถสรางแผนภมตนไมไดดงภาพท 2.6
Sequence
เกษตรกรน าเมลดไปแชน า หลงจากนนน าผาขาวบางซบ ภาพท 2.6 แผนภมตนไม RST แสดงปรจเฉทสมพนธของขอความ 3
ในงานน ผวจยจะไมวเคราะหปรจเฉทสมพนธระหวางอนพากย แตจะท าการแยกอนพากย ภายในปรจเฉทดวยเครองเทานน สาระส าคญของ RST ทผวจยใชในงานนคอ การก าหนดหนวยทจะเปนอนพากยภาษาไทย เพอน าไปเปนกรอบส าหรบการแยกอนพากยภาษาไทยดวยเครอง ซงอนพากยทแยกได สามารถน าไปใชเปนหนวยพนฐานในการวเคราะหปรจเฉทภาษาไทยตามแนวทฤษฎ RST ได สวนการก าหนดขอบเขตอนพากยภาษาไทยทใชในงานน จะกลาวถงตอไปในบทท 4
15
2.3 แนวทางการแยกอนพากยดวยเครอง
ในทนจะใชค าวา “การแยกอนพากย” หรอ “การแยกหนวยปรจเฉทพนฐาน” หรอ “การแยก EDU” ส าหรบการหาขอบเขตระดบอนพากยในปรจเฉท และ “การแยกประโยค” ในกรณทเปนการหาขอบเขตระดบประโยคในปรจเฉท ทงการแยกอนพากยและการแยกประโยคตางกมแนวคดเหมอนกน คอเปนหาขอบเขตของหนวยทตองการแยก และระบประเภทของหนวยทแยก การแยกหนวยเหลานดวยเครองสามารถแบงออกเปน 2 แนวทางหลก ไดแก แนวทางการใชกฎ และแนวทางการเรยนรดวยเครอง ดงน
2.3.1 แนวทางการใชกฎ (Rule-based approaches)
แนวทางการใชกฎ คอ การก าหนดกฎไวยากรณ (Regular grammar) หรอนพจนปรกต (Regular expression) เพอใชในการหาขอบเขตและระบประเภทของหนวยทตองการแยก เชน กฎการใชเครองหมายวรรคตอนตาง ๆ กฎการเวนวรรค กฎการใชตวพมพใหญตวพมพเลก การก าหนดรายการค า การใชกฎในการหารปแบบของการเรยงตวกนของอกขระ ฯลฯ ภาพท 2.7 แสดงตวอยางของการแยกประโยคภาษาองกฤษดวยวธการใชกฎ
ภาพท 2.7 ตวอยางกฎเพอใชในการแยกประโยคภาษาองกฤษ ดดแปลงจากการบรรยายของ
Lemnitzer (2006)
อยางไรกตาม วธการใชกฎจะไมสามารถใชไดกบเอกสารทกประเภท เนองจากภาษาแตละประเภทมกฎทแตกตางกนออกไป นอกจากนยงจ าเปนตองสรางกฎเปนจ านวนมากเพอใหครอบคลมและสามารถแยกหนวยทตองการไดอยางถกตองแมนย า
Tofiloski, Brooke et al. (2009) เสนอการแยกหนวยปรจเฉทพนฐานโดยการใชกฎทางวากยสมพนธ (syntactically-based rules) 12 กฎ และกฎเกยวกบค า (lexical rules) อกจ านวนหนง ไดแก วลระบนย และประเภทของค า ใชประโยคเปนขอมลรบเขาเพอแยกหนวยปรจเฉทพนฐาน มการก าหนดหนวยทเปนหนวยปรจเฉทพนฐานตามแนวทฤษฎ RST
IF ((right context = period + space + capital letter OR period + quote + space + capital letter OR period + space + quote + capital letter)
AND (left context != abbreviation)) THEN sentence boundary
16
นอกจากน Van der Vliet (2010) ไดเสนอวธการระบขอบเขตหนวยปรจเฉทพนฐานภาษาดตชโดยวธการใชกฎ หนวยทเขาก าหนดใหเปนหนวยปรจเฉทพนฐาน ไดแก clauses, simple sentences, coordinate clauses, non-restrictive relative clauses, embedded non-restrictive relative clauses, fragments functioning as complete utterances, coordinate elliptical clauses การระบขอบเขตหนวยปรจเฉทพนฐานเรมจากการแยกประโยคและสรางตนไมโครงสรางพงพา (Dependency tree) โดยใช Alpino ซงเปน XML parser และใชประโยคซงอยในรปตนไมโครงสรางพงพาเปนขอมลรบเขาส าหรบหาขอบเขตอนพากยปรจเฉท จากนนเขยนสครปต Xquery ซงใชในการควร (Query) ตนไมโครงสรางพงพาทเปนภาษา XML สครปตของเขาใชกฎทางวากยสมพนธและเครองหมายวรรคตอนตางๆในการก ากบขอบเขตอนพากยปรจเฉท ขอมลทใชในการประเมนการท างานของระบบคอขอความสารานกรม (Encyclopedia texts) และจดหมายระดมทน (Fundraising letters) ไดคาความแมนย า และคาความครบถวน 73 เปอรเซนต และ 67 เปอรเซนต ส าหรบขอมลจากสารานกรม และ 76 เปอรเซนต และ 74 เปอรเซนต ส าหรบจดหมายระดมทน
2.3.2 แนวทางการเรยนรดวยเครอง (Machine Learning)
แนวทางการเรยนรดวยเครอง คอ การใชแบบจ าลองทางสถตมาใชในการหาขอบเขตและระบประเภทของหนวยทตองการแยก วธนไมตองพงพาการเขยนกฎ ท าใหสามารถจดการกบเอกสารทกฎไมครอบคลมได นอกจากนยงสามารถน าไปใชกบประเภทภาษาไดหลายประเภทอกดวย หลกการคอจะตองก าหนดลกษณ (Features) ตาง ๆ เพอใหแบบจ าลองเกดการเรยนรจากชดขอมลการฝกฝน (Training data) จากนนแบบจ าลองจะสามารถหาขอบเขตและระบประเภทของหนวยทตองการแยกในเอกสารทเครองไมเคยเหนมากอนได ตวอยางแบบจ าลอง เชน ฮดเดนมาคอรฟโมเดล (Hidden Markov Models), โครงขายประสาทเทยม (Neural Network), ตนไมชวยตดสนใจ (Decision Tree), นาอฟเบย (Naïve Bayes), ฯลฯ ตวอยางงานวจยทใชแบบจ าลองทางสถตมดงตอไปน
Molina and Pla (2001) ศกษาการระบอนพากยภาษาองกฤษโดยใชแบบจ าลองทางสถตฮดเดนมาคอรฟโมเดล ใชขอมลรบเขาในรปประโยค โดยท าการตดค า ระบประเภทของค า และแจงสวนประโยคแตละประโยค ในขนตอนการระบอนพากยประกอบไปดวย 3 สวน สวนท 1 เปนการระบจดเรมตนของอนพากย สวนท 2 เปนการระบจดสนสดของอนพากย และสวนท 3 เปนการก ากบหนวยทเปนอนพากย ฮดเดนมาคอรฟโมโดลจะท าการค านวณเพอหาคาความนาจะเปนของการเรยงตวกนของประเภทค า และการเรยงตวกนของหนวยสรางทางไวยากรณ ทใหคาความนาจะเปนสงสดทจะเปนจดเรมตนและจดสนสดของอนพากย จากการทดสอบระบบทง 3 สวน ไดคา F-score 86.48
17
เปอรเซนต, 78.38 เปอรเซนต, และ 66.79 เปอรเซนต ส าหรบสวนท 1, 2, และ 3 ตามล าดบ ทงนพบวาการระบจดเรมตนของอนพากยท าไดงายกวาการระบจดสนสด
Sporleder and Lapata (2005) ไดเสนอการแยกหนวยปรจเฉทพนฐานโดยใชกรอบการวเคราะหขอบเขตหนวยปรจเฉทพนฐานตามแนว RST และท าการก ากบหนวยปรจเฉทพนฐานแตละหนวยดวยวามสถานะเปนนวเคลยสหรอแซทเทลไลต แบบจ าลองทใชในงานนคอบสตตง (Boosting) ใชขอมลรบเขาเปนประโยค ลกษณทใชในขนตอนการแยกหนวยปรจเฉทพนฐานเปนลกษณประเภทขอมลเชงไวยากรณและค า ไดแก ค า (Tokens) ประเภทของค า (Parts of speech) หนวยสรางทางไวยากรณ (Syntactic chunks) ค าเชอม (Connectives) และต าแหนงของค าในประโยค สวนในขนตอนการก ากบสถานะของหนวยปรจเฉทพนฐานใชลกษณเพมอก 2 ลกษณ คอความยาวของหนวยปรจเฉทพนฐานโดยวดจากจ านวนค า และจ านวนหนวยปรจเฉทพนฐานภายในประโยค ในงานนไดน าเสนอเพยงประสทธภาพของการก ากบสถานะของหนวยปรจเฉทพนฐานเทานน เนองจากเปนวตถประสงคหลกของงาน โดยไดคา F-score มากกวา 74 เปอรเซนต
Subba and Di Eugenio (2007) ก าหนดขอบเขตหนวยปรจเฉทพนฐานตามทฤษฎ RST และใชโครงขายประสาทเทยมในการแยกหนวยปรจเฉทพนฐานขอมลรบเขาอยในรปประโยค ลกษณทใชแบงออกเปน 4 ประเภท ไดแก ประเภทของค า ขอมลทางวากยสมพนธ ค าระบนยปรจเฉท และเครองหมายวรรคตอน ใชขอมลจากคลงขอมล RST-DT ในการทดสอบประสทธภาพ และเปรยบเทยบผลกบระบบแยกปรจเฉททใชตนไมชวยตดสนใจ ผลปรากฏวาระบบทใชโครงขายประสาทเทยมไดคาความแมนย าและคาความครบถวนสงกวา 80 เปอรเซนต
Vijay Sundar Ram, Bakiyavathi et al. (2009) ศกษาการระบขอบเขตอนพากยในภาษาทมฬ ในขนตอนการประมวลเบองตน ประโยคทเตรยมเอาไวแลวถกน ามาก ากบหมวดค า และแจงสวนประโยค จากนนใชแบบจ าลองคอนดชนนอลแรนดอมฟลด (Conditional Random Fields: CRFs) ในขนตอนการระบขอบเขตของอนพากย โดยอนพากยทตองการระบขอบเขตแบงออกเปน 5 ประเภท ไดแก Participle clause, conditional clause, infinitive clause, non-finite clause และ main clause ลกษณทใชในการฝกฝนแบบจ าลอง ไดแก ขอมลทไดจากการก ากบหมวดค า การแจงสวนประโยค และโครงสรางทางวากยสมพนธ ใชขอมลจากคลงขอมลขาวภาษาทมฬจ านวน 219 ประโยคในการทดลอง และ 75 ประโยคส าหรบการทดสอบ ไดผลคอระบบสามารถก ากบจดเรมตนของอนพากยไดถกตอง 81.58 เปอรเซนต และจดสนสดของอนพากย 87.37 เปอรเซนต
2.4 งานวจยทเกยวของกบการแยกอนพากยในภาษาไทย
Charoensuk (2005) ไดเสนอวธการแยกหนวยปรจเฉทพนฐานดวยวธการผสมระหวางการเรยนรดวยเครองและการใชกฎ เรยกหนวยปรจเฉทพนฐานวา “อนพากยปรจเฉท” วธการศกษาเรม
18
จากการก าหนดขอบเขตอนพากยปรจเฉทภาษาไทยตามแนวทฤษฎ RST แบงอนพากยปรจเฉทออกเปน 2 ประเภท ไดแก อนพากยพนฐาน และอนพากยซอน ตวอยางอนพากยปรจเฉทในงานนเปนดงตาราง 2.1
ชนดของอนพากย ตวอยาง Basic Simple sentence [กะหล าปลสเขยว]
Noun phrase โรคระบาดพบในภาคกลาง [เชน ปทมธาน, นครปฐม] Embedded Embedded
clause กะหล าปล [ทถกท าลาย] จะมสเหลอง
Noun phrase เกษตรกรควรใสปยไนโตรเจน [เชน ปยแอมโมเนยมซลเฟต หรอยเรย] ลงในแปลงดวย
ตารางท 2.1 ชนดและตวอยางของอนพากยปรจเฉทในภาษาไทยวเคราะหตามแนวทฤษฏ RST ดดแปลงจาก Charoensuk (2005)
ในขนตอนของการแยกอนพากยดวยเครองของงานน แบงออกเปน 3 ขนตอน คอ การประมวลผลเบองตน การแยกอนพากย และการประมวลผลขนปลาย ขนตอนของการประมวลผลเบองตนประกอบดวย การตดค า การก ากบหมวดค า การสกดชอเฉพาะ และการสกดค านามประสม ขนตอนของการแยกอนพากยใชแบบจ าลองตนไมชวยตดสนใจ C4.5 ในการระบจดเรมตนและสนสดของอนพากย โดยใชลกษณ 5 ประเภท ไดแก ค าระบนย ตวเชอมปรจเฉททเปนค ชองวางระหวางค าหรอความ ประเภทของค า และขอบเขตของวล สวนในขนตอนประมวลผลขนปลาย ใชส าหรบแกปญหากรณทอนพากยปรากฏรปตวเชอมมากกวาหนง ในขนตอนนจะใชกฎในการตดสนใจวาตวเชอมทพจารณาเปนตวเชอมปรจเฉทหรอไม ผลการทดลองระบบแยกอนพากย พบวาไดคาความแมนย า 80 เปอรเซนต และคาความครบถวน 81 เปอรเซนต
ในงานของ Sinthupoun (2009) เขาไดแยกอนพากยดวยแบบจ าลองทางสถต กอนทจะน าไปวเคราะหโครงสรางปรจเฉทในภาษาไทยตอ เรมจากการแยกวลและระบประเภทวลโดยใชแบบจ าลองฮดเดนมาคอรฟโมเดล ในขนตอนการแยกอนพากย เขาใชคณลกษณะการเรยงล าดบของนามวลและกรยาวลประเภทตาง ๆ ใหแบบจ าลองฮดเดนมาคอรฟโมเดลเกดการเรยนร และระบขอบเขตอนพากย เฉพาะในสวนของการแยกอนพากย ไดคาความแมนย า 94.2 เปอรเซนต และคาความครบถวน 85.3 เปอรเซนต จากนนใชอนพากยทไดจากการแยกมาวเคราะหโครงสรางปรจเฉทตอไป
อกงานหนงเปนการแยกอนพากยภาษาไทยดวยวธการใชกฎทางไวยากรณของ Ketui, Theeramunkong et al. (2012) โดยเรมจากการนยามหนวยปรจเฉทพนฐาน จากนนสรางชดของ
19
กฎไวยากรณไมพงบรบท (Context free grammar rule) ไดจ านวนกฎ 446 ขอ ในงานนแบงการประเมนผลออกเปน 2 ระดบ ไดแก การประเมนกบขอความทผานการตดค าแลว และการประเมนกบขอความตนฉบบทไมไดตดค า และมการทดสอบ 2 แบบ คอ แบบ open test ซงเปนการใชคลงขอมลฝกฝนและทดสอบเดยวกน และแบบ close test ซงเปนการแยกคลงขอมลฝกฝนและทดสอบ หลงจากผานการใชกฎแลว พบวาไดคาความครบถวนทสงมาก แตคาความแมนย าต า ท าใหวดคา f-measure ไดประมาณ 36 - 53 เปอรเซนต จงไดน าเทคนค 2 เทคนคเปรยบเทยบกน คอ left-to-right longest matching (L2R-LM) และ maximal longest matching (M-LM) มาใชเพอเพมคาความแมนย า ผลการทดสอบปรากฏวา การใช close test ทดสอบขอความทงทผานการตดค าและไมผานการตดค า วดคา f-measure ไดประมาณ 90-100 เปอรเซนต สวนการใช open test ประเมนคา f-measure ไดประมาณ 54-67 เปอรเซนต โดยรวมแลว L2R-LM และ M-LM สามารถเพมประสทธภาพของระบบไดใกลเคยงกน
2.5 ซพพอรตเวกเตอรแมชชน (Support Vector Machine: SVM)
ซพพอรตเวกเตอรแมชชนเปนแบบจ าลองทางคณตศาสตรทใชในการจ าแนกขอมล 2 กลมออกจากกน โดยขอมลจะตองแปลงเปนคาลกษณ (Features) และวางตวอยในพนทลกษณ (Feature space) จากนนซพพอรตเวกเตอรแมชชนจะใชสมการเชงเสนสรางเสนแบงหรอทเรยกวา ระนาบ (Plane) ทดทสดทเปนเสนตรงแยกขอมลออกจากกน โดยทเสนแบงทดทสด (OPTimal plane) เกดจากการสรางเสนแบงทขนานกบเสนแบงเดมและขยายเสนขอบ (Margin) ออกจากเสนแบงเดมไปเรอย ๆ จนสมผสคาของขอมลทใกลทสด
ภาพท 2.8 แสดงสมการเสนตรงของเสนขอบและเสนแบง ดดแปลงจาก Ivanciuc (2005)
จากภาพท 2.8 เสน M1 และ M2 คอเสนขอบทขยายออกจากเสนแบง P คาของขอมลทอยบนเสนขอบของทงสองฝงเรยกวา ซพพอรตเวกเตอร (Support vectors) ซพพอรตเวกเตอรแม
20
ชชนจะหาระยะหางจากเสนขอบซายไปยงเสนขอบขวาทมคาระยะความหางสงสด โดยการเปลยนความชนของเสน P ไปเรอย ๆ เพอใหไดความกวางสงสดของเสนขอบ
ขอมลทจะน ามาวางบนพนทลกษณจะตองแปลงใหอยในรปของเวกเตอร โดยก าหนดให (x1,y1),…,(xn,yn) เปนคของตวอยางทใชในการสอนทมจ านวน n และ x คอขอมลรบเขา y คอผลลพธทมคา 1 หรอ -1 เทานน สมการท (1) เปนสมการเชงเสนของเสนแบง P ตามรปท 4
(w*x)+b = y = 0 (1) โดยท w คอ คาน าหนก และ b คอ คา bias เสนขอบ M1 และ M2 สามารถก าหนดไดดง
อสมการ (2) และ (3) ตามล าดบ (w*x)+b ≥ 1 ถา y1 = 1 (2) (w*x)+b ≤ -1 ถา y1 = -1 (3)
ในการแกปญหาการจ าแนกขอมล เปนเรองทยากทขอมลบนพนทลกษณจะอยอยางเปนระเบยบและสามารถใชเสนตรงแบงได เพราะมกเปนขอมลไมเชงเสนและกระจดกระจายอยบนพนทลกษณ ไมสามารถใชซพพอรตเวกเตอรแมชชนแบบเชงเสนได ดงภาพดานลาง ดงนนจงตองมการจดขอมลเสยใหม โดยใหอยในพนทมตทสงขน (Higher dimensional space) เพอใหสามารถสรางเสนแบงหรอระนาบแบงขอมลได เรยกระนาบนวา ระนาบเกน (Hyperplane) ภาพท 2.9 เปนการจ าลองใหเหนถงการจดขอมลใหอยในมตทสงขน
ภาพท 2.9 แสดงการจดขอมลใหอยในมตทสงขน ดดแปลงจาก (DTREG)
ในการจดเรยงขอมลใหอยในพนทมตทสงขนนน ซพพอรตเวกเตอรแมชชนใชฟงกชนการจบคของเคอรเนล (Kernel mapping function) โดยเคอรเนลทนยมใชมอย 3 ประเภท ดงน
โพลโนเมยวฟงกชน (Polynomial function) ค านวณไดจากสมการท (4)
K(xi,xj) = (1+xi ⋅xj)d (4)
21
เรเดยลเบสสสฟงกชน (Radial Basis Function: RBF) ค านวณไดจากสมการท (5) K(xi,xj) = exp(-γ || xi-xj||
2) (5) ซกมอยด (Sigmoid)ค านวณไดจากสมการท (6)
K(xi,xj) = tanh(γ ⋅xi⋅xj+r) (6)
2.6 ตวอยางงานประมวลผลภาษาธรรมชาตทผานมาทใชซพพอรตเวกเตอรแมชชน
ในงานของ Giménez and Márquez (2003) ไดเสนอการก ากบหมวดค าโดยใช SVM light และใชวธก ากบแบบ greedy left-to-right scheme จากการทดลองกประเมนผลไดวา ซพพอรตเวกเตอรแมชชนสามารถฝกฝนไดอยางมประสทธภาพโดยไมตองปรบคาพารามเตอรหลายครง นอกจากนยงสามารถก ากบค าไดมากกวา 1,000 ค าตอวนาท ขอมลรบเขาถกแบงออกเปนวนโดว วนโดวละ 7 ค า ลกษณทใชมลกษณะเปน n-gram pattern การศกษานยงไดท าการทดลองเพอหาเคอรเนลฟงกชนทเหมาะสมระหวางโพลโนเมยลฟงกชนและลเนยรฟงกชน (Linear function) ดวยการปรบคาพารามเตอรของเคอรเนลแลวเปรยบเทยบประสทธภาพการก ากบหมวดค า ผลปรากฏวาโพลโนเมยลฟงกชน ตงคาดกรเทากบ 2 ใหคาความถกตองท 93.91 เปอรเซนต ซงมากกวาลเนยรฟงกชน ตงคาดกรเทากบ 1 ทใหคาความถกตองท 93.84 เปอรเซนต อยางไรกตามโมเดลทใชลเนยรฟงกชนใชเวลาในการประมวลผลเรวกวาโมเดลทใชโพลโนเมยลฟงกชนประมาณ 3 เทาตว
งานทางดานการรจ าชอเฉพาะภาษาบงกาลและฮนดของ Ekbal and Bandyopadhyay (2008) กไดน าเสนอการใชซพพอรตเวกเตอรแมชชน ระบบนท าการจ าแนกชอเฉพาะออกเปน 4 ประเภท ไดแก ชอบคคล ชอสถานท ชอองคกร และชออนๆ เชน วนท เวลา เปอรเซนต จ านวนเงน ฯลฯ ผลการทดสอบระบบไดคาความครบถวน คาความแมนย า และ f-score ท 88.61 เปอรเซนต, 80.12 เปอรเซนต และ 84.15 เปอรเซนต ส าหรบภาษาบงกาล และ 80.23 เปอรเซนต, 74.34 เปอรเซนต และ 77.17 เปอรเซนต ส าหรบภาษาฮนด ลกษณทใชในการฝกฝนซพพอรตเวกเตอรแมชชนในงานนไดแก 1) ค าทอยหนาและหลงค าทพจารณา 2) ความยาวของปจจย (Suffix) ของค าทพจารณาและค าทลอมรอบ 3) ความยาวของอปสรรค (Prefix) ของค าทพจารณาและค าทลอมรอบ 4) พจาณาวาเปนค าทขนตนประโยคหรอไม 5) พจารณาตวเลข ถาเปนตวเลขตามดวยเครองหมาย “, . / - เปอรเซนต” กถอวาเปนชอเฉพาะ 6) ค าทมความถต าในการปรากฏในคลงขอมลมแนวโนมทจะไมใชชอเฉพาะ 7) ความยาวของค าทพจารณา หากอกขระของค าทพจาณายาวนอยกวา 3 ตว กมแนวโนมทจะไมใชชอเฉพาะ 8) ขอมลประเภทของค า
ทางดานงานวจยภาษาไทยกมการใชซพพอรตเวกเตอรแมชชนอยางแพรหลาย เชนในงานของนเวศ จระวชตชย, ปรญญา สงวนสตย et al. (2553) ไดท าการศกษาการจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน มการปรบคาพารามเตอรของเคอรเนลฟงกชน
22
แบบตาง ๆ และมการใช Information Gain ในการลดลกษณทใชท าการฝกฝนซพพอรตเวกเตอรแมชชน ผลปรากฏวาโมเดลทใชเคอรเนลฟงกชนแบบลเนยรและโพลโนเมยล ตงคาดกรเทากบ 3 ใหความแมนย าในการจดหมวดหม 95.1 เปอรเซนต เทากน สวนเคอรเนลฟงกชนแบบเรเดยลเบสส ตงคาแกมมา (Gamma) เทากบ 0.8 ใหคาความแมนย าท 94.9 เปอรเซนต นอกจากนเมอเปรยบเทยบการใชซพพอรตเวกเตอรแมชชนกบอลกอรทม นาอฟเบย และ C4.5 พบวาซพพอรตเวกเตอรแมชชนมประสทธภาพในการจ าแนกหมวดหมเอกสารมากกวา
23
บทท 3
คลงขอมลและการก ากบขอมล
เนองจากการแยกอนพากยดวยซพพอรตเวกเตอรแมชชน จะตองมการจดท าคลงขอมลเพอใชส าหรบฝกฝนและทดสอบแบบจ าลอง ดงนนในบทน ผวจยจะน าเสนอการรวบรวมขอมลภาษาเขยนเพอจดท าคลงขอมล จากนนในหวขอถดไปจะกลาวถงการก ากบขอมลในคลงขอมลเพอใชเปนขอมลพนฐานส าหรบฝกฝนและทดสอบแบบจ าลอง
3.1 การจดท าคลงขอมล
ขอมลภาษาทผวจยเกบรวมรวมเพอจดท าคลงขอมลในงานนไดมาจากการรวบรวมขอมลภาษาเขยนในคลงขอมลภาษาไทยแหงชาต (Thai National Corpus: TNC) ซงจดท าโดยจฬาลงกรณมหาวทยาลย คลงขอมลนไดรวบรวมงานเขยนภาษาไทยประเภทตาง ๆ เอาไว ไดแก งานเขยนวชาการ งานเขยนกงวชาการ เรองแตง และอนๆ ขอมลภาษาไทยใน TNC เปนขอมลแบบตดค าและมการก ากบขอมลตาง ๆ ไดแก ขอบเขตของค า ค าอานออกเสยง ขอมลผเขยน และขอมลบรรณานกรม
ส าหรบขอมลภาษาทผวจยเลอกใชในการศกษานนเปนงานเขยนประเภทบทความวชาการจากสาขาตาง ๆ คอ สาขาวทยาศาสตร รฐศาสตร สงคมศาสตร และมนษยศาสตร เนองจากงานเขยนแตละประเภทจะมลกษณะการใชภาษาเขยนทแตกตางกนออกไป ซงอาจสงผลตอโครงสรางของหนวยปรจเฉทพนฐาน ผวจยจงเลอกเฉพาะงานวชาการเทานน เพราะงานเขยนวชาการมลกษณะการผกความตอเนองทซบซอนกวางานประเภทอน มการใชภาษาพดและภาษาทไมเปนทางการนอยกวางานเขยนประเภทอน ขอมลงานเขยนทใชจดท าคลงขอมลนมจ านวนไมต ากวา 70,000 ค า และสามารถแบงหนวยปรจเฉทพนฐานไดไมต ากวา 7,000 หนวย
3.2 การก ากบคลงขอมล
เนองจากในการศกษาน ผวจยตองการตดแบงอนพากยโดยวธการเรยนรดวยเครอง จ าเปนตองระบลกษณตาง ๆ (Features) เพอใหเครองเรยนรและใชในการตดสนใจ ดงนนผวจยจงตองท าการก ากบขอมลเพอใชเปนลกษณส าหรบการเรยนรดวยเครอง ไดแก การก ากบหมวดค า (Parts of Speech) และขอบเขตอนพากยนอกจากนไดตดการก ากบขอมลบางประเภททมการก ากบอยใน TNC ออกกอนจะน าไปฝกฝนแบบจ าลอง ไดแก ขอมลค าอานออกเสยง ประเภทงานเขยน ขอมลผเขยน และขอมลบรรณานกรม เนองจากเหนวาขอมลดงกลาวไมไดเปนสวนหนงของตวเนอหาบทความ เปนเพยงการใหขอมลทเกยวของกบบทความเทานน
24
3.2.1 หมวดค าภาษาไทยและการก ากบหมวดค า
หมวดค าภาษาไทยสามารถจ าแนกไดหลายรปแบบ ขนอยกบเกณฑทนกภาษาศาสตรใชในการจดหมวดหม เชน การใชเกณฑทางวากยสมพนธจะดต าแหนงการปรากฏของค า ค าทปรากฏในต าแหนงเดยวกนไดกจะอยในหมวดค าเดยวกน หรอถาใชเกณฑทางความหมาย กจะดความหมายของค า ค าทมความหมายในท านองเดยวกนกจะจดใหอยในหมวดค าเดยวกน
จากการศกษาของนฐวฒ ไชยเจรญ (2544) เมอพจารณาวธการและเกณฑทใชจดหมวดค า พบวาสามารถแบงไดเปน 2 กลมใหญ ไดแก การจดแบงหมวดค าโดยใชความรทางภาษาของผจดแบง (Intuition-based approach) นกภาษาศาสตรทใชวธนไดแก พระยาอปกตศลปะสาร (2533) บรรจบ พนธเมธา (2514) ก าชย ทองหลอ (2515) นววรรณ พนธเมธา (2527) อดม วโรตมสกขดตถ (2535) และ เรองเดช ปนเขอนขตย (2541) และอกกลมหนงคอการจดแบงหมวดค าจากการวเคราะหคลงขอมลหรอประโยคทดสอบ (Corpus based approach) ไดแกงานของ วจนตน ภาณพงศ (2532) อมรา ประสทธรฐสทธ (2543) และ Sornlertlamvanich, Charoenporn et al. (1997)
ส าหรบหมวดค าทผวจยใชในการก ากบหมวดค าในครงน ประกอบไปดวย 15 หมวดค าหลก และสามารถแบงออกเปนหมวดค ายอยได 26 หมวดค า1 โดยพจารณาความหมายและต าแหนงการปรากฏของค านนในขอความ รวมไปถงความสมพนธของค านนและค าอนในขอความ ดงนนค าหนงค าจะไมมหมวดค าตายตว นนคอ ค าทมรปเดยวกน เชนค าวา “ถก” สามารถเปนเปนค าประเภทใดกไดขนอยกบต าแหนงการปรากฏและความสมพนธกบค าอน ๆ เชน เปนค ากรยาวเศษณใน “เขาท าถก” เปนค ากรยาใน “ถกเนอตองตว” เปนค าชวยกรยาใน “ถกท าโทษ” เปนตน
ผวจยก าหนดสญลกษณทใชในการก ากบหมวดค า คอ ในกรณทเปนหมวดค าทมหมวดค ายอย จะใชอกษรยอภาษาองกฤษของหมวดค าหลกแลวตามดวยอกษรยอชอหมวดค ายอย เชน หากหมวดค าหลกคอค านาม หรอ Noun และหมวดค ายอยคอ ค านามสามญ หรอ Common Noun กจะใชสญลกษณในการก ากบหมวดค าคอ NCMN สวนในกรณทเปนหมวดค าทไมมหมวดค ายอย กจะใชอกษรยอภาษาองกฤษของหมวดค านนในการก ากบขอมลเลย รายละเอยดของแตละหมวดค าพรอมตวอยางภาษาเปนดงน
1. Noun (N) ค านาม ประกอบไปดวย 5 หมวดค ายอย ดงน 1.1 Common noun ค านามทวไป สญลกษณทใชก ากบหมวดค าคอ
NCMN ค านามทวไปเปนค าทใชเรยกคน สตว สงของตาง ๆ ใน 1 ดดแปลงจากชดหมวดค าทใชในงาน CRSLP
25
ลกษณะทว ๆ ไป ไมไดเฉพาะเจาะจงวาเปนคนไหนหรอสงไหน ค านามทวไปสามารถปรากฏในต าแหนงหนากรยา หลงกรยา หลงบพบท และหนาตวก าหนด ตวอยางเชน อาคาร, ธรรมชาต, ศลธรรม ฯลฯ
1.2 Proper noun ค านามเฉพาะ สญลกษณทใชก ากบหมวดค าคอ NPRP ค านามเฉพาะเปนชอเรยกทชเฉพาะหรออางองถงสงหนงสงใดโดยเจาะจง สามารถปรากฏในต าแหนงหนากรยา หลงกรยา หลงบพบท และหนาตวก าหนด ตวอยางค าทขดเสนใต จงหวดสระแกว, อาคารบรมราชกมาร, สนามกฬาราชมงคลา ฯลฯ
1.3 Classifier ลกษณะนาม สญลกษณทใชก ากบหมวดค าคอ NCLS ลกษณะนามเปนค าทบอกหนวยนบของค านามทวไป ในภาษาไทยลกษณะนามจะแสดงลกษณะหรอชนดของค านามทวไปใหชดเจนยงขน ลกษณะนามสามารถปรากฏในต าแหนงหลงจ านวนนบหรอค าบอกปรมาณ หนาตวก าหนด หนาตวน าสวนเตมเตม ยกตวอยางค าทขดเสนใต นก 2 ตว, พระ 2 รป, รถยนตคนน ฯลฯ
1.4 Number นามจ านวนนบ สญลกษณทใชก ากบหมวดค าคอ NNUM นามจ านวนนบเปนค าบอกปรมาณของค านามทวไปซงในรปของจ านวนนบ นอกจากนยงหมายถงตวเลขตาง ๆ ทไมไดแสดงปรมาณของค านามทวไป นามจ านวนนบสามารถปรากฏในต าแหนงหนาลกษณะนาม หรอปรากฏโดด ๆ โดยทไมไดประกอบค านามกได ตวอยางค าทขดเสนใต อาย 30 ป, มเงน 100 บาท, ประการทสอง, เบอรโทร 089999998 ฯลฯ
1.5 Pronoun สรรพนาม สญลกษณทใชก ากบหมวดค าคอ NPRO ค าสรรพนามเปนค าทใชเรยกแทนค านาม สามารถปรากฏในต าแหนงตาง ๆ เชนเดยวกนกบค านามทวไปและค านามเฉพาะ เชน ฉน, ดฉน, ผม, คณ, ทาน ฯลฯ
2. Determiner ตวก าหนด สญลกษณทใชก ากบหมวดค าคอ DET เปนค าทใชประกอบค านามและสรรพนามเพอใหแสดงความชเฉพาะ โดยจะปรากฏหลงค าทประกอบ ตวอยางค าทขดเสนใต บานหลงน, คนเหลานน, สงนน ฯลฯ
3. Verb ค ากรยา สญลกษณทใชก ากบหมวดค าคอ VERB ค ากรยาเปนค าทแสดงการกระท า อาการ การปรากฏ และสถานะของสงตาง ๆ ค ากรยาสามารถปรากฏหนาและ/หรอหลงค านามหรอสรรพนาม หนาบพบท หนาหรอหลงค าเชอม หนาบพบท หรอปรากฏโดด ๆ กได ใน
26
วทยานพนธนไมไดแบงค ากรยาออกเปนหมวดยอย เชน สกรรมกรยา อกรรมกรยา ฯลฯ เนองจากเหนวากรยาทกประเภททมสถานะเปนกรยาแท สามารถเปนภาคแสดง (Predicate) ของถอยความ (Utterance) ไดเหมอนกนหมด ประเภทยอยของกรยาจงไมไดเปนตวบงชสถานะความเปนอนพากย ตวอยางค าทขดเสนใตเชน นดกนกวยเตยว, นอยเดนออกไปขางนอก, หนตายในตาย, หนอยเปนหวดกน ฯลฯ
4. Adjective ค าคณศพท สญลกษณทใชก ากบหมวดค าคอ ADJ ค าคณศพทเปนค าทใชขยายค านามเพอแสดงคณสมบตหรอลกษณะของค านามนน ต าแหนงทปรากฏคอหลงค านาม ตวอยางค าทขดเสนใตเชน ความเดมตอนทแลว, เสอขาว, บานหลงเบอเรอ, ความรเบองตน ฯลฯ
5. ADVERB กรยาวเศษณ สญลกษณทใชก ากบหมวดค าคอ ADVERB ค ากรยาวเศษณเปนค าทใชขยายค ากรยาหรอค าคณศพทหรอค ากรยาวเศษณดวยกนเอง เพอแสดงคณภาพ ลกษณะ และสถานะ ค ากรยาวเศษณจะปรากฏหลงค าทตองการขยาย ตวอยางค าทขดเสนใตเชน ดกวา, สอบได, วงเรว, ชนะอยางเดดขาด ฯลฯ
6. Conjunction (C) สนธานหรอค าเชอม แบงออกเปน 4 หมวดค ายอย ดงน 6.1 Coordinating Conjunction สนธานประสาน สญลกษณทใชก ากบ
หมวดค าคอ CCOR เปนค าเชอมทใชแสดงความสมพนธระหวางปรจเฉทกบปรจเฉท หรออนพากยกบอนพากย หนวยทถกเชอมโยงโดยค าเชอมประเภทนจะมสถานะหรอความส าคญเทากน การตดค าเชอมออกไมสงผลตอใจความของทงสองหนวย ค าเชอมประเภทนจะปรากฏอยสวนหนาสดของปรจเฉทหรออนพากยเทานน ตวอยางเชน ดงนน, อยางไรกตาม, นอกจากน, แต ฯลฯ
6.2 Subordinating conjunction อนสนธาน สญลกษณทใชก ากบหมวดค าคอ CSUB เปนค าเชอมทใชแสดงความสมพนธระหวางอนพากยกบอนพากยหนวยทถกเชอมโยงโดยค าเชอมประเภทนจะมสถานะหรอความส าคญไมเทากน อนพากยทมเนอความเดนและส าคญกวาเปนอนพากยหลก สวนอนพากยทมเนอความขยายอนพากยหลกเปนอนพากยรอง การตดค าเชอมออกจะสงผลตอใจความของทงสองหนวย ค าเชอมประเภทนมกจะปรากฏต าแหนงหนาอนพากย ตวอยางเชน ถงแมวา, ถา, เพราะ, หาก, เมอ, เพอ ฯลฯ
6.3 Coordinating conjunction inside clause สนธานประสานภายในอนพากย สญลกษณทใชก ากบหมวดค าคอ CCORIN เปนค าเชอมทมต าแหนงการปรากฏภายนอนพากย แสดงการเชอมโยง
27
ระดบวลหรอค า หนวยทถกเชอมโดยค าเชอมประเภทนจะมสถานะหรอความส าคญเทากน ตวอยางค าทขดเสนใตเชน นอยและนดปวยหนก, จะไปเทยวสวนสนกหรอสวนสตว ฯลฯ
6.4 Subordinating conjunction inside clause อนสนธานภายในอนพากย สญลกษณทใชก ากบหมวดค าคอ CSBI เปนค าเชอมทมต าแหนงการปรากฏภายนอนพากย แสดงการเชอมโยงระดบวลหรอค า หนวยทถกเชอมโดยค าเชอมประเภทนจะมสถานะหรอความส าคญไมเทากน ตวอยางค าทขดเสนใตเชน เขาจงเชอเชนนน, ปญหากคลคลาย ฯลฯ
7. Preposition บพบท สญลกษณทใชก ากบหมวดค าคอ PREP ค าบพบทเปนค าทปรากฏหนานามวล ประกอบกนเปนบพบทวลซงมความสมพนธกบค ากรยาในฐานะทเปนสวนเตมเตมกรยา (Complement) หรอสวนขยาย (Adjunct) ตวอยางเชน ใต, บน, ใน, จาก, เพอ ฯลฯ
8. Auxiliary ค าชวยหนากรยา สญลกษณทใชก ากบหมวดค าคอ AUX ค าชวยหนากรยาเปนค าทเสรมความหมายและหนาททางไวยากรณใหกบค ากรยาทประกอบ ไดแก กาล (Tense) การณลกษณะ (Aspect) ทศนภาวะ (Modality) วาจก (voice) เปนตน ตวอยางเชน ควร, ตอง, จะ, ยง, เคย ฯลฯ
9. Complementizer (COMPF) ตวน าสวนเตมเตม แบงออกเปน 2 หมวดค ายอย ดงน
9.1 Finite complementizer ตวน าสวนเตมเตมทมกรยาแท 2 สญลกษณทใชก ากบหมวดค าคอ COMPF ไดแกค าวา ท, ซง, อน, วา, ให
9.2 Non-finite complementizer ตวน าสวนเตมเตมทไมมกรยาแท สญลกษณทใชก ากบหมวดค าคอ COMPNF ตวน าสวนเตมเตมทไมมกรยาแท ไดแกค าวา ทวา, ทจะ
10. Prefix (PF) ค าอปสรรค แบงออกเปน 2 หมวดค ายอย ดงน 10.1 Noun prefix อปสรรคสรางนาม สญลกษณทใชก ากบหมวดค าคอ
PFN อปสรรคสรางนาม ใชประกอบหนาค ากรยาหรอคณศพทเพอสรางค านาม ไดแกค าวา การ, ความ, นก หรอใชประกอบหนาอนพากยเพอท าใหเปนนาม (Nominalization) ไดแกค าวา การท, ความท
2 เรองกรยาแทและกรยาไมแทจะไดกลาวถงในบทตอไป
28
10.2 Adverb prefix อปสรรคสรางวเศษณ สญลกษณทใชก ากบหมวดค าคอ PFAV อปสรรคสรางวเศษณ ใชประกอบหนาค ากรยาหรอคณศพทเพอสรางค าวเศษณ ไดแก อยาง, นา
11. Modifier (M) ค าขยาย หมายถง ค าขยายอน ๆ นอกเหนอจาก ADJ และ ADVERB แบงออกเปน 3 หมวดค ายอย
11.1 Collective noun สญลกษณทใชก ากบหมวดค าคอ MCN ค าขยายหนานามเปนค าทใชประกอบหนาค านามทวไปหรอค านามเฉพาะเพอแสดงความเปนกลมของนามนน ตวอยางค าทขดเสนใตเชน บรรดาขาราชการ, พวกนกเลง, เหลานกเรยน ฯลฯ
11.2 Modifier of number/classifier in front position สญลกษณทใชก ากบหมวดค าคอ MNCF ค าขยายหนาจ านวนเปนค าทปรากฏหนานามจ านวนนบหรอลกษณะนาม ตวอยางค าทขดเสนใตเชน เหลอเพยง 2 ตว, แตละคน, อกเรองหนง ฯลฯ
11.3 Modifier of number/classifier in back position สญลกษณทใชก ากบหมวดค าคอ MNCB ค าขยายหลงจ านวนเปนค าทปรากฏหลงนามจ านวนนบหรอลกษณะนาม ตวอยางค าทขดเสนใตเชน อยคนเดยว, สองวนรวด, สองประการแรก, 2,000 กวาบาท ฯลฯ
12. Negation ค าปฏเสธ สญลกษณทใชก ากบหมวดค าคอ NEG ค าปฏเสธเปนค าทใชแสดงการปฏเสธ ปรากฏต าแหนงหนาค ากรยาหรอค าชวยหนากรยา ไดแกค าวา ไม, ม
13. Punctuation เครองหมายวรรคตอน สญลกษณทใชก ากบหมวดค าคอ PUNC เครองหมายวรรคตอนตาง ๆ ไดแก ไปยาลนอย, ไปยาลใหญ, อญประกาศ, ปรศน, จลภาค, ทบ, วงเลบ, ไมยมก, ยตภงค เปนตน
14. Particle อนภาคทาย สญลกษณทใชก ากบหมวดค าคอ PT อนภาคเปนค าทปรากฏทายถอยความเพอแสดงความสภาพหรอค าถาม ตวอยางเชน ทราบหรอไม, ไมใชเลย, ไมวาใครกตาม ฯลฯ
15. Foreign word ค าภาษาตางประเทศ สญลกษณทใชก ากบหมวดค าคอ FOREIGN ค าทใชอกษรอน ๆ ทไมใชอกษรภาษาไทย
3.2.2 การก ากบขอบเขตหนวยปรจเฉทพนฐาน
ในสวนของการก ากบขอบเขตอนพากย ผวจยไดก าหนดขอบเขตของอนพากยภาษาไทยโดยดดแปลงหลกการจากคมอการแยกอนพากยภาษาองกฤษของ Carlson และ Marcu (2001) ทใชในการสรางคลงขอมล RST Discourse Treebank ซงเปนคลงขอมลทมการก ากบหนวยปรจเฉท
29
พนฐานเพอใชในการศกษาโครงสรางปรจเฉท โดยทวไปแลวหนวยปรจเฉทพนฐานไดแก อนพากยทมกรยาแท และนามวลทขนตนดวยค าเชอมเดน สวนรายละเอยดของการก าหนดขอบเขตหนวยปรจเฉทพนฐานทใชในวทยานพนธนจะกลาวถงในบทท 4 สญลกษณทใชในการก ากบอนพากยไดแก <EDU> ส าหรบจดเรมตน และ </EDU> ส าหรบจดสนสด
สญลกษณ ค าอธบาย <w POS> ก ากบหมวดค า </w> ขอบเขตค า <EDU> จดเรมตน EDU </EDU> จดสนสด EDU <s> ชองวาง (space)
ตารางท 3.1 แสดงสญลกษณทใชในการก ากบคลงขอมล
หลงจากก าหนดชดหมวดค าและสญลกษณทจะใชในการก ากบขอมล ผวจยไดท าการก ากบขอมลตาง ๆ ดวยมอ ขอมลทไดรบการก ากบหมวดค าและขอบเขตอนพากยแลว มรปแบบดงตาราง 3.2 หรอสามารถดการก ากบคลงขอมลเพมเตมไดทภาคผนวก ก
<EDU><w CCOR>โดยท</w><s><w FOREIGN>The</w><s><w FOREIGN>Third</w><s><w FOREIGN>Way</w><s><w AUX>ยง</w><w AUX>คง</w><w VERB>ม</w><w NOUN>สถานะ</w><w VERB>เปน</w><w NOUN>งาน</w><w NCLS>ชน</w><w ADJ>หลก</w><w PREP>ของ</w><s><w FOREIGN>Giddens</w><s><w PREP>ใน</w><w NOUN>เรอง</w><w DET>น</w><w ADVERB>อย</w><w ADVERB>ตอไป</w></EDU><s><EDU><w NCMN>งาน</w><w VERB>เขยน</w><w PREP>ของ</w><s><w FOREIGN>Giddens</w><s><w NEG>ไม</w><w VERB>แพรหลาย</w><w PREP>ใน</w><w NCMN>สงคม</w><w NPRP>ไทย</w></EDU>
ตารางท 3.2 ตวอยางขอมลทก ากบขอมลแลว
คลงขอมลทสรางเสรจสมบรณมจ านวนค า (token) ทงหมด 76,460 ค า โดยนบเครองหมายวรรคตอนและชองวางเปนค าดวย นบจ านวน EDU ไดทงหมด 8,102 EDU ในสวนของการก าหนดขอบเขต EDU นน จะไดกลาวถงรายละเอยดในบทตอไป
30
บทท 4
การก าหนดขอบเขตอนพากยภาษาไทย
ในบทนจะกลาวถงการก าหนดขอบเขตเชงโครงสรางของอนพากย ซงเปนหนวยสรางทเลกทสดในปรจเฉท ในทนจะเรยกวา EDU ทงนเพอทจะใชเปนบรรทดฐานในการตดสนวาหนวยใดถอวาเปนหรอไมเปนอนพากยทตองแบง ในงานน ผวจยไดใชหลกการเดยวกนกบท Carlson and Marcu (2001) ใชก ากบอนพากยภาษาองกฤษในคลงขอมล RST (RST Discourse Treebank) ซงเปนคลงขอมลทใชส าหรบศกษาโครงสรางปรจเฉทโดยเฉพาะ ทงนผวจยไดปรบบางหลกการเพอใหเหมาะสมกบลกษณะของภาษาไทยโดยสรปแลว อนพากยปรจเฉท ไดแก อนพากยทมกรยาแทและกลมของนามวลทขนตนดวยค าเชอมเดน ทงนแตละ EDU จะตองไมมขอบเขตคาบเกยวกน (Non-overlapping spans of text) รายละเอยดและหลกการแยกอนพากยภาษาไทยทใชในงานวจย มดงตอไปน
1) อนพากยทมกรยาแท (Finite clause)
กรยาแท หมายถง กรยาทสามารถท าหนาทเปนภาคแสดงของอนพากย สามารถแสดงขอมลทางไวยากรณ (Grammatical information) ตาง ๆ ได เชน กาล, การณลกษณะ, วาจก, ทศนภาวะ ฯลฯ ในภาษาไทยซงเปนภาษาโดด (Isolating language) กรยาแทสามารถใหขอมลทางไวยากรณตาง ๆ ทกลาวมาไดโดยการเตมกรยาชวยประเภทตาง ๆ ไวขางหนากรยาแท เชน “จะ” แสดงการณลกษณะไมสมบรณ, "เคย" แสดงสถานการณสมบรณ, "ก าลง" แสดงการณลกษณะทก าลงด าเนนอย, “ถก” แสดงกรรมวาจก, “ควร” แสดงทศนภาวะ ฯลฯ
โดยพนฐานแลว ผวจยก าหนดใหอนพากยทประกอบดวยกรยาแทเปน EDU (ยกเวนอนพากยบางประเภทซงจะกลาวถงภายหลง) อนพากยทมกรยาแท (Finite clause) สามารถแบงออกเปนอนพากยอสระ (Independent clause) และอนพากยไมอสระ (Dependent clause) ในขณะทอนพากยอสระสามารถอยไดดวยตวเองอยางมใจความสมบรณ อนพากยไมอสระตองพงพาอนพากยอสระเสมอ เพราะไมสามารถอยไดดวยตวเอง อนพากยทงสองประเภทสามารถเชอมเขาดวยกนดวยหนวยเชอมโยงปรจเฉทหรอค าเชอมทแสดงความสมพนธแบบนวเคลยรเดยว (Mononuclear relation) กลาวคอ อนพากยอสระมสถานะเปนขอมลหลกหรอนวเคลยร และอนพากยไมอสระเปนขอมลสนบสนน นอกจากนอนพากยอสระมากกวาหนงอนพากยสามารถเชอมเขาดวยกนดวยหนวยเชอมโยงปรจเฉทหรอค าเชอมทแสดงความสมพนธแบบหลายนวเคลยร (Multinuclear relation) ไดอกดวย นนคออนพากยอสระแตละอนพากยมสถานะเปนขอมลหลกหรอนวเคลยรอยางเทาเทยมกน ตวอยางค าเชอมทแสดงความสมพนธแบบนวเคลยรเดยว ไดแก "เมอ”, “ถาหาก”, “แม, “เพราะ"
31
เปนตน โดยอนพากยทตามหลงค าเชอมเหลานจะมสถานะเปนอนพากยไมอสระ ค าเชอมทแสดงความสมพนธแบบหลายนวเคลยร ไดแก “และ”, “แต”, “หรอ”, “อยางไรกตาม”, “นอกจากน” เปนตน หลกการก าหนดขอบเขต EDU ทเปนอนพากยทมกรยาแทเปนไปตามรายละเอยดดงตอไปน
1.1) Finite relative clause (คณานประโยคทมกรยาแท) เปนอนพากยไมอสระประเภทหนงในทางหนาทคณานประโยคเปนหนวยสรางทมหนาทขยายค านามหลก (Head noun) และในทางความหมาย ถอวาเปนอนพากยทท าใหค านามหลกทถกอางองถงมความเฉพาะจงเจาะยงขน หนวยสรางประเภทนจะปรากฏหลงค านามหลกเทานน และอาจจะมหรอไมมตวบงช “ท”, “ซง”, “อน” น าหนากได ผวจยก าหนดใหคณานประโยคทมกรยาแทเปนภาคแสดงมสถานะเปน EDU คณานประโยคในภาษาไทยมกลวธในการสราง 2 วธ คอ กลวธคงสรรพนาม (Pronoun retention strategy) ซงใชสรรพนามอางองถงค านามหลกเปนประธานของคณานประโยค และกลวธปลอยวาง (Gap strategy) ซงจะละสรรพนามทอางองถงค านามหลก ตวอยาง (1) และ (2) ดงตอไปน แสดงคณานประโยคทง 2 ประเภทดงกลาว
ตวอยาง (1) [แมมสง]1[ทเขาไมชอบ]2 (2) [คงจะตองคนหาจากวาทกรรม]1[ท___ก าลงเปลยนไป]2
จากตวอยางทยกมา หนวยท 2 ของตวอยาง (1) เปนคณานประโยค และมสรรพนาม “เขา” เปนประธานในคณนานประโยคทอางองถงค านามกอนหนาคอ “สง” ดงนนโครงสรางคณานประโยคนเปนโครงสรางแบบคงสรรพนาม สวนหนวยท 2 ของตวอยาง (2) เปนคณานประโยคทขนตนดวยตวบงช “ท” และตามดวยภาคแสดงเลย คอไมมการใชสรรพนามอางองถงค านามขางหนาคอค าวา “วาทกรรม” แบบนถอวาเปนคณานประโยคทใชกลวธปลอยวาง
ในบรรดาค าบงชคณานประโยคทงหลาย ค าวา “อน” เปนค าทมการใชนอยสด และมกจะใชในภาษาทมความเปนทางการมาก ในขณะท “ท” มการใชหลากหลายรปแบบมากกวาในปรจเฉท และค าวา “ซง” มกใชในการพดหรอเขยนทคอนขางเปนทางการมากกวา Iwasaki and Horie (2005) ไดกลาวถงความแตกตางเชงหนาทของค าวา “ท” และ “ซง” เอาไววา ค าวา “ท” ใชในการระบถงค านามหลกอยางเจาะจง ค านามหลกมกจะเปนนามรปธรรม การใชค าวา “ท” จะท าใหคณานประโยคมลกษณะคลายกบ restrictive relative clause ในภาษาองกฤษ นอกจากน "ท" ยงปรากฏบอยกวาเมอท าหนาทขยายค านามหลก ในขณะทค าวา “ซง”นอกจากจะมการใชนอยกวาและมหนาทเหมอนค าวา “ท” ยงสามารถใชน าหนาอนพากยเพอขยายปรจเฉทกอนหนาไดทง
32
ปรจเฉทอกดวย นนคออนพากยตามหลง “ซง” ไมจ าเปนตองท าหนาทขยายเพยงค านามหลกกอนหนาเทานน
อยางไรกตามคณานประโยคอาจจะไมไดขนตนดวยค าบงช ท าใหมโครงสรางเหมอนคณานประโยคลดรปซงจะไดกลาวถงในหวขอตอไป อกทงยงสามารถมองไดวาเปนนามวลซบซอน แตไมวาจะวเคราะหใหเปนคณานประโยคลดรปหรอนามวลซบซอน ความหมายทไดกไมตางกน ในทนขอวเคราะหเปนแบบหลงเพราะยดรปปรากฏเปนส าคญ อกทงการลดรปของคณานประโยคยงท าใหเกดกรยาไมแทอกดวย ซงในทนไมเปน EDU อยแลว
ตวอยาง (3) [เขาชอบขนมปง]1[ทมาจากญปน]2 (4) [เขาชอบขนมปงมาจากญปน]1
ตวอยาง (3) และ (4) เปนตวอยางสมมต ทมใจความเหมอนหรอใกลเคยงกน “ทมาจากญปน” ในตวอยาง (3) เปนคณานประโยคทขนตนดวยตวบงช “ท” ท าหนาทขยายค านามหลก “ขนมปง” ในขณะท “ขนมปงมาจากญปน” ในตวอยาง (4) สามารถมองวาเปนนามวลประเภทหนงได โดยท “ขนมปง” เปนค านามหลกและทเหลอเปนสวนขยาย ดงนนในกรณน ผวจยจะแบงอนพากยในตวอยาง (3) ออกมาเปน 2 EDU และตวอยาง (4) ได EDU เดยว
1.2) Adverbial clause (วเศษณานประโยค) เปนอนพากยไมอสระประเภทหนงทชวยขยายกรยาหลกในอนพากยอสระเกยวกบเงอนไข เหตผล เวลา เปนตน สามารถปรากฏต าแหนงหนาหรอหลงอนพากยอสระได ผวจยก าหนดใหอนพากยประเภทนเปน EDU
วเศษณานประโยคสามารถแบงออกเปนประเภทตาง ๆ ตามความหมายและหนาทซงแตละประเภทจะใชค าเชอมแสดงปรจเฉทสมพนธทแตกตางกนออกไป เชน วเศษณานประโยคบอกเวลา (Time Adverbial clause) ขนตนดวยค าเชอม“จนกระทง”, “ในขณะท”, “ขณะท”, “ขณะ”, “ในระหวางท”, “ในระหวาง” เปนตน วเศษณานประโยคบอกเหต (Causal Adverbial clause) ขนตนดวยค าเชอม“เพราะ”, “เพราะวา”, “เนองจาก”, “เนองจากวา”เปนตน วเศษณานประโยคแสดงเงอนไข (Conditional Adverbial clause) ขนตนดวยค าเชอม“ถา”, “หาก”, “ถาหาก”, “หากวา”, “ถาหากวา”เปนตน วเศษณานประโยคเงอนไขเพอยนยน (Concessive Adverbial clause) ขนตนดวยค าเชอม“ถงแมวา”, “แมวา”เปนตน ค าเชอมเหลานสามามารถใชเปนตวบงชจดเรมตน EDU ได
ตวอยาง (5) [ตองถกสงตวกลบมากอน]1[เพราะปวยเปนวณโรค]2
33
(6) [หากพเคราะหใหถถวนแลว]1 [กดจะมกลนไอของวธคดเรองตวตนและอตลกษณแบบส านกคดหลงสมยใหม]2
จากตวอยางขางตน หนวยท 2 ในตวอยาง (3) เปนคณานประโยคแสดงเหตผล ขนตนอนพากยดวยค าเชอม “เพราะ” และหนวยท 1 ในตวอยาง (6) เปนคณานประโยคแสดงเงอนไข ขนตนดวยค าเชอม “หาก” จงถอวาเปน EDU
1.3) Coordinate clause คอ อนพากยมากกวาหนงอนพากยทมความเทาเทยมกนในเชงหนาทเชอมโยงเขาดวยกนในโครงสรางระดบเดยวกนดวยสนธานประสานหรอค าเชอม เชน “และ” “หรอ” “แต” ฯลฯ ผวจยก าหนดใหอนพากยทเชอมดวยค าเชอมเหลานเปน EDUอยางไรกตามอนพากยประเภทนอาจเชอมโยงเขาดวยกนโดยไมมค าเชอมเลยกได ซงท าใหยากแกการระบอนพากยประเภทน
อยางไรกตาม coordinate clause อาจมรปแบบของโครงสรางทคลายกบกรยาวลทเชอมเขาดวยกนดวยสนธานประสานส าหรบ coordinate verb phrase นน ผวจยไมถอวาเปน EDU เนองจากกรยาในกรยาวลไมไดมปรจเฉทสมพนธตอกนวธสงเกตวาเปน coordinate clause หรอ coordinate verb phrase สามารถพจารณาไดจากกรยาหลก กลาวคอ ใน coordinate clause กรยาของแตละอนพากยจะไมใชกรรมหรอสวนขยายหรอสวนเตมเตมหรอสวนเสรมรวมกน สวนกรยาใน coordinate verb phrase จะใชกรรมหรอสวนขยายหรอสวนเตมเตมหรอสวนเสรมรวมกนได
ตวอยาง (7) [เกดในโตเกยว]1 [และมาเตบโตทโอซากา]2 (8) [แตหลายสวนลอกและเพมเตมมาจากกฎหมายตราสามดวง]1
ตวอยาง (7) เปน coordinate clause ทเชอมกนดวยค าเชอม “และ”กรยาแตละอนพากยไมไดใชสวนเสรมรวมกน นนคอ “ในโตเกยว” เปนสวนเสรมของกรยา “เกด” และ “ทโอซากา” เปนสวนเสรมของกรยา “มาเตมโต” จงแบงได 2 EDU สวนตวอยาง (8) เปน coordinate verb phrase ทกรยา “ลอก” และ “เพมเตม” เชอมเขาดวยกนดวยค าเชอม “และ” ใชสวนเตมเตม “จากกฎหมายตราสามดวง” รวมกน ดงนนจงไมแยกออกเปน 2 EDU
1.4) Subject and object clause เปนอนพากยไมอสระประเภทหนงทมหนาทในระดบโครงสรางอนพากย นนคอท าหนาทเปนประธานหรอกรรมของอนพากยหลก ไมไดท าหนาทขยายสวนใดสวนหนงของขอความ ในงานวจยนจะไมถกแยกออกมาเปน EDU เนองจากเปนสวนทไมสามารถละทงหรอแยกออกมาโดด ๆ ได อกทงยงไมไดแสดงปรจเฉทสมพนธตอสวนใดอกดวย ดง
34
ตวอยาง (9) อนพากยทขดเสนใตเปนอนพากยทท าหนาทเปนประธานของอนพากยหลก จงไมถกแยกออกเปนเปน EDU
ตวอยาง (9) [ผจบปรญญาเอกดานวทยาศาสตรตองมคณสมบตอยางไรบาง]1
2) อนพากยทไมมกรยาแท (Non-finite clauses)
ตรงกนขามกบอนพากยทมกรยาแท อนพากยทไมมกรยาแทจะไมถกแยกออกมาเปน EDU ในภาษาองกฤษ อนพากยทไมมกรยาแทจะใชกรยาในรป participle, gerund, หรอ infinitive ซงเปนกรยาทไมสามารถแสดงขอมลเชงไวยากรณได3 ในขณะทภาษาไทยไมมกรยาในรปตาง ๆ ทกลาวมา การระบอนพากยทไมมกรยาแทในภาษาไทยจงมความยงยากอยบาง กลาวคอ การระบวากรยาในอนพากยเปนกรยาแทหรอไมแท สามารถท าไดดวยวธเดยว คอการทดสอบวากรยานนสามารถปรากฏรวมกบตวบงชตาง ๆ ไดหรอไม เชน ตวบงชกาล, ตวบงชการณลกษณะ, ตวบงชวาจก ฯลฯ หากไมสามารถปรากฏรวมกบตวบงชเหลานได แสดงวาเปนกรยาไมแท
ในภาษาไทยสามารถพบอนพากยทไมมกรยาแทไดในคณานประโยค Yaowapat and Prasithrathsint (2006) เรยกคณานประโยคชนดนวา "คณานประโยคแบบลดรป" (Reduced relative clause) อนพากยประเภทนจะปรากฏหลงค านามหลกทเปนค านามทวไปหรอไมชเฉพาะเทานน (Generic or indefinite head noun) นอกจากนยงพบวาไมมการปรากฏหลงค าบงช "ท" เหมอนอยางในกรณคณานประโยคทมกรยาแท
ตวอยาง (9) [แสดงวธการวเคราะหสารส าคญ]1 (10) [แสดงวธการวเคราะหสาร]1[ทส าคญ]2
จากตวอยาง (9) “ส าคญ” เปนกรยาไมแทและเปนคณานประโยคทขยายค านามหลก “สาร” ขางหนา ดงนนจงไมแยก “ส าคญ” ออกมาเปน EDU อยางไรกตามหากเตมตวบงช “ท” หนาค าวา “ส าคญ” กจะเปนดงตวอยาง (10) และท าใหเหนภาพคณานประโยคชดเจนยงขน แตกจะมค าถามตามมาวา จะตองแบง “ทส าคญ” ออกเปน EDU หรอไม ในเมอมรปโครงสรางเหมอนกบคณานประโยคทมกรยาแท ในกรณตวอยาง (10) ผวจยตดสนใจแบง “ทส าคญ” ออกมาเปนอก EDU เพราะถอวาการทผเขยนเลอกใชค าเชอม“ท” แสดงวาไมตองการใชเปนแบบคณานประโยคลดรปคอมองไดวาเปนลลาของผเขยนทใชโครงสรางคนละแบบกนในการสอสาร นนคอ แบบแรกใชโครงสรางคณาน
3 English Grammar: An Introductory DescriPTion By MireiaLlinàsiGrau, Alan Reeves(page 74)
35
ประโยคแบบลดรปหรอไมมกรยาแท และแบบทสองใชโครงสรางคณานประโยคแบบมกรยาแท ทงนทงสองแบบไมไดท าใหความหมายแตกตางกนเลย นอกจากน การวเคราะหตามรปนยงสะดวกตอการแกปญหาการตดสนใจของเครอง
3) อนพากยเตมเตม (Clausal complements)
อนพากยเตมเตมเปนอนพากยทท าหนาทเปนสวนเตมเตมใหกบกรยาหรอค านามทตองการสวนเตมเตม อนพากยเตมเตมอาจอยในรปทมกรยาแทหรอไมมกรยาแทกได หากมกรยาแท อนพากยนนกจะถกแยกเปน EDU แตหากไมมกรยาแท อนพากยนนกจะไมถกแยกใหเปน EDU
3.1)สวนเตมเตมของกรยาทมกรยาแท (Finite clausal complement of verb) มกเปนอนพากยทเปนสวนเตมเตมของกรยาแสดงการรบร (Cognitive verb) เชน “คด”, “เชอ”, “ร”, “จนตนาการ”, “สมมต”, “หวง”, “คาด”, “ฝน” ฯลฯและกรยาทใชในการรายงานค าพด (Verb in reported speech) เชน “พด”, “ประกาศ”, “ชแจง”, “แนะน า”, “รายงาน”, “อธบาย”, “ถาม”, “บอก”, “กลาว” ฯลฯ Carlson and Marcu (2001) เรยกกรยาทง 2 ประเภทนวา attributive verb นอกจากน อนพากยชนดนมกจะขนตนดวยตวน าหนาสวนเตมเตม “วา” ผวจยแยกอนพากยประเภทนเปน EDU เนองจากเปนอนพากยทแสดงปรจเฉทสมพนธตออนพากยหลก นนคอ Attributive relation ซงเปนความสมพนธทแสดงรายละเอยดเกยวกบกรยาทตองการสวนเตมเตมทงหลายตวอยาง (11) ดานลางน แสดงสวนเตมเตมของกรยาทมลกษณะเปนอนพากย ซงขนตนดวยตวน าหนาสวนเตมเตม “วา” ถกแยกออกมาเปน EDU หนวยท 2
ตวอยาง (11) [สรปได]1[วาสามารถจ าแนกออกไดเปน 2 แบบดวยกน]2
3.2) สวนเตมเตมของกรยาทไมมกรยาแท (Non-finite clausal complement of verb) คอสวนเตมเตมของกรยาทมโครงสรางเปนอนพากยทมกปรากฏหลงค าบงช “ทจะ” “จะ” ซง Jenks (2006) เรยกค าบงชเหลานวา infinitival complementizer หรอตวน าสวนเตมเตมอนพากยทไมมกรยาแท กรยาของอนพากยทตามหลงค าบงชเหลานจะไมสามารถแสดงขอมลทางไวยากรณได เพราะมสถานะเปนกรยาไมแท ค ากรยาหลกทตองการสวนเตมเตมประเภทน ไดแก กรยาแสดงความปรารถนา เชน “อยาก”, “"ชอบ”, “ตองการ” ฯลฯ กรยาทสอความหมายโดยนย (Implicative verb) เชน “พยายาม”, “ลอง” ฯลฯ กรยาชวย (Modal verb) เชน “สามารถ”, “ควร” ฯลฯ ผวจยก าหนดใหสวนเตมเตมประเภทนไมตองถกแยกออกมาเปน EDU ตวอยาง (12) เปนตวอยางของโครงสรางทประกอบไปดวยสวนเตมเตมประเภทน โดยจะเหนวา “ทจะละเลยเนอหา...” เปนสวนเตมเตมของกรยา “เลอก” ดงนนจงเปนสวนหนงของ EDU ทงหมด
36
ตวอยาง (12) [แตกเลอกทจะละเลยเนอหามาตรฐานของพทธศาสนา]1
3.3) อนพากยเตมเตมของนาม (Clausal complement of noun) อนพากยชนดนมกจะขนตนดวยค าน าหนา “ทวา” “ทจะ” ท าหนาทเปนสวนเตมเตมใหกบค านามหลก ผวจยจะไมแยกอนพากยประเภทนออกเปน EDU ยกตวอยาง “ทจะปรบประยกต...” เปนอนพากยเตมเตมของค านาม “ประสงค” ดงนนจงไมถกแยกออกมาเปน EDU
ตวอยาง (13) [โดยมวตถประสงคทจะปรบประยกตเขากบตลาดทนนยม]1
4) โครงสรางกรยาเรยง (Serial verb constructions)
โครงสรางกรยาเรยงคอโครงสรางทมกรยามากกวาหนงตวปรากฏเรยงกนโดยไมมอะไรแทรกระหวางกรยายกเวนกรรมของกรยาตวกอนหนา กรยาทเรยงกนทกตวเปนกรยาแท ยกเวนกรยาบางตวทผานกระบวนการกลายเปนค าไวยากรณ เชน “เสย”, “อย”, “วา”, “ให” ฯลฯ แมกรยาเหลานจะกลายเปนค าไวยากรณแลว (Grammaticalized verb) แตกยงถอวาเปนสวนหนงของกรยาเรยง นอกจากนกรยาเรยงจะมการรวมคณสมบตทางความหมายของกรยาทกตวเขาดวยกนและรวมกนแสดงถงเหตการณเพยงเหตการณเดยว (Single event) จงนบกรยาทเรยงกนนนเปนหนวยสรางเดยวกน (Foley and Mike 1985, Thepkanjana 1986, Takahashi 2009, Pongsutthi, Ketui et al. 2013) ส าหรบงานวจยน จะไมแยกกรยาแตละตวเปน EDU ดวยเหตผลดงกลาว
ตวอยาง (14) [ขณะเดยวกนกรอคอยโชคชะตามาพลกผนชวตใหแปรเปลยนไป]1 (15) [ฌนตะโรคด]1[วาแมเรมมสภาพทรดโทรมทงดานรางกายและจตใจ]2
จากตวอยาง (14) จะเหนวา “รอคอย__มาพลกผน__ใหแปรเปลยนไป” เปนโครงสรางกรยาเรยง โดยมค านาม “โชคชะตา” และ “ชวต” แทรกกลางระหวางกรยาและเปนกรรมตรงของกรยาทน าหนา ตวอยาง (14) จงถอวามเพยง EDU เดยว อยางไรกตาม หากโครงสรางกรยาเรยงประกอบไปดวยค ากรยาแสดงการรบรหรอค ากรยาทใชในการรายงาน กมกจะปรากฏค ากรยาทกลายเปนค าไวยากรณหรอตวน าสวนเตมเตม "วา" และตามดวยอนพากยเตมเตม ในกรณน ผวจยจะแบงตงแตตวน าสวนเตมเตมตามดวยอนพากยเตมเตมออกเปนอก EDU หนงเนองจากอนพากยเตมเตมเหลานนแสดงปรจเฉทสมพนธทเรยกวา Attributive relation ซงเปนความสมพนธทแสดงรายละเอยดของค ากรยากอนหนา ดงจะเหนไดจากตวอยาง (15) แมวา “คดวา” เปนโครงสรางกรยาเรยง แตเนองจาก “คด” เปนกรยาแสดงการรบรทตองการอนพากยเตมเตมเพอท าใหใจความสมบรณ และค า
37
วา “วา” เปนกรยาทกลายเปนค าไวยากรณแลว นนคอเปนตวน าสวนเตมเตม ตามดวยอนพากยเตมเตม “แมเรมมสภาพทรดโทรม...” ดงนนจงแบง “วาแมเรมมสภาพทรดโทรม...” ออกเปนอก EDU หนง ท าใหตวอยาง (15) ประกอบไปดวย 2 EDU
5) โครงสรางเคลฟต (Clefts)
โครงสรางเคลฟตเปนโครงสรางภาษาทแสดงการเนนสวน โดยทวไปโครงสรางเคลฟตจะมลกษณะเปนโครงสรางซบซอน นนคอประกอบดวยอนพากยมากกวาหนง ในทนจะขอยกค าอธบายเกยวกบโครงสรางเคลฟในภาษาไทยและตวอยางประโยคจากงานวจยของ Ruangjaroon (2005) ดงน
โครงสรางเคลฟตในภาษาไทยประกอบไปดวยสวนทเรยกวา“เคลฟท” (cleftee) ค ากรยา “เปน” หรอ “คอ” และสวนทเรยกวา “อนพากยเคลฟต” (cleft clause) ซงมโครงสรางเปนคณานประโยค เมอพจารณาประเภทของ copula verb “เปน” และ “คอ” แลว สามารถแบงเคลฟตในภาษาไทยได 2 ประเภท คอ contrastive (or specificational) cleft และ identificational cleft มรายละเอยดดงตอไปน
ประเภทแรกคอ contrastive (or specificational) cleftเรยกชอประเภทเคลฟตตาม copula verb “เปน” ซงเปนกรยาทเชอมประธานและสวนเตมเตมประธาน โครงสรางของเคลฟตประเภทน คอเคลฟท + definite marker “ท” + copula “เปน”+อนพากยเคลฟต ในสวนของเคลฟทจะตองมลกษณะของความหมายเปน [+human] เทานน และในสวนของอนพากยเคลฟตจะตองเปน nominalized clause หรออนพากยทถกท าใหกลายเปนค านาม ทงนเพราะ copula verb ตองการสวนเตมเตมประธาน (Subject complement) ในรป predicative nominal เทานน โดยอนพากยเคลฟตในภาษาไทยจะใช nominalizer “คน” ขนตนอนพากยเพอท าใหอนพากยนนกลายเปนค านาม
ตวอยาง (16) [นกทเปนคนท าจานแตก]1 (17) [ใครทเปนคนท าจานแตก]1
จากตวอยาง (16) “นก” เปนเคลฟท ซงมค าวา “ท” เปนตวบงชแสดงการชเฉพาะ (Definite marker) วาหมายถงนกไหน อนพากยเคลฟตคอ "คนท าจานแตก" ซงเปน nominalized clause ทมพฤตกรรมเหมอนค านามทวไป ค าวา “คน” ท าหนาทเปน nominalizerเคลฟทและอนพากยเคลฟตถกเชอมเขาดวยกนดวย copula "เปน"สวนในตวอยาง (17) กเหมอนตวอยางท (16) แตกตางกนตรงทเปน Wh-cleft คออยในรปของค าถาม มเคลฟทคอ “ใคร”
38
เคลฟตอกประเภทหนงคอ identificational cleftหรอเคลฟตทแสดงการชเฉพาะเจาะจง โครงสรางของเคลฟตคอเคลฟท + copula “คอ”+อนพากยเคลฟต ในสวนของอนพากยเคลฟตนนจะคณานประโยค คอประกอบไปดวยค านามหลกหรอค าลกษณะนาม ตามดวยค าบงช “ท” และตามดวยอนพากย ตวอยางของเคลฟตประเภทนจากคลงขอมลเปนดงตวอยาง (18)
ตวอยาง (18) [นนแหละคอสง]1[ทท าใหเกดภาพเหมอน]2
นอกจากน Ruangjaroon (2005) ยงไดกลาวถงการใช copula “เปน” ในบรบทโครงสรางทเปน identificational cleft และ copula “คอ” ในบรบทโครงสรางทเปน contrastive cleft วาเปนไปไมได เพราะไมสามารถเขากนไดและจะท าใหไดรปภาษาทไมถกตอง (Ill-formed) ดงตวอยางท (19b) และ (20b) ซงเปนรปภาษาทไมถกตอง สวนตวอยาง (19a) และ (20a) มรปภาษาทถกตอง
ตวอยาง (19) กรณ copula “เปน” ใน identificational cleft (a) นกคอคนทฉนรก (รปภาษาทถกตอง) (b) *นกเปนคนทฉนรก (รปภาษาทไมถกตอง) (20) กรณ copula “คอ” ใน contrastive cleft (a) นกทเปนคนท า (รปภาษาทถกตอง) (b) *นกทคอคนท า (รปภาษาทไมถกตอง)
แมวา Carlson and Marcu (2001) จะก าหนดใหไมตองแยกประโยคเคลฟตออกเปน 2 EDU เนองจากทงสองอนพากยในโครงสรางเคลฟตไมไดมปรจเฉทสมพนธตอกน แตส าหรบภาษาไทย ผวจยตดสนใจแบงอนพากยในโครงสรางเคลฟตแบบ identificational cleft ออกเปน 2 EDU เพราะคดวาเคลฟตประเภทนสามารถมองเปนโครงสรางทมคณานประโยคขยายค านามหลกได โดยทอนพากยทเปนคณานประโยคมความสมพนธแบบ elaboration relation กบค านามหลกทขยาย ดงเชนตวอยาง (18) เปนเคลฟตทถกแยกออกเปน 2 EDU โดยทหนวยท 2 เปนคณานประโยคทขยายค านามหลก “สง”แตส าหรบ contrastive cleft นน ผวจยจะไมแยกอนพากยดงตวอยาง (16) และ (17) เนองจากเหนวาอนพากยเคลฟต “คนท าจานแตก” สามารถมองไดวาเปนค านามทเปนสวนเตมเตมประธาน
6) นามวลทมสถานะเปน EDU (Phrasal EDU) โดยทวไปแลวนามวลเปนหนวยสรางระดบทเลกกวาอนพากย ประกอบไปดวยค านามหลก
และ/หรอสวนขยายเทานน จงไมถกแยกใหเปน EDU ยกเวนนามวลทขนตนดวยค าเชอมท Carlson
39
and Marcu (2001) เรยกวา strong marker หรอค า เชอมเดน ซงเปนหนวยเชอมโยงปรจเฉททมความหมายบงบอกถงปรจเฉทสมพนธระหวางกลมนามวลทตามหลงค าเชอมกบถอยความกอนหนา และเรยกนามวลทขนตนดวยค าเชอมเดนนวา phrasal EDU หรอ EDU ทเปนนามวล
จากการศกษาหนวยเชอมโยงในภาษาไทย พบวามค าเชอมเดนอยเพยง 2 ประเภท คอ ค าเชอมแสดงตวอยาง ไดแกค าทใชแสดงตวอยางตาง ๆ เชน “ไดแก”, “เชน”, “ตวอยางเชน ฯลฯ” และค าเชอมแสดงวตถประสงค เชนค าวา “เพอ” นามวลทขนตนดวยค าเชอมเดน 2 ประเภทนจะแยกใหเปน EDU ดงตวอยาง (21) กลมนามวลทขนตนดวยค าเชอมแสดงตวอยาง “เชน” ถกแยกใหเปนอก EDU หนง มหนาทระดบปรจเฉทคอการแสดงใหเหนตวอยางของสงทถกกลาวถงกอนหนา นนคอ “ปรากฏการณธรรมชาต”
ตวอยาง (21) [ต านานปรมปราเปนการอธบายถงก าเนดของจกรวาล โครงสราง และระบบของจกรวาล มนษย สตว ปรากฏการณทางธรรมชาต]1[เชน ลม ฝน กลางวน กลางคน ฟารอง ฟาผา]2
นอกจากน ยงมนามวลอน ๆ ทไมไดขนตนดวยตวเชอมเดน แตกถอวาเปน EDU ไดเชนกน นามวลทกลาวถงน ไดแก นามวลทอยในเครองหมายวงเลบ นามวลทเปนชอหวขอ/ชอเรอง/ชอผเขยนทแยกอยล าพง และไมไดเปนท าหนาทเปนประธานหรอกรรมในหนวยสรางใด นามวลประเภทหลงนพบไดโดยทวไปในงานเขยนและมหนาททชดเจนในระดบปรจเฉท เชน ชอเรองของงานเขยนกบเนอหาทงหมดของงานเขยนนน หรอชอหวขอกบเนอหาในหวขอนน แตละคมปรจเฉทสมพนธกนแบบท Carson and Marcu เรยกวา Textual Organization relation ดงนนในวทยานพนธนจงแยกนามวลดงกลาวเปน EDU ดวยเชนกน ตวอยางขอมลจากคลงขอมลเปนดงน
ตวอยาง (22) [อพยพมาจากเวยงจนทร]1 [(ลาวเวยง)]2 (23) กรณชอบทความ ชอผเขยน และเนอหา [พลวตของความรชาวบานในกระแสโลกาภวตน]1 [อานนท กาญจนพนธ]2 [เนอหาของบทความ]3 [เนอหาของบทความ]4 [เนอหาของบทความ]5 .…
จากตวอยาง จะเหนวา “(ลาวเวยง)” ในตวอยาง (22) เปนนามวลทอยในเครองหมายวรรคเลบจงตองแยกออกมาเปน EDU และในตวอยาง (23) “พลวตของความรชาวบาน...” เปนชอบทความ “อานนท กาญจนพนธ” เปนชอผเขยนบทความ ดงนนจงถอวาเปน EDU
7) เครองหมายวรรคตอน (Punctuations)
40
เครองหมายวรรคตอนสามารถชวยในการระบขอบเขต EDU ได เนองจากเครองหมายวรรคตอนบางตวจะปรากฏอยในต าแหนงทแนนอน ตวอยางเชน เครองหมายวงเลบมกจะอยหนาและหลงอนพากยเสมอ เครองหมายค าถามมกจะอยทายประโยคภาษาองกฤษเสมอ เปนตน ส าหรบภาษาไทยนน ราชบณฑตยสถานไดกลาวถงเครองหมายวรรคตอนทมการใชในภาษาไทยเอาไวในหนงสอ “หลกเกณฑการใชเครองหมายวรรคตอนและเครองหมายอน ๆ หลกเกณฑการเวนวรรค หลกเกณฑการเขยนค ายอ” ฉบบราชบณฑตยสถาน (2548) พมพครงท ๖ ซงสรปรายละเอยดอยางยอไดดงตารางตอไปน
ชอภาษาไทย ชอภาษาองกฤษ
เครองหมาย วธใช
มหพภาค full stop, period
. ใชแสดงการจบประโยคหรอจบความ
จด dot, point . 1) ใชเขยนหลงตวอกษรเพอแสดงวาเปนอกษรยอ 2) ใชเขยนขางหลงตวอกษรหรอตวเลขทบอกล าดบขอ 3) ใชคนระหวางชวโมงกบนาทเพอบอกเวลา 4) ใชในเลขทศนยม 5) ใชบอกวาเปนอกษรน า อกษรควบ ในการบอกค าอาน 6) ใชบอกวาเปนอกษรควบหรอเปนตวสะกดในการเขยนภาษาบาลสนสกฤตดวยอกษรไทย 7) ใชเขยนเพอแสดงการละตวอกษรหรอขอความ
จลภาค หรอจดลกน า
comma , 1) ใชแยกวลหรออนพากย 2) ใชคนค าในรายการตงแต 3 รายการขนไป 3) ใชในการเขยนบรรณานกรม ดรรชน และนามานกรม 4) ใชคนจ านวนเลขนบจากหลกหนวยไปทละ 3 หลก
อฒภาค semicolon ; 1) ใชแยกประโยคเปรยบเทยบออกจากกน 2) ใชคนระหวางประโยคทมรปประโยคและใจความสมบรณอยแลวเพอแสดงความตอเนองอยางใกลชดของประโยคนน 3) ใชแบงประโยค กลมค า หรอกลมตวเลขทมเครองหมายจลภาคอยแลวออกเปนสวนใหเหนชดเจนยงขน เพอกนความสบสน 4) ใชคนค าในรายการทมจ านวนมาก ๆเพอจ าแนกรายการออกเปนพวก ๆ 5) ใชในหนงสอประเภทพจนานกรมเพอคนบทนยามของค าทมความหมายหลายอยาง
ทวภาค colon : 1) ใชไขความแทนค าวา "คอ" หรอ "หมายถง" 2)
41
ใชหลงค า "ดงน" "ดงตอไปน" เพอแจกแจงรายการ 3) ใชคนบอกเวลา
ตอ - : 1) ใชแสดงอตราสวนและมาตราสวน 2) ใชแสดงสดสวน 3) ใชแสดงปฏภาค
วภชภาค - :- 1) ใชหลงค า "ดงน" "ดงตอไปน" เพอแจกแจงรายการโดยรายการทตามหลงเครองหมายใหขนยอหนาใหม
ยตภงค hyphen - 1) ใชเขยนไวสดบรรทดเพอตอพยางค ซงจ าเปนตองเขยนแยกบรรทดกนเนองจากเนอทจ ากด 2) ใชเขยนแยกพยางคเพอบอกค าเตมทจ าเปนตองแยกตามฉนทลกษณ 3) ใชแยกพยางคเพอบอกค าอาน 4) ใชแสดงค าทละสวนหนาหรอสวนทายหรอทงสวนหนาและสวนทายของค า 5) ใชในความหมายวา "ถง" เพอแสดงชวงเวลา จ านวน สถานท 6) ใชเขยนแยกกลมตวเลขตามรหสทก าหนดไว เชน เลขบญชธนาคาร 7) ใชกระจายอกษรเพอใหเหนวาค านนประกอบดวยพยญชนะสระและวรรณยกตอะไรบาง
ปรศน question mark
? 1) ใชเขยนทายความหรอประโยคทเปนค าถาม 2) ใชเขยนในเครองหมายวงเลบหลงขอความเพอแสดงความสงสยหรอไมแนใจ
ไปยาลนอยหรอเปยยาลนอย
- ฯ 1) ใชละค า 2) ใชในค า "ฯพณฯ"
ไปยาลใหญหรอเปยยาลใหญ
- ฯลฯ ใชละขอความทอยในประเภทเดยวกน
ไมยมกหรอยมก
- ๆ ใชเขยนหลงค าวล หรอประโยค เพอใหอานซ าอกครง
วงเลบ หรอนขลขต
parenthesis ( ) 1) ใชกนขอความทขยายหรออธบายจากขอความอน 2) ใชขยายความใหชดเจนยงขน 3) ใชกนตวอกษรหรอตวเลขทเปนหวขอยอยอาจใชเพยงวงเลบปดขางเดยวกได
อศเจรย exclamation mark
! 1) ใชเขยนหลงค า วล หรอประโยคทเปนค าอทาน 2) ใชเขยนหลงค าเลยนเสยงธรรมชาต 3) ใชเขยนหลงขอความสน ๆ ทตองการเนน
42
วงเลบเหลยม square brackets
[ ] ใชกบสตรคณตศาสตรการเขยนโปรแกรม สทอกษรสากล
วงเลบปกกา braces { } ใชกบสตรคณตศาสตรการเขยนโปรแกรม วงเลบสามเหลยม
- <> ใชเปนเครองหมายนอยกวาและมากกวาใชในการเขยนโปรแกรม
บพสญญา ditto mark " ใชเขยนแทนค าหรอประโยคทอยในบรรทดบนเพอทจะไมตองเขยนซ าอก
สญประกาศ underscore _ ใชขดเสนใตขอความส าคญหรอขอความทควรสงเกตพเศษ
เสมอภาค equal = ใชเพอแสดงความเทยบเทากบของสงทอยทางซายและขวา
อญประกาศ quotation “ ” ใชกนค าวล หรอขอความทตองการเนนเปนพเศษ สามารถใชไดทงอญประกาศค “ ”หรออญประกาศเดยว ' '
ทบ Slash / 1) ใชเขยนคนระหวางทางเลอก 2) ใชคนตวเลข ยตภาค Dash -- 1) ใชในความหมาย "และ" หรอ "กบ" 2) ใชขยาย
ความขางหนา 3) ใชในความหมายวา "ถง" เชนเดยวกบยตภงค 4) ใชเปนสญลกษณน าหวขอยอยทไมตองการเรยงล าดบ
ตารางท 4.1 แสดงเครองหมายวรรคตอนทใชในภาษาไทย
นอกจากนยงมเครองหมายวรรคตอนอน ๆ อกจ านวนหนงทไมไดแสดงในตาราง เชน #,*, &, @, °, ^ ฯลฯ และเครองหมายวรรคตอบไทยโบราณ เชน โคมตร (๛) องคน (ฯ, ๚, ฯะ, ๚ะ) ฟองมน (๏) ฯลฯ ซงยงพบไดในค าประพนธรอยแกวและรอยกรองบางประเภท
จากเครองหมายวรรคตอนทไดกลาวมาในตารางขางตน พบวาเครองหมายทมการใชมากในงานเขยนภาษาไทย ไดแก จด (.), จลภาค (,), อฒภาค (;), ทวภาค (:), ตอ (-), ยตภงค (-), ไปยาลนอย (ฯ), ไปยาลใหญ (ฯลฯ), ไมยมก (ๆ), วงเลบ, บพสญญา (“), อญประกาศ (“ ”), ทบ (/) และยตภาค (--) ทงนเครองหมายทมกเปนจดเรมตน EDU เสมอ ไดแก วงเลบเปด อญประกาศเปด และยตภาคทท าน าหวขอยอย สวนเครองหมายทมกอยทาย EDU ไดแก วงเลบปด อญประกาศปด และไปยาลใหญ เครองหมายทมกแทรกกลางภายใน EDU ไดแก จด จลภาค ยตภงค ตอ และทบ สวนเครองหมายอน ๆ เปนเครองหมายทสามารถปรากฏไดหลายต าแหนงใน EDU เชน ไมยมกและไปยาลนอย สามารถปรากฏภายในหรอทาย EDU กได จากทกลาวมา ผวจยจงไดใชการปรากฏของเครองหมายวรรคตอนในการชวยระบขอบเขต EDU
43
8) โครงสรางหนวยเดยวกน (Same unit construction)
โครงสรางหนวยเดยวกน หมายถง โครงสราง EDU ทถกแยกออกเปน 2 สวนเนองจากมหนวยอนแทรกกลาง เชน คณานประโยค ขอความในวงเลบ ฯลฯ ทงนทง 2 สวนทถกแทรกยงถอวาเปนโครงสรางหนวยเดยวกน Carlson and Marcu (2001) เรยกปรจเฉทสมพนธระหวางสองสวนทเปนโครงสรางหนวยเดยวกนนวา multinuclear pesudo-relation นนคอเปนความสมพนธเทยมแบบททงสองขางมสถานะเทาเทยมกนยกตวอยางค าภาษาองกฤษในวงเลบดงตวอยาง (24) แทรกกลางระหวางหนวยท 1 และ 3 แบบนถอวาทง 2 หนวยเปนโครงสรางหนวยเดยวกน
ตวอยาง (24) [ตอมาในสมยหลงสมยใหม]1 [(Post-modern)]2 [ไดเกดวรรณกรรมแนวทดลอง] 3
นอกเหนอจากหลกเกณฑการก าหนดขอบเขตอนพากยภาษาไทยทไดกลาวมาขางตนแลว ยงมหลกเกณฑอน ๆ อกท Carlson and Marcu (2001) ไดกลาวถง แตผวจยไมไดน าหลกเกณฑเหลานมาอภปรายและใชก าหนดขอบเขตอนพากยภาษาไทย เพราะเหนวาหลกเกณฑบางอยางองลกษณะทางภาษาของภาษาองกฤษมากเกนไป และไมเหมาะสมกบลกษณะทางภาษาของภาษาไทย ไดแก หนวยสรางทประกอบดวยกรยาในรป gerund หรอ participle เปนตน
44
บทท 5
การแยกอนพากยภาษาไทยดวยแบบจ าลองซพพอรตเวกเตอรแมชชน
ในบทน ผวจยจะกลาวถงระบบการแยกอนพากยภาษาไทยดวยแบบจ าลองซพพอรตเวกเตอรแมชชน ลกษณ (Features) ส าหรบฝกฝนและทดสอบแบบจ าลอง การเตรยมไฟลขอมลส าหรบฝกฝนและทดสอบแบบจ าลอง เคอรเนลฟงกชนและการตงคาพารามเตอร วธการประเมนประสทธภาพของแบบจ าลอง และผลการทดสอบแบบจ าลอง ดงน
5.1 ระบบการแยกอนพากยภาษาไทยดวยแบบจ าลองซพพอรตเวกเตอรแมชชน
การแยกอนพากยภาษาไทยดวยเครองในงานวจยน หมายถง การระบค าขอบเขตเรมตนอนพากยภาษาไทย หรอ EDU โดยการใชแบบจ าลองทางสถตซพพอรตเวกเตอรแมชชน ซงผวจยใชตวแบบจ าลองซพพอรตเวกเตอรแมชชนจากฟงกชน SMO (Sequential Minimal Optimization) ทมอยในโปรแกรมวกา 3.6.10 (Weka 3.6.10) ในสวนของ SMO นน เปนอลกอรทมทพฒนาโดย Platt (1998) ใชในการจ าแนกประเภทขอมลดวยซพพอรตเวกเตอรแมชชน ตวอลกอรทมนไดรบการพฒนาขนเพอแกปญหาการโปรแกรมเชงก าลงสอง (Quadratic programming) ซงเปนปญหาทพบในการจ าแนกประเภททไมเปนเสนตรง (Nonlinear classification) ปญหาทวานกคอปญหาของการหาคาทดทสดส าหรบการแยกขอมลออกเปนประเภทตาง ๆ ตามเปาหมาย
ขนตอนของการแยกอนพากยภาษาไทยดวยแบบจ าลองซพพอรตเวกเตอรแมชชน เรมจากการจดท าคลงขอมลและก ากบหมวดค าในคลงขอมล จากนนน าคลงขอมลฝกฝนไปท าการฝกฝนแบบจ าลองโดยใชตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน เมอสรางแบบจ าลองไดแลวกน าไปทดสอบกบคลงขอมลทดสอบ เพอประเมนประสทธภาพของแบบจ าลอง ส าหรบงานวจยน ผวจยท าการทดลองแบบ 10-fold cross-validation กลาวคอ ไดท าการฝกฝนและทดสอบทงหมด 10 ครง โดยแบงคลงขอมลออกเปน 10 สวน แตละสวนจะถกใชเปนคลงขอมลทดสอบ และอก 9 สวนทเหลอจะถกใชเปนคลงขอมลฝกฝน นนคอผวจยใชคลงขอมลฝกฝน 90 เปอรเซนต และคลงขอมลทดสอบ 10 เปอรเซนต ดวยวธการน ขอมลทกสวนจะไดรบการฝกฝนและทดสอบหมด
5.2 การก าหนดลกษณทใชในการฝกฝนและทดสอบแบบจ าลอง
เนองจากแบบจ าลองซพพอรตเวกเตอรแมชชนเปนแบบจ าลองทางสถตทจ าแนกประเภทขอมลโดยตดสนใจจากลกษณตาง ๆ ทเตรยมเอาไวให การก าหนดลกษณจงมความส าคญและมผลตอการตดสนใจของเครอง ประเภทของลกษณทสามารถใชในฟงกชนการจ าแนกประเภทตาง ๆ ของโปรแกรมวกา ไดแก ลกษณทมสองคา (Binary), ลกษณทมลกษณะเปนการจดประเภทตาง ๆ ทเกดจากการแบงขอมลออกเปนกลม ๆ (Nominal), ตวเลขทแสดงคาตาง ๆ (Numeric), และขอความ
45
(String) ลกษณทใชในงานนมลกษณะเปนลกษณทางภาษา ซงไดจากการพจารณาโครงสรางทางวากยสมพนธของอนพากยในการก าหนดลกษณ ในสวนนจะน าเสนอลกษณะโครงสราง EDU ภาษาไทยในหวขอยอย 5.2.1 และลกษณทใชในการฝกฝนและทดสอบแบบจ าลองในงานนในหวขอยอย 5.2.2
5.2.1 ลกษณะทางโครงสราง EDU ภาษาไทย
โดยทวไปแลว อนพากยและกลมนามวลทขนตนดวยตวเชอมเดนจะใชเปนหนวยพนฐานในการศกษาโครงสรางและความสมพนธภายในปรจเฉท ในทน ผวจยจงแบง EDU ออกเปน 2 ประเภทตามระดบโครงสรางภาษา คอ EDU ทมโครงสรางระดบอนพากย และ EDU ทมโครงสรางต ากวาระดบอนพากย ทงสองประเภทนมรปแบบและองคประกอบของโครงสรางดงน
5.2.1.1 EDU ทมโครงสรางระดบอนพากย
อนพากยทเปน EDU ในทนจะหมายถงเปนอนพากยทมกรยาแทเทานน โดยทวไปแลว อนพากยจะประกอบไปดวยประธานและภาคแสดง (Subject and predicate) หากพจารณาหนวยสรางระดบอนพากย กจะพบวาอนพากยประกอบไปดวยหนวยสรางนามวล (Noun phrase) ในต าแหนงประธาน และกรยาวล (Verb phrase) ซงจะปรากฏในต าแหนงภาคแสดงของอนพากย โดยหนวยสรางกรยาวลเปนหนวยสรางทจ าเปนและขาดไมไดในโครงสรางอนพากย เพราะกรยาวลประกอบไปดวยค ากรยาหลก ซงเปนแกนหลกของโครงสรางอนพากย มหนาทแสดงขอมลเกยวกบประธาน ไดแก การกระท า ลกษณะ สภาวะ และอาการ
ในต าแหนงประธานของอนพากยจะเปนหนวยสรางนามวล ซงมรปแบบโครงสราง Head noun + (Complement) + (Modifier) + (Determiner) โดยท Head noun หมายถง ค านามหลก ซงเปนสวนทส าคญและจ าเปนตองมเสมอ Complement หมายถง สวนเตมเตม ไดแก บพบทวล และอนพากยเตมเตม Modifier หมายถง สวนขยายค านาม ไดแก ค าคณศพท, ค านาม, บพบทวล Determiner หมายถง ตวก าหนด เชน “น”, “เหลาน”, “นน”, “เหลานน” ฯลฯ องคประกอบของนามวลในเครองหมายวงเลบ ไดแก complement, modifier, Determiner หมายถงองคประกอบทสามารถละได
ตวอยางนามวลภาษาไทย (1) “สถานทแหงน” ประกอบไปดวย ค านามหลก “สถานท” + สวนขยาย “แหงน” สามารถแยกองคประกอบและแสดงในรปแผนภมตนไมไดดงน
46
(2) “บานหรของเขาในตางประเทศน” ประกอบไปดวย ค านามหลก “บาน” + สวนขยาย “หร” + สวนเตมเตม “ของเขา” + สวนขยาย “ในตางประเทศ” + ตวก าหนด “น” สามารถแยกองคประกอบและแสดงในรปแผนภมตนไมไดดงน
(3) “ความตองการทจะชวยเหลอผอนน” ประกอบไปดวย ค านามหลก “ความตองการ” + อนพากยเตมเตม “ทจะชวยเหลอผอน” + ตวก าหนด “น” สามารถแยกองคประกอบและแสดงในรปแผนภมตนไมไดดงน
ในสวนของภาคแสดงของอนพากยจะเปนกรยาวล มรปแบบโครงสรางคอ Head verb + (Object) + (Complement) + (Modifier) โดยท Head verb หมายถง ค ากรยาหลก ซงเปนสวนทส าคญและขาดไมได Object หมายถง กรรมของกรยา ซงอาจเปนกรรมตรงหรอกรรมรองขนอยกบลกษณะของกรยา Complement หมายถง สวนเตมเตมกรยา ไดแก บพบทวล และอนพากยเตมเตม Modifier หมายถง สวนขยายค ากรยา ไดแก ค ากรยาวเศษณ และบพบทวล
47
องคประกอบของโครงสรางนามวลในเครองหมายวงเลบไดแก object, complement, modifier หมายถงองคประกอบทละได
ตวอยางกรยาวลภาษาไทย (4) “สญเสยความนยม” ประกอบไปดวย ค ากรยาหลก “สญเสย” + กรรมตรง “ความนยม สามารถแยกองคประกอบและแสดงในรปแผนภมตนไมไดดงน
(5) “อยในวงลอมของครอบครว” ประกอบไปดวย ค ากรยาหลก “อย” + สวนเตมเตม “ในวงลอมของครอบครว” สามารถแยกองคประกอบและแสดงในรปแผนภมตนไมไดดงน
(6) “สามารถพฒนาอตสาหกรรมอยางรวดเรว” ประกอบไปดวย ค ากรยาชวย “สามารถ” + ค ากรยาหลก “พฒนา” + กรรมตรง “อตสาหกรรม” + สวนขยาย “อยางรวดเรว” สามารถแยกองคประกอบและแสดงในรปแผนภมตนไมไดดงน
48
(7) “ตองการเขารวมกจกรรม” ประกอบไปดวย ค ากรยาหลก “ตองการ” + อนพากยเตมเตม “เขารวมกจกรรม” สามารถแยกองคประกอบและแสดงในรปแผนภมตนไมไดดงน
(8) “ตอสชวงชงความหมาย” เปนโครงสรางกรยาเรยง ประกอบไปดวย ค ากรยาหลก “ตอส” + “ชวงชง” + กรรมตรง “ความหมาย” สามารถแยกองคประกอบและแสดงในรปแผนภมตนไมไดดงน
เมออนพากยมากกวาหนงอนพากยประกอบเขาดวยกน กจะไดโครงสรางปรจเฉททใหญขน โดยอาจใชกลวธการเชอมโยงความดวยค าเชอมหรอไมกได โดยค าเชอมจะมหนาทเปนตวเชอมโยงอนพากย และยงสามารถบงบอกถงลกษณะความสมพนธระหวางอนพากยไดดวย ซงอาจเปนความสมพนธแบบสองขางซายขวาเทากนหรอสองขางไมเทากน อกทงยงสามารถชวยระบขอบเขตเรมตนอนพากยไดอกดวย ค าเชอมอนพากย ไดแก อนสนธานซงจะปรากฏหนาอนพากยไมอสระ และค าเชอมสนธานประสานซงจะปรากฏหนาอนพากยอสระ
นอกเหนอจากค าเชอมอนพากยแลว ในกรณคณานประโยค ซงเปนอนพากยทท าหนาทขยายนาม มกจะขนตนดวยตวน าสวนเตมเตม “ท” “ซง” “อน” และกรณอนพากยเตมเตมของกรยา มกจะขนตนดวยตวน าสวนเตมเตม “วา” ดงนนสามารถเรยกค าเชอมและตวน าสวนเตมเตมทปรากฏหนาอนพากยวา ค าบงช (Marker) เพราะเปนค าทสามารถใชบงชขอบเขตอนพากยได
ตวอยางจากคลงขอมล (9) “ซงเรยกวาไมโครเซลล” เปนอนพากยทมรปแบบ ค าบงช “ซง” + ภาคแสดง “เรยกวาโมโครเซลล” (10) “เพราะไดรบอทธพลจากแม” เปนอนพากยทมรปแบบ ค าบงช “เพราะ” + ภาคแสดง
49
“ไดรบอทธพลจากแม” (11) “และเนอหาจากวรรณกรรมท าใหงานจตกรรมของเขาโดดเดน” เปนอนพากยทมรปแบบ ค าบงช “และ” + ประธาน “เนอหาจากวรรณกรรม” + ภาคแสดง “ท าใหงานจตกรรมของเขาโดดเดน”
นอกจากนยงมขอสงเกตประการหนงเกยวกบการประกอบเขาดวยกนของอนพากยกคอ มกจะมการเวนวรรคหรอใชชองวางคนระหวางอนพากย ท าใหสามารถระบขอบเขตอนพากยโดยอาศยการปรากฏของชองวางได โดยเฉพาะในกรณทอนพากยไมไดขนตนดวยค าบงชแตมชองวางปรากฏอยขางหนา ดงนนรปแบบของปรจเฉททเกดจากการเชอมโยงความกนของอนพากยสามารถเปนไดดงน
อนพากยท 1 + (ชองวาง) + (ค าบงช +(ชองวาง)) + อนพากยท 2+ (ชองวาง) + (ค าบงช +(ชองวาง)) + อนพากยท 3
แตอยางไรกตาม ชองวางในภาษาไทยไมไดมหนาทเพยงการเปนตวคนอนพากย ท าใหเกดความก ากวมในการตดสนวาชองวางทปรากฏในขอความเปนชองวางทเปนตวคนอนพากยหรอไม จากการสงเกตการปรากฏของชองวางในคลงขอมล พบวามจ านวนทงหมด 9,938 ครง และพบวาเปนชองวางทคนอนพากยจ านวน 4,606 ครง นนคอเกอบครงของชองวางทงหมดท าหนาทเปนตวคนอนพากย นอกนนท าหนาทอน ๆ เชน คนระหวางค าในรายการค า คนระหวางค าเชอมและอนพากยทตามมา คนระหวางเครองหมายวรรคตอนและขอความ เปนตน
เมอน าชองวางทท าหนาทคนอนพากยจ านวน 4,606 ครงมาพจารณาด โดยอาศยหมวดค ารอบขางชองวางนนประกอบ กพบวาชองวางทเปนตวคนอนพากยมกจะตามมาดวยหมวดค าบางหมวดค า ทพบจ านวนมากทสดคอชองวางแลวตามดวยสนธานประสานหรออนสนธานหรอตวน าสวนเตมเตม รวมกนทงหมดแบงอนพากยจ านวน 2,166 ครง ซงเปนจ านวนเกอบครงของชองวางทเปนตวคนอนพากย แตกไมใชเรองแปลกมากนก เพราะตวเชอมและตวน าสวนเตมเตมนมกปรากฏหนาอนพากย และธรรมเนยมการเขยนภาษาไทยกมกจะเวนวรรคกอนขนตนอนพากยใหม
เมอพจารณาชองวางทท าหนาทคนอนพากยจ านวนทเหลอ คอ 2,440 ครง พบวาชองวางทเปนตวคนอนพากยมกจะตามดวยหมวดค ากรยา กรยาชวย บพบท ค าบอกปฏเสธ กรยาวเศษณ สรรพนาม เครองหมายวรรคตอน และค าบอกจ านวนหนานาม ดงนนความเปนไปไดทชองวางจะเปนตวคนอนพากยอาจสามารถอาศยหมวดค าทตามหลงพจารณาประกอบได
50
5.2.1.2 EDU ทมลกษณะทางโครงสรางตากวาระดบอนพากย
โครงสรางของ EDU ทต ากวาอนพากยและเปนหนวยพนฐานในการศกษาโครงสรางปรจเฉทมเพยงนามวลอยางเดยว ซงจะตองเปนนามวลทตามหลงค าเชอมเดน หรอไมกเปนนามวลทมหนาทในระดบปรจเฉทเทานน
กรณนามวลตามหลงค าเชอม จะตองเปนค าเชอมใดค าเชอมหนงในสองประเภทเทานน คอ ค าเชอมแสดงตวอยาง เชน “เชน” “ตวอยางเชน” “อาท” ฯลฯ และค าเชอมแสดงวตถประสงค ซงมค าเดยวคอ “เพอ” สวนกรณทไมไดน าหนาดวยค าเชอม ตองเปนนามวลทมหนาทในระดบปรจเฉท เชน นามวลทอยในเครองหมายวงเลบ ท าหนาทแสดงขอมลเพมเตมใหกบขอความสวนหนา หรอนามวลทเปนชอหวขอขอ/ชอเรองทปรากฏในบรรทดโดด ๆ ในงานเขยน ซงเปนการแสดงใหเหนวาเนอหาทก าลงจะกลาวถงเปนเรองเกยวกบอะไร ดงนนรปแบบโครงสราง EDU ระดบต ากวาอนพากยไดจงมเพยง 2 รปแบบ คอ
รปแบบท 1 ค าเชอมเดน + นามวลหรอกลมนามวล รปแบบท 2 นามวลทมหนาทในระดบปรจเฉท
ทงน จากการสงเกตขอมลพบวานามวลทเปน EDU มความแตกตางจากนามวลทท าหนาทประธานอนพากยทกลาวไปขางตน คอ มกจะไมพบตวก าหนดทายค านาม นนคอมรปแบบ Head noun + (Complement) + (Modifier) และนอกจากนยงพบวา ในกรณการใชค าเชอมแสดงตวอยาง นามวลทตามหลงค าเชอมมกจะมจ านวนมากกวาหนง และมการใชชองวางคนระหวางนามวลแตละตว และในบางครงพบวามการใชเครองหมายจลภาค (,) คนระหวางนามวลดวย ในกรณทมรายการทเปนตวอยางเปนจ านวนมาก มกจะมการละตวอยางอน ๆ ในกลมเดยวกนโดยการใชเครองหมายไปยานใหญ (ฯลฯ) หรอค ากรยาวเศษณ “เปนตน” ทายตวอยางสดทาย ซงเปนขอบเขตสนสดของ EDU
ตวอยางนามวลทเปน EDU (12) $_เชน คะแนนเสยงในสภา, ค าพพากษาของศาลรฐธรรมนญ, ค าวนจฉยของคณะกรรมการตรวจเงนแผนดน, ลายเซนของส านกงานนโยบายและแผนสงแวดลอม ฯลฯ (13) $_เชน หอก แหลน หลาว ไมตะบอง เปนตน (14) $_กหนยมสนมา$_เพอการตอสคด (15) $_พลวตของความรชาวบานในกระแสโลกาภวตน (ชอบทความ) (16) $_1.1 ความเปนมาและความส าคญของปญหา (ชอหวขอยอยของบทความ)
51
5.2.2 ลกษณทใชในการฝกฝนและทดสอบแบบจ าลอง
หลงจากวเคราะหลกษณะทางโครงสรางของ EDU ภาษาไทยแลว ผวจยจงไดก าหนดรายการตอไปนเปนลกษณทใชในการฝกฝนและทดสอบแบบจ าลอง
1) ประเภทของค า (Parts of speech: POS) เปนขอมลเชงโครงสรางภาษาทมความส าคญตอการแยกอนพากยเปนอยางมาก เนองจากหากมองอนพากยในเชงโครงสรางทางวากยสมพนธแลว กจะพบวาอนพากยประกอบไปดวยการเรยงตวกนอยางเปนระบบของ POS ตาง ๆ ทกลาววามความเปนระบบนนหมายความวา POS ทเรยงตวกนนนจะมการเรยงล าดบการปรากฏรวมกนอยางมแบบแผน เชน ตวก าหนดจะปรากฏหลงค านามเทานน ไมสามารถปรากฏหนาค านามได ดงนน “นโรงเรยน” หรอ “นนการปฏบต” จงเปนการเรยงตวกนทผด และจะไมเกดขนในภาษาทใชกนปกต โดยทวไปแลว อนพากยจะตองมกรยาแทซงเปนกรยาหลกของอนพากย 1 ตว หรอมากกวานนหากเปนโครงสรางกรยาเรยง POS บางประเภทสามารถชวยในการระบของอนพากยได เชน coordinator ซงเปนค าเชอมทจะปรากฏหนาอนพากยเสมอ สามารถใชระบขอบเขตเรมตนอนพากยได
ในการศกษาน ผวจยใช POS เปนลกษณส าหรบใหแบบจ าลองใชในการตดสนใจ ไดแก POS ปจจบนของค าทพจารณาอย (POS-P), POS กอนหนาค าทพจารณา (POS-B) และ POS ทตามหลงค าทพจารณา (POS-A) คาของลกษณ (Feature value) จะเปนแบบ nominal เชน NCNM, DET, CCOR, PREP,… ฯลฯ ซงกคอ POS ของแตละค าทไดก ากบมาแลวในคลงขอมล ตวอยางคาลกษณ POS ของขอมลเปนดงตอไปน
ค า(token) POS-P POS-B POS-A
กจกรรม NCMN SPACE NCMN
นนทนาการ NCMN NCMN PREP
ส าหรบ PREP NCMN NCMN
ชาว NCMN PREP NCMN
ชนบท NCMN NCMN AUX
ควร AUX NCMN AUX
จะ AUX AUX VERB
เนน VERB AUX NCMN ตารางท 5.1 แสดงตวอยางคาลกษณ POS ของคลงขอมล
52
2) รายการค าเชอม (Discourse markers: DM) หมายถงรายการค าทท าหนาทเชอมระดบอนพากยหรอระดบทใหญกวา เชนค าวา “อยางไรกตาม” “และ” “หรอไมก” ฯลฯ นอกจากนยงหมายถง strong marker หรอค าเชอมเดน เชนค าวา “เชน” “ยกตวอยางเชน” “อยางเชน” “ไดแก” ฯลฯ ค าเชอมเหลานท าหนาทเชอมโยงปรจเฉทกอนหนากบกลมของวลทตามหลงค าเชอมเหลาน
ผวจยไดจดท ารายการค าเชอม โดยรวบรวมรายการค าเชอมจากวทยานพนธ เรองหนวยเชอมโยงปรจเฉทภาษาไทยตงแตสมยสโขทยจนถงปจจบน ของเทพ จรสจรงเกยรต (2543) ซงไดศกษาและรวบรวมรายการค าเชอมภาษาไทยตงแตสมยสโขทยจนถงปจจบน โดยแบงค าเชอมออกเปน 2 กลมตามรปภาษา คอ ค าเชอมทมรปเปนค า เชนค าวา “ก” “เพราะ” และค าเชอมทมรปเปนกลมค า เชนค าวา “กเพราะ” “เพราะวา” พบวาค าเชอมทมการใชกนอยในปจจบนมดงตารางตอไปน
ค าเชอมแบบค า ค าเชอมแบบกลมค า ก, เกลอก, กวา, กบ, ครน, คอ, จน, จง, ฉะนน, เชน, ดวย, ดง, โดย, ตอ, ถา, ถง, ทง, ท านอง, เทา, เผอ, เพราะ, เพอ, แมน, แม, เมอ, แล, และ, แลว, ส าหรบ, เหมอน, หรอ, ฤา, หาก, เหต, อนง, กระนนถา, กเพราะ, กเพอ, กบทง, กบอนง, ครนเมอ, จนกระทง, จนกวา
จนถง, ตอเมอ, แตก, แตทวา, แตอยางไรกด, แตอยางไรกตาม, ถาแล, ถาหาก, ถงกระนน, ถงกระนนกด, ถงกระนนถา, ถงมาทวา, ถงแม, เทาเมอ, เพราะฉะนน, เพราะฉะนนก, เพราะดวย, เพราะเหต, เพอส าหรบ, แมกระนน, แลวก, แลวจง, หรออยางไรกด, หากแต, หากทวา, เหตฉะนน, เหตฉะน, เหตดวย, เหมอนเชน, เหมอนอยาง, อกทง, กระนนกตาม, กลาวคอ, กเพราะเหตวา, ขณะท, ขณะนน, ครงตอมา, คอวา, ดวยเปนเพราะ, ดวยเหตท, ดวยเหตวา, ดจหนง, โดยทในขณะเดยวกนก, โดยทในขณะเดยวกนก, ตรงกนขามดวยซ า, ตอนนมา, ตอมา, ตงแต, ตวอยางเชน, แตตรงกนขาม, แตทงนทงนนก, แตทจรง, แตทแทก, แตทแทจรง, แตวา, ถงอยางไร, ทงน, ทง ๆ ท, ทงนคงเนองมาจาก, ทงนดวยเหตผลทวา, ทงนเนองจาก, ท านองเดยวกนกบท, ทจรง, ทจรงก, เทาท, นอกจากน, นนกคอ, เนองจาก, เนองดวย, เนอง
53
ดวยเหตผลทวา, เนองเพราะ, เนองมาจาก, เนองมาแตเมอ, ในขณะเดยวกน, ในขณะท, ในทางตรงกนขาม, ในท านองเดยวกน, ในท านองเดยวกนกบ, ในทสด, ในระหวางนน, บดน, ประการหนง, เปนตนแต, เปนตนวา, เพราะวา, เพราะเหตท, เพราะเหตวา, เพราะอยางนอยก, แมวา, ระหวางน, ราวกบวา, หรอกลาวอกนยหนง, หรอทถกก, หรอมฉะนนอยางสงกวานนขนไป, หรอไมก, หรอวา, หรอวาอกอยางหนง, หรออกนยหนง, หรออกอยางหนง, หากแตวา, เหตดงนน, เหตน, เหมอนดงวา, อยางไรกด, อยางไรกตาม, อนงคอวา, อกประการหนง, อกอยางหนง
ตารางท 5.2 แสดงรายการค าเชอม แบงตามรปภาษา
เนองจากรายการค าเชอมทแสดงในตาราง 5.2 ไมมค าเชอมเดนอยดวย ผวจยจงไดเพมรายการค าเชอมเดนเขาไป เนองจากเปนตวเชอมความทมความหมายบงบอกถงความสมพนธทางปรจเฉท ไดแกค า “เชน” “อาท” “อาทเชน” “อยางเชน” “ตวอยางเชน” “ยกตวอยางเชน” “ไดแก”
ส าหรบลกษณน ผวจยใชคาลกษณแบบ binary คอก าหนดใหมสองคา คอ Y (เปนค าเชอม) และ N (ไมเปนค าเชอม) วธการก าหนดคาของลกษณนท าโดยการเทยบค าในคลงขอมลกบค าในรายการค าเชอมทเตรยมไว หากค าทพจารณาปรากฏอยในรายการค าเชอม กจะมคาเปน Y แตหากไมปรากฏอยในรายการค าเชอม กจะใหคาเปน N
อยางไรกตาม คลงขอมลทใชในงานน เปนคลงขอมลแบบตดค า ดงนนค าเชอมทมรปเปนกลมค า เชนค าวา “เหตฉะน” “ถงแมวา” ฯลฯ จะถกแบงค าเปน “เหต+ฉะน” และ “ถง+แม+วา” หากน าค าวา “เหต” และ “ถง” ไปคนในรายการค าเชอม กจะไมพบ ผวจยจงแกปญหานโดยการเทยบค าในคลงขอมลทละ 4 ค าเรยงตดกน หรอสายของค า 4 ค า (token1|token2|token3|token4) หาก token1 หรอ token1|token2 หรอ token1|token2|token3 หรอ token1|token2|token3|token4 ปรากฏอยในรายการค าเชอม กจะใหค าแรกของค าเชอมนนมคาลกษณเปน Y ค าถดไปทจะน าเทยบกบรายการค าเชอมคอค าทอยถดจาก token สดทายของ
54
ค าเชอม แตถาหากวาค าในรายการเชอมตงแต token1 ไมปรากฏในรายกายค าเชอม กจะให token นนมคาเปน N และใชสายของค า 4 ค าถดจาก token1 เทยบกบรายการค าเชอมตอไป ยกตวอยาง
|ถง|กระนน|ก|ด| |การ|หา|ทาง|ออก|ของ|ปญหา|…
จากตวอยาง จะเทยบสายของค า |ถง|กระนน|ก|ด| กอน และพบวา 4 ค าเรยงกนนพบในรายการค าเชอม จงก าหนดใหมคาลกษณเปน Y ตรง token แรกเทานน คอ |ถง| สวนอก 3 token คอ |กระนน|ก|ด| จะมคาเปน N สายของค าทจะใชเทยบตอไปคอ | |การ|หา|ทาง| และพบวาชองวาง | | ไมพบในรายการค าเชอม จงมคาเปน N สายของค าถดไปทจะใชเทยบคอ |การ|หา|ทาง|ออก| ซงไมพบ |การ| ในรายการค าเชอม จงมคาเปน N สายของค าถดไปทจะใชเทยบคอ |หา|ทาง|ออก|ของ| ซงไมพบ |หา| ในรายการค าเชอม จงมคาเปน N ท าเชนนไปเรอย ๆ กจะไดคาของลกษณของแตละค าดงน
ค า (tokens) DM
ถง Y
กระนน N
ก N
ด N
<s> N
การ N
หา N
ทาง N
ออก N
ของ N
ปญหา N ตารางท 5.3 แสดงตวอยางจากคลงขอมลและลกษณรายการค าเชอม
ทงน ผวจยไมไดใชประโยชนจากระยะหางระหวางค าเชอมค เชน “แม...แต”, “เมอ...จง”, “เพราะ...จง” เปนตน ตามทไดกลาวเอาไวในสมมตฐานวาระยะหางระหวางค าเชอมคจะสามารถชวยในการแยกอนพากยภาษาไทย แตเนองจากเหนวา การก ากบหมวดค า CCOR และ CSUB กสามารถชวยระบขอบเขตเรมตน EDU ไดแลว จงไมมความจ าเปนตองพจารณาระยะหางระหวางค าเชอมคอก
55
3) ชองวาง (Space) แมวาชองวางจะไมไดท าหนาทแบงอนพากยออกจากกนทกครงไป แตเมอพจารณาจากสถตการปรากฏรวมกนของ POS หลงชองวาง หรอ space|POS กจะพบวา POS บางประเภททตามหลงชองวางมโอกาสทจะเปนตวแบงอนพากยมากกวา POS ประเภทอน ดงนนการพจารณา space|POS จงนาจะสามารถบอกไดวาชองวางนนเปนตวแบงอนพากยหรอไม
SPACE|POS เกดรวมกน (ครง) แบงอนพากย
(ครง) คดเปนเปอรเซนต
SPACE SPACE 7 0 0
SPACE CCOR 1074 1066 99.25512104
SPACE FOREIGN 902 19 2.106430155
SPACE VERB 899 380 42.26918799
SPACE CSUB 620 574 92.58064516
SPACE PUNC 1006 495 49.20477137
SPACE NNUM 552 9 1.630434783
SPACE NPRP 631 137 21.71156894
SPACE NCMN 1472 529 35.9375
SPACE CCORIN 342 21 6.140350877
SPACE DET 29 1 3.448275862
SPACE COMPF 527 526 99.81024668
SPACE PREP 543 256 47.14548803
SPACE PFAV 8 2 25
SPACE ADJ 3 0 0
SPACE CSBI 112 35 31.25
SPACE NCLS 110 4 3.636363636
SPACE MNCB 4 0 0
SPACE AUX 296 133 44.93243243
SPACE NEG 51 37 72.54901961
SPACE PT 8 1 12.5
SPACE MNCF 56 32 57.14285714
SPACE PFN 332 119 35.84337349
56
SPACE ADVERB 224 146 65.17857143
SPACE NPRO 127 84 66.14173228
รวม 9935 4606 ตารางท 5.4 แสดงจ านวนครงท POS ตาง ๆ ปรากฏหลงชองวาง และจ านวนครงทชองวาง
จะเปนตวแบงอนพากย
จากตารางดงกลาว พบวาชองวางท าหนาทเปนตวแบงอนพากยทงหมด 4606 ครง โดยชองวางทน าหนา CCOR หรอ space|CCOR ท าหนาทเปนตวแบงอนพากยมากถง 1066 ครง คดเปน 99 เปอรเซนตของ space|CCOR ทเกดรวมกนทงหมด รองลงมาคอ space|CSUB และ space|COMPF โดยชองวางนนเปนตวแบงอนพากยทงหมด 574 และ 526 ครง หรอคดเปน 92 และ 99 เปอรเซนต ตามล าดบ ในขณะท space|SPACE, space|ADJ, space|MNCB เปนคทไมใชตวแบงอนพากยเลย
แตอยางไรกตาม ปรากฏการณทชองวางน าหนาค าเชอมอนพากย CCOR , CSUB และตวน าสวนเตมเตม COMPF แลวชองวางนนท าหนาทเปนตวแบงอนพากย เปนปรากฏการณทปกต เนองจากการเรมอนพากยหรอถอยความใหมโดยมค าเชอมขนตน การใชชองวางคนเปนสงทพบไดทวไปอยแลวในภาษาเขยนภาษาไทย ดงนนจงไมแปลกทจ านวนชองวางตามดวย POS เหลานนจะเปนตวแบงอนพากยมากถง 90 กวาเปอรเซนต
ผวจยไดใชประโยชนจากขอมลดงตารางดงกลาวในการก าหนดคาของลกษณ โดยน าเฉพาะค space|POS ทเกดรวมกนและชองวางนนเปนตวแบงอนพากยมากกวา 40 เปอรเซนตของของการเกด space|POS นน ๆ มาพจารณา นนคอก าหนดใหชองวางทตามดวย POS ไดแก CCOR, VERB, CSUB, PUNC, COMPF, PREP, AUX, NEG, MNCF, ADVERB, NPRO เปนชองวางทมความเปนไปไดทจะท าหนาทเปนตวแบงอนพากย และมผลท าใหค าทม POS เหลานมความเปนไปไดทจะเปนขอบเขตเรมตนอนพากยเชนกน ดงนนผวจยจงก าหนดคาของลกษณเปนแบบสองคา คอ Y และ N โดยค าทพจารณาจะมคาเปน Y เมอค า ๆ นนปรากฏหลงชองวางทมความเปนไปไดทจะเปนตวแบงอนพากย ในขณะทจะมคาเปน N เมอค า ๆ นนไมไดปรากฏหลงชองวางทมความเปนไปไดทจะเปนตวแบงอนพากย ตวอยางคลงขอมลและคาของลกษณเปนดงน
ค า (tokens) Space
<s> N
<w PUNC>(</w> Y
<w FOREGIN>Impressionist</w> N
57
<w PUNC>)</w> N
<s> N
<w VERB>มา</w> Y
<w VERB>ใช</w> N
<w PREP>ใน</w> N
<w NCMN>ลกษณะ</w> N
<w NCMN>ประตมากรรม</w> N ตารางท 5.5 แสดงตวอยางจากคลงขอมลและการก าหนดลกษณชองวาง
จากตารางจะเหนวา เครองหมายวงเลบเปด และค าวา “มา” มคาลกษณเปน Y เนองจากทงสองม POS เปน PUNC และ VERB ตามล าดบ และปรากฏหลงชองวางทมความเปนไปไดทจะเปนตวแบงอนพากย ในขณะทค าอน ๆ มคาเปน N เนองจากไมไดปรากฏหลงชองวาง
4) เครองหมายวรรคตอน (Punctuations) จากการส ารวจคลงขอมล ค าทถกก ากบหมวดค าเปน PUNC หรอเครองหมายวรรคตอนมจ านวนทงหมด 2,665 ครง เครองหมายทสามารถใชชวยระบขอบเขตอนพากยไดมเพยงเครองหมายวงเลบเทานน โดยพบวามเครองหมายวงเลบเปดและวงเลบปดรวมกนได 900 ครง นอกนนเปนเครองหมายวรรคตอนอน ๆ ทมการปรากฏแบบกระจาย คอปรากฏไดหลายต าแหนง ในทนจงก าหนดใหมองเฉพาะเครองหมายวงเลบเปนลกษณเทานน การก าหนดคาของลกษณคอ ก าหนดใหเฉพาะค า หรอ token ทเปนเครองหมายวงเลบเปด และค าถดจากชองวางทปรากฏหลงเครองหมายวงเลบปดมคาลกษณเปน Y คอเปนขอบเขตเรมตนอนพากยนนเอง นอกเหนอจากน ก าหนดใหมคาลกษณเปน N คอเปนค าทไมใชขอบเขตเรมตนอนพากย ตวอยางขอมลและคาของลกษณเปนดงน
ค า (tokens) PUNC
ไบรอน N
แมคเคน N
( Y
BYRON N
<s> N
MCCAIN N
) N
<s> N
58
พอคา Y
ขาย N
มา N ตารางท 5.6 แสดงตวอยางจากคลงขอมลและการก าหนดลกษณเครองหมายวรรคตอน
จากตางราง เครองหมายวงเลบเปด และค าวา “พอคา” มคาเปน Y เนองจากมความเปนไปไดทจะเปนจดเรมตนอนพากย ในขณะทค าอน ๆ มคาเปน N เนองจากไมตรงกบขอก าหนดทไดกลาวมา
5.3 การเตรยมไฟลขอมลส าหรบฝกฝนและทดสอบแบบจ าลอง
ขอมลทตองการจะจ าแนกประเภทโดยโปรแกรมวกาจะตองจดใหอยในรปแบบไฟล CSV (Comma Separated Value) หรอ ARFF (Attribute-Relation File Format) ในทนจะใชไฟลนามสกล ARFF ซงมโครงสรางของไฟลทประกอบไปดวย 2 สวนหลก คอ สวนหว (Header) และชดขอมล (Data)
สวนหวเปนสวนทแสดงรายละเอยดตาง ๆ ของขอมล ประกอบไปดวยชอ relation ซงเปนชอเรยกตารางขอมลเชงสมพนธ สามารถใชชอเรยกอะไรกได ไมมผลตอการตดสนใจของแบบจ าลอง อกสวนหนงคอ attribute ซงจะแสดงชอและประเภทของลกษณ การตงชอ attribute จะตองไมซ ากน สวนประเภทของลกษณจะตองก าหนดใหถกตองตรงตามชดขอมล เชน numeric, string, nominal ฯลฯ ในสวนของ attribute สดทาย จะเปนค าตอบทตองการใหเครองตอบ ไมใชลกษณทตองการใหเครองพจารณา ตวอยางรปแบบของสวนหวจะมลกษณะดงน
@relation weather
@attribute outlook {sunny, overcast, rainy} @attribute temperature numeric @attribute humidity numeric @attribute windy {TRUE, FALSE} @attribute class {yes, no}
ตวอยางดงกลาวน ามาจากงานของ Witten and Frank (2005) แสดงรปแบบไฟลสวนหว ชอเรยกตารางมชอวา weather บรรทดถดมาเปนรายละเอยด attribute หรอลกษณทใชในการจ าแนกประเภท ลกษณแรกมชอวา outlook เปนลกษณประเภท nominal ก าหนดใหมคาของลกษณ 3 แบบ คอ sunny, overcast, rainy ลกษณตอมามชอวา temperature ซงเปนประเภท
59
numeric หรอมคาเปนตวเลข บรรทดสดทายของสวนหวคอค าตอบทตองการใหเครองเลอก ในทนตงชอวา class ก าหนดใหตอบไดเพยง 2 แบบเทานน คอ yes กบ no
ในสวนขอมล จะขนตนดวย @data บรรทดถดมาจะแสดงขอมลแถวละหนงตวอยาง (Instance) แตละตวอยางจะประกอบไปดวยคาของลกษณ เรยงล าดบตาม attribute ของสวนหว แตละคาคนดวยเครองหมายจลภาค (Comma) โดยคาสดทายจะเปนค าตอบเสมอ ตวอยางรปแบบสวนขอมลเปนดงน
@data
sunny, 85, 85, FALSE, no sunny, 80, 90, TRUE, no overcast, 83, 86, FALSE, yes rainy, 70, 96, FALSE, yes rainy, 68, 80, FALSE, yes rainy, 65, 70, TRUE, no overcast, 64, 65, TRUE, yes sunny, 72, 95, FALSE, no sunny, 69, 70, FALSE, yes rainy, 75, 80, FALSE, yes sunny, 75, 70, TRUE, yes overcast, 72, 90, TRUE, yes overcast, 81, 75, FALSE, yes rainy, 71, 91, TRUE, no
ในวทยานพนธน ผวจยใชลกษณในการฝกฝนและทดสอบแบบจ าลองทงหมด 6 ลกษณ ไดแก หมวดค าของค าปจจบน (POS-P) หมวดค ากอนหนา (POS-B) หมวดค าทตามหลง (POS-A) รายการค าเชอมอนพากย (DM) ชองวาง (Space) และเครองหมายวรรคตอน (Punc) โดยมรปแบบค าตอบเปนแบบสองค าตอบ คอ เปนขอบเขตเรมตนอนพากย (Boundary) และไมเปนขอบเขตเรมตนอนพากย (NonBoundary) ในงานนจะไมมค าตอบวาเปนขอบเขตสนสดอนพากย เนองจากเหนวา หากสามารถระบขอบเขตเรมตนไดแลว กจะท าใหเหนขอบเขตขอบของอนพากยแลว นนคอ เมอเครองระบจดใดใหเปนขอบเขตเรมตนแลว จดทอยกอนหนากคอจดสนสดนนเอง จงไมมความจ าเปนทจะตองระบจดสนสดอก
ในการน าขอมลทก ากบในคลงขอมลมาจดเรยงโครงสรางใหมใหเปนไฟล ARFF น ผวจยเขยนโปรแกรมเพอดงขอมลทจะใชเปนลกษณ ขอมลทสามารถดงไดทนท ไดแก POS ของค านน POS
60
ของค ากอนหนา และ POS ของค าทตามหลง สวนลกษณอน ๆ ไดแก ลกษณรายการค าเชอม ลกษณชองวาง และลกษณเครองหมายวรรคตอน จะแทนคาลกษณดวย Y หรอ N หากเขาเงอนไขทก าหนดไวในหวขอการก าหนดลกษณ ซงไดกลาวไปแลวในหวขอกอนหนาน ส าหรบค าทก ากบ <EDU> หรอเปนค าขอบเขตเรมตนอนพากย กจะดงออกมาและใชค าวา Boundary แทน สวนค าทไมไดก ากบ <EDU> กจะดงออกมาและใชค าวา NonBoundary ทง 2 นจะใชเปนค าตอบส าหรบฝกฝนแบบจ าลอง
เมอดงขอมลทกอยางจากคลงขอมลครบแลว กสรางไฟลขนมาใหม ใชเครองหมายจลภาค (,) คนระหวางทกอยางทดงออกมา โดยแตละบรรทดจะประกอบไปดวย POS ของค านน POS ของค ากอนหนา POS ของค าทตามหลง ลกษณรายการค าเชอม ลกษณชองวาง ลกษณเครองหมายวรรคตอน และค าตอบวาเปนขอบเขตเรมตนอนพากยหรอไม ตามล าดบ จากนนเพมสวนหวของไฟล ARFF เขาไป ขอมลไฟล ARFF ทใชในงานน สามารถดเพมเตมไดทภาคผนวก ข
5.4 เคอรเนลฟงกชนและการตงคาพารามเตอร
ในการจ าแนกประเภทขอมลดวยเทคนคซพพอรตเวกเตอรแมชชน จะตองมการเลอกใชเคอรเนลฟงกชน (Kernal Fuction) ซงมใหเลอกใชหลายประเภท ไดแก เคอรเนลแบบเชงเสน (Linear) เคอรเนลแบบโพลโนเมยล (Polynomial) เรเดยลเบสสฟงกชน (Radial Basis Function) เปนตน การเลอกเคอรเนลฟงกชนทเหมาะสม ยอมสงผลตอประสทธภาพของตวจ าแนกประเภท ในงานน ผวจยเลอกใชเคอรเนลแบบโพลโนเมยล ซงมการใชอยางแพรหลายในงานทางดานการประมวลผลภาษาธรรมชาต แมจะใชเวลาในการฝกฝนแบบจ าลองนานกวาเคอรเนลแบบเชงเสน แตกใหผลทดกวา ในขณะทเมอน าไปเปรยบเทยบกบเรเดยลเบสสฟงกชน เคอรเนลแบบโพลโนเมยลใชเวลาในการฝกฝนนอยกวาและใหผลทใกลเคยงกน
นอกจากการเลอกเคอรเนลฟงกชนแลว ยงจ าเปนตองปรบคาพารามเตอรตาง ๆ ใหเหมาะสมเพอเพมประสทธภาพการท างานของแบบจ าลอง พารามเตอรส าคญทเกยวของกบการจ าแนกประเภทดวยเทคนคซพพอรตเวกเตอรแมชชนของฟงกชน SMO ในโปรแกรมวกามดงน
1) คา C (Soft-Margin Constant) เปนคาการควบคมขอผดพลาดทเกดจากการฝกฝนแบบจ าลอง (Training error) การเพมคา C จะท าใหขอผดพลาดของการฝกฝนแบบจ าลองนอยลง แตจะท าใหตวจ าแนกหรอซพพอรตเวกเตอรแมชชนสญเสยคณสมบตทวไป เนองจากคา C ทสงขนจะท าใหเกดการบงคบใหสรางแบบจ าลองทสมบรณทสด นอกจากนยงท าใหตองใชเวลาในการฝกฝนแบบจ าลองนานขนอกดวย ในงานวจยน ผวจยตงคา C เทากบ 1 ซงเปนคา default
61
2) พารามเตอรของเคอรเนล ในงานนใชเคอรเนลแบบโพลโนเมยล คาพารามเตอรทตองปรบคอ คา D (Degree of polynomial kernel) หรอ คา Exponent D การปรบคา D ใหเหมาะสม จะชวยใหแบบจ าลองท างานมประสทธภาพสงสด โดย default ของโปรแกรม คานจะเทากบ 1 ซงจะท าใหไดตวจ าแนกซพพอรตเวกเตอรแบบเชงเสน (Linear SVM) และหากปรบคาพารามเตอรตวนใหมากกวา 1 กจะไดตวจ าแนกซพพอรตเวกเตอรแบบไมเชงเสนแทน (Nonlinear SVM) ในงานนผวจยไดท าการทดสอบพารามเตอรของเคอรเนลเพอหาคาพารามเตอรทเหมาะสมทสด โดยการทดลองครงแรกจะตงคาพารามเตอร D=1 กอน เพอหารปแบบลกษณทสงผลตอประสทธภาพของแบบจ าลองมากทสด จากนนจะน าแบบจ าลองทใชรปแบบลกษณทดทสดมาท าการทดลองกบคาพารามเตอร D=2, D=3 และ D=4 เพอดวาพารามเตอรของเคอรเนลคาใดทจะท าใหผลการทดสอบแบบจ าลองออกมาดทสด ผวจยจะไมท าการทดสอบคา D ทสงกวา 4 เนองจากคาทสงอาจท าใหเกดปญหา overfitting นนคอการทแบบจ าลองมประสทธภาพสงมากเมอใชกบขอมลฝกฝน แตจะมประสทธภาพต าเมอใชกบขอมลทดสอบ นอกจากน การตงคา D สงยงท าใหตองใชเวลาในการฝกฝนแบบจ าลองนานขนอกดวย
5.5 การประเมนประสทธภาพของแบบจ าลอง
การประเมนประสทธภาพของแบบจ าลองท าไดโดยการหาคาความแมนย า (Precision) คาความครบถวน (Recall) และคา F-measure
คาความแมนย า เปนการวดความสามารถของระบบในการขจด token ทไมใชขอบเขตเรมตนอนพากยออกไป โดยแสดงคาออกมาในรปของสดสวนของจ านวนขอบเขตอนพากยทเครองตอบถกตองเมอเปรยบเทยบกบจ านวนของขอบเขตอนพากยทเครองตอบมาทงหมด สามารถค านวณไดจากสมการตอไปน
( เปอรเซนต) (จ านวน ทเครองตอบถก
จ านวน ทเครองตอบทงหมด)
คาความครบถวน เปนการวดความสามารถของระบบในการระบ token ทเปนขอบเขตเรมตนอนพากย โดยแสดงคาออกมาในรปของสดสวนของจ านวนขอบเขตอนพากยทเครองตอบถกตองเมอเปรยบเทยบกบจ านวนขอบเขตอนพากยทมทงหมดในคลงขอมล สามารถค านวณไดจากสมการตอไปน
( เปอรเซนต) (จ านวน ทเครองตอบถก
จ านวน ในคลงขอมลทงหมด)
62
F-measure คอคาทแสดงความสมพนธระหวางคาความแมนย าและคาความครบถวน เพอหาคาความถกตองโดยรวม สามารถค านวณไดจากสมการตอไปน
( เปอรเซนต) (
)
ในงานน ผวจยไดประเมนประสทธภาพของการระบขอบเขตเรมตนอนพากยภาษาไทยดวยแบบจ าลองซพพอรตเวกเตอรแมชชนทใชกบคลงขอมลทดสอบ มการทดสอบทงหมด 10 ครง และรายงานผลการทดสอบแตละครงโดยใชคาความแมนย า คาความครบถวน และ F-measure ตามทไดกลาวมา ผลการทดสอบจะไดกลาวถงในล าดบตอไป
5.6 ผลการทดสอบ
ในการทดสอบการท างานของแบบจ าลองซพพอรตเวกเตอรแมชชนทใชในการระบขอบเขตหรอจดเรมตนของอนพากย ผวจยไดทดลองใชลกษณรปแบบตาง ๆ รวมกน แลวน าแตละรปแบบไปทดสอบทงหมด 10 ครง และเปรยบเทยบผลการทดสอบ เพอดวาลกษณใดบางทสงผลตอประสทธภาพของแบบจ าลอง โดยตงคาพารามเตอร C=1 และ D=1 หลงจากไดผลการทดลองออกมาแลว ผวจยจะเลอกรปแบบของลกษณทไดผลการทดสอบออกมาทสดมาท าการทดลองอกครงกบคาพารามเตอร D= 2, D=3 และ D=4 ตามล าดบ เพอดวาการปรบคา D ของเคอรเนลโพลโนเมยลจะสงผลตอประสทธภาพแบบจ าลองไดมากนอยเพยงใด ในสวนของรปแบบตาง ๆ ของลกษณ มดงตอไปน
รปแบบท 1 ใชลกษณเดยว คอ POS ของค า รปแบบท 2 ใช 3 ลกษณ ไดแก POS ของค า, POS ค ากอนหนา และ POS ค าตามหลง รปแบบท 3 ใช 4 ลกษณ ไดแก POS ของค า, POS ค ากอนหนา, POS ค าตามหลง และค าเชอม รปแบบท 4 ใช 4 ลกษณ ไดแก POS ของค า, POS ค ากอนหนา, POS ค าตามหลง และชองวาง รปแบบท 5 ใช 4 ลกษณ ไดแก POS ของค า, POS ค ากอนหนา, POS ค าตามหลง และเครองหมายวรรคตอน
รปแบบท 6 ใช 6 ลกษณ ไดแก POS ของค า, POS ค ากอนหนา, และ POS ค าตามหลง, Discourse Marker, Space, Punctuation
63
ในการทดสอบรปแบบลกษณตาง ๆ ผวจยก าหนดใหรปแบบลกษณท 1 เปนการใชลกษณเพยงลกษณเดยว คอ POS ของค า รปแบบท 2 เปนการด POS ของค าทอยขางหนาและขางหลงรวมดวย สวนลกษณรปแบบท 3–6 เปนการใชลกษณทางภาษาศาสตรตาง ๆ รวมกบการใช POS ของ 3 ค า เพอทจะไดเหนวาลกษณเหลานนชวยเพมประสทธภาพใหกบแบบจ าลองหรอไม
5.6.1 ผลการทดสอบของลกษณรปแบบตาง ๆ ของลกษณ พารามเตอร C=1 และ D=1
รปแบบลกษณในแบบตาง ๆ จะไดรบการทดสอบรปแบบละ 10 ครง ทกสวนของขอมลจะถกใชเปนขอมลทดสอบซงคดเปน 10 เปอรเซนตของคลงขอมลทงหมด ประเมนผลการทดสอบโดยการค านวณคาความแมนย า คาความครบถวน และคา F-measure ผลการทดสอบเปนดงตาราง 5.7–5.13
ครงท 1 2 3 4 5 6 7 8 9 10 mean
P 87.6 91.4 92.8 91.3 94.8 91.6 92.7 94.9 88.8 94.7 92.06
R 50.7 40.4 66.6 63.4 70.6 61.5 50.9 53.3 59.5 57.4 57.43
F 64.3 56 77.5 74.9 80.9 73.6 65.7 68.3 71.3 71.5 70.4
จ านวน 461 319 461 420 478 523 416 505 531 496 461 ตารางท 5.7 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงท
แบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 1 (POS-P)
ครงท 1 2 3 4 5 6 7 8 9 10 mean
P 94.6 96.2 96.1 95.3 98 96.1 97.7 96.1 94.8 98.9 96.38
R 56.1 55.1 70.4 70.7 80.2 72.2 56.6 59.8 61 61.9 64.4
F 70.4 70 81.2 81.2 88.2 82.4 71.7 73.7 74.2 76.2 76.92
จ านวน 510 435 487 468 543 614 463 566 544 535 516.5 ตารางท 5.8 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงท
แบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 2 (POS-P, POS-B, POS-A)
64
ครงท 1 2 3 4 5 6 7 8 9 10 mean
P 97.5 97.8 97.4 97.2 98.3 97.9 79.8 99.3 98.9 98.4 96.25
R 56.4 55.2 70.7 73.3 83.2 75.6 59.8 65.2 61.1 60.8 66.13
F 71.5 70.6 81.9 83.5 90.1 75.6 74.2 78.7 75.5 75.1 77.67
จ านวน 513 436 489 485 563 643 566 563 545 497 530 ตารางท 5.9 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงท
แบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 3 (POS-P, POS-B, POS-A, DM)
ครงท 1 2 3 4 5 6 7 8 9 10 mean
P 94.6 96.2 96.1 95.3 98 96.1 97.7 96.1 94.8 98.9 96.38
R 56.1 55.1 70.4 70.7 80.2 72.2 56.6 59.8 61 61.9 64.4
F 70.4 70 81.2 81.2 88.2 82.4 71.7 73.7 74.2 76.2 76.92
จ านวน 510 435 487 468 543 614 463 566 544 535 516.5 ตารางท 5.10 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงท
แบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 4 (POS-P, POS-B, POS-A, Space)
ครงท 1 2 3 4 5 6 7 8 9 10 mean
P 94.9 95.9 96.1 95.5 98.1 96.3 97.7 96.3 94.9 98.9 96.46
R 59.2 62 71.5 73.4 83 77.2 57.3 66.8 64.3 65 67.97
F 72.9 75.3 82 83 89.9 85.7 72.3 78.9 76.7 78.5 79.52
จ านวน 538 490 495 486 562 657 469 633 574 562 546.6 ตารางท 5.11 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงท
แบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 5 (POS-P, POS-B, POS-A, Punc)
65
ครงท 1 2 3 4 5 6 7 8 9 10 mean
P 97.7 97.2 97.5 97.3 98.3 98 98.4 97.8 98.8 99.3 98.03
R 59.5 62.2 71.8 76 85.8 80.4 61.5 66.8 64.5 68.3 69.68
F 74 75.8 82.7 85.3 91.6 88.3 75.7 79.4 78 80.9 81.17
จ านวน 541 491 497 503 581 684 503 633 575 590 559.8 ตารางท 5.12 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงท
แบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 6 (POS-P, POS-B, POS-A, DM, Space, Punc)
รปแบบ 1 รปแบบ 2 รปแบบ 3 รปแบบ 4 รปแบบ 5 รปแบบ 6
P 92.06 96.38 96.25 96.38 96.46 98.03
R 57.43 64.4 66.13 64.4 67.97 69.68
F 70.4 76.92 77.67 76.92 79.52 81.17
จ านวน 461 516.5 530 516.5 546.6 559.8
ตารางท 5.13 แสดงคาเฉลยของผลการทดสอบแบบจ าลองทใชลกษณรปแบบท 1 - 6 ในการฝกฝนและทดสอบ ประกอบไปดวยคาความแมนย า คาความครบถวน F-measure และจ านวนครงทแบบจ าลองระบขอบเขต EDU ไดถกตอง
จากตาราง 5.7 ทรายงานผลการทดสอบ 10 ครงของแบบจ าลองทฝกฝนดวยลกษณรปแบบท 1 ซงเปนการใชหมวดค าของแตละค าเพยงอยางเดยว พบวาค านวณคาความแมนย าออกมาไดคอนขางสง คออยระหวาง 94.1–97.7 เปอรเซนต แสดงใหเหนวาค าทถกดงออกมาสวนใหญจะเปนค าขอบเขตเรมตนทถกตอง มทผดพลาดประมาณ 3-6 เปอรเซนตเทานน สวนคาความครบถวนค านวณไดประมาณ 40.4–70.6 เปอรเซนต แสดงใหเหนวาแบบจ าลองยงไมมความสามารถทจะดงค าในคลงทดสอบทเปนขอบเขตเรมตน EDU ไดมากนก สงผลใหค านวณคา F-measure ออกมาไดระหวาง 56–80.9 เปอรเซนต หรอเฉลยได 70.4 เปอรเซนต
เมอทดสอบแบบจ าลองทใชลกษณรปแบบท 2 ซงเปนการเพมหมวดค าของค าขางเคยงเขาไป ไดแก หมวดค ากอนหนาและหมวดค าทตามหลง กจะไดผลการทดสอบดงตารางท 5.8 ซงพบวาแบบจ าลองสามารถตดสนใจไดดยงขน ค านวณคาความแมนย า คาความครบถวน และคา F-measure ไดมากกวาการใชลกษณรปแบบแรก แตยงถอวาไดคาความครบถวนทไมสงมาก ดงจะเหนไดวา ผลการทดสอบจ านวน 6 ครง ไดคาความครบถวนระหวาง 55.1–61.9 เปอรเซนต และสงผลให
66
คาความแมนย าเฉลยแลวไดเพยง 64.4 เปอรเซนต แสดงวาแบบจ าลองทใชลกษณรปแบบนยงไมสามารถดงค าทถกตองจากคลงขอมลไดมากนก
สวนลกษณรปแบบท 3 ไดผลการทดสอบดงตารางท 5.9 เปนการใชลกษณรายการค าเชอมรวมกบลกษณหมวดค าของ 3 ค า พบวาไดคาความแมนย าทคอนขางสง คออยระหวาง 97.2–99.3 เปอรเซนต คาความครบถวนสงกวาการใชลกษณ 2 แบบแรกเลกนอย คออยระหวาง 55.2–83.2 เปอรเซนต แสดงวาแบบจ าลองมความสามารถในการดงค าขอบเขตเรมตน EDU ทถกตองจากคลงขอมลเพมขนเลกนอยเทานน อยางไรกตามภาพรวมของแบบจ าลองทใชลกษณรปแบบนมประสทธภาพทสงกวาการใชลกษณรปแบบท 2 เลกนอย ซงเหนไดจากคา F-measure ทวดเฉลยแลวได 77.67 เปอรเซนต หรอเพมขนไมถง 1 เปอรเซนต
ส าหรบลกษณรปแบบท 4 ไดผลการทดสอบดงตารางท 5.10 เปนการใชลกษณชองวางรวมกบลกษณหมวดค าของ 3 ค า พบวาวดคาความแมนย า คาความครบถวน และคา F-measure ไดเทากนกบลกษณรปแบบท 2 คอได 96.38, 64.4 และ 76.92 เปอรเซนตตามล าดบ แสดงวาการใชลกษณชองวางรวมกนกบลกษณหมวดค าของค า 3 ค าไมไดชวยเพมประสทธภาพของแบบจ าลองเลยแมแตนอย อยางไรกตามลกษณชองวางกลบมบทบาทชวยเพมประสทธภาพการตดสนใจของแบบจ าลองได หากปรบคาพารามเตอรเคอรเนลใหสงขน ซงประเดนนจะอภปรายตอไปในบทท 6
เมอทดสอบแบบจ าลองทฝกฝนดวยลกษณรปแบบท 5 ไดผลการทดสอบดงตารางท 5.11 ลกษณรปแบบท 5 นเปนการใชลกษณเครองหมายวรรคตอนรวมกบลกษณหมวดค าของ 3 ค า กพบวาค านวณคาความแมนย าไดใกลเคยงกบการใชลกษณหมวดค าของ 3 ค า คอเฉลยได 96.46 เปอรเซนต แตไดคาความครบถวนเฉลย 67.97 เปอรเซนต ซงเพมขนประมาณ 4 เปอรเซนต และค านวณคา F-measure เฉลยได 79.52 เปอรเซนต
ส าหรบแบบจ าลองทฝกฝนดวยลกษณรปแบบท 6 ซงประกอบไปดวยลกษณหมวดค าปจจบน หมวดค ากอนหนา หมวดค าตามหลง รายการค าเชอม ชองวาง และเครองหมายวรรคตอน ผลการทดสอบเปนดงตารางท 5.12 พบวาการรวมทกลกษณเขาดวยกน ท าใหแบบจ าลองมประสทธภาพมากทสด กลาวคอ ค านวณคาความแมนย าได 97.2–99.3 เปอรเซนต คาความครบถวนอยระหวาง 59.5–85.8 เปอรเซนต และค านวณคา F-measure เฉลยได 81.17 เปอรเซนต ซงถอวาสงกวาแบบจ าลองทใชลกษณรปแบบอน ๆ ประมาณ 2-11เปอรเซนต
5.6.2 ผลการทดสอบทปรบคาพารามเตอร C=1 และ D=2, D=3, D=4
จากการประเมนประสทธภาพของแบบจ าลองทฝกฝนและทดสอบดวยลกษณรปแบบตาง ๆ จะพบวาการใชลกษณรปแบบท 6 ซงประกอบไปดวยลกษณ POS ของค าปจจบน, POS ของค ากอน
67
หนา, POS ของค าหลง, รายการค าเชอมอนพากย, ชองวาง, และเครองหมายวรรคตอน เปนรปแบบของลกษณทท าใหแบบจ าลองมประสทธภาพสงสด ทงนเปนการฝกฝนและทดสอบแบบจ าลองโดยใชตวจ าแนกประเภทซพพอรตเวกเตอรแมชชนทตงคาพารามเตอรของเคอรเนลโพลโนเมยล D=1 ดงนนผวจยจงน าลกษณเหลานไปทดสอบตอ เพอหาคาพารามเตอรของเคอรเนลทเหมาะสมตอไป เนองจากการใชคาพารามเตอรของเคอรเนลทเหมาะสม จะสงผลตอประสทธภาพการตดสนใจของแบบจ าลอง ในการทดสอบน ผวจยจะปรบคาพารามเตอรจากเดม D=1 เปน D=2, D=3 และ D=4 สวนคา C ยงใชคาเดม คอ C=1 ท าการทดสอบทงหมด 10 ครง ผลการทดสอบเปนดงตารางตอไปน
ครงท 1 2 3 4 5 6 7 8 9 10 mean
P 92.1 91 89.9 89.3 91.7 92.4 90.3 97.8 92.2 93 91.97
R 71.7 74.2 78.6 80.8 88.3 85.5 77.4 66.8 75.1 77.1 77.55
F 80.6 81.7 83.9 84.9 90 88.8 83.3 79.4 82.8 84.3 83.97
B 652 586 544 535 598 728 633 633 670 666 624.5 ตารางท 5.14 แสดงคาเฉลยของผลการทดสอบทงหมด 10 ครง ทมการปรบคาพารามเตอร
ของเคอรเนล D=2 ใหกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน
ครงท 1 2 3 4 5 6 7 8 9 10 mean
P 91.7 91.8 89.8 89.6 92.5 93.6 91.9 92.3 91.4 92.1 91.67
R 73.8 73.4 77.9 81.7 87.9 85.7 77.4 77 75.1 78.5 78.84
F 81.8 81.6 83.4 85.5 90.2 89.4 84 83.9 82.5 84.7 84.7
B 671 580 539 541 595 729 633 729 670 678 636.5 ตารางท 5.15 แสดงคาเฉลยของผลการทดสอบทงหมด 10 ครง ทมการปรบคาพารามเตอร
ของเคอรเนล D=3 ใหกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน
68
ครงท 1 2 3 4 5 6 7 8 9 10 mean
P 91.7 92.4 89.8 90 92.5 93.6 91.9 92.7 91.7 93.4 91.97
R 73.7 73.4 77.9 81.7 87.9 85.8 77.4 76.7 75.1 77.3 78.69
F 81.7 81.8 83.4 85.7 90.2 89.5 84 83.9 82.6 84.6 84.74
B 670 580 539 541 595 730 633 726 670 668 635.2 ตารางท 5.16 แสดงคาเฉลยของผลการทดสอบทงหมด 10 ครง ทมการปรบคาพารามเตอร
ของเคอรเนล D=4 ใหกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน
D=1 D=2 D=3 D=4
P 98.03 91.97 91.67 91.97
R 69.68 77.55 78.84 78.69
F 81.17 83.97 84.70 84.74 ตารางท 5.17 สรปคาเฉลยของผลการทดสอบทงหมด 10 ครง ทมการปรบคาพารามเตอร
ของเคอรเนลตาง ๆ ใหกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน
จากตาราง 5.14 ซงปรบคาพารามเตอร D=2 เมอทดสอบแบบจ าลองทฝกฝนดวยลกษณรปแบบท 6 นนคอใชทกลกษณรวมกน ทดสอบทงหมด 10 ครง ค านวณคาความแมนย าออกมาไดไมต ากวา 90 เปอรเซนตทกครง ความครบถวนค านวณไดต ากวา 70 เปอรเซนตแคครงเดยว คอในการทดสอบครงท 8 นอกนนวดคาไดระหวาง 71.1–88.3 เปอรเซนต คาความครบถวนนชใหเหนวาแบบจ าลองสามารถดงค าขอบเขตเรมตน EDU จากคลงขอมลไดถกตองจ านวนมากขน เมอเปรยบเทยบกบการทดสอบแบบจ าลองทปรบคาพารามเตอร D=1 สวนคา F-measure เฉลยวดได 83.97 เปอรเซนต ซงสงกวาการปรบคาพารามเตอร D=1 เชนกน
สวนการปรบคาพารามเตอร D=3 ไดผลการทดสอบ 10 ครงดงตาราง 5.15 ซงแสดงใหเหนวาแบบจ าลองระบขอบเขตเรมตน EDU ไดผลดยงขน ดงจะเหนไดจากคาเฉลย F-measure ทสงกวาการปรบ D=1 และ D=2 คอวดได 84.70 เปอรเซนต แมวาคาความแมนย าจะตกลงมาเลกนอย นนคออยระหวาง 89.6–92.5 เปอรเซนต แตวดคาความครบถวนไดมากขนเลกนอย คอเฉลยได 78.84 เปอรเซนต โดยรวมแลว แบบจ าลองนสามารถดงค าขอบเขตเรมตน EDU จากคลงขอมลไดถกตองเพมขนเลกนอย เมอเปรยบเทยบกบแบบจ าลองทปรบคาพารามเตอร D=2
ส าหรบการปรบคาพารามเตอร D=4 นน ไดผลการทดสอบ 10 ครงดงตาราง 5.16 พบวาค านวณคาความแมนย า คาความครบถวน และคา F-measure ไดสงกวาการปรบ D=3 เพยง
69
เลกนอยเทานน นนคอวดคาเฉลยได 91.97, 78.69 และ 84.74 เปอรเซนตตามล าดบ เมอเปรยบเทยบผลการทดสอบ 10 ครงของแบบจ าลองทปรบคา D=4 และ D=3 แลว จะเหนวาแตละครงททดสอบจะไดผลการทดสอบใกลเคยงกนทกครง แสดงใหเหนวา มความเปนไปไดวา หากมการปรบคาพารามเตอรของเคอรเนลใหสงไปมากกวาน กอาจจะไมท าใหไดผลทดขนมากแลว
โดยสรปแลวจะเหนไดวา การปรบคาพารามเตอรของเคอรเนลใหสงขน สงผลใหตวจ าแนกประเภทซพพอรตเวกเตอรแมชชนมประสทธภาพสงขนตามไปดวย ทงน การปรบคาพารามเตอรของเคอรเนลแบบโพลโนเมยลมากกวา 1 จะท าใหไดตวจ าแนกประเภทซพพอรตเวกเตอรแมชชนแบบไมเชงเสน หรอ nonlinear SVM และการปรบคาใหเทากบ 1 จะไดซพพอรตเวกเตอรแมชชนแบบเชงเสน หรอ linear SVM ซงเมอพจารณาผลการทดสอบดงตารางขางตนกจะพบวาตวจ าแนกประเภท nonlinear SVM มประสทธภาพในการระบขอบเขตเรมตนอนพากยมากกวา linear SVM
นอกจากน ผวจยมความเหนวา การปรบคาพารามเตอร D=2, D=3 และ D=4 ใหผลทคอนขางใกลเคยงกน คอวดคา F-measure ได 83.97, 84.70 และ 84.74 เปอรเซนต ตามล าดบ โดยการปรบคา D=2 จะใชเวลาในการฝกฝนแบบจ าลองทนอยกวา ในขณะทการปรบคา D=4 ใชเวลามากทสด ดงนนผวจยจงคดวาคาพารามเตอรทเหมาะสมทสดส าหรบการทดลองนควรจะอยท D=3 เพราะนอกจากจะใชเวลาในการฝกฝนแบบจ าลองไมมากนก ยงไดผลการทดสอบทวดคาออกมาแลวไดสงกวาคา D=2 และในขณะเดยวกนกใกลเคยงมากกบการใชคา D=4 อกดวย
จากทไดกลาวมาทงหมดน ชใหเหนวาการใช POS ของ 3 ค าตดกน หรอ POS-B|POS-P|POS-A รวมกบรายการค าเชอม ชองวางทมความเปนไปไดทจะเปนตวแบงขอบเขตอนพากย และเครองหมายวรรคตอนทมกจะอยหวและทายอนพากย เหลานสามารถชวยฝกฝนแบบจ าลองส าหรบใชระบขอบเขตเรมตนอนพากยภาษาไทยได นอกจากเรองลกษณแลว การปรบคาพารามเตอรของเคอรเนลทใชกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชนกสามารถชวยเพมประสทธภาพของแบบจ าลองไดเปนอยางด อยางไรกตามการใชคาพารามเตอรทสงมาก ๆ อาจสงผลเสยตอแบบจ าลองได เพราะอาจจะมความเสยงทจะเกดปญหา overfitting หรอปญหาการมประสทธภาพในการฝกฝนแบบจ าลองทดเยยม แตเมอน าไปใชกบคลงขอมลทดสอบ กลบใหผลการทดสอบทแย อกทงยงท าใหตองใชเวลานานเกนไปในการฝกฝนแบบจ าลองอกดวย
70
บทท 6
ลกษณทางภาษาทมผลตอประสทธภาพของแบบจ าลอง
เนองจากการใชตวจ าแนกซพพอรตเวกเตอรแมชชนตองอาศยลกษณ ในการฝกฝนแบบจ าลอง การใชลกษณทเหมาะสมจงเปนการชวยเพมประสทธภาพของตวจ าแนก ในบทน ผวจยจะอภปรายประสทธภาพของลกษณทางภาษาทใชในการฝกฝนแบบจ าลองส าหรบระบค าขอบเขตเรมตน EDU และประสทธภาพของแบบจ าลองเมอมการปรบคาพารามเตอรของเคอรเนลใหสงขน
6.1 ประสทธภาพของลกษณทางภาษาทใช
จากรปแบบโครงสรางอนพากยและนามวลทเปน EDU ทไดกลาวถงไปแลวในบทกอนหนา น ามาสการก าหนดลกษณทางภาษาส าหรบใชในการฝกฝนแบบจ าลอง ไดแก การใชหมวดค า การใชรายการค าเชอม การใชความนาจะเปนทชองวางจะเปนตวแบงอนพากย และการใชเครองหมายวรรคตอนมกปรากฏในต าแหนงทเปนขอบเขต EDU ลกษณแตละตวมบทบาทในการชวยระบขอบเขตเรมตน EDU ในระดบทแตกตางกนออกไป ประสทธภาพของลกษณทจะอภปรายในหวขอน ผวจยไดวเคราะหจากการพจารณาผลการทดสอบแบบจ าลองทมการปรบคาพารามเตอรไวต าสด ซงเปนคา default ของโปรแกรม รายละเอยดมดงตอไปน
6.1.1 หมวดค า
เมอพจารณาโครงสรางภายในของอนพากย ซงประกอบไปดวยหนวยสรางนามวลในต าแหนงประธานตามดวยหนวยสรางกรยาวลในต าแหนงภาคแสดง กจะพบวามการเรยงตวกนของหมวดค าตาง ๆ (POS sequence) เชนขอความจากคลงขอมล “แวน โกะห กไดน าเกาอถกสเหลองทเคยวางแจกนใบนนมาเปนแบบ” มการเรยงล าดบหมวดค าคอ NPRP-NPRP-CSBI-AUX-VERB-NCMN-VERB-ADJ-COMPF-AUX-VERB-NCMN-NCLS-DET-VERB-VERB-NCMN ทงนการเรยงตวกนของหมวดค าของอนพากยมกจะปรากฏเปนรปแบบ (Pattern) ทซ า ๆ กน เชนรปแบบ นาม+ค าปฏเสธ+กรยา+นาม เปนตน ดงนนการก ากบหมวดค าในคลงขอมลจงมประโยชนตอการแยกอนพากยอยางมาก เพราะนอกจากจะสามารถชวยแยกความก ากวมของค าไดแลว เชนค าวา “ปาย” เปนไดทงค านามและกรยา สายของหมวดค าทเรยงกนยงชวยท าใหเหนโครงสรางทางวากยสมพนธอกดวย ดงเชนตวอยางทกลาวไปแลวขางตน
ในเบองตน ผวจยไดท าการทดสอบแบบจ าลองโดยใชลกษณหมวดค าเพยงลกษณเดยวกอน ผลจากการทดสอบ พบวาสามารถระบค าขอบเขตเรมตน EDU ไดมากกวาครงหนงของ EDU ทงหมดในคลงขอมลทดสอบ EDU สวนใหญทแบบจ าลองระบขอบเขตเรมตนไดถกตองจะเปน EDU ทน าหนาดวยค าบงช ไดแก ค าเชอมและตวน าสวนเตมเตม ความผดพลาดทเกดขนสวนใหญเกดจาก
71
การไมสามารถระบขอบเขตอนพากยทมชองวางปรากฏดานหนาและไมมค าบงชอนพากยขนตน เชน “$_ซงเปนผชวยแมบาน<s>$_จอรจเลาเรองนใหมชโยะฟง” ประกอบไปดวยขอบเขตเรมตน EDU 2 แหง คอตรงค าวา “ซง” และ “จอรจ” เครองหมาย <s> แสดงการใชชองวาง และเครองหมาย $_ แสดงขอบเขตเรมตน EDU ในขอความน แบบจ าลองไมสามารถระบค าขอบเขตเรมตน EDU ท 2 ได ดงนนจงเปน “$_ซงเปนผชวยแมบาน<s>จอรจเลาเรองนใหมชโยะฟง” ทงนเกดจากการทแบบจ าลองมองเหนเพยงหมวดค าของค าของทก าลงพจารณาเทานน ไมไดพจารณาหมวดค ารอบขาง ท าใหแบบจ าลองไมสามารถตดสนใจไดในกรณทเปน token ขอบเขตเรมตน EDU ทมชองวางดานหนาได จากตวอยางดงกลาวจงเหนไดวา แบบจ าลองไมสามารถระบใหค า “จอรจ” เปนค าขอบเขตเรมตน EDU ใหมได เพราะแบบจ าลองไมไดสนใจวา “จอรจ” ปรากฏตดกบชองวางดานหนาหรอไม
นอกจากนแบบจ าลองยงไมสามารถระบค าขอบเขตเรมตน EDU ทไมมค าบงชน าหนา และเปน EDU ทตดกบ EDU กอนหนาโดยไมมชองวางคน เชน “$_ส านกทางจรยธรรมบางอยาง$_ทเคยมมาเมอกอนสมยใหมในญปนนน$_จางหายไป” มทงหมด 3 EDU แตแบบจ าลองระบขอบเขตเรมตนไดเพยง 2 แหงเทานน คอ “$_ส านกทางจรยธรรมบางอยาง$_ทเคยมมาเมอกอนสมยใหมในญปนนนจางหายไป”
ส าหรบ EDU ทขนตนดวยเครองหมายวงเลบเปด พบวา การใช POS ของ 3 ค า สามารถระบวงเลบเปดเหลานใหเปนขอบเขตเรมตน EDU ไดเปนจ านวนมาก แตส าหรบค าในต าแหนงหลงวงเลบปด ซงควรจะตองไดรบการระบใหเปนขอบเขตเรมตน EDU ดวย แบบจ าลองกลบไมสามารถตดสนใจไดถกตอง ดงนนควรตองมการใชลกษณอนชวยเพอแกปญหาตรงน ในงานน ผวจยจงมการใชลกษณเครองหมายวรรคตอนในการแกปญหาน ซงจะไดกลาวถงตอไปในเรองของลกษณเครองหมายวรรคตอน
อกประเดนคอค าเชอมทมลกษณะเปนวลซงจะถกแยกออกเปนหลาย token เชน “แตเมอ” ถกแยกเปน แต|เมอ และแตละ token กจะม POS ประจ าค า ในทน “แต” ถกก ากบใหเปนค าเชอม CCOR และ “เมอ” ก ากบใหเปนค าเชอม CSUB แบบจ าลองจะมองวาทง 2 ค านสามารถเปนขอบเขตเรมตน EDU ได จงระบทงคเปนค าขอบเขตเรมตน เชน “$_แตเมอปรบตวโดยปราศจากฐานคด” มจดเรมตน EDU ตรงค าวา “แต” เพยงแหงเดยว แตแบบจ าลองระบขอบเขตเรมตน EDU ถง 2 แหงดวยกน คอ “$_แต$_เมอปรบตวโดยปราศจากฐานคด”
ทงหมดนคอปญหาของการใหแบบจ าลองมอง POS ประจ าค าเพยงอยางเดยวโดยไมอาศยบรบทรอบขาง ท าใหแบบจ าลองตดสนใจโดยดความเปนไปไดของขอมลทฝกฝนทงหมด ซงจะพบวาค าบงชตาง ๆ มกเปนขอบเขตเรมตน EDU เสมอ ดงนนทกครงทแบบจ าลองพบค าบงชกจะระบให
72
เปนขอบเขตเรมตน EDU และถาค าไหนไมใชค าบงช กจะตดสนใจไมใหค านนเปนขอบเขตเรมตน EDU
ทงน ความผดพลาดเรองค าเชอมทมเปนรปแบบวลและม POS เปน CCOR และ CSUB ไดรบการแกไขเมอใชลกษณหมวดค าของ 3 token ไดแก ค าปจจบน ค ากอนหนา และค าทตามหลง ซงเมอทดสอบแบบจ าลอง พบวาแบบจ าลองจะระบขอบเขต EDU ใหกบ token แรกของค าเชอมทเปนวลเทานน เชน จากตวอยางเดม “$_แตเมอปรบตวโดยปราศจากฐานคด” แบบจ าลองระบขอบเขต EDU ตรงค าวา “แต” เทานน สวนค าเชอมเดนซงจะม POS เปน ADVERB นน แบบจ าลองยงไมสามารถตดสนใจไดถกตอง ตวอยางจากคลงขอมล แสดงการเปรยบเทยบการใช POS ของ 3 ค า และการใช POS เดยว เปนดงน
ขอบเขตเรมตน EDU ทถกตอง ใช POS ของ 3 token ใช POS เดยว (17) $_แตทงนภาครฐหรอภาคเอกชนจะตองใหการสนบสนน
$_แตทงนภาครฐหรอภาคเอกชนจะตองใหการสนบสนน
$_แต$_ทงนภาครฐหรอภาคเอกชนจะตองใหการสนบสนน
(18) $_และเมอเขารวมกจกรรมแลว
$_และเมอเขารวมกจกรรมแลว $_และ$_เมอเขารวมกจกรรมแลว
(19) ...ความสมพนธในแงตางๆ<s>$_เชน<s>ความสมพนธเชงอ านาจ<s>ตามชาตพนธ<s>ตามเพศ...
...ความสมพนธในแงตางๆ<s>เชน<s>ความสมพนธเชงอ านาจ<s>ตามชาตพนธ<s>ตามเพศ...
...ความสมพนธในแงตางๆ<s>เชน<s>ความสมพนธเชงอ านาจ<s>ตามชาตพนธ<s>ตามเพศ...
ตารางท 6.1 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณ POS ของ 3 ค า
จากตวอยาง 19 ขางตน จะเหนไดวา แมวาผลการทดสอบ POS ของค า 3 ค า จะท าใหสามารถระบค าขอบเขตเรมตน EDU ไดถกตองมากขน แตการใช POS ของ 3 ค าตดกนไมสามารถระบค าเรมตน EDU ทเปนค าเชอมเดน หรอ strong marker ได สาเหตนาจะเนองจากค าเชอมเดนถกก ากบหมวดค าเปน ADVERB นอกจากนปญหาค าเชอมอนพากยทเปนวลกยงไมสามารถขจดไดทงหมด อกทงยงไมไดชวยแกปญหาอนพากยทมชองวางปรากฏหนาและไมไดขนตนดวยค าบงช ดงนนการใชขอมล POS เพยงอยางเดยวไมสามารถท าใหแบบจ าลองระบขอบเขตเรมตน EDU ไดอยางมประสทธภาพสงสด
6.1.2 ค าเชอมหนาอนพากย
จากการส ารวจคลงขอมลซงประกอบไปดวย 8,102 EDU พบวา เฉพาะอนพากยทขนตนดวยอนสนธานและสนธานประสานรวมกนมจ านวน 2,349 EDU คดเปนเกอบ 30 เปอรเซนตของค า
73
ขอบเขตเรมตน EDU ทงคลงขอมล ดงนนหากใชค าเชอมเหลานในการชวยระบขอบเขตเรมตน EDU กจะท าใหแบบจ าลองสามารถแยก EDU ไดจ านวนไมนอย ผวจยจงใชค าเชอมหนาอนพากยเปนลกษณทใชในการฝกฝนแบบจ าลอง โดยจดท ารายการค าเชอมแลวน าไปเทยบกบค าในคลงขอมล ดวยวธการเชนน สามารถขจดปญหาค าเชอมทเปนวลได อกทงยงสามารถจดการกบค าเชอมเดนทขนตน EDU เชนค าวา “ยกตวอยาง” “ตวอยางเชน” “เชน” ฯลฯ ไดอกดวย เพราะค าเชอมเดนถอวาเปนตวเชอมอนพากย จงอยในรายการค าเชอมทจดท าขนดวย
เมอทดสอบวาลกษณรายการค าเชอมชวยเพมประสทธภาพใหกบแบบจ าลองทใช POS ของ 3 ค าตดกนไดมากนอยเพยงใด กพบวาแบบจ าลองสามารถระบจ านวนค าขอบเขตเรมตน EDU ไดถกตองเพมขนประมาณ 3 เปอรเซนต ในจ านวนนสวนใหญพบวาเปนค าเชอมเดนทขนตน EDU ตอไปนเปนตวอยางจากคลงขอมล แสดงการเปรยบเทยบการระบค าขอบเขตเรมตน EDU ของแบบจ าลองทใชลกษณรายการค าเชอมและแบบจ าลองทไมไดใชรายการค าเชอม
ขอบเขตเรมตน EDU ทถกตอง POS 3 ค า และค าเชอม POS ของ 3 ค า (20) $_ทเปนคตรงกนขาม<s>$_เชน<s>สกกบดบ<s>วฒนธรรมกบธรรมชาต<s>เปนตน
$_ทเปนคตรงกนขาม<s>$_เชน<s>สกกบดบ<s>วฒนธรรมกบธรรมชาต<s>เปนตน
$_ทเปนคตรงกนขาม<s>เชน<s>สกกบดบ<s>วฒนธรรมกบธรรมชาต<s>เปนตน
(21) $_และยงเสนอใหเนนถงความส าคญของกระบวนการผสมผสานความคด<s>$_อาทเชน<s>กระบวนการสรางอตลกษณแบบลกผสม<s>และกระบวนการผสมผสานความรในสถานการณเฉพาะ
$_และยงเสนอใหเนนถงความส าคญของกระบวนการผสมผสานความคด<s>$_อาทเชน<s>กระบวนการสรางอตลกษณแบบลกผสม<s>และกระบวนการผสมผสานความรในสถานการณเฉพาะ
$_และยงเสนอใหเนนถงความส าคญของกระบวนการผสมผสานความคด<s>อาทเชน<s>กระบวนการสรางอตลกษณแบบลกผสม<s>และกระบวนการผสมผสานความรในสถานการณเฉพาะ
ตารางท 6.2 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณค าเชอม
จะเหนไดวาการใชรายการค าเชอมรวมกบหมวดค าของค า 3 ค า ท าใหค า “เชน” ในตวอยาง (20) และค า “อาทเชน” ในตวอยาง (21) สามารถระบใหเปนค าขอบเขตเรมตน EDU ไดถกตอง ในขณะทการใชหมวดค าของค า 3 ค าโดยไมมรายการค าเชอมไมสามารถท าได
6.1.3 ชองวาง
การใชชองวางในภาษาไทยมความนาสนใจเปนอยางยง เนองจากชองวางในภาษาเขยนภาษาไทยมหลายหนาท ทงน ผวจยเชอวาชองวางทท าหนาทคนระหวาง EDU มความเปนไปไดทจะปรากฏในบางบรบทเทานน นนคอ ชองวางแลวตามดวยหมวดค าบางประเภทมโอกาสทจะเปนตวคน
74
EDU มากกวาเมอตามดวยบางหมวดค า กลาวคอ จากการศกษาคลงขอมล พบวาชองวางแลวตามดวยตวเลขหรอตามดวยค าภาษาตางประเทศมความเปนไปไดนอยทชองวางนนจะเปนตวคนอนพากย ในขณะทชองวางแลวตามดวยค าเชอมมความเปนไปไดสงมากทชองวางนนจะเปนตวคนอนพากย ดวยเหตนผวจยจงใชหมวดค าทปรากฏหลงชองวาง เพอใหแบบจ าลองใชประกอบการตดสนใจวาชองวางนนจะเปนตวคนอนพากยและท าใหค าทอยตดกบชองวางนนเปนขอบเขต EDU หรอไม
ผลการทดสอบแบบจ าลองทใชลกษณ POS ของ 3 ค าตดรวมกบลกษณชองวาง โดยปรบคาพารามเตอรของเคอรเนล D=1 พบวาการใชลกษณชองวางไมไดชวยเพมประสทธภาพการตดสนใจของแบบจ าลองได ค าทเปนขอบเขตเรมตน EDU และน าหนาดวยชองวางสวนใหญยงไมสามารถถกดงออกมาได ตวอยางการระบค าทเปนขอบเขตเรมตน EDU ทมชองวางขางหนาเมอเทยบกบการใช POS ของ 3 ค าตดกนเปนดงน
ขอบเขตเรมตน EDU ทถกตอง POS 3 ค า รวมกบ space POS ของ 3 ค า (22) $_ซงถอเปนเงอนไขหรอบรบทของเรองนน<s>$_ประกอบดวยบรบทของวฒนธรรม<s>บรบททางประวตศาสตร<s>บรบทของระบบนเวศ<s>และบรบททางสงคมของความสมพนธ
$_ซงถอเปนเงอนไขหรอบรบทของเรองนน<s>ประกอบดวยบรบทของวฒนธรรม<s>บรบททางประวตศาสตร<s>บรบทของระบบนเวศ<s>และบรบททางสงคมของความสมพนธ
$_ซงถอเปนเงอนไขหรอบรบทของเรองนน<s>ประกอบดวยบรบทของวฒนธรรม<s>บรบททางประวตศาสตร<s>บรบทของระบบนเวศ<s>และบรบททางสงคมของความสมพนธ
(23) $_จะตองเขาใจความหมายของคนชายชอบใหด<s>$_ไมใชมองแตเฉพาะความเปนชายขอบในแงภมศาสตร
$_จะตองเขาใจความหมายของคนชายชอบใหด<s>ไมใชมองแตเฉพาะความเปนชายขอบในแงภมศาสตร
$_จะตองเขาใจความหมายของคนชายชอบใหด<s>ไมใชมองแตเฉพาะความเปนชายขอบในแงภมศาสตร
ตารางท 6.3 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณชองวาง
จากตารางจะเหนวา ทง 2 ตวอยางมชองวางคนระหวาง EDU โดยตวอยางแรกเปนชองวางแลวตามดวยค ากรยา “ประกอบดวย” เปนค าเรมตนขอบเขต EDU และอกตวอยางเปนชองวางแลวตามดวยค าบอกปฏเสธ “ไม” เปนค าเรมตนขอบเขต EDU แบบจ าลองทใชลกษณชองวางไมสามารถระบจดทเปนขอบเขตเรมตน EDU ทมชองวางปรากฏอยดานหนาได เชนเดยวกนกบในกรณแบบจ าลองทใชเพยงลกษณ POS ของ 3 ค า
อยางไรกตาม เมอมการปรบคาพารามเตอรเคอรเนลใหมากกวา 1 พบวาลกษณชองวางชวยแบบจ าลองในการตดสนใจค าขอบเขตเรมตน EDU ทมชองวางน าหนาได ซงประเดนนจะกลาวถงตอไปในหวขอ 6.2 เรองประสทธภาพแบบจ าลองเมอปรบพารามเตอรเคอรเนลใหสงขน
75
6.1.4 เครองหมายวรรคตอน
จากการใชลกษณเครองหมายวรรคตอน ผวจยก าหนดใหมองเฉพาะเครองหมายวงเลบเปดและวงเลบปดเทานน เนองจากเปนเครองหมายวงเลบสามารถชวยระบขอบเขตของ EDU ได ในงานน ก าหนดให token ทเปนวงเลบเปด และ token ทไมใชชองวางและอยถดจากเครองหมายวงเลบปดเปนขอบเขตเรมตน EDU การก าหนดลกษณนจงมลกษณะเปนกฎ ผวจยทดสอบประสทธภาพของลกษณเครองหมายวรรคตอนนโดยการใชผลการทดสอบชดของลกษณรปแบบท 2 นนคอประกอบไปดวย POS ของค า 3 ค า เปรยบเทยบกบผลการทดสอบชดลกษณรปแบบท 5 คอเปนการเพมลกษณเครองหมายวรรคตอนเขาไป พบวา คาความครบถวนและคา F-measure มคาเพมขนเมอใชลกษณรปแบบท 5 และเมอพจารณาผลลพธของการทดสอบ กพบวาคาทเพมขนมาน เกดจากการทแบบจ าลองสามารถระบใหค าทตามหลงวงเลบปดเปนค าขอบเขตเรมตน EDU ได โดยสรปแลว ลกษณนมบทบาทในการชวยแบบจ าลองใหสามารถตดสนใจค าขอบเขตเรมตน EDU ทอยต าแหนงหลงวงเลบปดได ตวอยางขอความในตารางตอไปน เปนการเปรยบเทยบผลการระบค าขอบเขตเรมตน EDU ระหวางการใช POS ของค า 3 ค า และการใชลกษณเครองหมายวรรคตอนรวมดวย
ขอบเขตเรมตน EDU ทถกตอง POS 3 ค า รวมกบ Punc POS ของ 3 ค า (24) $_ (Salary<s>man)<s> $_สามหรอพอบานมกจะใชเวลาสวนใหญอยในทท างาน
$_ (Salary<s>man)<s>$_สามหรอพอบานมกจะใชเวลาสวนใหญอยในทท างาน
$_ (Salary<s>man)<s>สามหรอพอบานมกจะใชเวลาสวนใหญอยในทท างาน
(25) ...สเอกรงค<s>$_ (Monochrome)<s>$_องคประกอบของภาพมเสนโคง...
...สเอกรงค<s>$_ (Monochrome)<s>$_องคประกอบของภาพมเสนโคง...
...สเอกรงค<s>$_ (Monochrome)<s>องคประกอบของภาพมเสนโคง...
ตารางท 6.4 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณเครองหมายวรรคตอน
6.1.5 การใชทกลกษณรวมกน
เมอใชลกษณตาง ๆ รวมกนทงหมด ไดแก หมวดค าปจจบน หมวดค ากอนหนา หมวดค าตามหลง รายการค าเชอม ชองวาง และเครองหมายวรรคตอน แลวน าไปฝกฝนแบบจ าลอง พบวาสามารถชวยเพมประสทธภาพของแบบจ าลองได กลาวคอ แบบจ าลองสามารถระบขอบเขตเรมตน EDU ทมค าเชอมอนพากยและตวน าสวนเตมเตมไดเกอบ 100 เปอรเซนต ความผดพลาดทพบ อยางแรกคอ ค าขอบเขตเรมตน EDU ทปรากฏตดกบอนพากยกอนหนาโดยไมมค าเชอมหรอชองวางคน ดงตวอยางขอความ 24 ความผดพลาดอกประการคอ ค าขอบเขตเรมตน EDU ทปรากฏหลงชองวาง ทงนเพราะลกษณชองวางไมมประสทธภาพในการชวยแบบจ าลองในการตดสนใจค าทอยหลงชองวาง ดงตวอยางขอความในตารางตอไปน
76
การแบง EDU ทถกตอง ใชทกลกษณรวมกน ปญหาทพบ (26) $_หรอไมยดตดกรอบคดนน<s>$_คงจะตองปรบวธวทยาดวยเชนเดยวกน
$_หรอไมยดตดกรอบคดนน<s>คงจะตองปรบวธวทยาดวยเชนเดยวกน
ไมสามารถระบขอบเขตเรมตน EDU ทปรากฏหลงชองวางได
(27) $_ทเลยนแบบการบรโภคสนคาแบบชนชนกลาง$_จะสรปไดอยางไร
$_ทเลยนแบบการบรโภคสนคาแบบชนชนกลางจะสรปไดอยางไร
ไมสามารถระบขอบเขตเรมตน EDU ทปรากฏตดกนกบ EDU กอนหนาโดยไมมค าเชอมหรอชองวางคนได
ตารางท 6.5 ตวอยางขอความจากคลงขอมล แสดงผลการใชทกลกษณรวมกน
จากตวอยางขอความ 26 และ 27 สามารถมองไดวา ปญหาอาจไมไดเกดจากชองวางเพยงอยางเดยว แตอาจเกดจากค าทปรากฏหลงชองวาง นนกคอ ค าวา “คง” และ “จะ” ซงเปน AUX ตรงนอาจเปนสวนหนงทท าใหแบบจ าลองตดสนใจออกมาเปนเชนนน กลาวคอ หากพจารณาการปรากฏรวมกนของชองวางแลวตามดวย AUX ในคลงขอมล กพบวา มขอความอน ๆ ในคลงขอมลอกจ านวนหนงท AUX หลงชองวาง ไมไดเปนขอบเขตเรมตน EDU เหมอนในกรณตวอยาง 26 และ 27 ตวอยางจากคลงขอมล เชน “$_ส าหรบขนตอนทหก<s>จะเปนแนวทางการอธบาย” จะเหนไดวา ค าวา “จะ” ซงเปน AUX ไมใชค าขอบเขตเรมตน EDU จงเปนไปไดวา เหตผลทแบบจ าลองไมดง AUX ทตามหลง space ออกมาได จะเปนเพราะการปรากฏรวมของคนจ านวนมากจะไมใชขอบเขตเรมตน EDU
โดยสรปแลว หากตวจ าแนกซพพอรตเวกเตอรแมชชนตงคาพารามเตอรเคอรเนล D=1 แลว ลกษณทมประสทธภาพมากทสดคอลกษณหมวดค า ซงตองพจารณาหมวดค าขางเคยงดวย สวนลกษณอน ๆ ทน ามาใชประกอบกบลกษณหมวดค าสามารถชวยเพมประสทธภาพแบบจ าลองไดในระดบทแตกตางกนออกไป โดยทลกษณทมสวนชวยเพมความสามารถใหกบแบบจ าลองมากทสดคอลกษณเครองหมายวรรคตอน สวนลกษณรายการค าเชอมชวยเพมคาความครบถวนไดเลกนอย และลกษณชองวางไมชวยเพมประสทธภาพแบบจ าลองเลย ทงน ผลการทดสอบลกษณทกลาวมาทงหมดนเปนการทดสอบโดยตงคาพารามเตอรของเคอรเนลไวต าสด หากเพมคาพารามเตอรใหสงกวานกจะไดผลทดกวาน
6.2 ประสทธภาพของแบบจ าลองเมอปรบคาพารามเตอรของเคอรเนลใหสงขน
เนองจากซพพอรตเวกเตอรแมชชนมเคอรเนลฟงกชนทสามารถใชไดหลายตว ในงานน ผวจยใชเคอรเนลโพลโนเมยลฟงกชน ในขนแรก ผวจยท าการทดสอบแบบจ าลองโดยปรบคาพารามเตอรของเคอรเนลไวทต าสด คอ D=1 ซงเปนคา default ของโปรแกรมวกา จากนนผวจยไดปรบคาพารามเตอรนใหสงขนเปน D=2, D=3, และ D=4 พบวาคาพารามเตอรทสงขนสามารถเพม
77
ประสทธภาพของแบบจ าลองได เมอดคลงขอมลทดสอบทผานการระบขอบเขตเรมตน EDU แลว พบวาการเพมขนของค าขอบเขตเรมตน EDU ทแบบจ าลองดงออกมา สวนใหญจะเปนค าทขนตนดวยชองวางและไมมค าเชอมอนพากย และอกจ านวนหนงเปนค าทไมไดขนตนดวยชองวางหรอค าเชอมอนพากยเลย
ผลของการการปรบคาพารามเตอรของเคอรเนลใหมากกวา 1 ท าใหแบบจ าลองสามารถระบค าขอบเขตเรมตน EDU ทน าหนาดวยชองวางแตไมมค าเชอมไดจ านวนหนง ผวจยพบวาหมวดค าทตามหลงชองวางทแบบจ าลองตดสนใจใหเปนค าขอบเขตเรมตน EDU ไดแก ค านาม ค ากรยา ค าปฏเสธ ค าบพบท ค าสรรพนาม และค านามชเฉพาะ
ขอบเขตเรมตน EDU ทถกตอง
ใชลกษณ POS รวมกบ space คาพารามเตอร D=1
ใชลกษณ POS รวมกบ space คาพารามเตอร D=3
(28) $_ซงสะทอนชวตความเปนอยของผหญงเหลานออกมาไดอยางชดเจนทสด<s>$_ภาพโสเภณ<s>หญงขายบรการ<s>และนกเตนเหลานถกบนทกไวนบรอยภาพ
$_ซงสะทอนชวตความเปนอยของผหญงเหลานออกมาไดอยางชดเจนทสด<s>ภาพโสเภณ<s>หญงขายบรการ<s>และนกเตนเหลานถกบนทกไวนบรอยภาพ
$_ซงสะทอนชวตความเปนอยของผหญงเหลานออกมาไดอยางชดเจนทสด<s>$_ภาพโสเภณ<s>หญงขายบรการ<s>และนกเตนเหลานถกบนทกไวนบรอยภาพ
(29) $_ทนาสนใจไมยงหยอนไปกวากน<s>$_บนปลายของชวต<s>คสแสททเกอบสญเสยการมองเหน
$_ทนาสนใจไมยงหยอนไปกวากน<s>บนปลายของชวต<s>คสแสททเกอบสญเสยการมองเหน
$_ทนาสนใจไมยงหยอนไปกวากน<s>$_บนปลายของชวต<s>คสแสททเกอบสญเสยการมองเหน
ตารางท 6.6 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณชองวางเมอปรบคาพารามเตอรตางกน
ตวอยางจากคลงขอมล (28) และ (29) เปนการเปรยบเทยบผลการระบค าขอบเขตเรมตน EDU ของแบบจ าลองทฝกฝนดวย SVM ทมการตงคาพารามเตอรเคอรเนล D=1 และคาพารามเตอรทสงขน ในทนคอเปรยบเทยบกบพารามเตอร D=3 ซงจะเหนวา ค า “ภาพ” ในตวอยาง (28) และค า “บนปลาย” ในตวอยาง (29) ถกระบใหเปนค าขอบเขตเรมตน EDU ไดถกตองเมอปรบคาพารามเตอร D=3
อยางไรกตาม พบวามความผดพลาดของการตดสนใจระบค าขอบเขตเรมตน EDU ทมชองวางน าหนาอยพอสมควร ยกตวอยาง (30) พบวาตวจ าแนกทตงคาพารามเตอร D=3 สามารถระบค า “สตร” ใหเปนค าขอบเขตเรมตน EDU ได แตกลบไมสามารถระบค า “ประเภท” และ “มอง” ให
78
เปนค าขอบเขตเรมตน EDU ได แมวาจะเปนค าทปรากฏหลงชองวางกตาม และในตวอยาง (31) การตงคาพารามเตอร D=3 กไมสามารถระบค า “ใช” ใหเปนค าขอบเขตเรมตน EDU ไดเชนกน
ขอบเขตเรมตน EDU ทถกตอง ใชลกษณ POS รวมกบ space
คาพารามเตอร D=3 (30) the basic important of the line<s>$_สตรในงานของโลเทรค<s>แบงอยางหยาบๆ<s>ไดเปนสองประเภท<s>$_ประเภทแรกมใบหนาแบบสภาพชน<s>$_มองโลกดานด
the basic important of the line<s>$_สตรในงานของโลเทรค<s>$_แบงอยางหยาบๆ<s>ไดเปนสองประเภท<s>ประเภทแรกมใบหนาแบบสภาพชน<s>มองโลกดานด
(31) $_ทหยาบกราน<s>$_ใชชวตในโลกของผชายทงสถานเรงรมยและส านกโสเภณ
$_ทหยาบกราน<s>ใชชวตในโลกของผชายทงสถานเรงรมยและส านกโสเภณ
ตารางท 6.7 ตวอยางขอความจากคลงขอมล แสดงความผดพลาดทเกดขนกบการใชลกษณชองวางเมอปรบคาพารามเตอร D=3
อยางไรกตาม ความสามารถทเพมขนของการดงค าขอบเขตเรมตน EDU ทไมใชค าเชอม และเปนค าทตามหลงชองวาง ชวนใหสงสยวา เปนผลอนเนองมาจากการใชลกษณใด เพราะหากดจากผลการทดสอบทเสนอไปในบทท 5 ทแสดงใหเหนวา การใชลกษณรปแบบท 2 ซงเปนการใช POS ของค า 3 ค า และลกษณรปแบบท 4 ซงเปนการใชลกษณชองวางรวมดวย ไดผลการทดสอบออกมาเหมอนกน ทงคาความแมนย า คาความครบถวน และคา F-measure ซงแสดงใหเหนวาลกษณชองวางไมไดชวยเพมประสทธภาพการตดสนใจของแบบจ าลองเลย ดงนนเมอมการปรบพารามเตอรใหสงขน ลกษณชองวางกไมนาจะมสวนชวยในการตดสนใจเชนกน
ในการไขขอสงสยน ผวจยจงไดท าการทดสอบแบบจ าลอง โดยใชชดของลกษณ 2 ชดเปรยบเทยบผลกน ชดแรกเปนการใชลกษณรวมกนทงหมด ซงผลการทดสอบกเปนตามทเสนอไวแลวในบทท 5 สวนลกษณอกชดหนงประกอบไปดวยลกษณทกลกษณเหมอนชดแรก ยกเวนลกษณชองวาง ท าการทดสอบ 10 ครงเชนเคย และมการปรบคาพารามเตอร D=1, D=2, D=3, และ D=4 ทงนจะเปรยบเทยบผลเพอดวา ความสามารถทเพมขนของแบบจ าลองทมการปรบคาพารามเตอรใหสงขน ทชใหเหนวาสามารถระบค าทตามหลงชองวางใหเปนค าขอบเขตเรมตน EDU ไดนน เกดจากการใชลกษณชองวางหรอลกษณอน ผลการทดสอบเปนดงตารางตอไปน
79
D=1 D=2 D=3 D=4
ชด 1 ชด 2 ชด 1 ชด 2 ชด 1 ชด 2 ชด 1 ชด 2
P 98.03 98.03 91.97 91.56 91.67 91.62 91.97 91.82
R 69.68 69.68 77.55 76.88 78.84 78.54 78.69 78.54
F 81.17 81.17 83.97 83.4 84.7 84.49 84.74 84.57 ตารางท 6.8 ตวอยางขอความจากคลงขอมล เปรยบเทยบผลการทดสอบลกษณชดท 1 และ 2
จากตารางจะเหนวา หากปรบคาพารามเตอร D=1 ผลการทดสอบลกษณชด 1 และชด 2 ใหผลออกมาเหมอนกน ชใหเหนวาลกษณชองวางไมไดชวยเพมประสทธภาพการตดสนใจของแบบจ าลอง เมอปรบคาพารามเตอร D=2, D=3, และ D=4 จะเหนวาลกษณชดท 2 ไดคาความแมนย าทต าลง แตคาความครบถวนและคา F-measure เพมขนเลกนอย แสดงใหเหนวา การปรบคาพารามเตอร ท าใหเครองพยายามดงค าออกมามากขน ผลกคอ เกดขอผดพลาดมากขน คาความแมนย าจงลดลง ในขณะเดยวกน ค าทเปนขอบเขตเรมตน EDU กสามารถดงออกมาจากคลงขอมลไดเพมมากขน คาความครบถวนจงสงขน อยางไรกด ความสามารถทเพมขนอนเนองมาจากการใชลกษณชองวางน ถอวานอยมาก เพราะคา F-measure เพมขนไมถง 1 เปอรเซนต
ดงนนตอบของขอสงสยขางตนจงสามารถตอบไดวา ลกษณชองวางมสวนชวยเพมความสามารถในการระบค าขอบเขตเรมตน EDU จรง แตกนอยมาก จงอาจกลาวไดวา ลกษณชองวางมความโดดเดนชดเจนนอยกวาลกษณอน ๆ ซงอาจเปนเพราะขอมลของลกษณนเปนขอมลทซ าซอนกบขอมลของลกษณอน ๆ พอปรบคาพารามเตอรไวต า จงไมสงผลตอการตดสนใจแบบจ าลองเลย และเมอปรบคาพารามเตอรใหสงขน กสงผลตอการตดสนใจของแบบจ าลองไดเพยงเลกนอยเทานน และหากลกษณชองวางมบทบาทนอยมากตอการเพมประสทธภาพแบบจ าลองแลว แสดงวาการเพมขนของประสทธภาพของแบบจ าลองเมอมการปรบคาพารามเตอรสงขนนน เปนผลมาจากลกษณตาง ๆ มากกวาลกษณชองวาง
อกประเดนหนงทยงเปนปญหาอย แมจะปรบคาพารามเตอรใหสงขนแลวกตาม กคอปญหาของค าเรมตนขอบเขต EDU ทไมมชองวางและค าเชอมใด ๆ ปรากฏขางหนา กลาวคอแบบจ าลองไมสามารถจดการกบค าเหลานและระบใหเปนค าขอบเขตเรมตน EDU ไดเลย ดงนนจงนาจะเปนเพราะไมมลกษณใดทใชในการฝกฝนแบบจ าลองทจะชวยในการตดสนใจค าขอบเขตเรมตน EDU ในบรบทเชนน
80
บทท 7
สรปผลการศกษา ปญหา และขอเสนอแนะ
ในบทท 3 ถงบทท 6 ไดกลาวไปแลวถงกระบวนการตาง ๆ ในการแบงอนพากยภาษาไทย ซงถอเปนหนวยทเลกทสดส าหรบการศกษาโครงสรางปรจเฉท ดวยตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน ตงแตขนตอนการสรางคลงขอมล การก ากบคลงขอมล ไปจนถงการรายงานผลการทดสอบแบบจ าลองและการอภปรายลกษณทางภาษาทใชในการด าเนนการทดสอบดวย ในบทน ผวจยจะไดสรปผลการศกษาโดยภาพรวมอกครง และอภปรายปญหาทพบในการศกษาครงน พรอมทงเสนอขอเสนอแนะส าหรบการศกษาการแบงอนพากยภาษาไทยดวยเครองเพอเปนประโยชนตองานทางดานการประมวลผลภาษาธรรมชาต
7.1 สรปผลการศกษา
การแบงอนพากยภาษาไทยดวยเครองสามารถมองวาเปนการจ าแนกประเภทอยางหนงได กลาวคอ เมอใหเครองรบขอมลเขาทละค า เครองมหนาทตดสนใจหรอแยกประเภทวา ค าทพจารณาอยนนเปนขอบเขตอนพากยภาษาไทยหรอไม ซงในทน ผวจยใหเครองระบขอบเขตเรมตนของอนพากยเทานน เนองจากสามารถมองไดวา ค าสดทายกอนทจะเปนค าเรมตนขอบเขตอนพากยใหม กคอค าขอบเขตทายอนพากยนนเอง ในการศกษาน ผวจยใชฟงกชน SMO ของโปรแกรมวกาในการสรางตวจ าแนกประเภทซพพอรตเวกเตอรแมชชนเพอระบขอบเขตเรมตนอนพากย ตวฟงกชน SMO นท าใหงายตอการเตรยมไฟลขอมลทจะใชในการฝกฝนและทดสอบ เพราะ SMO สามารถอานลกษณทใชฝกฝน หรอ feature ไดหลายรปแบบ ไดแก คาตวเลข, ขอความ, และขอมลแบบแบงกลม
ลกษณทใชในการฝกฝนแบบจ าลองเปนลกษณทางภาษา ไดแก หมวดค าปจจบน หมวดค ากอนหนา หมวดค าตามหลง รายการค าเชอม ชองวางทเปนตวแบงอนพากย และเครองหมายวรรคตอนทมกปรากฏหนาหรอทายอนพากย ทงนผวจยไดท าการทดสอบเพอเปรยบเทยบประสทธภาพการท างานของลกษณแตละตว โดยการท าการทดสอบลกษณรปแบบตาง ๆ ทงหมด 6 รปแบบ คอ
รปแบบท 1 ใชลกษณหมวดค าของค าปจจบนเพยงลกษณเดยว รปแบบท 2 ใชลกษณหมวดค าปจจบน หมวดค ากอนหนา และหมวดค าทตามหลง รปแบบท 3 ใชรายการค าเชอมรวมกบลกษณหมวดค าปจจบน หมวดค ากอนหนา และหมวดค าทตามหลง รปแบบท 4 ใชความนาจะเปนของชองวางทเปนตวคน EDU รวมกบลกษณหมวดค าปจจบน หมวดค ากอนหนา และหมวดค าทตามหลง รปแบบท 5 ใชเครองหมายวรรคตอนทมกเปนของเขต EDU รวมกบลกษณหมวดค าปจจบน หมวด
81
ค ากอนหนา และหมวดค าทตามหลง รปแบบท 6 ใชลกษณหมวดค าปจจบน หมวดค ากอนหนา หมวดค าทตามหลง รายการค าเชอม ลกษณชองวาง และลกษณเครองหมายวรรคตอน
จากการทดสอบ พบวาการใชลกษณรปแบบท 1 หรอการใชหมวดค าปจจบนเพยงลกษณเดยวไมสามารถท าใหแบบจ าลองระบค าขอบเขตเรมตน EDU ไดมากนก ค าขอบเขตเรม EDU สวนใหญทแบบจ าลองดงออกมากมกจะเปนพวกค าบงช ไดแก ค าเชอมอนพากย และตวน าสวนเตมเตม สวนค าขอบเขตเรมตน EDU ทไมไดขนตนดวยค าบงชกไมถกดงออกมา ทงนเนองจากการใชเพยงลกษณเดยวเชนนเปนการใหขอมลแกตวจ าแนกประเภทนอยเกนไป ท าใหแบบจ าลองไมสามารถตดสนใจนอกเหนอไปจากขอมลทมในลกษณ
การใชลกษณรปแบบท 2 หรอการใชหมวดค าปจจบน หมวดค ากอนหนา และหมวดค าทตามหลงในการฝกฝนแบบจ าลอง พบวาใหผลทดยงขน สามารถดงค าขอบเขตเรมตน EDU ไดถกตอง คดเปน 60 กวาเปอรเซนตของค าขอบเขตเรมตน EDU ทงหมดในคลงทดสอบ และวดคา F-measure เฉลยไดเกน 75 เปอรเซนต
จากผลการทดสอบลกษณรปแบบท 2 ผวจยเหนวาค าขอบเขตเรมตน EDU ทไมสามารถดงออกมาได สวนใหญจะเปนค าทขนตนดวยค าเชอมทเปนวล ค าทไมมค าบงชน าหนา และค าทมชองวางปรากฏดานหนา ดงนนจงใชหมวดค าปจจบน หมวดค ากอนหนาและตามหลง รวมกบลกษณอน ๆ ทคาดวาจะมสวนชวยในการระบขอบเขตเรมตน EDU ไดแก ลกษณรายการค าเชอม ลกษณชองวาง และลกษณเครองหมายวรรคตอน และเพอใหทราบวาลกษณตาง ๆ เหลานสามารถเพมความสามารถใหกบแบบจ าลองไดในระดบทมากนอยตางกนอยางไรบาง จงไดท าการทดสอบรปแบบลกษณท 3, 4 และ 5
จากการทดสอบแบบจ าลองทฝกฝนดวยลกษณรปแบบท 3, 4 และ 5 พบวาการใชลกษณรปแบบท 4 ซงเปนการใชหมวดค าปจจบน หมวดค ากอนหนาและตามหลง รวมกบลกษณชองวาง ไมสามารถท าใหแบบจ าลองระบค าขอบเขตเรมตน EDU ไดเพมมากขนจากเดมเลย ทงนเพราะขอมลของลกษณชองวางซ าซอนกบขอมลลกษณหมวดค าไปแลว เมอไมมขอมลใหม แบบจ าลองจงไมสามารถดงค าทถกตองออกมาไดมากขน สวนการใชลกษณรปแบบท 3 และ 5 ท าใหแบบจ าลองสามารถระบค าขอบเขตเรมตน EDU ไดจ านวนเพมมากขน
การใชลกษณรปแบบท 6 เปนการใชทกลกษณรวมกน เมอปรบคาพารามเตอรตวจ าแนกประเภทอยางต าทสด พบวาสามารถดงค าขอบเขตเรมตน EDU จากคลงขอมลไดถกตองเกอบ 70 เปอรเซนต สวนค าขอบเขตเรมตน EDU ทเหลออกประมาณ 30 เปอรเซนตทแบบจ าลองไมสามารถ
82
ดงออกมาได ไดแก ค าทปรากฏตามหลงชองวาง และค าขอบเขตเรมตนอนพากยทไมมทงชองวางและค าบงชน าหนา
อยางไรกตาม ความผดพลาดเรองค าขอบเขตเรมตน EDU ทปรากฏหลงชองวางไดรบการแกไขเมอมการปรบพารามเตอรของเคอรเนลใหสงขน กลาวคอ เมอปรบคาพารามเตอรเคอรเนล D=3 พบวาแบบจ าลองสามารถดงค าขอบเขตเรมตน EDU จากคลงทดสอบไดถกตองคดเปน 78.5 เปอรเซนต ในจ านวนค าขอบเขตเรมตน EDU ทเพมขนมาน สวนใหญเปนค าทปรากฏหลงชองวางทงสน
แมการปรบคาพารามเตอรใหสงขนจะมสวนชวยเพมประสทธภาพของแบบจ าลองในการระบค าขอบเขตเรมตน EDU ได ผวจยพบวา กยงมความผดพลาดเกยวกบความก ากวมของชองวางอยไมนอย นนคอแบบจ าลองไมสามารถตดสนใจไดอยางถกตองในกรณค าขอบเขตเรมตน EDU ทปรากฏหลงชองวาง อกความผดพลาดหนงทพบและไมสามารถแกไดดวยการปรบคาพารามเตอรกคอปญหา EDU ทปรากฏตดกนโดยไมมทงชองวางและค าเชอมคน
7.2 ปญหาทพบในการศกษา
ผวจยพบวามลกษณะบางประการของภาษาไทยทท าใหเปนปญหาตอการระบขอบเขตเรมตน EDU ปญหาทใหญทสดของการศกษาครงน คอปญหาการใชชองวาง ผวจยพบวา เกอบครงหนงของชองวางทปรากฏในขอเขยน เปนชองวางทคนระหวางอนพากย ทเหลอจะเปนชองวางทท าหนาทอน ๆ เชน คนระหวางค านามทอยในชดเดยวกน คนระหวางตวเลขกบตวอกษร คนระหวางตวอกษรภาษาไทยกบตวอกษรภาษาตางประเทศ คนระหวางเครองหมายวรรคตอนและตวอกษร เปนตน ในการศกษาครงน สามารถจดการกบความก ากวมของชองวางทปรากฏทงหมดไดประมาณ 60-65 เปอรเซนต ในจ านวนนไดแกชองวางทตามดวยค าบงชและชองวางทตามดวยหมวดค าบางประเภท สวนเกอบ 40 เปอรเซนตทเหลอเปนชองวางทเปนตวคนอนพากยแตแบบจ าลองไมสามารถตดสนใจได
อกประเดนทเปนปญหาเชนกน กคอปญหาการละค าบงชอนพากย ในกรณทอนพากยไมไดขนตนดวยค าบงช แบบจ าลองอาจจะไปพจารณาลกษณชองวางรวมดวย เพอดวาค านนปรากฏหลงชองวางทมความเปนไปไดทจะเปนตวคนอนพากยหรอไม แตหากไมมชองวางปรากฏหนาขอบเขตเรมตนอนพากยเลย บวกกบไมมค าบงชอนพากยดวย เชนนแลวแบบจ าลองจะไมสามารถตดสนใจไดเลยวาจดไหนเปนขอบเขตเรมตนอนพากย ในการศกษาครงนพบวาปญหาเรองความก ากวมของชองวางและการละค าบงชอนพากย ท าใหมค าขอบเขตเรมตน EDU ทแบบจ าลองไมสามารถดงออกมาไดประมาณ 20 เปอรเซนตของค าขอบเขตเรมตนทงหมดในคลงทดสอบ
83
นอกจากนยงมปญหาเกยวกบลกษณทใชในการฝกฝนแบบจ าลอง การก าหนดลกษณทเหมาะสมมผลอยางมากตอการตดสนใจของแบบจ าลอง จากผลการทดสอบการใชลกษณทางภาษาทไดเสนอไป กพบวา การตดสนใจของแบบจ าลองเปนผลอนเนองมาจากการใชลกษณหมวดค าเปนหลก สวนลกษณอน ๆ ทใช กใหขอมลทความซ าซอนกบลกษณหมวดค า ท าใหชวยเพมความสามารถในการตดสนใจของแบบจ าลองไดไมมากนก
7.3 ขอเสนอแนะ
จากผลการศกษา จะพบวาปญหาหลกทเกดจากลกษณะทางภาษาจะเปนเรองความก ากวมของชองวาง แตลกษณทใชในการจดการกบปญหาของงานวจยนเปนเพยงการใหขอมลวาชองวางทปรากฏตดกบหมวดค าใดมโอกาสสงทจะเปนตวคนอนพากย เชน ชองวางแลวตามดวยค ากรยา หรอตามดวยค าสรรพนาม เปนตน และมการก าหนดคาของลกษณเปนแบบสองคา คอ Y และ N โดยพจารณาความเปนไปไดทค าตามหลงชองวางจะเปนค าขอบเขตเรมตน EDU แตในความเปนจรง แมชองวางจะตามดวยค าบางประเภททมโอกาสเปนค าขอบเขตเรมตน EDU แตไมไดหมายความวา ค า ๆ นนทปรากฏรวมกบชองวางจะเปนค าขอบเขตเรมตน EDU เสมอไป เชน ชองวางแลวตามดวยค ากรยา กไมจ าเปนวาค ากรยานนจะเปนค าขอบเขตเรมตน EDU ดงนนหากเพมจ านวนหมวดค าทปรากฏรวมกบชองวางใหมากขนกจะท าใหเหนรปแบบของการปรากฏรวมทแคบลง ซงอาจชวยจดการกบความก ากวมชองวางทเปนตวคนอนพากยได
จากการส ารวจคลงขอมล พบวาชองวางเกน 50 เปอรเซนตท าหนาทแยกอนพากยออกจากกน การปรากฏของชองวางจงนาจะยงสามารถใชก าหนดเปนลกษณในการฝกฝนแบบจ าลองได นอกจากการดวาค าประเภทไหนทปรากฏรวมกบชองวางทแยกอนพากยแลว อาจจะใชวธนบค าจากค าหนงไปยงชองวางทใกลสด เพอใชระยะหางระหวาง 2 จดนเปนขอมลใหเครองตดสนใจวา ชองวางนนเปนชองวางแยกอนพากยหรอไม และหากชองวางนนเปนตวแยกอนพากย ค าทปรากฏตดกบชองวางนนกจะเปนขอบเขตอนพากย
เมอพจารณาการใชลกษณเครองหมายวรรคตอนในงานน จะพบวามลกษณะเปนการก าหนดกฎตายตววาจะใหเครองมองเฉพาะเครองหมายวงเลบ ดงนนหากเปลยนรปแบบการใชลกษณนเปนการใชเครองหมายวรรคตอนตามรป คอก าหนดคาของลกษณตามรปเลย ดงนนแทนทจะใหเครองมองวาเครองหมายวรรคตอนทกประเภทเปน PUNC เหมอนกนหมด กใหเครองมองวาเครองหมายวรรคตอนแตละตวแตกตางกนออกไปตามรปทปรากฏแทน ซงเครองหมายวรรคตอนแตละตวกจะมบทบาทชวยระบขอบเขตอนพากยแตกตางกนออกไป ดงนนเครองนาจะสามารถใชขอมลนในการตดสนใจหาขอบเขตอนพากยได
84
อกประเดนคอเรองของชดของหมวดค าทใชก ากบคลงขอมล เนองจากงานนใชขอมลจากหมวดค ามบทบาทส าคญมากในการฝกฝนแบบจ าลอง การก าหนดชดหมวดค าใหเหมาะสมจงเปนสงทตองพจารณาใหดยงขน เชน ในงานนจะพบวา ไมวาจะก ากบหมวดค า CCOR (Coordinating conjunction) และ CSUB (Subordinating conjunction) แทบไมมบทบาททตางกนเลย เพราะทงคตางกเปนค าเชอมอนพากย นอกจากนค าเชอมเดนทมหมวดค าเปน ADVERB หรอกรยาวเศษณกถอวาเปนค าเชอมระดบอนพากยเชนกน ดงนนอาจจะรวมทง 3 หมวดค านเขาดวยกนเปนหมวดค าค าเชอมกได เพอทจะไดไมตองใชลกษณรายการค าเชอมอก
นอกจากน หากไมนบอนภาคทาย (Final particle) ทผวจยไดก ากบหมวดค าเปน PT แลว อาจส ารวจคลงขอมลเพอดค าทมกจะลงทายอนพากยและไมไดก ากบหมวดค า PT แลวดวาค าเหลานนมความนาจะเปนทจะปรากฏทายอนพากยมากกวาปรากฏในต าแหนงอน ๆ ในอนพากยหรอไม หากมสดสวนการปรากฏททายอนพากยมากกวา กอาจจะจดท ารายการค าเหลานแลวน าไปเทยบกบค าในคลงขอมล เพอใหตวจ าแนกประเภทพจารณาค าเหลานในฐานะเปนขอบเขตทายอนพากย ซงจะสงผลใหค าทอยถดไปขางหลงมโอกาสเปนค าขอบเขตเรมตน EDU ได ทงน จากการส ารวจคลงขอมลทใชในการศกษาน ผวจยพบค าทไมไดก ากบหมวดค า PT และลงทายอนพากยจ านวนไมมากนก และสวนใหญมการปรากฏแบบกระจาย คอสามารถปรากฏไดหลายต าแหนง ดงนนจงไมไดใชประโยชนจากค าทมกจะลงทายอนพากยในงานน แตเปนไปไดวา หากขยายคลงขอมลใหใหญยงขน อาจจะเหนความนาจะเปนทค าบางค ามกจะลงทายอนพากย
รายการอางอง
Al-Saleem, S. M. (2010). "Associative Classification to Categorize Arabic Data Sets " The International Journal of CM Jordan (ISSN 2078-7952) 1(3).
Antony, P. J., et al. (2010). SVM Based Part of Speech Tagger for Malayalam. International
Conference on Recent Trends in Information, Telecommunication and Computing (ITC).
Aroonmanakun, W. (2007). Thoughts on Word and Sentence Segmentation in Thai. The
Seventh International Symposium on Natural Language Processing. Basu, A., et al. (2003). Support Vector Machines for Text Categorization. The 36th Annual
Hawaii International Conference. Borji, A. and M. Hamidi (2007). Support Vector Machine for Persian Font Recognition.
World Academyof Science, Engineering and Technology 28. Buscaldi, D., et al. (2006). Verb Sense Disambiguation Using Support Vector Machines:
Impact of WordNet-Extracted Features. International Conference on Intelligent Text Processing and Computational Linguistics (CICLing 2006).
Butler, C. S. ( 2003). Structure and Function: A Guide to Three Major Structural
Functional Theories. Part 1: Approaches to the Simplex Clause. Part 2: From Clause to Discourse and Beyond. Amsterdam and Philadelphia: John Benjamins.
Carlson, L. and D. Marcu (2001). Discourse Tagging Reference Manual. ISI Technical
Report, ISI-TR-545. Charoensuk, J. (2005). Thai Elementary Discourse Unit Segmentation by Discourse
Segmentation Cues and Syntactic Information, Kasetsart University, Bangkok. Dik, S. C. ( 1997). The Theory of Functional Grammar,Part 1: The Structure of the Clause
(2 nd ed.). Berlin: Mouton de Gruyter.
86
DTREG. "SVM-Support Vector Machines: Introduction to Support Vector Machine (SVM) Models." 2012, from http://www.dtreg.com/svm.htm.
Ekbal, A. and S. Bandyopadhyay (2008). Named Entity Recognition using Support Vector
Machine: A Language Independent Approach. International Journal of Computer, Systems Sciences and Engg (IJCSSE).
Foley, W. A. and O. Mike (1985). Clausehood and verb serialization. Grammar Inside and
Outside the Clause: Some Approaches to Theory from the Field. J. a. A. C. W. Nichols. Cambridge, Cambridge University Press: 17-60.
Foley, W. A. and R. D. VanValin, Jr. (1984). Functional syntax and universal grammar,
Cambridge: Cambridge University Press. Ganapathiraju, A. (2002). Support Vector Machines for Speech Recognition. (Ph. D
dissertation), Mississippi State University, Mississippi. Giménez, J. and L. Márquez (2003). Fast and Accurate Part-of-Speech Tagging: The SVM
Approach Revisited. The International Conference RANLP – 2003. Halliday, M. A. K. (1994). An introduction to functional grammar (2nd ed.). London:
Edward Arnold. Hernault, H., et al. (2010). "A Discourse Parser Using Support Vector Machine
Classification." Dialogue and Discourse, 1(3): 1–33. Ivanciuc, O. (2005). "SVM-Support Vector Machines OPTimum Separation Hyperplane."
from http://www.support-vector-machines.org/SVM_osh.html. Iwasaki, S. and I. P. Horie (2005). A Reference Grammar of Thai. Cambridge, UK,
Cambridge University Press. Jenks, P. (2006). Control in Thai. Variation in control structures. S. D. University of
California. University of California, San Diego.
87
Joachims, T. (1998). Text Categorization with Support Vector Machines: Learning with Many Relevant Features. The European Conference on Machine Learning (ECML).
Joshi, A., et al. (2006). Discourse Annotation: Discourse Connectives and Discourse
Relations. In: Tutorial at COLING/ACL. Ketui, N., et al. (2012). A Rule-Based Method for Thai Elementary Discourse Unit
Segmentation (TED-Seg). The 2012 Seventh International Conference on Knowledge, Information and Creativity Support Systems (KICSS 2012).
Lee, Y. K., et al. (2004). Supervised Word Sense Disambiguation with Support Vector
Machines and multiple knowledge sources. Senseval-3. Lemnitzer, L. (2006). "Sentence Segmentation." from http://www.cl.uni-
heidelberg.de/courses/archiv/ss06/textech/slidesSentSeg.pdf. Liberati, C., et al. (2009). "Data AdaPTive Simultaneous Parameter and Kernel Selection
in Kernel Discriminant Analysis (KDA) Using Information Complexity." Journal of Pattern Recognition Research 1: 119-132.
Mann, W. C. and M. Taboada (2005). "Intro to RST.". from
http://www.sfu.ca/rst/01intro/intro.html. Mann, W. C. and S. Thompson (1988). "Rhetorical Structure Theory: Toward a Functional
Theory of Text Organization." Text8(3): 243-281. Molina, A. and F. Pla (2001). Clause DETection using HMM. The 5th Conference on
Computational Natural Language Learning (CoNLL-2001), Toulouse, France. Nguyen, H., et al. (2004). Combined Kernel Function for Support Vector Machine and
Learning Method Based on Evolutionary Algorithm. ICONIP 2004, Calcutta, India. Platt, J. (1998). Fast Training of Support Vector Machines using Sequential Minimal
OPTimization. Advances in Kernel Methods - Support Vector Learning. B. Schoelkopf, B. C. and S. A., The MIT Press.
88
Poel, M., et al. (2007). A Support Vector Machine Approach to Dutch Part-of-Speech Tagging. the 7th International Symposium on Intelligent Data Analysis.
Polanyi, L. (1988). "A formal Model of the Structure of Discourse." Journal of Pragmatics
12: 601–638. Pongsutthi, M., et al. (2013). Thai Serial Verb Constructions: A Corpus Based Study. SNLP
2013. Pradhan, S., et al. (2004). Shallow Semantic Parsing Using Support Vector Machines. HLT-
NAACL, Boston. Ruangjaroon, S. (2005). The syntax of WH-expressions as variables in Thai. Vancouver,
University of British Columbia. Sinthupoun, S. (2009). Thai Rhetorical Structure Analysis. (PhD dissertation). National
Institute of Development Administration, Bangkok. Sornlertlamvanich, V., et al. (1997). ORCHID: Thai part-of-speech tagged corpus. , In
Technical report Orchid corpus: 5-19. Sporleder, C. and M. Lapata (2005). Discourse Chunking and its Application to Sentence
Compression. The Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing.
Subba, R. and B. Di Eugenio (2007). Automatic Discourse Segmentation Using Neural
Networks. The 11th Workshop on the Semantics and Pragmatics of Dialogue. Takahashi, K. (2009). "Basic Serial Verb Constructions in Thai." Journal of the Southeast
Asian Linguis-tics Society 1. Thepkanjana, K. (1986). Serial Verb Constructions in Thai, University of Michigan. Tofiloski, M., et al. (2009). A Syntactic and Lexical-based Discourse Segmenter. The ACL-
IJCNLP 2009 Conference Short Papers Association for Computational Linguistics.
89
Van der Vliet, N. (2010). Syntax-based Discourse Segmentation of Dutch Text. The 15th Student Session, ESSLLI.
Vijay Sundar Ram, R., et al. (2009). Tamil Clause Identifier. The 3rd National Conference
on Recent Advances and Future Trends in IT-2009(RAFIT2009) Witten, I. H. and E. Frank (2005). Data Mining: Practical Machine Learning Tools and
Techniques San Francisco, Morgan Kaufmann. Xu, Y. and F. Zhang (2006). "Using SVM to construct a Chinese dependency parser."
Journal of Zhejiang University-Science A (7)2: 199-203. Yaowapat, N. and A. Prasithrathsint (2006). Reduced relative clauses in Thai and
Vietnamese. Paper presented at The Sixteenth Annual Meeting of the Southeast Asian Linguistics Society (SEALS XVI), Jakarta, Indonesia, SePTember 20-21, 2006.
ก าชย ทองหลอ (2515). หลกภาษาไทย. กรงเทพมหานคร, รวมสาสน. เทพ จรสจรงเกยรต (2543). หนวยเชอมโยงปรจเฉทภาษาไทยตงแตสมยสโขทยจนถงปจจบน,
จฬาลงกรณมหาวทยาลย. นววรรณ พนธเมธา (2527). ไวยากรณไทย. กรงเทพมหานคร, รงเรองสาสน. นฐวฒ ไชยเจรญ (2544). การตดค าและการก ากบหมวดค าภาษาไทยแบบเบดเสรจดวยคอมพวเตอร,
จฬาลงกรณมหาวทยาลย. นเวศ จระวชตชย, et al. (2553). "การพฒนาประสทธภาพการจดหมวดหมเอกสารภาษาไทยแบบ
อตโนมต." วารสารพฒนบรหารศาสตร. สถาบนบณฑตพฒนบรหารศาสตร. บรรจบ พนธเมธา (2514). ลกษณะภาษาไทย. กรงเทพมหานคร, มหาวทยาลยรามค าแหง. พระยาอปกตศลปะสาร (2533). หลกภาษาไทย. กรงเทพมหานคร, ไทยวฒนาพานช. เมธ วฒนะเมธานนท (2549). การรจ าความสมพนธระดบปรจเฉทในเอกสารภาษาไทยโดยใชโมเดลการ
คดแยกแบบเนอฟเบย, จฬาลงกรณมหาวทยาลย.
90
ราชบณฑตยสถาน (2548). หลกเกณฑการใชเครองหมายวรรคตอนและเครองหมายอน ๆ หลกเกณฑ
การเวนวรรค หลกเกณฑการเขยนค ายอ ฉบบราชบณฑตยสถาน.พมพครงท 6 (แกไขเพมเตม). กรงเทพฯ, ราชบณฑตยสถาน.
เรองเดช ปนเขอนขตย (2541). ภาษาศาสตรภาษาไทย. นครปฐม, มหาวทยามหดล. วาทน นยเพยร, et al. (2553). การเปรยบเทยบประสทธภาพและวเคราะหการจ าแนกขอมลโดยใช
โครงขายประสาทเทยมซพพรอรตเวกเตอรแมชชน นาอฟเบย และเคเนยรตเนเบอร. การประชมทางวชาการเสนอผลงานวจยระดบบณฑตศกษา ครงท 11, มหาวทยาลยขอนแกน.
วจนตน ภาณพงศ (2532). โครงสรางของภาษาไทย: ระบบไวยากรณ. กรงเทพมหานคร, มหาวทยาลย
รามค าแหง. อมรา ประสทธรฐสทธ (2543). ชนดของค าในภาษาไทย: การวเคราะหทางวากยสมพนธโดยอาศย
ฐานขอมลภาษาไทยปจจบนสองลานค า, รายงานวจยเสนอส านกงานกองทนสนบสนนการวจย (ทนวจยองคความรใหมทเปนพนฐานตอการพฒนา).
อดม วโรตมสกขดตถ (2535). ความรเบองตนเกยวกบภาษา. กรงเทพมหานคร, มหาวทยาลยรามค าแหง.
ภาคผนวก
92
ภาคผนวก ก ตวอยางคลงขอมลและการก ากบขอมล
<EDU><w CCOR>อยางไรกตาม</w><w SPACE>space</w><w NCMN>อดมการณ</w><w NCMN>สากล</w></EDU><EDU><w COMPF>ท</w><w VERB>ครอบง า</w><w DET>นน</w></EDU><w SPACE>space</w><EDU><w PREP>ใน</w><w MNCF>หลาย</w><w PUNC>ๆ</w><w SPACE>space</w><w NCLS>กรณ</w><w CSBI>ก</w><w NEG>ไม</w><w ADVERB>เพยง</w><w VERB>ชวย</w><w VERB>เปด</w><w VERB>ให</w><w VERB>เกด</w><w PFN>การ</w><w VERB>สราง</w><w NCMN>อดมการณ</w><w VERB>ตอตาน</w><w ADVERB>เทานน</w></EDU><w SPACE>space</w><EDU><w CCOR>แต</w><w AUX>ยง</w><w AUX>สามารถ</w><w VERB>น า</w><w VERB>มา</w><w VERB>ใช</w><w PFAV>อยาง</w><w VERB>ม</w><w NCMN>พลวต</w></EDU><w SPACE>space</w><EDU><w CSUB>เพอ</w><w VERB>ปรบ</w><w VERB>เปลยน</w><w VERB>ให</w><w NCMN>ประเพณ</w><w NCMN>ทองถน</w><w VERB>เปน</w><w NCMN>กฎหมาย</w><w PREP>ของ</w><w NCMN>ชาต</w><w SPACE>space</w><w CCORIN>หรอ</w><w PREP>แมกระทง</w><w PFN>การ</w><w VERB>สราง</w><w NCMN>ความหมาย</w><w VERB>ใหม</w><w PREP>ใน</w><w NCMN>เรอง</w><w PREP>ของ</w><w NCMN>สทธ</w><w NCMN>ชมชน</w></EDU><w SPACE>space</w><EDU><w CCOR>ดงนน</w><w SPACE>space</w><w NCMN>พลวต</w><w PREP>ของ</w><w NCMN>ความร</w><w NCMN>ชาวบาน</w></EDU><EDU><w COMPF>ท</w><w VERB>เกด</w><w VERB>ขน</w><w PREP>ใน</w><w NCMN>ประเทศ</w><w NPRP>ไทย</w></EDU><EDU><w VERB>บงช</w><w PFAV>อยาง</w><w VERB>ชดเจน</w></EDU><EDU><w COMPF>วา</w><w SPACE>space</w><w NCMN>กระแส</w><w NCMN>โลกาภวตน</w><w DET>นน</w><w VERB>เปน</w><w NCMN>กระบวนการ</w></EDU><EDU><w COMPF>ท</w><w VERB>ขดแยง</w><w NPRO>กนเอง</w><w ADVERB>ตลอด</w><w ADVERB>เวลา</w></EDU><w SPACE>space</w><EDU><w COMPF>ซง</w><w AUX>สามารถ</w><w VERB>น า</w><w VERB>ไป</w><w PREP>ส</w><w PFN>การ</w><w VERB>สราง</w><w NCMN>คณคา</w><w CCORIN>และ</w><w NCMN>อตลกษณ</w></EDU><EDU><w COMPF>ท</w><w VERB>แตกตาง</w><w NPRO>กน</w><w PFAV>อยาง</w><w VERB>หลากหลาย</w></EDU>
93
ภาคผนวก ข ตวอยางไฟล ARFF ซงเปนรปแบบไฟลทใชในการฝกฝนและทดสอบแบบจ าลอง
@relation test-data-edu
@attribute POS-P {NCMN,VERB,SPACE,PREP,PUNC,AUX,PFN,COMPF,NPRP,ADVERB,CCOR,FOREIGN,DET,CCORIN,NNUM,CSUB,NPRO,CSBI,NCLS,MNCF,NEG,PFAV ,ADJ,COMPNF,PT,MNCB,MCN,NON }
@attribute POS-B {NCMN,VERB,SPACE,PREP,PUNC,AUX,PFN,COMPF,NPRP,ADVERB,CCOR,FOREIGN,DET,CCORIN,NNUM,CSUB,NPRO,CSBI,NCLS,MNCF,NEG,PFAV ,ADJ,COMPNF,PT,MNCB,MCN,NON }
@attribute POS-A {NCMN,VERB,SPACE,PREP,PUNC,AUX,PFN,COMPF,NPRP,ADVERB,CCOR,FOREIGN,DET,CCORIN,NNUM,CSUB,NPRO,CSBI,NCLS,MNCF,NEG,PFAV ,ADJ,COMPNF,PT,MNCB,MCN,NON }
@attribute DM {Y,N}
@attribute Space {Y,N}
@attribute Punc {Y,N}
@attribute Label {Boundary,NonBoundary}
@data
CCOR,NCMN,SPACE,Y,N,N,Boundary SPACE,CCOR,NCMN,N,N,N,NonBoundary NCMN,SPACE,NCMN,N,Y,N,NonBoundary NCMN,NCMN,COMPF,N,N,N,NonBoundary COMPF,NCMN,VERB,N,N,N,Boundary VERB,COMPF,DET,N,N,N,NonBoundary DET,VERB,SPACE,N,N,N,NonBoundary SPACE,DET,PREP,N,N,N,NonBoundary PREP,SPACE,MNCF,N,N,N,Boundary MNCF,PREP,PUNC,N,N,N,NonBoundary PUNC,MNCF,SPACE,N,N,N,NonBoundary
94
SPACE,PUNC,NCLS,N,N,N,NonBoundary NCLS,SPACE,CSBI,N,N,N,NonBoundary CSBI,NCLS,NEG,N,N,N,NonBoundary NEG,CSBI,ADVERB,N,N,N,NonBoundary ADVERB,NEG,VERB,N,N,N,NonBoundary VERB,ADVERB,VERB,N,N,N,NonBoundary VERB,VERB,VERB,N,N,N,NonBoundary VERB,VERB,VERB,N,N,N,NonBoundary VERB,VERB,PFN,N,N,N,NonBoundary PFN,VERB,VERB,N,N,N,NonBoundary VERB,PFN,NCMN,N,N,N,NonBoundary NCMN,VERB,VERB,N,N,N,NonBoundary VERB,NCMN,ADVERB,N,N,N,NonBoundary ADVERB,VERB,SPACE,N,N,N,NonBoundary SPACE,ADVERB,CCOR,N,N,N,NonBoundary CCOR,SPACE,AUX,Y,Y,N,Boundary AUX,CCOR,AUX,N,N,N,NonBoundary AUX,AUX,VERB,N,N,N,NonBoundary VERB,AUX,VERB,N,N,N,NonBoundary VERB,VERB,VERB,N,N,N,NonBoundary VERB,VERB,PFAV,N,N,N,NonBoundary PFAV,VERB,VERB,N,N,N,NonBoundary VERB,PFAV,NCMN,N,N,N,NonBoundary NCMN,VERB,SPACE,N,N,N,NonBoundary SPACE,NCMN,CSUB,N,N,N,NonBoundary CSUB,SPACE,VERB,Y,Y,N,Boundary VERB,CSUB,VERB,N,N,N,NonBoundary VERB,VERB,VERB,N,N,N,NonBoundary
95
ภาคผนวก ค ตวอยางผลลพธทแสดงบนหนาจอของโปรแกรมวกา
=== Run information === Scheme:weka.classifiers.functions.SMO -C 1.0 -L 0.001 -P 1.0E-12 -N 0 -V -1 -W 1 -K "weka.classifiers.functions.supportVector.PolyKernel -C 250007 -E 2.0" Relation: train-data-edu Instances: 68814 Attributes: 8 POS-P POS-B POS-A DM Space Punc Lable Test mode:user supplied test set: size unknown (reading incrementally) === Classifier model (full training set) === SMO Kernel used: Poly Kernel: K(x,y) = <x,y>^2.0 Classifier for classes: Boundary, NonBoundary Number of support vectors: 21544 Number of kernel evaluations: 1361254762 Time taken to build model: 18320.79 seconds
96
=== Predictions on test split === inst#, actual, predicted, error, probability distribution 1 2:NonBound 2:NonBound 0 *1 2 2:NonBound 2:NonBound 0 *1 3 2:NonBound 2:NonBound 0 *1 4 2:NonBound 2:NonBound 0 *1 5 2:NonBound 2:NonBound 0 *1 6 2:NonBound 2:NonBound 0 *1 7 1:Boundary 1:Boundary *1 0 8 2:NonBound 2:NonBound 0 *1 9 2:NonBound 2:NonBound 0 *1 10 2:NonBound 2:NonBound 0 *1 11 2:NonBound 2:NonBound 0 *1 12 2:NonBound 2:NonBound 0 *1 13 2:NonBound 2:NonBound 0 *1 14 2:NonBound 2:NonBound 0 *1 15 2:NonBound 2:NonBound 0 *1 16 2:NonBound 2:NonBound 0 *1 17 2:NonBound 2:NonBound 0 *1 18 2:NonBound 2:NonBound 0 *1 19 1:Boundary 1:Boundary *1 0 20 2:NonBound 2:NonBound 0 *1 21 2:NonBound 2:NonBound 0 *1 22 2:NonBound 1:Boundary + *1 0 23 2:NonBound 2:NonBound 0 *1 24 2:NonBound 2:NonBound 0 *1 25 2:NonBound 2:NonBound 0 *1 26 2:NonBound 2:NonBound 0 *1 27 2:NonBound 2:NonBound 0 *1 28 2:NonBound 2:NonBound 0 *1 29 1:Boundary 1:Boundary *1 0
97
=== Evaluation on test set === === Summary === Correctly Classified Instances 7398 96.7565 % Incorrectly Classified Instances 248 3.2435 % Kappa statistic 0.8251 Mean absolute error 0.0324 Root mean squared error 0.1801 Relative absolute error 16.6831 % Root relative squared error 56.869 % Total Number of Instances 7646 === DETailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.771 0.007 0.93 0.771 0.843 0.882 Boundary 0.993 0.229 0.971 0.993 0.982 0.882 NonBoundary Weighted Avg. 0.968 0.204 0.967 0.968 0.966 0.882 === Confusion Matrix === a b <-- classified as 666 198 | a = Boundary 50 6732 | b = NonBoundary
98
ประวตผเขยนวทยานพนธ
นางสาวนลน อนตะซาว เกดเมอวนท 19 มกราคม พ.ศ. 2529 ทจงหวดล าปาง ส าเรจการศกษาระดบปรญญาตรศลปศาสตรบณฑต สาขาภาษาองกฤษ มหาวทยาลยเชยงใหม ในปการศกษา 2550 จากนนท างานต าแหนงครผสอน (อตราจาง) หลกสตรสองภาษาทโรงเรยนอนบาลเชยงใหม และเขาศกษาตอในหลกสตรอกษรศาสตรมหาบณฑต ภาควชาภาษาศาสตร จฬาลงกรณมหาวทยาลย ในปการศกษา 2553