110
การแยกอนุพากย์ภาษาไทยด้วยการใช้แบบจาลองซัพพอร์ตเวกเตอร์แมชชีน นางสาวนลินี อินต๊ะซาว วิทยานิพนธ์นี้เป็นส่วนหนึ่งของการศึกษาตามหลักสูตรปริญญาอักษรศาสตรมหาบัณฑิต สาขาวิชาภาษาศาสตร์ ภาควิชาภาษาศาสตร์ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ปีการศึกษา 2556 ลิขสิทธิ์ของจุฬาลงกรณ์มหาวิทยาลัย

นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

การแยกอนพากยภาษาไทยดวยการใชแบบจ าลองซพพอรตเวกเตอรแมชชน

นางสาวนลน อนตะซาว

วทยานพนธนเปนสวนหนงของการศกษาตามหลกสตรปรญญาอกษรศาสตรมหาบณฑต สาขาวชาภาษาศาสตร ภาควชาภาษาศาสตร คณะอกษรศาสตร จฬาลงกรณมหาวทยาลย

ปการศกษา 2556 ลขสทธของจฬาลงกรณมหาวทยาลย

Page 2: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

Thai Clause Segmentation Using a Support Vector Machine Model

Miss Nalinee Intasaw

A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of Arts Program in Linguistics

Department of Linguistics Faculty of Arts

Chulalongkorn University Academic Year 2013

Copyright of Chulalongkorn University

Page 3: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

หวขอวทยานพนธ การแยกอนพากยภาษาไทยดวยการใชแบบจ าลองซพพอรตเวกเตอรแมชชน

โดย นางสาวนลน อนตะซาว สาขาวชา ภาษาศาสตร อาจารยทปรกษาวทยานพนธหลก รองศาสตราจารย ดร. วโรจน อรณมานะกล

คณะอกษรศาสตร จฬาลงกรณมหาวทยาลย อนมตใหนบวทยานพนธฉบบนเปนสวนหนงของการศกษาตามหลกสตรปรญญามหาบณฑต

คณบดคณะอกษรศาสตร

(ผชวยศาสตราจารย ดร. ประพจน อศววรฬหการ)

คณะกรรมการสอบวทยานพนธ

ประธานกรรมการ

(รองศาสตราจารย ดร. สมชาย ประสทธจตระกล)

อาจารยทปรกษาวทยานพนธหลก

(รองศาสตราจารย ดร. วโรจน อรณมานะกล)

กรรมการภายนอกมหาวทยาลย

(ดร. เทพชย ทรพยนธ)

Page 4: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

บทคดยอภาษ าไทย

นลน อนตะซาว : การแยกอนพากยภาษาไทยดวยการใชแบบจ าลองซพพอรตเวกเตอรแมชชน. (Thai Clause Segmentation Using a Support Vector Machine Model) อ.ทปรกษาวทยานพนธหลก: รศ. ดร. วโรจน อรณมานะกล, 98 หนา.

วตถประสงคของวทยานพนธน คอ เพอหาลกษณทางภาษาศาสตรทจะน าไปใชในการแยกอนพากยภาษาไทยดวยแบบจ าลองซพพอรพเวกเตอรแมชชน และเปรยบเทยบลกษณทางภาษาศาสตรทใช วาสงผลตอประสทธภาพของระบบการแยกอนพากยอยางไรบาง

คลงขอมลทใชในการศกษานเปนภาษาเขยนทางวชาการ มขนาด 76,460 ค า ประกอบไปดวย 8,102 อนพากย แบบจ าลองซพพอรตเวกเตอรแมชชนทใชในการแยกอนพากยในงานน คอฟงกชน SMO ของโปรแกรมวกา (Weka) และฟงกชนเคอรเนลทใชคอโพลโนเมยล ระบบท าการแยกอนพากยโดยรบขอมลเขาเปนค าเพอใหแบบจ าลองตดสนใจวาค านนเปนค าขอบเขตเรมตนอนพากยหรอไม การตดสนใจของแบบจ าลองอาศยลกษณทางภาษาศาสตร ไดแก ลกษณหมวดค าปจจบน หมวดค ากอนหนา หมวดค าตามหลง รายการค าเชอมอนพากย ความนาจะเปนของชองวางทจะเปนตวแบงอนพากย และเครองหมายวรรคตอน การเปรยบเทยบประสทธภาพของแตละลกษณท าโดยการก าหนดชดของลกษณรปแบบตาง ๆ แลวน าไปทดสอบ รปแบบของลกษณทสงผลตอประสทธภาพของระบบมากทสด คอการใชทกลกษณรวมกนทงหมด สามารถวดคาความถกตอง (F-measure) ได 81.17 เปอรเซนต นอกจากน เมอปรบคาพารามเตอรของเคอรเนลโพลโนเมยลใหสงขน พบวาสามารถชวยเพมประสทธภาพของระบบได กลาวคอ วดคาความถกได 84.74 เปอรเซนต เมอปรบคาพารามเตอรไวท D=4

ภาควชา ภาษาศาสตร

สาขาวชา ภาษาศาสตร

ปการศกษา 2556

ลายมอชอนสต

ลายมอชอ อ.ทปรกษาวทยานพนธหลก

Page 5: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

บทคดยอภาษ าองกฤษ

# # 5380139422 : MAJOR LINGUISTICS KEYWORDS: THAI CLAUSE SEGMENTATION / CLAUSE SEGMENTATION / SUPPORT VECTOR MACHINE / SVM / ELEMENTARY DISCOURSE UNIT

NALINEE INTASAW: THAI CLAUSE SEGMENTATION USING A SUPPORT VECTOR MACHINE MODEL. ADVISOR: ASSOC. PROF. WIROTE AROONMANAKUN, Ph.D., 98 pp.

The purposes of this study are to find out linguistic features to be used in Thai clause segmentation using support vector machine (SVM) model as well as to compare efficiency of those features on clause segmentation system.

The corpus used in the study is a 76,460 word collection of Thai academic written language, consisting of 8,102 clauses. SMO, which is one of the functions in Weka, is used for training SVM. The kernel function used with SVM is polynomial kernel. The clause segmentation system uses words as inputs and decides whether a particular word is the beginning of the clause. The system's decision relies on linguistic-based features including the word's present part-of-speech, the word's previous part-of-speech, the word's following part-of-speech, lists of discourse markers, possibility of white space to be a clause separator, and punctuations. The performances of linguistic features are compared by preparing the set of feature patterns and testing those patterns. The feature pattern that performs the best is the mix of all linguistic features which claims the F-measure of 81.17 percent. In addition, when changing the value of the kernel parameter to higher value, it is found that the performance of the system increases. That is, when adjusting the exponent D to the value of 4, the system claims the F-measure of 84.74 percent.

Department: Linguistics

Field of Study: Linguistics

Academic Year: 2013

Student's Signature

Advisor's Signature

Page 6: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

กตตกรรมประกาศ

ผวจยขอขอบพระคณ รองศาสตราจารย ดร.วโรจน อรณมานะกล อาจารยทปรกษาวทยานพนธเปนอยางสง ทไดเสยสละเวลาในการใหค าแนะน าและความชวยเหลอผวจยมาโดยตลอด ทงการท างานวจยเพอตพมพ งานวทยานพนธ ตลอดจนการใหโอกาสรบเงนทนผ ชวยวจย จนท าใหผวจยสามารถท างานวจยส าเรจลลวงไปดวยด

ขอขอบพระคณ ศาสตราจารย ดร.สมชาย ประสทธจตระกล ประธานกรรมการสอบวทยานพนธ และ ดร.เทพชย ทรพยนธ กรรมการสอบวทยานพนธ ทเสยสละเวลาชวยตรวจแกวทยานพนธ อกทงยงใหขอชแนะในการท างานวจย อนท าใหงานวทยานพนธฉบบนมความสมบรณยงขน

ขอขอบพระคณ ศาสตราจารย ดร.ธระพนธ เหลองทองค า , รองศาสตราจารย ดร.กงกาญจน เทพกาญจนา, ผชวยศาสตราจารย ดร.สดา รงกพนธ, ผชวยศาสตราจารย ดร.ธราภรณ รตธรรมกล, ผชวยศาสตราจารย ดร.พทยาวฒน พทยาภรณ รวมถงคณาจารยภาควชาภาษาศาสตรทานอน ๆ ทไดใหความรขณะผวจยศกษาเลาเรยน ซงเปนการเพมพนความรและประสบการณทางดานภาษาศาสตรใหแกผวจย

ขอขอบคณเพอน ๆ ทภาควชาภาษาศาสตร ทนอกจากจะมอบมตรภาพอนดแลว ยงคอยใหค าแนะน า ก าลงใจ และความชวยเหลอทางดานการเรยนแกผวจย และขอขอบคณเจาหนาทภาควชาภาษาศาสตรทกทาน ทคอยใหค าแนะน าและการชวยเหลอตลอดระยะเวลาทผวจยศกษาอย ณ จฬาลงกรณมหาวทยาลย

สดทายน ผวจยตองขอขอบพระคณบดา มารดา คณบญชวย และคณจนท รา อนตะซาว เปนอยางสง ทใหการสนบสนน และมความเชอมนในผวจยมาโดยตลอด และขอขอบคณ คณมาลาทพย จอหนสน, คณศรรตน มอรแกน, และคณณรนช พรยะสกลยง ส าหรบมตรภาพและก าลงใจทมอบใหเสมอมา

Page 7: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

สารบญ หนา

บทคดยอภาษาไทย ............................................................................................................................. ง

บทคดยอภาษาองกฤษ ....................................................................................................................... จ

กตตกรรมประกาศ............................................................................................................................. ฉ

สารบญ .............................................................................................................................................. ช

สารบญตาราง ................................................................................................................................... ญ

สารบญภาพ ...................................................................................................................................... ฏ

บทท 1 .............................................................................................................................................. 1

บทน า ................................................................................................................................................ 1

1.1 ความเปนมาและความส าคญของปญหา ................................................................................. 1

1.2 วตถประสงค ........................................................................................................................... 4

1.3 สมมตฐาน ............................................................................................................................... 4

1.4 ขอบเขตของการวจย .............................................................................................................. 4

1.5 วธด าเนนการวจย ................................................................................................................... 4

1.6 ประโยชนทคาดวาจะไดรบ ..................................................................................................... 5

1.7 เครองมอทใชในการวจย ......................................................................................................... 5

บทท 2 .............................................................................................................................................. 6

ทบทวนวรรณกรรม ........................................................................................................................... 6

2.1 การศกษาอนพากยตามแนวภาษาศาสตร ................................................................................ 6

2.2 ทฤษฎเกยวกบอนพากยทใชในการแยกอนพากย .................................................................... 9

2.2.1 Linguistic Discourse Model .................................................................................... 9

2.2.2 Rhetorical Structure Theory................................................................................ 10

2.2.3 การใช RST วเคราะหภาษาไทย ................................................................................. 12

2.3 แนวทางการแยกอนพากยดวยเครอง .................................................................................... 15

2.3.1 แนวทางการใชกฎ (Rule-based approaches) ....................................................... 15

2.3.2 แนวทางการเรยนรดวยเครอง (Machine Learning) ................................................. 16

2.4 งานวจยทเกยวของกบการแยกอนพากยในภาษาไทย ........................................................... 17

2.5 ซพพอรตเวกเตอรแมชชน (Support Vector Machine: SVM) ........................................... 19

Page 8: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

หนา

2.6 ตวอยางงานประมวลผลภาษาธรรมชาตทผานมาทใชซพพอรตเวกเตอรแมชชน .................... 21

บทท 3 ............................................................................................................................................ 23

คลงขอมลและการก ากบขอมล ........................................................................................................ 23

3.1 การจดท าคลงขอมล .............................................................................................................. 23

3.2 การก ากบคลงขอมล.............................................................................................................. 23

3.2.1 หมวดค าภาษาไทยและการก ากบหมวดค า ................................................................. 24

3.2.2 การก ากบขอบเขตหนวยปรจเฉทพนฐาน ................................................................... 28

บทท 4 ............................................................................................................................................ 30

การก าหนดขอบเขตอนพากยภาษาไทย ........................................................................................... 30

บทท 5 ............................................................................................................................................ 44

การแยกอนพากยภาษาไทยดวยแบบจ าลองซพพอรตเวกเตอรแมชชน............................................. 44

5.1 ระบบการแยกอนพากยภาษาไทยดวยแบบจ าลองซพพอรตเวกเตอรแมชชน ........................ 44

5.2 การก าหนดลกษณทใชในการฝกฝนและทดสอบแบบจ าลอง ................................................. 44

5.2.1 ลกษณะทางโครงสราง EDU ภาษาไทย ...................................................................... 45

5.2.1.1 EDU ทมโครงสรางระดบอนพากย ............................................................... 45

5.2.1.2 EDU ทมลกษณะทางโครงสรางต ากวาระดบอนพากย ................................. 50

5.2.2 ลกษณทใชในการฝกฝนและทดสอบแบบจ าลอง ........................................................ 51

5.3 การเตรยมไฟลขอมลส าหรบฝกฝนและทดสอบแบบจ าลอง................................................... 58

5.4 เคอรเนลฟงกชนและการตงคาพารามเตอร ........................................................................... 60

5.5 การประเมนประสทธภาพของแบบจ าลอง ............................................................................ 61

5.6 ผลการทดสอบ ...................................................................................................................... 62

5.6.1 ผลการทดสอบของลกษณรปแบบตาง ๆ ของลกษณ พารามเตอร C=1 และ D=1 .... 63

5.6.2 ผลการทดสอบทปรบคาพารามเตอร C=1 และ D=2, D=3, D=4.............................. 66

บทท 6 ............................................................................................................................................ 70

ลกษณทางภาษาทมผลตอประสทธภาพของแบบจ าลอง .................................................................. 70

6.1 ประสทธภาพของลกษณทางภาษาทใช ................................................................................. 70

6.1.1 หมวดค า .................................................................................................................... 70

Page 9: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

หนา

6.1.2 ค าเชอมหนาอนพากย ................................................................................................ 72

6.1.4 เครองหมายวรรคตอน ............................................................................................... 75

6.1.5 การใชทกลกษณรวมกน ............................................................................................. 75

6.2 ประสทธภาพของแบบจ าลองเมอปรบคาพารามเตอรของเคอรเนลใหสงขน .......................... 76

บทท 7 ............................................................................................................................................ 80

สรปผลการศกษา ปญหา และขอเสนอแนะ ..................................................................................... 80

7.1 สรปผลการศกษา .................................................................................................................. 80

7.2 ปญหาทพบในการศกษา ....................................................................................................... 82

7.3 ขอเสนอแนะ ......................................................................................................................... 83

รายการอางอง ................................................................................................................................. 85

ภาคผนวก........................................................................................................................................ 91

ภาคผนวก ก ตวอยางคลงขอมลและการก ากบขอมล .................................................................. 92

ภาคผนวก ข ตวอยางไฟล ARFF ซงเปนรปแบบไฟลทใชในการฝกฝนและทดสอบแบบจ าลอง ... 93

ภาคผนวก ค ตวอยางผลลพธทแสดงบนหนาจอของโปรแกรมวกา .............................................. 95

ประวตผเขยนวทยานพนธ ............................................................................................................... 98

Page 10: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

สารบญตาราง

ตารางท หนา

2.1 ชนดและตวอยางของอนพากยปรจเฉทในภาษาไทยวเคราะหตามแนวทฤษฏ RST .............. 18 3.1 แสดงสญลกษณทใชในการก ากบคลงขอมล ......................................................................... 29 3.2 ตวอยางคลงขอมลทก ากบขอมลแลว ................................................................................... 29 4.1 แสดงเครองหมายวรรคตอนทใชในภาษาไทย ...................................................................... 44 5.1 แสดงตวอยางคาลกษณ POS ของคลงขอมล....................................................................... 53 5.10 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงทแบบจ าลองระบ

ขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 4 (POS-P, POS-B, POS-A, Space) ....................................................................................................................................... 68

5.11 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงทแบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 5 (POS-P, POS-B, POS-A, Punc) ......................................................................................................................................... 68

5.12 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงทแบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 6 (POS-P, POS-B, POS-A, DM, Space, Punc) .................................................................................................................... 69

5.13 แสดงคาเฉลยของผลการทดสอบแบบจ าลองทใชลกษณรปแบบท 1 - 6 ในการฝกฝนและทดสอบ ประกอบไปดวยคาความแมนย า คาความครบถวน F-measure และจ านวนครงทแบบจ าลองระบขอบเขต EDU ไดถกตอง .................................................................................... 69

5.14 แสดงคาเฉลยของผลการทดสอบทงหมด 10 ครง ทมการปรบคาพารามเตอรของเคอรเนล D=2 ใหกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน ............................................................. 71

5.15 แสดงคาเฉลยของผลการทดสอบทงหมด 10 ครง ทมการปรบคาพารามเตอรของเคอรเนล D=3 ใหกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน ............................................................. 71

5.16 แสดงคาเฉลยของผลการทดสอบทงหมด 10 ครง ทมการปรบคาพารามเตอรของเคอรเนล D=4 ใหกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน ............................................................. 72

5.17 สรปคาเฉลยของผลการทดสอบทงหมด 10 ครง ทมการปรบคาพารามเตอรของเคอรเนลตาง ๆ ใหกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน ........................................................ 72

5.2 แสดงรายการค าเชอม แบงตามรปภาษา ............................................................................. 55 5.3 แสดงตวอยางจากคลงขอมลและลกษณรายการค าเชอม ..................................................... 56 5.4 แสดงจ านวนครงท POS ตาง ๆ ปรากฏหลงชองวาง และจ านวนครงทชองวางจะเปนตวแบง

อนพากย ..................................................................................................................................... 58 5.5 แสดงตวอยางจากคลงขอมลและการก าหนดลกษณชองวาง ................................................ 59 5.6 แสดงตวอยางจากคลงขอมลและการก าหนดลกษณเครองหมายวรรคตอน .......................... 60 5.7 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงทแบบจ าลองระบ

ขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 1 (POS-P) ....................... 67

Page 11: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

ตารางท .........................................................................................................................................หนา 5.8 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงทแบบจ าลองระบ

ขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 2 (POS-P, POS-B, POS-A) ................................................................................................................................................... 67

5.9 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงทแบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 3 (POS-P, POS-B, POS-A, DM) ............................................................................................................................................ 68

6.1 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณ POS ของ 3 ค า .............................. 78 6.2 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณค าเชอม ........................................... 79 6.3 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณชองวาง ........................................... 81 6.4 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณเครองหมายวรรคตอน ..................... 82 6.5 ตวอยางขอความจากคลงขอมล แสดงผลการใชทกลกษณรวมกน ....................................... 83 6.6 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณชองวางเมอปรบคาพารามเตอรตางกน

................................................................................................................................................... 85 6.7 ตวอยางขอความจากคลงขอมล แสดงความผดพลาดทเกดขนกบการใชลกษณชองวางเมอ

ปรบคาพารามเตอร D=3 ............................................................................................................. 85 6.8 ตวอยางขอความจากคลงขอมล เปรยบเทยบผลการทดสอบลกษณชดท 1 และ 2 .............. 86

Page 12: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

สารบญภาพ

ภาพท หนา

2.1 โครงสรางตนไมประโยคภาษาองกฤษตามแนวไวยากรณบทบาทและการอางอง ................... 7 2.2 แผนภมตนไมทไดจากการวเคราะหขอความภาษาองกฤษตามแนวทฤษฎ LDM .................. 10 2.3 ตวอยางการวเคราะหโครงสรางปรจเฉทตามแนวทฤษฎ RST .............................................. 11 2.4 แผนภมตนไม RST แสดงปรจเฉทสมพนธของขอความ 1 .................................................... 13 2.5 แผนภมตนไม RST แสดงปรจเฉทสมพนธของขอความ 2 .................................................... 14 2.6 แผนภมตนไม RST แสดงปรจเฉทสมพนธของขอความ 3 .................................................... 14 2.7 ตวอยางกฎเพอใชในการตดประโยคภาษาองกฤษ ............................................................... 15 2.8 แสดงสมการเสนตรงของเสนขอบและเสนแบง .................................................................... 19 2.9 แสดงการจดขอมลใหอยในมตทสงขน ................................................................................. 20

Page 13: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

บทท 1

บทน า

1.1 ความเปนมาและความส าคญของปญหา

อนพากยเปนหนวยทางไวยากรณ ทประกอบไปดวยภาคประธานและภาคแสดง ในการศกษาโครงสรางและความสมพนธในปรจเฉท อนพากยถอเปนหนวยพนฐาน (Elementary unit) ทใชเปนหนวยการวเคราะห การแยกอนพากยจงเปนงานทมความส าคญตองานการประมวลผลภาษาธรรมชาตทตองใชขอมลจากโครงสรางปรจเฉท เชน text summarization, machine translation, text generation, text-to-speech, discourse parsing เปนตน นอกจากนอนพากยยงสามารถใชเปนขอมลรบเขา (Input) ในบางงานไดอกดวย เนองจากอนพากยเปนหนวยทเลกกวาประโยคและยอหนา แตกเปนถอยความทประกอบไปดวยขอมลเนอหาอยางครบถวน

ส าหรบการประมวลผลภาษาไทยดวยเครองนน อนพากยกนาจะสามารถเปนหนวยของขอมลรบเขาทมความเหมาะสมมากกวาประโยค เนองจากการระบขอบเขตประโยคในภาษาไทยยงมปญหา กลาวคอ ภาษาเขยนของภาษาไทยไมมการใชเครองหมายวรรคตอนเมอจบประโยค มเพยงการเวนวรรคหรอการใชชองวางเมอตองการขนใจความใหม แตการเวนวรรคกมวธการใชและหนาทหลากหลาย เชน เวนวรรคระหวางค าในรายการค า เวนวรรคระหวางชอและนามสกล เวนวรรคหนาและหลงตวเลข ฯลฯ

นอกจากน การระบขอบเขตของสงทเรยกวา “ประโยค” ในภาษาไทยกไมสามารถท าไดโดยงายอยางในภาษาองกฤษ เนองจากภาษาไทยไมไดมธรรมเนยมการเขยนใหเปนประโยคอยางในภาษาองกฤษทมลกษณะของการเรยงค าตางๆใหอยภายในเครองหมาย “.” ดงนนหนวยทอยภายในเครองหมายนจงเปนประโยคเดยวกน ในขณะทภาษาไทย การเขยนเปนการรวมค าใหเปนกลมค าหรอวล จากวลกรวมกนเปนอนพากย และ ค า วล อนพากยยงสามารถเช อมโครงสรางและความหมายกนไดโดยการใชตวเชอม (Connector) สวนหนวยในภาษาไทยทเทยบเทากบ “ประโยค” ในภาษาองกฤษกยงเปนสงทตองตงค าถามวา ภาษาไทยมประโยคหรอไม และหากเชอวาภาษาไทยมสงทเรยกวา “ประโยค” จรง กจะตองแกปญหาใหไดวา ชองวางใดทถกใชในการแยกสองประโยคออกจากกน เพราะชองวางกอาจจะไมไดใชเพอแบงประโยคกได ดงทไดกลาวไวแลวขางตน จงเปนทมาของปญหาการระบขอบเขตของประโยคภาษาไทย ขอความตอไปนเปนตวอยางทชใหเหนปญหาการตดประโยคภาษาไทย เปรยบเทยบกบภาษาองกฤษ

Page 14: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

2

จากขอความขางตน จะพบวาขอความภาษาองกฤษมการใชเครองหมายจบประโยค (.)

ทงหมด 3 แหง และขนตนประโยคใหมดวยอกษรตวใหญ ดงนนขอความนประกอบดวย 3 ประโยค คอ

1 In Thailand which has the lowest breastfeeding rate in Asia and one of the lowest in the world, only 5.4 per cent of babies are exclusively breastfed during the first six months of life.

2 Napat, who recently visited several flood-ravaged areas in Chainat, Lopburi and Singburi provinces to assess the situation of children and families affected by floods, said most mothers are maintaining the same infant feeding practice as before the floods.

3 Unsurprisingly, infant formula is among the items most requested by mothers affected by the flooding.

In Thailand which has the lowest breastfeeding rate in Asia and one of the lowest in

the world, only 5.4 per cent of babies are exclusively breastfed during the first six months of

life. Napat, who recently visited several flood-ravaged areas in Chainat, Lopburi and Singburi

provinces to assess the situation of children and families affected by floods, said most mothers

are maintaining the same infant feeding practice as before the floods. Unsurprisingly, infant

formula is among the items most requested by mothers affected by the flooding.

ในประเทศไทยซงมอตราการเลยงลกดวยนมแมต าทสดในเอเชยและต าทสดประเทศหนงใน

โลก^มทารกเพยงรอยละ^5.4^เทานนทไดรบการเลยงดวยนมแมเพยงอยางเดยวในชวงหกเดอนแรกของ

ชวต^ นภทรซงไดไปเยยมพนททไดรบผลกระทบหลายแหงในจงหวดชยนาท^ลพบรและสงหบรเพอ

ประเมนสถานการณของเดกและครอบครวทไดรบผลกระทบจากน าทวมกลาววา^แมสวนใหญยงคง

ปฏบตเหมอนเดม^คอถาใหนมแมกยงคงใหนมแมตอไป^หรอใหนมผงกยงใหนมผงตอไป^อยางไรกตาม

เนองจากแมสวนใหญในประเทศไทยเลยงลกดวยนมผง^จงไมนาแปลกใจทนมผงเปนสงทแมตองการมาก

ทสด

(บทความเรอง นมแมปลอดภยทสดส าหรบภาวะน าทวม ดดแปลงจาก

http://www.unicef.org/thailand/tha/reallives_17802.html)

Page 15: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

3

สวนในขอความภาษาไทย จะพบวามชองวางอยทงหมด 10 แหง ซงแทนทโดยเครองหมาย ^ ชองวางมการใชเพอเวนวรรคระหวางอนพากย กอนและหลงตวเลข และระหวางรายการค า ดงนนชองวางในภาษาไทยจงไมใชตวบงบอกขอบเขตประโยคทปราศจากความคลมเคลอ นอกจากนการระบจ านวนประโยคกเปนสงทมปญหา จากขอความตวอยางขางตน อาจะมค าถามทวา ขอความหลงค าวา “กลาววา” ควรจะถอวาเปนประโยคเดยวกนหมดภายใตกรยา “กลาววา” หรอไม หรอจะพจารณาวามมากกวา 1 ประโยค นอกจากนยงมการศกษาของ Aroonmanakun (2007) ทไดท าการทดลองใหกลมตวอยางผพดภาษาไทยเปนภาษาแมตดขอความเดยวกนออกเปนประโยค ผลปรากฏวาผพดแตละคนมการตดประโยคทแตกตางกนออกไป นจงเปนอกหลกฐานหนงทพสจนใหเหนถงปญหาการระบขอบเขตประโยคภาษาไทย

จากทกลาวมา แสดงใหเหนแลววา การศกษาการแยกอนพากยภาษาไทยมความส าคญยง เพราะอนพากยเปนหนวยทมระบขอบเขตไดชดเจนมากกวา สามารถใชเปนหนวยทเปนขอมลรบเขาส าหรบงานการประมวลผลภาษาธรรมชาตภาษาไทย อกทงเปนหนวยพนฐานทใชในการศกษาโครงสรางปรจเฉทอกดวย ดงนนในงานน ผวจยจงไดศกษาการตดอนพากยภาษาไทยโดยใชซพพอรตเวกเตอรแมชชน (Support Vector Machines: SVMs) ซงเปนตวจ าแนกประเภท (Classifier) ทอาศยการฝกฝน (Supervised-learning) และสรางแบบจ าลอง โดยใชลกษณตาง ๆ ในการตดสนใจและจ าแนกขอมล

ผวจยไดเลอกใชซพพอรตเวกเตอรแมชชน เนองจากเปนตวจ าแนกประเภททเปนทนยมใชในงานทางดานการประมวลผลภาษาธรรมชาต นอกจากจะสามารถก าหนดลกษณทใชในการฝกฝนและสรางแบบจ าลองไดแลว การใชเทคนคซพพอรตเวกเตอรแมชชนยงสามารถใชเคอรเนลฟงกชนในการชวยเพมประสทธภาพการท างานของตวจ าแนกประเภทไดอกดวย ทงน ยงไมมขอสรปวาเคอรเนลฟงกชนแบบใดใหผลลพธทดทสด เนองจากเคอรเนลฟงกชนหนงอาจใหผลทนาพอใจในงานประเภทหนง และใหผลทไมนาพอใจในงานอกประเภทหนง (Nguyen, Ohn et al. 2004, Liberati, Howe et al. 2009) สวนเคอรเนลฟงกชนทเปนทนยมและพบในงานการประมวลผลภาษาธรรมชาต ไดแก ฟงกชนโพลโนเมยล (Polynomial function) ฟงกชนเรเดยลเบสส (Radial basis function) และฟงกชนซกมอยด (sigmoid function)

งานประมวลผลภาษาธรรมชาตทผานมาทใชซพพอรตเวกเตอรแมชชน ไดแก งานการแจงสวนประโยค (Pradhan, Ward et al. 2004, Xu and Zhang 2006, Hernault, Prendinger et al. 2010) การก ากบหมวดค า (Giménez and Márquez 2003, Poel, Stegeman et al. 2007, Antony, Mohan et al. 2010) การจ าแนกประเภทเอกสาร (Joachims 1998, Basu, Walters et al. 2003, Al-Saleem 2010) การแกปญหาความก ากวมของค าหลายความหมาย (Lee, Ng et al.

Page 16: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

4

2004, Buscaldi, Rosso et al. 2006) การรจ าเสยง (Ganapathiraju 2002) และการรจ าตวอกษร (Borji and Hamidi 2007) นอกจากนวาทน นยเพยร, สมชาย ปราการเจรญ et al. (2553) ไดท าการทดลองเปรยบเทยบประสทธภาพของอลกอรทมตางๆทใชในการจ าแนกขอมล ไดแก โครงขายประสาทเทยม (Neural Network) ซพพอรตเวกเตอรแมชชน (Support Vector Machines) นาอฟเบย (Naïve Bayes) และเคเนยรเรสตเนเบอร (K-Nearest Neighbor) ผลปรากฏวาอลกอรทมทท างานไดอยางมประสทธภาพสงสดคอซพพอรตเวกเตอรแมชชน

1.2 วตถประสงค

1. วเคราะหหาลกษณทางภาษาทจะใชในการตดอนพากยภาษาไทยดวยซพพอรตเวกเตอร- แมชชน

2. พฒนาระบบการตดอนพากยดวยซพพอรตเวกเตอรแมชชน 3. เปรยบเทยบประสทธภาพของลกษณทใชในการตดอนพากยภาษาไทย

1.3 สมมตฐาน

1. ลกษณทางภาษาทสามารถใชในการตดอนพากยดวยเครอง ไดแก ค าไวยากรณ ตวเชอม ประเภทของค า ระยะหางระหวางตวเชอมท 1 และตวเชอมท 2 ในตวเชอมทเปนค (Correlative conjunctions) เครองหมายวรรคตอน อนภาคทาย และชองวาง

2. ลกษณทางภาษาทมประสทธภาพดทสดคอตวเชอม รองลงมาไดแก ประเภทของค า ชองวาง และอนพากยทาย

1.4 ขอบเขตของการวจย

ใชขอมลภาษาเขยนจากคลงขอมลขาวทมอนพากยจ านวนไมต ากวา 1,000 อนพากย

1.5 วธด าเนนการวจย

1. ทบทวนวรรณกรรมทเกยวของกบการแยกอนพากยดวยเครอง 2. ก าหนดขอบเขตของอนพากยภาษาไทย 3. สรางคลงขอมลทใชในการฝกฝนและทดสอบ โดยใชคลงขอมลการฝกฝน 90 เปอรเซนต และ

คลงขอมลทดสอบ 10 เปอรเซนต 4. วเคราะหหาลกษณทางภาษาศาสตรทเหมาะสมส าหรบซพพอรตเวกเตอรแมชชน 5. ฝกฝนแบบจ าลองโดยใชซพพอรตเวกเตอรแมชชน 6. ทดสอบระบบการแยกอนพากยดวยโดยใชคลงขอมลทดสอบ

Page 17: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

5

7. ประเมนผลการทดสอบ และประเมนลกษณทมผลตอประสทธภาพของซพพอรตเวกเตอร- แมชชน

8. สรปผลการวจย

1.6 ประโยชนทคาดวาจะไดรบ

1. เปนแนวทางในการศกษาวเคราะหหนวยทซบซอนกวาทเกดจากการรวมตวกนของอนพากย ซงไดแก ประโยค ปรจเฉท เปนตน

2. เปนแนวทางในการศกษาการแยกอนพากยในภาษาอน ๆ ดวยเครอง

1.7 เครองมอทใชในการวจย

1. โปรแกรมภาษา Python ของมลนธซอฟตแวรไพทอน (Python Software Foundation: PSF)

2. โปรแกรมวกา (Weka) เวอรชน 3.6.10 พฒนาโดย The University of Waikato ประเทศนวซแลนด

Page 18: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

6

บทท 2

ทบทวนวรรณกรรม

การศกษาการแยกอนพากยดวยซพพอรตเวกเตอรแมชชนจ าเปนตองมความรพนฐานในเรองอนพากยตามแนวภาษาศาสตร และการจะแยกอนพากยไดตองมการก าหนดขอบเขตขอบอนพากย ซงทฤษฎภาษาแตละทฤษฎกกลาวถงสงทเรยกวาอนพากยแตกตางกนทงเรองขอบเขตและความสมพนธระหวางอนพากย จงมความจ าเปนตองทบทวนทฤษฎเหลานเพอเลอกทฤษฎทเหมาะสมทสดทจะใชในงาน และเนองจากงานนเปนการแยกอนพากยแบบใชการเรยนรของเครอง จงตองศกษาหลกการและการท างานของแบบจ าลองซพพอรตเวกเตอรแมชชนดวย

เนอหาในบทนจงจะขอกลาวถงหวขอตาง ๆ ทไดทบทวนมา ไดแก การศกษาอนพากยตามแนวภาษาศาสตร ทฤษฎเกยวกบอนพากยทใชในการแยกอนพากย แนวทางการตดอนพากยดวยเครอง งานวจยทเกยวของกบการตดอนพากยดวยเครอง ซพพอรตเวกเตอรแมชชน และงานประมวลผลภาษาธรรมชาตทใชซพพอรตเวกเตอรแมชชน ตามล าดบ

2.1 การศกษาอนพากยตามแนวภาษาศาสตร

ในไวยากรณภาษาศาสตรดงเดม (Traditional Grammar) อนพากย (Clause) คอ หนวยทางไวยากรณทประกอบไปดวยภาคประธานและภาคแสดง อนพากยแบงออกเปนอนพากยหลกหรอประโยคหลก (Main clause) และอนประโยคหรอประโยคยอย (Subordinate clause) โดยทอนพากยหลก 1 อนพากยจะมฐานะเทยบเทาประโยคความเดยว (Simple sentence) มใจความสมบรณและสามารถอยโดยล าพงได สวนอนประโยคจะไมสามารถอยไดโดยล าพง มใจความไมสมบรณ ตองพงพาอนพากยหลกเสมอ ในต าราหลกภาษาไทยของพระยาอปกตศลปะสาร (2533) อนประโยคภาษาไทยแบงตามเกณฑหนาทได 3 ชนด ดงน

1 นามานประโยค คอ อนประโยคทท าหนาทแทนค านาม ค าสรรพนาม หรอกรยาสภาวมาลา

2 คณานประโยค คอ อนประโยคทท าหนาทแทนค าวเศษณทใชประกอบนามหรอสรรพนาม

3 วเศษณานประโยค คอ อนประโยคทท าหนาทเปนวเศษณประกอบกรยา หรอวเศษณ

ทางดานไวยากรณหนาท (Functional Grammar) Dik ( 1997) กลาวถงอนพากยในลกษณะทเปนหนวยทางอรรถศาสตรหนวยหนง หนวยทางอรรถศาสตร (Semantic units) ในไวยากรณหนาทประกอบไปดวย กรยา (Predicate), ค า (Term), ภาคแสดง (Predication) ,

Page 19: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

7

ประพจน (Proposition), และ อนพากย (Clause) โครงสรางของอนพากยจะมลกษณเปนชน (Layers) ของหนวยตาง ๆ ทางอรรถศาสตร โดยชนทอยสงสดคออนพากย ประโยคความเดยวเกดจากอนพากย 1 อนพากยทมใจความสมบรณ สวนประโยคซบซอน (Complex sentence) เกดจากอนพากยมากกวา 2 อนพากยเชอมเขาดวยกนดวยตวเชอม โครงสรางในประโยคซบซอนม 2 ประเภท คอ โครงสรางแบบคขนาน (Coordination) และ โครงสรางซอน (Embedding) โดยทโครงสรางแบบแรกประกอบไปดวย 2 อนพากยหรอมากกวาทมความเทาเทยมกนเชงหนาท อยในโครงสรางระดบเดยวกน และเชอมเขาดวยกนโดยตวเชอม สวนโครงสรางซอนเปนโครงสรางทมอนพากยหนงอยภายในอกอนพากยหนง

ไวยากรณหนาทอกไวยากรณหนง คอไวยากรณบทบาทและการอางอง (Role and Reference Grammar) ของ Foley and VanValin (1984) อธบายวาอนพากยประกอบดวยสวนหลก (Core) และ สวนชายขอบ (Periphery) โดยทสวนหลกประกอบไปดวยนวเคลยส (Nucleus) และอารกวเมนต (Argument) สวนชายขอบ ประกอบดวยสวนทไมใชอารกวเมนตของกรยา โครงสรางของอนพากยสามารถแสดงในรปโครงสรางตนไมไดดงภาพท 2.1

ภาพท 2.1 โครงสรางตนไมประโยคภาษาองกฤษตามแนวไวยากรณบทบาทและการอางอง

ดดแปลงจากหนงสอ Structure and Function: A Guide to Three Major Structural-Functional Theories (Part 2: From clause to discourse and beyond) ของ Butler ( 2003)

ในไวยากรณน อนพากยมากกวา 1 อนพากยสามารถเชอมเขาดวยกนเปนประโยคซบซอน และความสมพนธระหวางอนพากยม 3 ประเภท ไดแก coordination, subordination และ cosubordination เรยกความสมพนธเหลานวาเนกซส (Nexus) แตละเนกซสจะอยในโครงสรางระดบใดกไดใน 3 ระดบ คอ นวเคลยส สวนหลก หรออนพากย ดงนนจงไดโครงสรางรวมทงสน 9 โครงสราง ไดแก coordination nucleus, coordination core, coordination clause,

Page 20: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

8

subordination nucleus, subordination core, subordination clause, cosubordination nucleus, cosubordination core, และ cosubordination clause (Butler 2003)

นอกจากนในไวยากรณระบบหนาท (Systemic Functional Grammar) ของ Halliday (1994) อนพากยเปนหนวยทส าคญทสดในการวเคราะหวากยสมพนธ ส าหรบไวยากรณระบบหนาท "ประโยค" เปนค าทใชอางถงหนวยทเกดจากรปเขยนของภาษา ซงอยภายในเครองหมาย "." Halliday เรยกประโยควาเปนหนวยสรางของการเขยน (Constituent of writing) ในขณะทอนพากยเปนหนวยสรางของไวยากรณ (Constituent of grammar) ในไวยากรณนอนพากยประกอบดวยกลม (Groups) แตละกลมประกอบดวยค า (Words) และค าแตละค าประกอบดวยหนวยค า (Morphemes) เรยกอนพากยตงแต 2 อนพากยทเชอมกนดวยตวเชอมวาอนพากยซบซอน (Clause complex) ซงเทยบไดกบประโยคซบซอนในไวยากรณอน ๆ ความสมพนธระหวางอนพากยในอนพากยซบซอนมดวยกน 2 มต คอ แทกซส (Taxis) และ ลอจกโคซแมนตก (Logico-semantic) โดยทแทกซสเปนความสมพนธระหวางอนพากยทแสดงถงสถานะเชงโครงสรางและความหมายของอนพากยภายในอนพากยซบซอนแบงอออกเปน 2 สถานะความสมพนธ คอพาราแทกซส (Parataxis) และไฮโปแทกซส (Hypotaxis) ในความสมพนธแบบพาราแทกซส 2 อนพากยหรอมากกวาเชอมเขาดวยกนโดยมสถานะทเทาเทยมกน และในความสมพนธแบบไฮโปแทกซส 2 อนพากยหรอมากกวาจะมสถานะทตางกน โดยทมอนพากยหนงเปนอนพากยหลก และอนพากยอน ๆ เปนอนพากยพงพา สวนความสมพนธแบบลอจกโคซแมนตก เปนความสมพนธเชงตรรกะและความหมาย แบงออกเปน 2 ชนด คอ การขยายความ (Expansion) และโปรเจคชน (Projection) แตละชนดจะแบงออกเปนชนดยอยอก การขยายความประกอบไปดวย 3 ชนดไดแก การซ าความ (Elaboration) การเพมความ (Extension) และการใหเหตผล (Enhancement) สวนการโปรเจคชนประกอบไปดวย 2 ชนดไดแก ค าพดทอางถง (Locution) และความคดทอางถง (Idea)

จากงานททบทวนมาขางตน จะเหนวา อนพากยเปนหนวยปรจเฉทพนฐานทมองคประกอบและขอบเขตของโครงสรางทางวากยสมพนธทชดเจน อนพากยสามารถประกอบเขาดวยกนเปนโครงสรางทซบซอนและใหญขนได นนคอ ประโยค และปรจเฉทนนเอง ในขณะทประโยคเปนหนวยทก าหนดจากการเขยน ในภาษาไทยซงไมมการก าหนดวธเขยนเปนประโยคทชดเจน อนพากยจงนาจะเปนหนวยทเหมาะสมมากกวาประโยค ทงส าหรบการศกษาโครงสรางปรจเฉท และการศกษางานทางดานการประมวลผลภาษาธรรมชาตภาษาไทย

Page 21: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

9

2.2 ทฤษฎเกยวกบอนพากยทใชในการแยกอนพากย

อนพากยเปนหนวยพนฐานทเมอประกอบหลาย ๆ อนพากยเขาดวยกนแลวจะไดโครงสรางปรจเฉท ส าหรบงานทางดานการประมวลผลภาษาธรรมชาต อนพากยสามารถน าไปใชเปนหนวยพนฐานของการประมวลผล การระบขอบเขตและแยกอนพากยจงเปนงานหนงทมความส าคญ กรอบทฤษฎทเปนทยอมรบและมการอางองอยางแพรหลายทสามารถใชก าหนดขอบเขตของอนพากยเพอใหไดหนวยทสามารถใชอธบายความสมพนธภายในโครงสรางปรเฉทได ไดแก Linguistic Discourse Model หรอ LDM ของ Polanyi (1988) และ Rhetorical Structure Theory หรอ RST ของ Mann and Thompson (1988) ทง 2 ทฤษฎนตางมความเหนตรงกนทวา อนพากยเปนหนวยทมความส าคญตอการศกษาโครงสรางปรจเฉท เพราะเปนหนวยทเลกทสดทมขอมลเชงเนอหาและความหมาย และเรยกหนวยทเลกทสดในปรจเฉทนวา หนวยปรจเฉทพนฐาน (Elementary Discourse Unit: EDU) ซงแตละหนวยจะไมคาบเกยวกน (Non-overlapping) การศกษาโครงสรางปรจเฉทจงหมายถงการศกษาความสมพนธระหวางหนวยปรจเฉทพนฐานวามการเชอมโยงความกนอยางไร และทายทสดจะสามารถน าโครงสรางปรจเฉททวเคราะหมาแสดงในรปของแผนภมตนไมได การอธบายโครงสรางและขอบเขตอนพากยปรจเฉทของทง 2 ทฤษฎนมรายละเอยดดงน

2.2.1 Linguistic Discourse Model

Linguistic Discourse Model หรอ LDM (Polanyi 1988) มการอธบายปรจเฉทสมพนธวาขนอยกบการตความ (Interpretation) ยดหลกการทางวากยสมพนธเปนหลกในการระบประเภทความสมพนธระหวางสองหนวยวามความสมพนธกนแบบคขนาน, ไมคขนาน หรอความสมพนธแบบเปนค (Coordination, Subordination, and Binary) โครงสรางผวของปรจเฉทประกอบไปดวยหนวยพนฐาน 2 หนวย คอ หนวยปรจเฉทพนฐาน (Elementary Discourse Constituent Units: e-DCUs) และโอเปอรเรเตอร (Discourse Operators: DOs) โดยทหนวยปรจเฉทพนฐานเปนหนวยทแสดงอาการ หรอเหตการณหนง มเนอหาเชงประพจน (Propositional content) หนวยนอาจอยในรปของประโยคความเดยวหรออนพากยกได สวนโอเปอรเรเตอรเปนหนวยทไมไดแสดงเนอหาเชงประพจน (Non-propositional content) แตมหนาทแสดงความสมพนธระหวางหนวยปรจเฉทพนฐาน หนวยทเปนโอเปอรเรเตอร ไดแก logical operators, vocatives, affirmations/disaffirmations, particles, exclamations, และ connectives การตดอนพากยตามแนว LDM คอการหาขอบเขตของหนวยพนฐาน 2 หนวยน

ขอความตอไปนเปนตวอยางขอความภาษาองกฤษทวเคราะหดวย LDM ซงน ามาจากงานของ Joshi et al. (2006) โดยหนวยปรจเฉทพนฐานจะอยในเครองหมายวงเลบสเหลยม และม

Page 22: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

10

ตวเลขล าดบของหนวยปรจเฉทพนฐานแสดงไวขางวงเลบปด และเมอวเคราะหโครงสรางและปรจเฉทสมพนธของขอความนแลว จะสามารถสรางแผนภมตนไมไดดงภาพท 2.2

ขอความ [Whatever advances we may have seen in knowledge management,]1 [knowledge sharing remains a major issue.]2 [A key problem is]3 [that documents only assume value]4 [when we reflect upon their content.]5 [Ultimately,]6 [the solution to this problem will probably reside in the documents themselves.]7 [In other words,]8 [the real solution to the problem of knowledge sharing involves authoring,]9 [rather than document management.]10 [This paper is a discussion of several new approaches to authoring and opportunities for new technologies]11 [to support those approaches.]12

ภาพท 2.2 แผนภมตนไมทไดจากการวเคราะหขอความภาษาองกฤษตามแนวทฤษฎ LDM

ดดแปลงจาก Discourse Annotation Tutorial ของ Joshi, Prasad et al. (2006)

2.2.2 Rhetorical Structure Theory

ทฤษฎ Rhetorical Structure Theory หรอ RST (Mann and Thompson 1988) เปนทฤษฏทใชในการอธบายความสมพนธระหวางหนวยตาง ๆ ในปรจเฉท และแสดงออกมาโดยใชแผนภมโครงสรางตนไม (Tree diagram) การวเคราะหโครงสรางปรจเฉทจะค านงถงความสมพนธระหวางเจตนาของผสงสารและสาระของตวสาร ทฤษฎนเสนอวา หนวยปรจเฉทพนฐานแตละหนวยจะมสถานะความส าคญไมเทากน สถานะความส าคญ (Nuclearity status) นแบงออกได 2 สถานะ

Page 23: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

11

ไดแก สถานะนวเคลยส (Nucleus) และสถานะแซทเทลไลต (Satellite) หนวยปรจเฉทพนฐานทมสถานะนวเคลยสคออนพากยทเปนใจความหลกของถอยค า เปนสวนทจ าเปนและไมสามารถละทงได สวนหนวยปรจเฉทพนฐานทมสถานะแซทเทลไลต คออนพากยทท าหนาทขยายอนพากยสถานะนวเคลยส เปนสวนทสามารถละทงไดโดยไมกระทบใจความหลก หนวยปรจเฉทพนฐานแตละหนวยไมวาจะมสถานะใดกตามเมอประกอบเขาดวยกนจะแสดงความสมพนธหรอมปรจเฉทสมพนธ (Rhetorical relation) อยางใดอยางหนงตอกนเสมอ ประเภทปรจเฉทสมพนธทเสนอใน RST มทงหมด 78 ประเภท ยกตวอยางปรจเฉทสมพนธ ไดแก การขดแยง (Contrast), เงอนไข (Condition), การสรป (Summary), และการแสดงเจตนา (Purpose) เปนตน

ตวอยางขอความภาษาองกฤษตอไปน “Lactose and Lactase Lactose is milk sugar, the enzyme lactose breaks it down. For want of lactase most adults cannot digest milk. In populations that drink milk the adults have more lactase, perhaps through natural selection.”

ประกอบไปดวยหนวยปรจเฉทพนฐานจ านวน 5 หนวย และสามารถเขยนใหอยในรปโครงสรางตนไม ซงแสดงปรจเฉทสมพนธ 4 ความสมพนธ ไดแก preparation, background, elaboration, และ contrast ไดดงภาพท 2.3

ภาพท 2.3 ตวอยางการวเคราะหโครงสรางปรจเฉทตามแนวทฤษฎ RST ดดแปลงจาก

Mann and Taboada (2005)

เนองจากหนวยปรจเฉทพนฐานในทฤษฎ RST กคออนพากยตามไวยากรณภาษาศาสตรทวไป ดงนนการระบขอบเขตหนวยปรจเฉทพนฐานกคอการระบขอบเขตอนพากย การก าหนดวา

Page 24: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

12

หนวยใดบางทเปนอนพากยปรจเฉทตามทฤษฎ RST ไดมการเขยนอธบายไวในคมอการก ากบหนวยทางปรจเฉทส าหรบใชสรางคลงขอมล RST Discourse Treebank ของ Carlson and Marcu (2001) และคมอนกถกใชเปนแบบอยางและแนวทางส าหรบการศกษาการตดหนวยปรจเฉทพนฐานอยางแพรหลาย หนวยทก าหนดใหเปนหนวยปรจเฉทพนฐานจะพจารณาจากความละเอยดของการก ากบ (Granularity of tagging) และความเปนไปไดทจะใชในการศกษาหนวยทใหญขน โดยใชโครงสรางทางวากยสมพนธและค าเชอมตาง ๆ ในการชวยระบขอบเขตของหนวยปรจเฉทพนฐาน ตวอยางหนวยทถอวาเปนหนวยปรจเฉทพนฐานตามการวเคราะหในคมอน เชน superordinate clauses, subordinate clauses, infinitival modifiers, Prepositional phrases with a clausal object, coordinated clauses, syntactic focusing devices (เชน cleft, extraposition, pseudo-cleft constructions), correlative subordinators, relative clauses, nominal postmodifier with non-finite clause, appositives, parentheticals, phrases with strong discourse markers (เชน because, in spite of, as a result of, according to) ฯลฯ

สวนหนวยทไมถอวาเปนหนวยปรจเฉทพนฐานไดแก clausal subjects and objects of verbs, clausal objects of prepositional phrases, infinitival complements, และ participial complements เปนตน อยางไรกตามการนยามขอบเขตหนวยปรจเฉทพนฐานตามแนวทฤษฏ RST อาจจะแตกตางกนได ขนอยกบวตถประสงคของการวเคราะหและลกษณะภาษาทแตกตางกนออกไป

เมอเปรยบเทยบขอบเขตของอนพากยปรจเฉทตามแนวทฤษฎ RST และ LDM จะพบวาค าเชอมใน RST เปนสวนหนงของหนวยปรจเฉทพนฐาน ในขณะทค าเชอมใน LDM ไมถอวาเปนสวนหนงของหนวยปรจเฉทพนฐาน แตเปนอกหนวยทมหนาทแสดงความสมพนธระหวางหนวยปรจเฉทพนฐาน ในงานวจยน ผวจยจะยดตามแนวทฤษฎ RST อนพากยซงเปนหนวยพนฐานของการวเคราะหปรจเฉททตองการแยกในงานน จงองตามหนวยพนฐานทตองใชในการวเคราะหแบบ RST สาเหตทเลอกทฤษฎน เนองจาก RST ใหความส าคญตอความสมพนธระหวางเจตนาของผสงสารและสาระของตวสาร ท าใหสามารถอธบายประเภทความสมพนธไดละเอยดกวา เหนไดจากมการแบงประเภทยอยของความสมพนธไดเปนจ านวนมาก การก าหนดขอบเขตอนพากยตามแนวทฤษฎน จงนาจะสามารถใชอธบายความสมพนธและโครงสรางปรจเฉทไดอยางครบถวน

2.2.3 การใช RST วเคราะหภาษาไทย

ส าหรบการใช RST ในการวเคราะหปรจเฉทนน ขนแรกจะตองแยกหนวยพนฐานตาง ๆ ภายในปรจเฉท ในทนจะขอเรยกหนวยพนฐานส าหรบการวเคราะหโครงสรางปรจเฉท หรอ Elementary discourse unit วา “หนวยปรจเฉทพนฐาน” หรอ “EDU” อนประกอบไปดวยอน

Page 25: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

13

พากยและวลทขนตนดวยค าเชอมเดน เมอแยก EDU ไดแลว กท าการวเคราะหและระบประเภทความสมพนธระหวาง EDU ทอยตดกน ซงในทสดแลวจะสามารถสรางแผนภมตนไมเพอแสดงโครงสรางและความสมพนธภายในปรจเฉทได

ในสวนของประเภทความสมพนธ Mann and Thompson (1988) ผพฒนาทฤษฎน กลาวไววา ในการวเคราะหปรจเฉท ไมจ าเปนตองใชประเภทความสมพนธทงหมด 78 ประเภทตามทเสนอเอาไวใน RST นนคอ ผศกษาปรจเฉทสามารถเลอกความละเอยดของการแบงประเภทปรจเฉทสมพนธได โดยสามารถพจารณาไดจากลกษณะของภาษาทตองการศกษา และเปาประสงคของการศกษาหรอการน าไปใช

งานวจยหนงของเมธ วฒนะเมธานนท (2549) ซงศกษาระบบการรจ าความสมพนธระดบปรจเฉทในภาษาไทยโดยใชแบบจ าลองนาอฟเบย ไดน า RST มาเปนกรอบในการก าหนดประเภทปรจเฉทสมพนธในภาษาไทย งานนไดน าเสนอการวเคราะหปรจเฉทภาษาไทยดวย RST อยางละเอยด ประเภทปรเฉทสมพนธทใชในงานนมจ านวนทงหมด 78 ประเภทความสมพนธ ซงในทน จะขอน าเสนอตวอยางการวเคราะหภาษาไทยของงานเมธ ซงผวจยเหนวามประโยชน ท าใหเหนภาพการใช RST ในการวเคราะหปรจเฉทภาษาไทย ขอความและรปภาพตอไปนเปนตวอยางขอความภาษาไทยทใช RST ในการวเคราะห โดยเครองหมายวงเลบสเหลยมใชส าหรบแสดงขอบเขตของ EDU และตวเลขทก ากบขางวงเลบปดแสดงล าดบทของ EDU

ขอความ 1 [รอคอมพรฟเปนพนธลกผสม]1[ซงใหผลผลตสงกวาสายพนธอน]2

จากขอความ 1 แยกได 2 EDU ค าวา “ซง” เปนค าเชอมแสดงการขยายความ นนคอ EDU ท 2 ขยาย EDU แรก จงกลาวไดวาทง 2 หนวยมปรจเฉทสมพนธแบบขยายความ (Elaboration relation) เมอน าขอความนไปสรางแผนภมตนไม จะเหนขอบเขตขอบเขตของทง 2 EDU ชดเจนมากขน และปรจเฉทสมพนธสามารถแสดงโดยการโยงเสนพรอมระบชอความสมพนธไวเหนอเสนนน แผนภมตนไมส าหรบขอความ 1 จะไดดงภาพท 2.4

Elaboration

รอคอมพรฟเปนพนธลกผสม ซงใหผลผลตสงกวาสายพนธอน ภาพท 2.4 แผนภมตนไม RST แสดงปรจเฉทสมพนธของขอความ 1

Page 26: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

14

ขอความ 2 [เนองจากเมลดพนธมะเขอเทศมราคาแพง]1[ดงนนกอนปลกจงควรทดสอบการงอกของเมลดกอน]2

จากขอความ 2 แยกได 2 EDU ค าเชอม “เนองจาก” และ “ดงนน” เปนค าเชอมแสดงความสมพนธแบบใหเหตและผล (Cause-Result relation) โดย EDU แรกเปนสาเหต และ EDU ท 2 เปนผลจากสาเหตดงกลาว สามารถสรางแผนภมตนไมแสดงโครงสรางและปรจเฉทสมพนธไดดงภาพท 2.5

Cause-Result

เนองจากเมลดพนธมะเขอเทศมราคาแพง ดงนนกอนปลกจงควรทดสอบการงอกของเมลดกอน ภาพท 2.5 แผนภมตนไม RST แสดงปรจเฉทสมพนธของขอความ 2

ขอความ 3 [เกษตรกรน าเมลดไปแชน า]1[หลงจากนนน าผาขาวบางซบ]2

จากขอความ 3 แยกได 2 EDU ค าเชอม “หลงจากนน” เปนค าเชอมแสดงล าดบของเหตการณ สงทตามหลงค าเชอมนจะเปนเหตการณทเกดขนทหลง ในทน EDU แรกเปนเหตการณทเกดขนกอน และ EDU ท 2 เกดขนในล าดบตอมา ดงนนสามารถกลาวไดวาทง 2 EDU นมปรจเฉทสมพนธแบบเปนล าดบ (Sequence relation) และสามารถสรางแผนภมตนไมไดดงภาพท 2.6

Sequence

เกษตรกรน าเมลดไปแชน า หลงจากนนน าผาขาวบางซบ ภาพท 2.6 แผนภมตนไม RST แสดงปรจเฉทสมพนธของขอความ 3

ในงานน ผวจยจะไมวเคราะหปรจเฉทสมพนธระหวางอนพากย แตจะท าการแยกอนพากย ภายในปรจเฉทดวยเครองเทานน สาระส าคญของ RST ทผวจยใชในงานนคอ การก าหนดหนวยทจะเปนอนพากยภาษาไทย เพอน าไปเปนกรอบส าหรบการแยกอนพากยภาษาไทยดวยเครอง ซงอนพากยทแยกได สามารถน าไปใชเปนหนวยพนฐานในการวเคราะหปรจเฉทภาษาไทยตามแนวทฤษฎ RST ได สวนการก าหนดขอบเขตอนพากยภาษาไทยทใชในงานน จะกลาวถงตอไปในบทท 4

Page 27: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

15

2.3 แนวทางการแยกอนพากยดวยเครอง

ในทนจะใชค าวา “การแยกอนพากย” หรอ “การแยกหนวยปรจเฉทพนฐาน” หรอ “การแยก EDU” ส าหรบการหาขอบเขตระดบอนพากยในปรจเฉท และ “การแยกประโยค” ในกรณทเปนการหาขอบเขตระดบประโยคในปรจเฉท ทงการแยกอนพากยและการแยกประโยคตางกมแนวคดเหมอนกน คอเปนหาขอบเขตของหนวยทตองการแยก และระบประเภทของหนวยทแยก การแยกหนวยเหลานดวยเครองสามารถแบงออกเปน 2 แนวทางหลก ไดแก แนวทางการใชกฎ และแนวทางการเรยนรดวยเครอง ดงน

2.3.1 แนวทางการใชกฎ (Rule-based approaches)

แนวทางการใชกฎ คอ การก าหนดกฎไวยากรณ (Regular grammar) หรอนพจนปรกต (Regular expression) เพอใชในการหาขอบเขตและระบประเภทของหนวยทตองการแยก เชน กฎการใชเครองหมายวรรคตอนตาง ๆ กฎการเวนวรรค กฎการใชตวพมพใหญตวพมพเลก การก าหนดรายการค า การใชกฎในการหารปแบบของการเรยงตวกนของอกขระ ฯลฯ ภาพท 2.7 แสดงตวอยางของการแยกประโยคภาษาองกฤษดวยวธการใชกฎ

ภาพท 2.7 ตวอยางกฎเพอใชในการแยกประโยคภาษาองกฤษ ดดแปลงจากการบรรยายของ

Lemnitzer (2006)

อยางไรกตาม วธการใชกฎจะไมสามารถใชไดกบเอกสารทกประเภท เนองจากภาษาแตละประเภทมกฎทแตกตางกนออกไป นอกจากนยงจ าเปนตองสรางกฎเปนจ านวนมากเพอใหครอบคลมและสามารถแยกหนวยทตองการไดอยางถกตองแมนย า

Tofiloski, Brooke et al. (2009) เสนอการแยกหนวยปรจเฉทพนฐานโดยการใชกฎทางวากยสมพนธ (syntactically-based rules) 12 กฎ และกฎเกยวกบค า (lexical rules) อกจ านวนหนง ไดแก วลระบนย และประเภทของค า ใชประโยคเปนขอมลรบเขาเพอแยกหนวยปรจเฉทพนฐาน มการก าหนดหนวยทเปนหนวยปรจเฉทพนฐานตามแนวทฤษฎ RST

IF ((right context = period + space + capital letter OR period + quote + space + capital letter OR period + space + quote + capital letter)

AND (left context != abbreviation)) THEN sentence boundary

Page 28: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

16

นอกจากน Van der Vliet (2010) ไดเสนอวธการระบขอบเขตหนวยปรจเฉทพนฐานภาษาดตชโดยวธการใชกฎ หนวยทเขาก าหนดใหเปนหนวยปรจเฉทพนฐาน ไดแก clauses, simple sentences, coordinate clauses, non-restrictive relative clauses, embedded non-restrictive relative clauses, fragments functioning as complete utterances, coordinate elliptical clauses การระบขอบเขตหนวยปรจเฉทพนฐานเรมจากการแยกประโยคและสรางตนไมโครงสรางพงพา (Dependency tree) โดยใช Alpino ซงเปน XML parser และใชประโยคซงอยในรปตนไมโครงสรางพงพาเปนขอมลรบเขาส าหรบหาขอบเขตอนพากยปรจเฉท จากนนเขยนสครปต Xquery ซงใชในการควร (Query) ตนไมโครงสรางพงพาทเปนภาษา XML สครปตของเขาใชกฎทางวากยสมพนธและเครองหมายวรรคตอนตางๆในการก ากบขอบเขตอนพากยปรจเฉท ขอมลทใชในการประเมนการท างานของระบบคอขอความสารานกรม (Encyclopedia texts) และจดหมายระดมทน (Fundraising letters) ไดคาความแมนย า และคาความครบถวน 73 เปอรเซนต และ 67 เปอรเซนต ส าหรบขอมลจากสารานกรม และ 76 เปอรเซนต และ 74 เปอรเซนต ส าหรบจดหมายระดมทน

2.3.2 แนวทางการเรยนรดวยเครอง (Machine Learning)

แนวทางการเรยนรดวยเครอง คอ การใชแบบจ าลองทางสถตมาใชในการหาขอบเขตและระบประเภทของหนวยทตองการแยก วธนไมตองพงพาการเขยนกฎ ท าใหสามารถจดการกบเอกสารทกฎไมครอบคลมได นอกจากนยงสามารถน าไปใชกบประเภทภาษาไดหลายประเภทอกดวย หลกการคอจะตองก าหนดลกษณ (Features) ตาง ๆ เพอใหแบบจ าลองเกดการเรยนรจากชดขอมลการฝกฝน (Training data) จากนนแบบจ าลองจะสามารถหาขอบเขตและระบประเภทของหนวยทตองการแยกในเอกสารทเครองไมเคยเหนมากอนได ตวอยางแบบจ าลอง เชน ฮดเดนมาคอรฟโมเดล (Hidden Markov Models), โครงขายประสาทเทยม (Neural Network), ตนไมชวยตดสนใจ (Decision Tree), นาอฟเบย (Naïve Bayes), ฯลฯ ตวอยางงานวจยทใชแบบจ าลองทางสถตมดงตอไปน

Molina and Pla (2001) ศกษาการระบอนพากยภาษาองกฤษโดยใชแบบจ าลองทางสถตฮดเดนมาคอรฟโมเดล ใชขอมลรบเขาในรปประโยค โดยท าการตดค า ระบประเภทของค า และแจงสวนประโยคแตละประโยค ในขนตอนการระบอนพากยประกอบไปดวย 3 สวน สวนท 1 เปนการระบจดเรมตนของอนพากย สวนท 2 เปนการระบจดสนสดของอนพากย และสวนท 3 เปนการก ากบหนวยทเปนอนพากย ฮดเดนมาคอรฟโมโดลจะท าการค านวณเพอหาคาความนาจะเปนของการเรยงตวกนของประเภทค า และการเรยงตวกนของหนวยสรางทางไวยากรณ ทใหคาความนาจะเปนสงสดทจะเปนจดเรมตนและจดสนสดของอนพากย จากการทดสอบระบบทง 3 สวน ไดคา F-score 86.48

Page 29: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

17

เปอรเซนต, 78.38 เปอรเซนต, และ 66.79 เปอรเซนต ส าหรบสวนท 1, 2, และ 3 ตามล าดบ ทงนพบวาการระบจดเรมตนของอนพากยท าไดงายกวาการระบจดสนสด

Sporleder and Lapata (2005) ไดเสนอการแยกหนวยปรจเฉทพนฐานโดยใชกรอบการวเคราะหขอบเขตหนวยปรจเฉทพนฐานตามแนว RST และท าการก ากบหนวยปรจเฉทพนฐานแตละหนวยดวยวามสถานะเปนนวเคลยสหรอแซทเทลไลต แบบจ าลองทใชในงานนคอบสตตง (Boosting) ใชขอมลรบเขาเปนประโยค ลกษณทใชในขนตอนการแยกหนวยปรจเฉทพนฐานเปนลกษณประเภทขอมลเชงไวยากรณและค า ไดแก ค า (Tokens) ประเภทของค า (Parts of speech) หนวยสรางทางไวยากรณ (Syntactic chunks) ค าเชอม (Connectives) และต าแหนงของค าในประโยค สวนในขนตอนการก ากบสถานะของหนวยปรจเฉทพนฐานใชลกษณเพมอก 2 ลกษณ คอความยาวของหนวยปรจเฉทพนฐานโดยวดจากจ านวนค า และจ านวนหนวยปรจเฉทพนฐานภายในประโยค ในงานนไดน าเสนอเพยงประสทธภาพของการก ากบสถานะของหนวยปรจเฉทพนฐานเทานน เนองจากเปนวตถประสงคหลกของงาน โดยไดคา F-score มากกวา 74 เปอรเซนต

Subba and Di Eugenio (2007) ก าหนดขอบเขตหนวยปรจเฉทพนฐานตามทฤษฎ RST และใชโครงขายประสาทเทยมในการแยกหนวยปรจเฉทพนฐานขอมลรบเขาอยในรปประโยค ลกษณทใชแบงออกเปน 4 ประเภท ไดแก ประเภทของค า ขอมลทางวากยสมพนธ ค าระบนยปรจเฉท และเครองหมายวรรคตอน ใชขอมลจากคลงขอมล RST-DT ในการทดสอบประสทธภาพ และเปรยบเทยบผลกบระบบแยกปรจเฉททใชตนไมชวยตดสนใจ ผลปรากฏวาระบบทใชโครงขายประสาทเทยมไดคาความแมนย าและคาความครบถวนสงกวา 80 เปอรเซนต

Vijay Sundar Ram, Bakiyavathi et al. (2009) ศกษาการระบขอบเขตอนพากยในภาษาทมฬ ในขนตอนการประมวลเบองตน ประโยคทเตรยมเอาไวแลวถกน ามาก ากบหมวดค า และแจงสวนประโยค จากนนใชแบบจ าลองคอนดชนนอลแรนดอมฟลด (Conditional Random Fields: CRFs) ในขนตอนการระบขอบเขตของอนพากย โดยอนพากยทตองการระบขอบเขตแบงออกเปน 5 ประเภท ไดแก Participle clause, conditional clause, infinitive clause, non-finite clause และ main clause ลกษณทใชในการฝกฝนแบบจ าลอง ไดแก ขอมลทไดจากการก ากบหมวดค า การแจงสวนประโยค และโครงสรางทางวากยสมพนธ ใชขอมลจากคลงขอมลขาวภาษาทมฬจ านวน 219 ประโยคในการทดลอง และ 75 ประโยคส าหรบการทดสอบ ไดผลคอระบบสามารถก ากบจดเรมตนของอนพากยไดถกตอง 81.58 เปอรเซนต และจดสนสดของอนพากย 87.37 เปอรเซนต

2.4 งานวจยทเกยวของกบการแยกอนพากยในภาษาไทย

Charoensuk (2005) ไดเสนอวธการแยกหนวยปรจเฉทพนฐานดวยวธการผสมระหวางการเรยนรดวยเครองและการใชกฎ เรยกหนวยปรจเฉทพนฐานวา “อนพากยปรจเฉท” วธการศกษาเรม

Page 30: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

18

จากการก าหนดขอบเขตอนพากยปรจเฉทภาษาไทยตามแนวทฤษฎ RST แบงอนพากยปรจเฉทออกเปน 2 ประเภท ไดแก อนพากยพนฐาน และอนพากยซอน ตวอยางอนพากยปรจเฉทในงานนเปนดงตาราง 2.1

ชนดของอนพากย ตวอยาง Basic Simple sentence [กะหล าปลสเขยว]

Noun phrase โรคระบาดพบในภาคกลาง [เชน ปทมธาน, นครปฐม] Embedded Embedded

clause กะหล าปล [ทถกท าลาย] จะมสเหลอง

Noun phrase เกษตรกรควรใสปยไนโตรเจน [เชน ปยแอมโมเนยมซลเฟต หรอยเรย] ลงในแปลงดวย

ตารางท 2.1 ชนดและตวอยางของอนพากยปรจเฉทในภาษาไทยวเคราะหตามแนวทฤษฏ RST ดดแปลงจาก Charoensuk (2005)

ในขนตอนของการแยกอนพากยดวยเครองของงานน แบงออกเปน 3 ขนตอน คอ การประมวลผลเบองตน การแยกอนพากย และการประมวลผลขนปลาย ขนตอนของการประมวลผลเบองตนประกอบดวย การตดค า การก ากบหมวดค า การสกดชอเฉพาะ และการสกดค านามประสม ขนตอนของการแยกอนพากยใชแบบจ าลองตนไมชวยตดสนใจ C4.5 ในการระบจดเรมตนและสนสดของอนพากย โดยใชลกษณ 5 ประเภท ไดแก ค าระบนย ตวเชอมปรจเฉททเปนค ชองวางระหวางค าหรอความ ประเภทของค า และขอบเขตของวล สวนในขนตอนประมวลผลขนปลาย ใชส าหรบแกปญหากรณทอนพากยปรากฏรปตวเชอมมากกวาหนง ในขนตอนนจะใชกฎในการตดสนใจวาตวเชอมทพจารณาเปนตวเชอมปรจเฉทหรอไม ผลการทดลองระบบแยกอนพากย พบวาไดคาความแมนย า 80 เปอรเซนต และคาความครบถวน 81 เปอรเซนต

ในงานของ Sinthupoun (2009) เขาไดแยกอนพากยดวยแบบจ าลองทางสถต กอนทจะน าไปวเคราะหโครงสรางปรจเฉทในภาษาไทยตอ เรมจากการแยกวลและระบประเภทวลโดยใชแบบจ าลองฮดเดนมาคอรฟโมเดล ในขนตอนการแยกอนพากย เขาใชคณลกษณะการเรยงล าดบของนามวลและกรยาวลประเภทตาง ๆ ใหแบบจ าลองฮดเดนมาคอรฟโมเดลเกดการเรยนร และระบขอบเขตอนพากย เฉพาะในสวนของการแยกอนพากย ไดคาความแมนย า 94.2 เปอรเซนต และคาความครบถวน 85.3 เปอรเซนต จากนนใชอนพากยทไดจากการแยกมาวเคราะหโครงสรางปรจเฉทตอไป

อกงานหนงเปนการแยกอนพากยภาษาไทยดวยวธการใชกฎทางไวยากรณของ Ketui, Theeramunkong et al. (2012) โดยเรมจากการนยามหนวยปรจเฉทพนฐาน จากนนสรางชดของ

Page 31: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

19

กฎไวยากรณไมพงบรบท (Context free grammar rule) ไดจ านวนกฎ 446 ขอ ในงานนแบงการประเมนผลออกเปน 2 ระดบ ไดแก การประเมนกบขอความทผานการตดค าแลว และการประเมนกบขอความตนฉบบทไมไดตดค า และมการทดสอบ 2 แบบ คอ แบบ open test ซงเปนการใชคลงขอมลฝกฝนและทดสอบเดยวกน และแบบ close test ซงเปนการแยกคลงขอมลฝกฝนและทดสอบ หลงจากผานการใชกฎแลว พบวาไดคาความครบถวนทสงมาก แตคาความแมนย าต า ท าใหวดคา f-measure ไดประมาณ 36 - 53 เปอรเซนต จงไดน าเทคนค 2 เทคนคเปรยบเทยบกน คอ left-to-right longest matching (L2R-LM) และ maximal longest matching (M-LM) มาใชเพอเพมคาความแมนย า ผลการทดสอบปรากฏวา การใช close test ทดสอบขอความทงทผานการตดค าและไมผานการตดค า วดคา f-measure ไดประมาณ 90-100 เปอรเซนต สวนการใช open test ประเมนคา f-measure ไดประมาณ 54-67 เปอรเซนต โดยรวมแลว L2R-LM และ M-LM สามารถเพมประสทธภาพของระบบไดใกลเคยงกน

2.5 ซพพอรตเวกเตอรแมชชน (Support Vector Machine: SVM)

ซพพอรตเวกเตอรแมชชนเปนแบบจ าลองทางคณตศาสตรทใชในการจ าแนกขอมล 2 กลมออกจากกน โดยขอมลจะตองแปลงเปนคาลกษณ (Features) และวางตวอยในพนทลกษณ (Feature space) จากนนซพพอรตเวกเตอรแมชชนจะใชสมการเชงเสนสรางเสนแบงหรอทเรยกวา ระนาบ (Plane) ทดทสดทเปนเสนตรงแยกขอมลออกจากกน โดยทเสนแบงทดทสด (OPTimal plane) เกดจากการสรางเสนแบงทขนานกบเสนแบงเดมและขยายเสนขอบ (Margin) ออกจากเสนแบงเดมไปเรอย ๆ จนสมผสคาของขอมลทใกลทสด

ภาพท 2.8 แสดงสมการเสนตรงของเสนขอบและเสนแบง ดดแปลงจาก Ivanciuc (2005)

จากภาพท 2.8 เสน M1 และ M2 คอเสนขอบทขยายออกจากเสนแบง P คาของขอมลทอยบนเสนขอบของทงสองฝงเรยกวา ซพพอรตเวกเตอร (Support vectors) ซพพอรตเวกเตอรแม

Page 32: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

20

ชชนจะหาระยะหางจากเสนขอบซายไปยงเสนขอบขวาทมคาระยะความหางสงสด โดยการเปลยนความชนของเสน P ไปเรอย ๆ เพอใหไดความกวางสงสดของเสนขอบ

ขอมลทจะน ามาวางบนพนทลกษณจะตองแปลงใหอยในรปของเวกเตอร โดยก าหนดให (x1,y1),…,(xn,yn) เปนคของตวอยางทใชในการสอนทมจ านวน n และ x คอขอมลรบเขา y คอผลลพธทมคา 1 หรอ -1 เทานน สมการท (1) เปนสมการเชงเสนของเสนแบง P ตามรปท 4

(w*x)+b = y = 0 (1) โดยท w คอ คาน าหนก และ b คอ คา bias เสนขอบ M1 และ M2 สามารถก าหนดไดดง

อสมการ (2) และ (3) ตามล าดบ (w*x)+b ≥ 1 ถา y1 = 1 (2) (w*x)+b ≤ -1 ถา y1 = -1 (3)

ในการแกปญหาการจ าแนกขอมล เปนเรองทยากทขอมลบนพนทลกษณจะอยอยางเปนระเบยบและสามารถใชเสนตรงแบงได เพราะมกเปนขอมลไมเชงเสนและกระจดกระจายอยบนพนทลกษณ ไมสามารถใชซพพอรตเวกเตอรแมชชนแบบเชงเสนได ดงภาพดานลาง ดงนนจงตองมการจดขอมลเสยใหม โดยใหอยในพนทมตทสงขน (Higher dimensional space) เพอใหสามารถสรางเสนแบงหรอระนาบแบงขอมลได เรยกระนาบนวา ระนาบเกน (Hyperplane) ภาพท 2.9 เปนการจ าลองใหเหนถงการจดขอมลใหอยในมตทสงขน

ภาพท 2.9 แสดงการจดขอมลใหอยในมตทสงขน ดดแปลงจาก (DTREG)

ในการจดเรยงขอมลใหอยในพนทมตทสงขนนน ซพพอรตเวกเตอรแมชชนใชฟงกชนการจบคของเคอรเนล (Kernel mapping function) โดยเคอรเนลทนยมใชมอย 3 ประเภท ดงน

โพลโนเมยวฟงกชน (Polynomial function) ค านวณไดจากสมการท (4)

K(xi,xj) = (1+xi ⋅xj)d (4)

Page 33: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

21

เรเดยลเบสสสฟงกชน (Radial Basis Function: RBF) ค านวณไดจากสมการท (5) K(xi,xj) = exp(-γ || xi-xj||

2) (5) ซกมอยด (Sigmoid)ค านวณไดจากสมการท (6)

K(xi,xj) = tanh(γ ⋅xi⋅xj+r) (6)

2.6 ตวอยางงานประมวลผลภาษาธรรมชาตทผานมาทใชซพพอรตเวกเตอรแมชชน

ในงานของ Giménez and Márquez (2003) ไดเสนอการก ากบหมวดค าโดยใช SVM light และใชวธก ากบแบบ greedy left-to-right scheme จากการทดลองกประเมนผลไดวา ซพพอรตเวกเตอรแมชชนสามารถฝกฝนไดอยางมประสทธภาพโดยไมตองปรบคาพารามเตอรหลายครง นอกจากนยงสามารถก ากบค าไดมากกวา 1,000 ค าตอวนาท ขอมลรบเขาถกแบงออกเปนวนโดว วนโดวละ 7 ค า ลกษณทใชมลกษณะเปน n-gram pattern การศกษานยงไดท าการทดลองเพอหาเคอรเนลฟงกชนทเหมาะสมระหวางโพลโนเมยลฟงกชนและลเนยรฟงกชน (Linear function) ดวยการปรบคาพารามเตอรของเคอรเนลแลวเปรยบเทยบประสทธภาพการก ากบหมวดค า ผลปรากฏวาโพลโนเมยลฟงกชน ตงคาดกรเทากบ 2 ใหคาความถกตองท 93.91 เปอรเซนต ซงมากกวาลเนยรฟงกชน ตงคาดกรเทากบ 1 ทใหคาความถกตองท 93.84 เปอรเซนต อยางไรกตามโมเดลทใชลเนยรฟงกชนใชเวลาในการประมวลผลเรวกวาโมเดลทใชโพลโนเมยลฟงกชนประมาณ 3 เทาตว

งานทางดานการรจ าชอเฉพาะภาษาบงกาลและฮนดของ Ekbal and Bandyopadhyay (2008) กไดน าเสนอการใชซพพอรตเวกเตอรแมชชน ระบบนท าการจ าแนกชอเฉพาะออกเปน 4 ประเภท ไดแก ชอบคคล ชอสถานท ชอองคกร และชออนๆ เชน วนท เวลา เปอรเซนต จ านวนเงน ฯลฯ ผลการทดสอบระบบไดคาความครบถวน คาความแมนย า และ f-score ท 88.61 เปอรเซนต, 80.12 เปอรเซนต และ 84.15 เปอรเซนต ส าหรบภาษาบงกาล และ 80.23 เปอรเซนต, 74.34 เปอรเซนต และ 77.17 เปอรเซนต ส าหรบภาษาฮนด ลกษณทใชในการฝกฝนซพพอรตเวกเตอรแมชชนในงานนไดแก 1) ค าทอยหนาและหลงค าทพจารณา 2) ความยาวของปจจย (Suffix) ของค าทพจารณาและค าทลอมรอบ 3) ความยาวของอปสรรค (Prefix) ของค าทพจารณาและค าทลอมรอบ 4) พจาณาวาเปนค าทขนตนประโยคหรอไม 5) พจารณาตวเลข ถาเปนตวเลขตามดวยเครองหมาย “, . / - เปอรเซนต” กถอวาเปนชอเฉพาะ 6) ค าทมความถต าในการปรากฏในคลงขอมลมแนวโนมทจะไมใชชอเฉพาะ 7) ความยาวของค าทพจารณา หากอกขระของค าทพจาณายาวนอยกวา 3 ตว กมแนวโนมทจะไมใชชอเฉพาะ 8) ขอมลประเภทของค า

ทางดานงานวจยภาษาไทยกมการใชซพพอรตเวกเตอรแมชชนอยางแพรหลาย เชนในงานของนเวศ จระวชตชย, ปรญญา สงวนสตย et al. (2553) ไดท าการศกษาการจดหมวดหมเอกสารภาษาไทยแบบอตโนมตดวยซพพอรตเวกเตอรแมชชน มการปรบคาพารามเตอรของเคอรเนลฟงกชน

Page 34: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

22

แบบตาง ๆ และมการใช Information Gain ในการลดลกษณทใชท าการฝกฝนซพพอรตเวกเตอรแมชชน ผลปรากฏวาโมเดลทใชเคอรเนลฟงกชนแบบลเนยรและโพลโนเมยล ตงคาดกรเทากบ 3 ใหความแมนย าในการจดหมวดหม 95.1 เปอรเซนต เทากน สวนเคอรเนลฟงกชนแบบเรเดยลเบสส ตงคาแกมมา (Gamma) เทากบ 0.8 ใหคาความแมนย าท 94.9 เปอรเซนต นอกจากนเมอเปรยบเทยบการใชซพพอรตเวกเตอรแมชชนกบอลกอรทม นาอฟเบย และ C4.5 พบวาซพพอรตเวกเตอรแมชชนมประสทธภาพในการจ าแนกหมวดหมเอกสารมากกวา

Page 35: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

23

บทท 3

คลงขอมลและการก ากบขอมล

เนองจากการแยกอนพากยดวยซพพอรตเวกเตอรแมชชน จะตองมการจดท าคลงขอมลเพอใชส าหรบฝกฝนและทดสอบแบบจ าลอง ดงนนในบทน ผวจยจะน าเสนอการรวบรวมขอมลภาษาเขยนเพอจดท าคลงขอมล จากนนในหวขอถดไปจะกลาวถงการก ากบขอมลในคลงขอมลเพอใชเปนขอมลพนฐานส าหรบฝกฝนและทดสอบแบบจ าลอง

3.1 การจดท าคลงขอมล

ขอมลภาษาทผวจยเกบรวมรวมเพอจดท าคลงขอมลในงานนไดมาจากการรวบรวมขอมลภาษาเขยนในคลงขอมลภาษาไทยแหงชาต (Thai National Corpus: TNC) ซงจดท าโดยจฬาลงกรณมหาวทยาลย คลงขอมลนไดรวบรวมงานเขยนภาษาไทยประเภทตาง ๆ เอาไว ไดแก งานเขยนวชาการ งานเขยนกงวชาการ เรองแตง และอนๆ ขอมลภาษาไทยใน TNC เปนขอมลแบบตดค าและมการก ากบขอมลตาง ๆ ไดแก ขอบเขตของค า ค าอานออกเสยง ขอมลผเขยน และขอมลบรรณานกรม

ส าหรบขอมลภาษาทผวจยเลอกใชในการศกษานนเปนงานเขยนประเภทบทความวชาการจากสาขาตาง ๆ คอ สาขาวทยาศาสตร รฐศาสตร สงคมศาสตร และมนษยศาสตร เนองจากงานเขยนแตละประเภทจะมลกษณะการใชภาษาเขยนทแตกตางกนออกไป ซงอาจสงผลตอโครงสรางของหนวยปรจเฉทพนฐาน ผวจยจงเลอกเฉพาะงานวชาการเทานน เพราะงานเขยนวชาการมลกษณะการผกความตอเนองทซบซอนกวางานประเภทอน มการใชภาษาพดและภาษาทไมเปนทางการนอยกวางานเขยนประเภทอน ขอมลงานเขยนทใชจดท าคลงขอมลนมจ านวนไมต ากวา 70,000 ค า และสามารถแบงหนวยปรจเฉทพนฐานไดไมต ากวา 7,000 หนวย

3.2 การก ากบคลงขอมล

เนองจากในการศกษาน ผวจยตองการตดแบงอนพากยโดยวธการเรยนรดวยเครอง จ าเปนตองระบลกษณตาง ๆ (Features) เพอใหเครองเรยนรและใชในการตดสนใจ ดงนนผวจยจงตองท าการก ากบขอมลเพอใชเปนลกษณส าหรบการเรยนรดวยเครอง ไดแก การก ากบหมวดค า (Parts of Speech) และขอบเขตอนพากยนอกจากนไดตดการก ากบขอมลบางประเภททมการก ากบอยใน TNC ออกกอนจะน าไปฝกฝนแบบจ าลอง ไดแก ขอมลค าอานออกเสยง ประเภทงานเขยน ขอมลผเขยน และขอมลบรรณานกรม เนองจากเหนวาขอมลดงกลาวไมไดเปนสวนหนงของตวเนอหาบทความ เปนเพยงการใหขอมลทเกยวของกบบทความเทานน

Page 36: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

24

3.2.1 หมวดค าภาษาไทยและการก ากบหมวดค า

หมวดค าภาษาไทยสามารถจ าแนกไดหลายรปแบบ ขนอยกบเกณฑทนกภาษาศาสตรใชในการจดหมวดหม เชน การใชเกณฑทางวากยสมพนธจะดต าแหนงการปรากฏของค า ค าทปรากฏในต าแหนงเดยวกนไดกจะอยในหมวดค าเดยวกน หรอถาใชเกณฑทางความหมาย กจะดความหมายของค า ค าทมความหมายในท านองเดยวกนกจะจดใหอยในหมวดค าเดยวกน

จากการศกษาของนฐวฒ ไชยเจรญ (2544) เมอพจารณาวธการและเกณฑทใชจดหมวดค า พบวาสามารถแบงไดเปน 2 กลมใหญ ไดแก การจดแบงหมวดค าโดยใชความรทางภาษาของผจดแบง (Intuition-based approach) นกภาษาศาสตรทใชวธนไดแก พระยาอปกตศลปะสาร (2533) บรรจบ พนธเมธา (2514) ก าชย ทองหลอ (2515) นววรรณ พนธเมธา (2527) อดม วโรตมสกขดตถ (2535) และ เรองเดช ปนเขอนขตย (2541) และอกกลมหนงคอการจดแบงหมวดค าจากการวเคราะหคลงขอมลหรอประโยคทดสอบ (Corpus based approach) ไดแกงานของ วจนตน ภาณพงศ (2532) อมรา ประสทธรฐสทธ (2543) และ Sornlertlamvanich, Charoenporn et al. (1997)

ส าหรบหมวดค าทผวจยใชในการก ากบหมวดค าในครงน ประกอบไปดวย 15 หมวดค าหลก และสามารถแบงออกเปนหมวดค ายอยได 26 หมวดค า1 โดยพจารณาความหมายและต าแหนงการปรากฏของค านนในขอความ รวมไปถงความสมพนธของค านนและค าอนในขอความ ดงนนค าหนงค าจะไมมหมวดค าตายตว นนคอ ค าทมรปเดยวกน เชนค าวา “ถก” สามารถเปนเปนค าประเภทใดกไดขนอยกบต าแหนงการปรากฏและความสมพนธกบค าอน ๆ เชน เปนค ากรยาวเศษณใน “เขาท าถก” เปนค ากรยาใน “ถกเนอตองตว” เปนค าชวยกรยาใน “ถกท าโทษ” เปนตน

ผวจยก าหนดสญลกษณทใชในการก ากบหมวดค า คอ ในกรณทเปนหมวดค าทมหมวดค ายอย จะใชอกษรยอภาษาองกฤษของหมวดค าหลกแลวตามดวยอกษรยอชอหมวดค ายอย เชน หากหมวดค าหลกคอค านาม หรอ Noun และหมวดค ายอยคอ ค านามสามญ หรอ Common Noun กจะใชสญลกษณในการก ากบหมวดค าคอ NCMN สวนในกรณทเปนหมวดค าทไมมหมวดค ายอย กจะใชอกษรยอภาษาองกฤษของหมวดค านนในการก ากบขอมลเลย รายละเอยดของแตละหมวดค าพรอมตวอยางภาษาเปนดงน

1. Noun (N) ค านาม ประกอบไปดวย 5 หมวดค ายอย ดงน 1.1 Common noun ค านามทวไป สญลกษณทใชก ากบหมวดค าคอ

NCMN ค านามทวไปเปนค าทใชเรยกคน สตว สงของตาง ๆ ใน 1 ดดแปลงจากชดหมวดค าทใชในงาน CRSLP

Page 37: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

25

ลกษณะทว ๆ ไป ไมไดเฉพาะเจาะจงวาเปนคนไหนหรอสงไหน ค านามทวไปสามารถปรากฏในต าแหนงหนากรยา หลงกรยา หลงบพบท และหนาตวก าหนด ตวอยางเชน อาคาร, ธรรมชาต, ศลธรรม ฯลฯ

1.2 Proper noun ค านามเฉพาะ สญลกษณทใชก ากบหมวดค าคอ NPRP ค านามเฉพาะเปนชอเรยกทชเฉพาะหรออางองถงสงหนงสงใดโดยเจาะจง สามารถปรากฏในต าแหนงหนากรยา หลงกรยา หลงบพบท และหนาตวก าหนด ตวอยางค าทขดเสนใต จงหวดสระแกว, อาคารบรมราชกมาร, สนามกฬาราชมงคลา ฯลฯ

1.3 Classifier ลกษณะนาม สญลกษณทใชก ากบหมวดค าคอ NCLS ลกษณะนามเปนค าทบอกหนวยนบของค านามทวไป ในภาษาไทยลกษณะนามจะแสดงลกษณะหรอชนดของค านามทวไปใหชดเจนยงขน ลกษณะนามสามารถปรากฏในต าแหนงหลงจ านวนนบหรอค าบอกปรมาณ หนาตวก าหนด หนาตวน าสวนเตมเตม ยกตวอยางค าทขดเสนใต นก 2 ตว, พระ 2 รป, รถยนตคนน ฯลฯ

1.4 Number นามจ านวนนบ สญลกษณทใชก ากบหมวดค าคอ NNUM นามจ านวนนบเปนค าบอกปรมาณของค านามทวไปซงในรปของจ านวนนบ นอกจากนยงหมายถงตวเลขตาง ๆ ทไมไดแสดงปรมาณของค านามทวไป นามจ านวนนบสามารถปรากฏในต าแหนงหนาลกษณะนาม หรอปรากฏโดด ๆ โดยทไมไดประกอบค านามกได ตวอยางค าทขดเสนใต อาย 30 ป, มเงน 100 บาท, ประการทสอง, เบอรโทร 089999998 ฯลฯ

1.5 Pronoun สรรพนาม สญลกษณทใชก ากบหมวดค าคอ NPRO ค าสรรพนามเปนค าทใชเรยกแทนค านาม สามารถปรากฏในต าแหนงตาง ๆ เชนเดยวกนกบค านามทวไปและค านามเฉพาะ เชน ฉน, ดฉน, ผม, คณ, ทาน ฯลฯ

2. Determiner ตวก าหนด สญลกษณทใชก ากบหมวดค าคอ DET เปนค าทใชประกอบค านามและสรรพนามเพอใหแสดงความชเฉพาะ โดยจะปรากฏหลงค าทประกอบ ตวอยางค าทขดเสนใต บานหลงน, คนเหลานน, สงนน ฯลฯ

3. Verb ค ากรยา สญลกษณทใชก ากบหมวดค าคอ VERB ค ากรยาเปนค าทแสดงการกระท า อาการ การปรากฏ และสถานะของสงตาง ๆ ค ากรยาสามารถปรากฏหนาและ/หรอหลงค านามหรอสรรพนาม หนาบพบท หนาหรอหลงค าเชอม หนาบพบท หรอปรากฏโดด ๆ กได ใน

Page 38: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

26

วทยานพนธนไมไดแบงค ากรยาออกเปนหมวดยอย เชน สกรรมกรยา อกรรมกรยา ฯลฯ เนองจากเหนวากรยาทกประเภททมสถานะเปนกรยาแท สามารถเปนภาคแสดง (Predicate) ของถอยความ (Utterance) ไดเหมอนกนหมด ประเภทยอยของกรยาจงไมไดเปนตวบงชสถานะความเปนอนพากย ตวอยางค าทขดเสนใตเชน นดกนกวยเตยว, นอยเดนออกไปขางนอก, หนตายในตาย, หนอยเปนหวดกน ฯลฯ

4. Adjective ค าคณศพท สญลกษณทใชก ากบหมวดค าคอ ADJ ค าคณศพทเปนค าทใชขยายค านามเพอแสดงคณสมบตหรอลกษณะของค านามนน ต าแหนงทปรากฏคอหลงค านาม ตวอยางค าทขดเสนใตเชน ความเดมตอนทแลว, เสอขาว, บานหลงเบอเรอ, ความรเบองตน ฯลฯ

5. ADVERB กรยาวเศษณ สญลกษณทใชก ากบหมวดค าคอ ADVERB ค ากรยาวเศษณเปนค าทใชขยายค ากรยาหรอค าคณศพทหรอค ากรยาวเศษณดวยกนเอง เพอแสดงคณภาพ ลกษณะ และสถานะ ค ากรยาวเศษณจะปรากฏหลงค าทตองการขยาย ตวอยางค าทขดเสนใตเชน ดกวา, สอบได, วงเรว, ชนะอยางเดดขาด ฯลฯ

6. Conjunction (C) สนธานหรอค าเชอม แบงออกเปน 4 หมวดค ายอย ดงน 6.1 Coordinating Conjunction สนธานประสาน สญลกษณทใชก ากบ

หมวดค าคอ CCOR เปนค าเชอมทใชแสดงความสมพนธระหวางปรจเฉทกบปรจเฉท หรออนพากยกบอนพากย หนวยทถกเชอมโยงโดยค าเชอมประเภทนจะมสถานะหรอความส าคญเทากน การตดค าเชอมออกไมสงผลตอใจความของทงสองหนวย ค าเชอมประเภทนจะปรากฏอยสวนหนาสดของปรจเฉทหรออนพากยเทานน ตวอยางเชน ดงนน, อยางไรกตาม, นอกจากน, แต ฯลฯ

6.2 Subordinating conjunction อนสนธาน สญลกษณทใชก ากบหมวดค าคอ CSUB เปนค าเชอมทใชแสดงความสมพนธระหวางอนพากยกบอนพากยหนวยทถกเชอมโยงโดยค าเชอมประเภทนจะมสถานะหรอความส าคญไมเทากน อนพากยทมเนอความเดนและส าคญกวาเปนอนพากยหลก สวนอนพากยทมเนอความขยายอนพากยหลกเปนอนพากยรอง การตดค าเชอมออกจะสงผลตอใจความของทงสองหนวย ค าเชอมประเภทนมกจะปรากฏต าแหนงหนาอนพากย ตวอยางเชน ถงแมวา, ถา, เพราะ, หาก, เมอ, เพอ ฯลฯ

6.3 Coordinating conjunction inside clause สนธานประสานภายในอนพากย สญลกษณทใชก ากบหมวดค าคอ CCORIN เปนค าเชอมทมต าแหนงการปรากฏภายนอนพากย แสดงการเชอมโยง

Page 39: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

27

ระดบวลหรอค า หนวยทถกเชอมโดยค าเชอมประเภทนจะมสถานะหรอความส าคญเทากน ตวอยางค าทขดเสนใตเชน นอยและนดปวยหนก, จะไปเทยวสวนสนกหรอสวนสตว ฯลฯ

6.4 Subordinating conjunction inside clause อนสนธานภายในอนพากย สญลกษณทใชก ากบหมวดค าคอ CSBI เปนค าเชอมทมต าแหนงการปรากฏภายนอนพากย แสดงการเชอมโยงระดบวลหรอค า หนวยทถกเชอมโดยค าเชอมประเภทนจะมสถานะหรอความส าคญไมเทากน ตวอยางค าทขดเสนใตเชน เขาจงเชอเชนนน, ปญหากคลคลาย ฯลฯ

7. Preposition บพบท สญลกษณทใชก ากบหมวดค าคอ PREP ค าบพบทเปนค าทปรากฏหนานามวล ประกอบกนเปนบพบทวลซงมความสมพนธกบค ากรยาในฐานะทเปนสวนเตมเตมกรยา (Complement) หรอสวนขยาย (Adjunct) ตวอยางเชน ใต, บน, ใน, จาก, เพอ ฯลฯ

8. Auxiliary ค าชวยหนากรยา สญลกษณทใชก ากบหมวดค าคอ AUX ค าชวยหนากรยาเปนค าทเสรมความหมายและหนาททางไวยากรณใหกบค ากรยาทประกอบ ไดแก กาล (Tense) การณลกษณะ (Aspect) ทศนภาวะ (Modality) วาจก (voice) เปนตน ตวอยางเชน ควร, ตอง, จะ, ยง, เคย ฯลฯ

9. Complementizer (COMPF) ตวน าสวนเตมเตม แบงออกเปน 2 หมวดค ายอย ดงน

9.1 Finite complementizer ตวน าสวนเตมเตมทมกรยาแท 2 สญลกษณทใชก ากบหมวดค าคอ COMPF ไดแกค าวา ท, ซง, อน, วา, ให

9.2 Non-finite complementizer ตวน าสวนเตมเตมทไมมกรยาแท สญลกษณทใชก ากบหมวดค าคอ COMPNF ตวน าสวนเตมเตมทไมมกรยาแท ไดแกค าวา ทวา, ทจะ

10. Prefix (PF) ค าอปสรรค แบงออกเปน 2 หมวดค ายอย ดงน 10.1 Noun prefix อปสรรคสรางนาม สญลกษณทใชก ากบหมวดค าคอ

PFN อปสรรคสรางนาม ใชประกอบหนาค ากรยาหรอคณศพทเพอสรางค านาม ไดแกค าวา การ, ความ, นก หรอใชประกอบหนาอนพากยเพอท าใหเปนนาม (Nominalization) ไดแกค าวา การท, ความท

2 เรองกรยาแทและกรยาไมแทจะไดกลาวถงในบทตอไป

Page 40: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

28

10.2 Adverb prefix อปสรรคสรางวเศษณ สญลกษณทใชก ากบหมวดค าคอ PFAV อปสรรคสรางวเศษณ ใชประกอบหนาค ากรยาหรอคณศพทเพอสรางค าวเศษณ ไดแก อยาง, นา

11. Modifier (M) ค าขยาย หมายถง ค าขยายอน ๆ นอกเหนอจาก ADJ และ ADVERB แบงออกเปน 3 หมวดค ายอย

11.1 Collective noun สญลกษณทใชก ากบหมวดค าคอ MCN ค าขยายหนานามเปนค าทใชประกอบหนาค านามทวไปหรอค านามเฉพาะเพอแสดงความเปนกลมของนามนน ตวอยางค าทขดเสนใตเชน บรรดาขาราชการ, พวกนกเลง, เหลานกเรยน ฯลฯ

11.2 Modifier of number/classifier in front position สญลกษณทใชก ากบหมวดค าคอ MNCF ค าขยายหนาจ านวนเปนค าทปรากฏหนานามจ านวนนบหรอลกษณะนาม ตวอยางค าทขดเสนใตเชน เหลอเพยง 2 ตว, แตละคน, อกเรองหนง ฯลฯ

11.3 Modifier of number/classifier in back position สญลกษณทใชก ากบหมวดค าคอ MNCB ค าขยายหลงจ านวนเปนค าทปรากฏหลงนามจ านวนนบหรอลกษณะนาม ตวอยางค าทขดเสนใตเชน อยคนเดยว, สองวนรวด, สองประการแรก, 2,000 กวาบาท ฯลฯ

12. Negation ค าปฏเสธ สญลกษณทใชก ากบหมวดค าคอ NEG ค าปฏเสธเปนค าทใชแสดงการปฏเสธ ปรากฏต าแหนงหนาค ากรยาหรอค าชวยหนากรยา ไดแกค าวา ไม, ม

13. Punctuation เครองหมายวรรคตอน สญลกษณทใชก ากบหมวดค าคอ PUNC เครองหมายวรรคตอนตาง ๆ ไดแก ไปยาลนอย, ไปยาลใหญ, อญประกาศ, ปรศน, จลภาค, ทบ, วงเลบ, ไมยมก, ยตภงค เปนตน

14. Particle อนภาคทาย สญลกษณทใชก ากบหมวดค าคอ PT อนภาคเปนค าทปรากฏทายถอยความเพอแสดงความสภาพหรอค าถาม ตวอยางเชน ทราบหรอไม, ไมใชเลย, ไมวาใครกตาม ฯลฯ

15. Foreign word ค าภาษาตางประเทศ สญลกษณทใชก ากบหมวดค าคอ FOREIGN ค าทใชอกษรอน ๆ ทไมใชอกษรภาษาไทย

3.2.2 การก ากบขอบเขตหนวยปรจเฉทพนฐาน

ในสวนของการก ากบขอบเขตอนพากย ผวจยไดก าหนดขอบเขตของอนพากยภาษาไทยโดยดดแปลงหลกการจากคมอการแยกอนพากยภาษาองกฤษของ Carlson และ Marcu (2001) ทใชในการสรางคลงขอมล RST Discourse Treebank ซงเปนคลงขอมลทมการก ากบหนวยปรจเฉท

Page 41: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

29

พนฐานเพอใชในการศกษาโครงสรางปรจเฉท โดยทวไปแลวหนวยปรจเฉทพนฐานไดแก อนพากยทมกรยาแท และนามวลทขนตนดวยค าเชอมเดน สวนรายละเอยดของการก าหนดขอบเขตหนวยปรจเฉทพนฐานทใชในวทยานพนธนจะกลาวถงในบทท 4 สญลกษณทใชในการก ากบอนพากยไดแก <EDU> ส าหรบจดเรมตน และ </EDU> ส าหรบจดสนสด

สญลกษณ ค าอธบาย <w POS> ก ากบหมวดค า </w> ขอบเขตค า <EDU> จดเรมตน EDU </EDU> จดสนสด EDU <s> ชองวาง (space)

ตารางท 3.1 แสดงสญลกษณทใชในการก ากบคลงขอมล

หลงจากก าหนดชดหมวดค าและสญลกษณทจะใชในการก ากบขอมล ผวจยไดท าการก ากบขอมลตาง ๆ ดวยมอ ขอมลทไดรบการก ากบหมวดค าและขอบเขตอนพากยแลว มรปแบบดงตาราง 3.2 หรอสามารถดการก ากบคลงขอมลเพมเตมไดทภาคผนวก ก

<EDU><w CCOR>โดยท</w><s><w FOREIGN>The</w><s><w FOREIGN>Third</w><s><w FOREIGN>Way</w><s><w AUX>ยง</w><w AUX>คง</w><w VERB>ม</w><w NOUN>สถานะ</w><w VERB>เปน</w><w NOUN>งาน</w><w NCLS>ชน</w><w ADJ>หลก</w><w PREP>ของ</w><s><w FOREIGN>Giddens</w><s><w PREP>ใน</w><w NOUN>เรอง</w><w DET>น</w><w ADVERB>อย</w><w ADVERB>ตอไป</w></EDU><s><EDU><w NCMN>งาน</w><w VERB>เขยน</w><w PREP>ของ</w><s><w FOREIGN>Giddens</w><s><w NEG>ไม</w><w VERB>แพรหลาย</w><w PREP>ใน</w><w NCMN>สงคม</w><w NPRP>ไทย</w></EDU>

ตารางท 3.2 ตวอยางขอมลทก ากบขอมลแลว

คลงขอมลทสรางเสรจสมบรณมจ านวนค า (token) ทงหมด 76,460 ค า โดยนบเครองหมายวรรคตอนและชองวางเปนค าดวย นบจ านวน EDU ไดทงหมด 8,102 EDU ในสวนของการก าหนดขอบเขต EDU นน จะไดกลาวถงรายละเอยดในบทตอไป

Page 42: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

30

บทท 4

การก าหนดขอบเขตอนพากยภาษาไทย

ในบทนจะกลาวถงการก าหนดขอบเขตเชงโครงสรางของอนพากย ซงเปนหนวยสรางทเลกทสดในปรจเฉท ในทนจะเรยกวา EDU ทงนเพอทจะใชเปนบรรทดฐานในการตดสนวาหนวยใดถอวาเปนหรอไมเปนอนพากยทตองแบง ในงานน ผวจยไดใชหลกการเดยวกนกบท Carlson and Marcu (2001) ใชก ากบอนพากยภาษาองกฤษในคลงขอมล RST (RST Discourse Treebank) ซงเปนคลงขอมลทใชส าหรบศกษาโครงสรางปรจเฉทโดยเฉพาะ ทงนผวจยไดปรบบางหลกการเพอใหเหมาะสมกบลกษณะของภาษาไทยโดยสรปแลว อนพากยปรจเฉท ไดแก อนพากยทมกรยาแทและกลมของนามวลทขนตนดวยค าเชอมเดน ทงนแตละ EDU จะตองไมมขอบเขตคาบเกยวกน (Non-overlapping spans of text) รายละเอยดและหลกการแยกอนพากยภาษาไทยทใชในงานวจย มดงตอไปน

1) อนพากยทมกรยาแท (Finite clause)

กรยาแท หมายถง กรยาทสามารถท าหนาทเปนภาคแสดงของอนพากย สามารถแสดงขอมลทางไวยากรณ (Grammatical information) ตาง ๆ ได เชน กาล, การณลกษณะ, วาจก, ทศนภาวะ ฯลฯ ในภาษาไทยซงเปนภาษาโดด (Isolating language) กรยาแทสามารถใหขอมลทางไวยากรณตาง ๆ ทกลาวมาไดโดยการเตมกรยาชวยประเภทตาง ๆ ไวขางหนากรยาแท เชน “จะ” แสดงการณลกษณะไมสมบรณ, "เคย" แสดงสถานการณสมบรณ, "ก าลง" แสดงการณลกษณะทก าลงด าเนนอย, “ถก” แสดงกรรมวาจก, “ควร” แสดงทศนภาวะ ฯลฯ

โดยพนฐานแลว ผวจยก าหนดใหอนพากยทประกอบดวยกรยาแทเปน EDU (ยกเวนอนพากยบางประเภทซงจะกลาวถงภายหลง) อนพากยทมกรยาแท (Finite clause) สามารถแบงออกเปนอนพากยอสระ (Independent clause) และอนพากยไมอสระ (Dependent clause) ในขณะทอนพากยอสระสามารถอยไดดวยตวเองอยางมใจความสมบรณ อนพากยไมอสระตองพงพาอนพากยอสระเสมอ เพราะไมสามารถอยไดดวยตวเอง อนพากยทงสองประเภทสามารถเชอมเขาดวยกนดวยหนวยเชอมโยงปรจเฉทหรอค าเชอมทแสดงความสมพนธแบบนวเคลยรเดยว (Mononuclear relation) กลาวคอ อนพากยอสระมสถานะเปนขอมลหลกหรอนวเคลยร และอนพากยไมอสระเปนขอมลสนบสนน นอกจากนอนพากยอสระมากกวาหนงอนพากยสามารถเชอมเขาดวยกนดวยหนวยเชอมโยงปรจเฉทหรอค าเชอมทแสดงความสมพนธแบบหลายนวเคลยร (Multinuclear relation) ไดอกดวย นนคออนพากยอสระแตละอนพากยมสถานะเปนขอมลหลกหรอนวเคลยรอยางเทาเทยมกน ตวอยางค าเชอมทแสดงความสมพนธแบบนวเคลยรเดยว ไดแก "เมอ”, “ถาหาก”, “แม, “เพราะ"

Page 43: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

31

เปนตน โดยอนพากยทตามหลงค าเชอมเหลานจะมสถานะเปนอนพากยไมอสระ ค าเชอมทแสดงความสมพนธแบบหลายนวเคลยร ไดแก “และ”, “แต”, “หรอ”, “อยางไรกตาม”, “นอกจากน” เปนตน หลกการก าหนดขอบเขต EDU ทเปนอนพากยทมกรยาแทเปนไปตามรายละเอยดดงตอไปน

1.1) Finite relative clause (คณานประโยคทมกรยาแท) เปนอนพากยไมอสระประเภทหนงในทางหนาทคณานประโยคเปนหนวยสรางทมหนาทขยายค านามหลก (Head noun) และในทางความหมาย ถอวาเปนอนพากยทท าใหค านามหลกทถกอางองถงมความเฉพาะจงเจาะยงขน หนวยสรางประเภทนจะปรากฏหลงค านามหลกเทานน และอาจจะมหรอไมมตวบงช “ท”, “ซง”, “อน” น าหนากได ผวจยก าหนดใหคณานประโยคทมกรยาแทเปนภาคแสดงมสถานะเปน EDU คณานประโยคในภาษาไทยมกลวธในการสราง 2 วธ คอ กลวธคงสรรพนาม (Pronoun retention strategy) ซงใชสรรพนามอางองถงค านามหลกเปนประธานของคณานประโยค และกลวธปลอยวาง (Gap strategy) ซงจะละสรรพนามทอางองถงค านามหลก ตวอยาง (1) และ (2) ดงตอไปน แสดงคณานประโยคทง 2 ประเภทดงกลาว

ตวอยาง (1) [แมมสง]1[ทเขาไมชอบ]2 (2) [คงจะตองคนหาจากวาทกรรม]1[ท___ก าลงเปลยนไป]2

จากตวอยางทยกมา หนวยท 2 ของตวอยาง (1) เปนคณานประโยค และมสรรพนาม “เขา” เปนประธานในคณนานประโยคทอางองถงค านามกอนหนาคอ “สง” ดงนนโครงสรางคณานประโยคนเปนโครงสรางแบบคงสรรพนาม สวนหนวยท 2 ของตวอยาง (2) เปนคณานประโยคทขนตนดวยตวบงช “ท” และตามดวยภาคแสดงเลย คอไมมการใชสรรพนามอางองถงค านามขางหนาคอค าวา “วาทกรรม” แบบนถอวาเปนคณานประโยคทใชกลวธปลอยวาง

ในบรรดาค าบงชคณานประโยคทงหลาย ค าวา “อน” เปนค าทมการใชนอยสด และมกจะใชในภาษาทมความเปนทางการมาก ในขณะท “ท” มการใชหลากหลายรปแบบมากกวาในปรจเฉท และค าวา “ซง” มกใชในการพดหรอเขยนทคอนขางเปนทางการมากกวา Iwasaki and Horie (2005) ไดกลาวถงความแตกตางเชงหนาทของค าวา “ท” และ “ซง” เอาไววา ค าวา “ท” ใชในการระบถงค านามหลกอยางเจาะจง ค านามหลกมกจะเปนนามรปธรรม การใชค าวา “ท” จะท าใหคณานประโยคมลกษณะคลายกบ restrictive relative clause ในภาษาองกฤษ นอกจากน "ท" ยงปรากฏบอยกวาเมอท าหนาทขยายค านามหลก ในขณะทค าวา “ซง”นอกจากจะมการใชนอยกวาและมหนาทเหมอนค าวา “ท” ยงสามารถใชน าหนาอนพากยเพอขยายปรจเฉทกอนหนาไดทง

Page 44: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

32

ปรจเฉทอกดวย นนคออนพากยตามหลง “ซง” ไมจ าเปนตองท าหนาทขยายเพยงค านามหลกกอนหนาเทานน

อยางไรกตามคณานประโยคอาจจะไมไดขนตนดวยค าบงช ท าใหมโครงสรางเหมอนคณานประโยคลดรปซงจะไดกลาวถงในหวขอตอไป อกทงยงสามารถมองไดวาเปนนามวลซบซอน แตไมวาจะวเคราะหใหเปนคณานประโยคลดรปหรอนามวลซบซอน ความหมายทไดกไมตางกน ในทนขอวเคราะหเปนแบบหลงเพราะยดรปปรากฏเปนส าคญ อกทงการลดรปของคณานประโยคยงท าใหเกดกรยาไมแทอกดวย ซงในทนไมเปน EDU อยแลว

ตวอยาง (3) [เขาชอบขนมปง]1[ทมาจากญปน]2 (4) [เขาชอบขนมปงมาจากญปน]1

ตวอยาง (3) และ (4) เปนตวอยางสมมต ทมใจความเหมอนหรอใกลเคยงกน “ทมาจากญปน” ในตวอยาง (3) เปนคณานประโยคทขนตนดวยตวบงช “ท” ท าหนาทขยายค านามหลก “ขนมปง” ในขณะท “ขนมปงมาจากญปน” ในตวอยาง (4) สามารถมองวาเปนนามวลประเภทหนงได โดยท “ขนมปง” เปนค านามหลกและทเหลอเปนสวนขยาย ดงนนในกรณน ผวจยจะแบงอนพากยในตวอยาง (3) ออกมาเปน 2 EDU และตวอยาง (4) ได EDU เดยว

1.2) Adverbial clause (วเศษณานประโยค) เปนอนพากยไมอสระประเภทหนงทชวยขยายกรยาหลกในอนพากยอสระเกยวกบเงอนไข เหตผล เวลา เปนตน สามารถปรากฏต าแหนงหนาหรอหลงอนพากยอสระได ผวจยก าหนดใหอนพากยประเภทนเปน EDU

วเศษณานประโยคสามารถแบงออกเปนประเภทตาง ๆ ตามความหมายและหนาทซงแตละประเภทจะใชค าเชอมแสดงปรจเฉทสมพนธทแตกตางกนออกไป เชน วเศษณานประโยคบอกเวลา (Time Adverbial clause) ขนตนดวยค าเชอม“จนกระทง”, “ในขณะท”, “ขณะท”, “ขณะ”, “ในระหวางท”, “ในระหวาง” เปนตน วเศษณานประโยคบอกเหต (Causal Adverbial clause) ขนตนดวยค าเชอม“เพราะ”, “เพราะวา”, “เนองจาก”, “เนองจากวา”เปนตน วเศษณานประโยคแสดงเงอนไข (Conditional Adverbial clause) ขนตนดวยค าเชอม“ถา”, “หาก”, “ถาหาก”, “หากวา”, “ถาหากวา”เปนตน วเศษณานประโยคเงอนไขเพอยนยน (Concessive Adverbial clause) ขนตนดวยค าเชอม“ถงแมวา”, “แมวา”เปนตน ค าเชอมเหลานสามามารถใชเปนตวบงชจดเรมตน EDU ได

ตวอยาง (5) [ตองถกสงตวกลบมากอน]1[เพราะปวยเปนวณโรค]2

Page 45: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

33

(6) [หากพเคราะหใหถถวนแลว]1 [กดจะมกลนไอของวธคดเรองตวตนและอตลกษณแบบส านกคดหลงสมยใหม]2

จากตวอยางขางตน หนวยท 2 ในตวอยาง (3) เปนคณานประโยคแสดงเหตผล ขนตนอนพากยดวยค าเชอม “เพราะ” และหนวยท 1 ในตวอยาง (6) เปนคณานประโยคแสดงเงอนไข ขนตนดวยค าเชอม “หาก” จงถอวาเปน EDU

1.3) Coordinate clause คอ อนพากยมากกวาหนงอนพากยทมความเทาเทยมกนในเชงหนาทเชอมโยงเขาดวยกนในโครงสรางระดบเดยวกนดวยสนธานประสานหรอค าเชอม เชน “และ” “หรอ” “แต” ฯลฯ ผวจยก าหนดใหอนพากยทเชอมดวยค าเชอมเหลานเปน EDUอยางไรกตามอนพากยประเภทนอาจเชอมโยงเขาดวยกนโดยไมมค าเชอมเลยกได ซงท าใหยากแกการระบอนพากยประเภทน

อยางไรกตาม coordinate clause อาจมรปแบบของโครงสรางทคลายกบกรยาวลทเชอมเขาดวยกนดวยสนธานประสานส าหรบ coordinate verb phrase นน ผวจยไมถอวาเปน EDU เนองจากกรยาในกรยาวลไมไดมปรจเฉทสมพนธตอกนวธสงเกตวาเปน coordinate clause หรอ coordinate verb phrase สามารถพจารณาไดจากกรยาหลก กลาวคอ ใน coordinate clause กรยาของแตละอนพากยจะไมใชกรรมหรอสวนขยายหรอสวนเตมเตมหรอสวนเสรมรวมกน สวนกรยาใน coordinate verb phrase จะใชกรรมหรอสวนขยายหรอสวนเตมเตมหรอสวนเสรมรวมกนได

ตวอยาง (7) [เกดในโตเกยว]1 [และมาเตบโตทโอซากา]2 (8) [แตหลายสวนลอกและเพมเตมมาจากกฎหมายตราสามดวง]1

ตวอยาง (7) เปน coordinate clause ทเชอมกนดวยค าเชอม “และ”กรยาแตละอนพากยไมไดใชสวนเสรมรวมกน นนคอ “ในโตเกยว” เปนสวนเสรมของกรยา “เกด” และ “ทโอซากา” เปนสวนเสรมของกรยา “มาเตมโต” จงแบงได 2 EDU สวนตวอยาง (8) เปน coordinate verb phrase ทกรยา “ลอก” และ “เพมเตม” เชอมเขาดวยกนดวยค าเชอม “และ” ใชสวนเตมเตม “จากกฎหมายตราสามดวง” รวมกน ดงนนจงไมแยกออกเปน 2 EDU

1.4) Subject and object clause เปนอนพากยไมอสระประเภทหนงทมหนาทในระดบโครงสรางอนพากย นนคอท าหนาทเปนประธานหรอกรรมของอนพากยหลก ไมไดท าหนาทขยายสวนใดสวนหนงของขอความ ในงานวจยนจะไมถกแยกออกมาเปน EDU เนองจากเปนสวนทไมสามารถละทงหรอแยกออกมาโดด ๆ ได อกทงยงไมไดแสดงปรจเฉทสมพนธตอสวนใดอกดวย ดง

Page 46: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

34

ตวอยาง (9) อนพากยทขดเสนใตเปนอนพากยทท าหนาทเปนประธานของอนพากยหลก จงไมถกแยกออกเปนเปน EDU

ตวอยาง (9) [ผจบปรญญาเอกดานวทยาศาสตรตองมคณสมบตอยางไรบาง]1

2) อนพากยทไมมกรยาแท (Non-finite clauses)

ตรงกนขามกบอนพากยทมกรยาแท อนพากยทไมมกรยาแทจะไมถกแยกออกมาเปน EDU ในภาษาองกฤษ อนพากยทไมมกรยาแทจะใชกรยาในรป participle, gerund, หรอ infinitive ซงเปนกรยาทไมสามารถแสดงขอมลเชงไวยากรณได3 ในขณะทภาษาไทยไมมกรยาในรปตาง ๆ ทกลาวมา การระบอนพากยทไมมกรยาแทในภาษาไทยจงมความยงยากอยบาง กลาวคอ การระบวากรยาในอนพากยเปนกรยาแทหรอไมแท สามารถท าไดดวยวธเดยว คอการทดสอบวากรยานนสามารถปรากฏรวมกบตวบงชตาง ๆ ไดหรอไม เชน ตวบงชกาล, ตวบงชการณลกษณะ, ตวบงชวาจก ฯลฯ หากไมสามารถปรากฏรวมกบตวบงชเหลานได แสดงวาเปนกรยาไมแท

ในภาษาไทยสามารถพบอนพากยทไมมกรยาแทไดในคณานประโยค Yaowapat and Prasithrathsint (2006) เรยกคณานประโยคชนดนวา "คณานประโยคแบบลดรป" (Reduced relative clause) อนพากยประเภทนจะปรากฏหลงค านามหลกทเปนค านามทวไปหรอไมชเฉพาะเทานน (Generic or indefinite head noun) นอกจากนยงพบวาไมมการปรากฏหลงค าบงช "ท" เหมอนอยางในกรณคณานประโยคทมกรยาแท

ตวอยาง (9) [แสดงวธการวเคราะหสารส าคญ]1 (10) [แสดงวธการวเคราะหสาร]1[ทส าคญ]2

จากตวอยาง (9) “ส าคญ” เปนกรยาไมแทและเปนคณานประโยคทขยายค านามหลก “สาร” ขางหนา ดงนนจงไมแยก “ส าคญ” ออกมาเปน EDU อยางไรกตามหากเตมตวบงช “ท” หนาค าวา “ส าคญ” กจะเปนดงตวอยาง (10) และท าใหเหนภาพคณานประโยคชดเจนยงขน แตกจะมค าถามตามมาวา จะตองแบง “ทส าคญ” ออกเปน EDU หรอไม ในเมอมรปโครงสรางเหมอนกบคณานประโยคทมกรยาแท ในกรณตวอยาง (10) ผวจยตดสนใจแบง “ทส าคญ” ออกมาเปนอก EDU เพราะถอวาการทผเขยนเลอกใชค าเชอม“ท” แสดงวาไมตองการใชเปนแบบคณานประโยคลดรปคอมองไดวาเปนลลาของผเขยนทใชโครงสรางคนละแบบกนในการสอสาร นนคอ แบบแรกใชโครงสรางคณาน

3 English Grammar: An Introductory DescriPTion By MireiaLlinàsiGrau, Alan Reeves(page 74)

Page 47: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

35

ประโยคแบบลดรปหรอไมมกรยาแท และแบบทสองใชโครงสรางคณานประโยคแบบมกรยาแท ทงนทงสองแบบไมไดท าใหความหมายแตกตางกนเลย นอกจากน การวเคราะหตามรปนยงสะดวกตอการแกปญหาการตดสนใจของเครอง

3) อนพากยเตมเตม (Clausal complements)

อนพากยเตมเตมเปนอนพากยทท าหนาทเปนสวนเตมเตมใหกบกรยาหรอค านามทตองการสวนเตมเตม อนพากยเตมเตมอาจอยในรปทมกรยาแทหรอไมมกรยาแทกได หากมกรยาแท อนพากยนนกจะถกแยกเปน EDU แตหากไมมกรยาแท อนพากยนนกจะไมถกแยกใหเปน EDU

3.1)สวนเตมเตมของกรยาทมกรยาแท (Finite clausal complement of verb) มกเปนอนพากยทเปนสวนเตมเตมของกรยาแสดงการรบร (Cognitive verb) เชน “คด”, “เชอ”, “ร”, “จนตนาการ”, “สมมต”, “หวง”, “คาด”, “ฝน” ฯลฯและกรยาทใชในการรายงานค าพด (Verb in reported speech) เชน “พด”, “ประกาศ”, “ชแจง”, “แนะน า”, “รายงาน”, “อธบาย”, “ถาม”, “บอก”, “กลาว” ฯลฯ Carlson and Marcu (2001) เรยกกรยาทง 2 ประเภทนวา attributive verb นอกจากน อนพากยชนดนมกจะขนตนดวยตวน าหนาสวนเตมเตม “วา” ผวจยแยกอนพากยประเภทนเปน EDU เนองจากเปนอนพากยทแสดงปรจเฉทสมพนธตออนพากยหลก นนคอ Attributive relation ซงเปนความสมพนธทแสดงรายละเอยดเกยวกบกรยาทตองการสวนเตมเตมทงหลายตวอยาง (11) ดานลางน แสดงสวนเตมเตมของกรยาทมลกษณะเปนอนพากย ซงขนตนดวยตวน าหนาสวนเตมเตม “วา” ถกแยกออกมาเปน EDU หนวยท 2

ตวอยาง (11) [สรปได]1[วาสามารถจ าแนกออกไดเปน 2 แบบดวยกน]2

3.2) สวนเตมเตมของกรยาทไมมกรยาแท (Non-finite clausal complement of verb) คอสวนเตมเตมของกรยาทมโครงสรางเปนอนพากยทมกปรากฏหลงค าบงช “ทจะ” “จะ” ซง Jenks (2006) เรยกค าบงชเหลานวา infinitival complementizer หรอตวน าสวนเตมเตมอนพากยทไมมกรยาแท กรยาของอนพากยทตามหลงค าบงชเหลานจะไมสามารถแสดงขอมลทางไวยากรณได เพราะมสถานะเปนกรยาไมแท ค ากรยาหลกทตองการสวนเตมเตมประเภทน ไดแก กรยาแสดงความปรารถนา เชน “อยาก”, “"ชอบ”, “ตองการ” ฯลฯ กรยาทสอความหมายโดยนย (Implicative verb) เชน “พยายาม”, “ลอง” ฯลฯ กรยาชวย (Modal verb) เชน “สามารถ”, “ควร” ฯลฯ ผวจยก าหนดใหสวนเตมเตมประเภทนไมตองถกแยกออกมาเปน EDU ตวอยาง (12) เปนตวอยางของโครงสรางทประกอบไปดวยสวนเตมเตมประเภทน โดยจะเหนวา “ทจะละเลยเนอหา...” เปนสวนเตมเตมของกรยา “เลอก” ดงนนจงเปนสวนหนงของ EDU ทงหมด

Page 48: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

36

ตวอยาง (12) [แตกเลอกทจะละเลยเนอหามาตรฐานของพทธศาสนา]1

3.3) อนพากยเตมเตมของนาม (Clausal complement of noun) อนพากยชนดนมกจะขนตนดวยค าน าหนา “ทวา” “ทจะ” ท าหนาทเปนสวนเตมเตมใหกบค านามหลก ผวจยจะไมแยกอนพากยประเภทนออกเปน EDU ยกตวอยาง “ทจะปรบประยกต...” เปนอนพากยเตมเตมของค านาม “ประสงค” ดงนนจงไมถกแยกออกมาเปน EDU

ตวอยาง (13) [โดยมวตถประสงคทจะปรบประยกตเขากบตลาดทนนยม]1

4) โครงสรางกรยาเรยง (Serial verb constructions)

โครงสรางกรยาเรยงคอโครงสรางทมกรยามากกวาหนงตวปรากฏเรยงกนโดยไมมอะไรแทรกระหวางกรยายกเวนกรรมของกรยาตวกอนหนา กรยาทเรยงกนทกตวเปนกรยาแท ยกเวนกรยาบางตวทผานกระบวนการกลายเปนค าไวยากรณ เชน “เสย”, “อย”, “วา”, “ให” ฯลฯ แมกรยาเหลานจะกลายเปนค าไวยากรณแลว (Grammaticalized verb) แตกยงถอวาเปนสวนหนงของกรยาเรยง นอกจากนกรยาเรยงจะมการรวมคณสมบตทางความหมายของกรยาทกตวเขาดวยกนและรวมกนแสดงถงเหตการณเพยงเหตการณเดยว (Single event) จงนบกรยาทเรยงกนนนเปนหนวยสรางเดยวกน (Foley and Mike 1985, Thepkanjana 1986, Takahashi 2009, Pongsutthi, Ketui et al. 2013) ส าหรบงานวจยน จะไมแยกกรยาแตละตวเปน EDU ดวยเหตผลดงกลาว

ตวอยาง (14) [ขณะเดยวกนกรอคอยโชคชะตามาพลกผนชวตใหแปรเปลยนไป]1 (15) [ฌนตะโรคด]1[วาแมเรมมสภาพทรดโทรมทงดานรางกายและจตใจ]2

จากตวอยาง (14) จะเหนวา “รอคอย__มาพลกผน__ใหแปรเปลยนไป” เปนโครงสรางกรยาเรยง โดยมค านาม “โชคชะตา” และ “ชวต” แทรกกลางระหวางกรยาและเปนกรรมตรงของกรยาทน าหนา ตวอยาง (14) จงถอวามเพยง EDU เดยว อยางไรกตาม หากโครงสรางกรยาเรยงประกอบไปดวยค ากรยาแสดงการรบรหรอค ากรยาทใชในการรายงาน กมกจะปรากฏค ากรยาทกลายเปนค าไวยากรณหรอตวน าสวนเตมเตม "วา" และตามดวยอนพากยเตมเตม ในกรณน ผวจยจะแบงตงแตตวน าสวนเตมเตมตามดวยอนพากยเตมเตมออกเปนอก EDU หนงเนองจากอนพากยเตมเตมเหลานนแสดงปรจเฉทสมพนธทเรยกวา Attributive relation ซงเปนความสมพนธทแสดงรายละเอยดของค ากรยากอนหนา ดงจะเหนไดจากตวอยาง (15) แมวา “คดวา” เปนโครงสรางกรยาเรยง แตเนองจาก “คด” เปนกรยาแสดงการรบรทตองการอนพากยเตมเตมเพอท าใหใจความสมบรณ และค า

Page 49: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

37

วา “วา” เปนกรยาทกลายเปนค าไวยากรณแลว นนคอเปนตวน าสวนเตมเตม ตามดวยอนพากยเตมเตม “แมเรมมสภาพทรดโทรม...” ดงนนจงแบง “วาแมเรมมสภาพทรดโทรม...” ออกเปนอก EDU หนง ท าใหตวอยาง (15) ประกอบไปดวย 2 EDU

5) โครงสรางเคลฟต (Clefts)

โครงสรางเคลฟตเปนโครงสรางภาษาทแสดงการเนนสวน โดยทวไปโครงสรางเคลฟตจะมลกษณะเปนโครงสรางซบซอน นนคอประกอบดวยอนพากยมากกวาหนง ในทนจะขอยกค าอธบายเกยวกบโครงสรางเคลฟในภาษาไทยและตวอยางประโยคจากงานวจยของ Ruangjaroon (2005) ดงน

โครงสรางเคลฟตในภาษาไทยประกอบไปดวยสวนทเรยกวา“เคลฟท” (cleftee) ค ากรยา “เปน” หรอ “คอ” และสวนทเรยกวา “อนพากยเคลฟต” (cleft clause) ซงมโครงสรางเปนคณานประโยค เมอพจารณาประเภทของ copula verb “เปน” และ “คอ” แลว สามารถแบงเคลฟตในภาษาไทยได 2 ประเภท คอ contrastive (or specificational) cleft และ identificational cleft มรายละเอยดดงตอไปน

ประเภทแรกคอ contrastive (or specificational) cleftเรยกชอประเภทเคลฟตตาม copula verb “เปน” ซงเปนกรยาทเชอมประธานและสวนเตมเตมประธาน โครงสรางของเคลฟตประเภทน คอเคลฟท + definite marker “ท” + copula “เปน”+อนพากยเคลฟต ในสวนของเคลฟทจะตองมลกษณะของความหมายเปน [+human] เทานน และในสวนของอนพากยเคลฟตจะตองเปน nominalized clause หรออนพากยทถกท าใหกลายเปนค านาม ทงนเพราะ copula verb ตองการสวนเตมเตมประธาน (Subject complement) ในรป predicative nominal เทานน โดยอนพากยเคลฟตในภาษาไทยจะใช nominalizer “คน” ขนตนอนพากยเพอท าใหอนพากยนนกลายเปนค านาม

ตวอยาง (16) [นกทเปนคนท าจานแตก]1 (17) [ใครทเปนคนท าจานแตก]1

จากตวอยาง (16) “นก” เปนเคลฟท ซงมค าวา “ท” เปนตวบงชแสดงการชเฉพาะ (Definite marker) วาหมายถงนกไหน อนพากยเคลฟตคอ "คนท าจานแตก" ซงเปน nominalized clause ทมพฤตกรรมเหมอนค านามทวไป ค าวา “คน” ท าหนาทเปน nominalizerเคลฟทและอนพากยเคลฟตถกเชอมเขาดวยกนดวย copula "เปน"สวนในตวอยาง (17) กเหมอนตวอยางท (16) แตกตางกนตรงทเปน Wh-cleft คออยในรปของค าถาม มเคลฟทคอ “ใคร”

Page 50: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

38

เคลฟตอกประเภทหนงคอ identificational cleftหรอเคลฟตทแสดงการชเฉพาะเจาะจง โครงสรางของเคลฟตคอเคลฟท + copula “คอ”+อนพากยเคลฟต ในสวนของอนพากยเคลฟตนนจะคณานประโยค คอประกอบไปดวยค านามหลกหรอค าลกษณะนาม ตามดวยค าบงช “ท” และตามดวยอนพากย ตวอยางของเคลฟตประเภทนจากคลงขอมลเปนดงตวอยาง (18)

ตวอยาง (18) [นนแหละคอสง]1[ทท าใหเกดภาพเหมอน]2

นอกจากน Ruangjaroon (2005) ยงไดกลาวถงการใช copula “เปน” ในบรบทโครงสรางทเปน identificational cleft และ copula “คอ” ในบรบทโครงสรางทเปน contrastive cleft วาเปนไปไมได เพราะไมสามารถเขากนไดและจะท าใหไดรปภาษาทไมถกตอง (Ill-formed) ดงตวอยางท (19b) และ (20b) ซงเปนรปภาษาทไมถกตอง สวนตวอยาง (19a) และ (20a) มรปภาษาทถกตอง

ตวอยาง (19) กรณ copula “เปน” ใน identificational cleft (a) นกคอคนทฉนรก (รปภาษาทถกตอง) (b) *นกเปนคนทฉนรก (รปภาษาทไมถกตอง) (20) กรณ copula “คอ” ใน contrastive cleft (a) นกทเปนคนท า (รปภาษาทถกตอง) (b) *นกทคอคนท า (รปภาษาทไมถกตอง)

แมวา Carlson and Marcu (2001) จะก าหนดใหไมตองแยกประโยคเคลฟตออกเปน 2 EDU เนองจากทงสองอนพากยในโครงสรางเคลฟตไมไดมปรจเฉทสมพนธตอกน แตส าหรบภาษาไทย ผวจยตดสนใจแบงอนพากยในโครงสรางเคลฟตแบบ identificational cleft ออกเปน 2 EDU เพราะคดวาเคลฟตประเภทนสามารถมองเปนโครงสรางทมคณานประโยคขยายค านามหลกได โดยทอนพากยทเปนคณานประโยคมความสมพนธแบบ elaboration relation กบค านามหลกทขยาย ดงเชนตวอยาง (18) เปนเคลฟตทถกแยกออกเปน 2 EDU โดยทหนวยท 2 เปนคณานประโยคทขยายค านามหลก “สง”แตส าหรบ contrastive cleft นน ผวจยจะไมแยกอนพากยดงตวอยาง (16) และ (17) เนองจากเหนวาอนพากยเคลฟต “คนท าจานแตก” สามารถมองไดวาเปนค านามทเปนสวนเตมเตมประธาน

6) นามวลทมสถานะเปน EDU (Phrasal EDU) โดยทวไปแลวนามวลเปนหนวยสรางระดบทเลกกวาอนพากย ประกอบไปดวยค านามหลก

และ/หรอสวนขยายเทานน จงไมถกแยกใหเปน EDU ยกเวนนามวลทขนตนดวยค าเชอมท Carlson

Page 51: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

39

and Marcu (2001) เรยกวา strong marker หรอค า เชอมเดน ซงเปนหนวยเชอมโยงปรจเฉททมความหมายบงบอกถงปรจเฉทสมพนธระหวางกลมนามวลทตามหลงค าเชอมกบถอยความกอนหนา และเรยกนามวลทขนตนดวยค าเชอมเดนนวา phrasal EDU หรอ EDU ทเปนนามวล

จากการศกษาหนวยเชอมโยงในภาษาไทย พบวามค าเชอมเดนอยเพยง 2 ประเภท คอ ค าเชอมแสดงตวอยาง ไดแกค าทใชแสดงตวอยางตาง ๆ เชน “ไดแก”, “เชน”, “ตวอยางเชน ฯลฯ” และค าเชอมแสดงวตถประสงค เชนค าวา “เพอ” นามวลทขนตนดวยค าเชอมเดน 2 ประเภทนจะแยกใหเปน EDU ดงตวอยาง (21) กลมนามวลทขนตนดวยค าเชอมแสดงตวอยาง “เชน” ถกแยกใหเปนอก EDU หนง มหนาทระดบปรจเฉทคอการแสดงใหเหนตวอยางของสงทถกกลาวถงกอนหนา นนคอ “ปรากฏการณธรรมชาต”

ตวอยาง (21) [ต านานปรมปราเปนการอธบายถงก าเนดของจกรวาล โครงสราง และระบบของจกรวาล มนษย สตว ปรากฏการณทางธรรมชาต]1[เชน ลม ฝน กลางวน กลางคน ฟารอง ฟาผา]2

นอกจากน ยงมนามวลอน ๆ ทไมไดขนตนดวยตวเชอมเดน แตกถอวาเปน EDU ไดเชนกน นามวลทกลาวถงน ไดแก นามวลทอยในเครองหมายวงเลบ นามวลทเปนชอหวขอ/ชอเรอง/ชอผเขยนทแยกอยล าพง และไมไดเปนท าหนาทเปนประธานหรอกรรมในหนวยสรางใด นามวลประเภทหลงนพบไดโดยทวไปในงานเขยนและมหนาททชดเจนในระดบปรจเฉท เชน ชอเรองของงานเขยนกบเนอหาทงหมดของงานเขยนนน หรอชอหวขอกบเนอหาในหวขอนน แตละคมปรจเฉทสมพนธกนแบบท Carson and Marcu เรยกวา Textual Organization relation ดงนนในวทยานพนธนจงแยกนามวลดงกลาวเปน EDU ดวยเชนกน ตวอยางขอมลจากคลงขอมลเปนดงน

ตวอยาง (22) [อพยพมาจากเวยงจนทร]1 [(ลาวเวยง)]2 (23) กรณชอบทความ ชอผเขยน และเนอหา [พลวตของความรชาวบานในกระแสโลกาภวตน]1 [อานนท กาญจนพนธ]2 [เนอหาของบทความ]3 [เนอหาของบทความ]4 [เนอหาของบทความ]5 .…

จากตวอยาง จะเหนวา “(ลาวเวยง)” ในตวอยาง (22) เปนนามวลทอยในเครองหมายวรรคเลบจงตองแยกออกมาเปน EDU และในตวอยาง (23) “พลวตของความรชาวบาน...” เปนชอบทความ “อานนท กาญจนพนธ” เปนชอผเขยนบทความ ดงนนจงถอวาเปน EDU

7) เครองหมายวรรคตอน (Punctuations)

Page 52: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

40

เครองหมายวรรคตอนสามารถชวยในการระบขอบเขต EDU ได เนองจากเครองหมายวรรคตอนบางตวจะปรากฏอยในต าแหนงทแนนอน ตวอยางเชน เครองหมายวงเลบมกจะอยหนาและหลงอนพากยเสมอ เครองหมายค าถามมกจะอยทายประโยคภาษาองกฤษเสมอ เปนตน ส าหรบภาษาไทยนน ราชบณฑตยสถานไดกลาวถงเครองหมายวรรคตอนทมการใชในภาษาไทยเอาไวในหนงสอ “หลกเกณฑการใชเครองหมายวรรคตอนและเครองหมายอน ๆ หลกเกณฑการเวนวรรค หลกเกณฑการเขยนค ายอ” ฉบบราชบณฑตยสถาน (2548) พมพครงท ๖ ซงสรปรายละเอยดอยางยอไดดงตารางตอไปน

ชอภาษาไทย ชอภาษาองกฤษ

เครองหมาย วธใช

มหพภาค full stop, period

. ใชแสดงการจบประโยคหรอจบความ

จด dot, point . 1) ใชเขยนหลงตวอกษรเพอแสดงวาเปนอกษรยอ 2) ใชเขยนขางหลงตวอกษรหรอตวเลขทบอกล าดบขอ 3) ใชคนระหวางชวโมงกบนาทเพอบอกเวลา 4) ใชในเลขทศนยม 5) ใชบอกวาเปนอกษรน า อกษรควบ ในการบอกค าอาน 6) ใชบอกวาเปนอกษรควบหรอเปนตวสะกดในการเขยนภาษาบาลสนสกฤตดวยอกษรไทย 7) ใชเขยนเพอแสดงการละตวอกษรหรอขอความ

จลภาค หรอจดลกน า

comma , 1) ใชแยกวลหรออนพากย 2) ใชคนค าในรายการตงแต 3 รายการขนไป 3) ใชในการเขยนบรรณานกรม ดรรชน และนามานกรม 4) ใชคนจ านวนเลขนบจากหลกหนวยไปทละ 3 หลก

อฒภาค semicolon ; 1) ใชแยกประโยคเปรยบเทยบออกจากกน 2) ใชคนระหวางประโยคทมรปประโยคและใจความสมบรณอยแลวเพอแสดงความตอเนองอยางใกลชดของประโยคนน 3) ใชแบงประโยค กลมค า หรอกลมตวเลขทมเครองหมายจลภาคอยแลวออกเปนสวนใหเหนชดเจนยงขน เพอกนความสบสน 4) ใชคนค าในรายการทมจ านวนมาก ๆเพอจ าแนกรายการออกเปนพวก ๆ 5) ใชในหนงสอประเภทพจนานกรมเพอคนบทนยามของค าทมความหมายหลายอยาง

ทวภาค colon : 1) ใชไขความแทนค าวา "คอ" หรอ "หมายถง" 2)

Page 53: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

41

ใชหลงค า "ดงน" "ดงตอไปน" เพอแจกแจงรายการ 3) ใชคนบอกเวลา

ตอ - : 1) ใชแสดงอตราสวนและมาตราสวน 2) ใชแสดงสดสวน 3) ใชแสดงปฏภาค

วภชภาค - :- 1) ใชหลงค า "ดงน" "ดงตอไปน" เพอแจกแจงรายการโดยรายการทตามหลงเครองหมายใหขนยอหนาใหม

ยตภงค hyphen - 1) ใชเขยนไวสดบรรทดเพอตอพยางค ซงจ าเปนตองเขยนแยกบรรทดกนเนองจากเนอทจ ากด 2) ใชเขยนแยกพยางคเพอบอกค าเตมทจ าเปนตองแยกตามฉนทลกษณ 3) ใชแยกพยางคเพอบอกค าอาน 4) ใชแสดงค าทละสวนหนาหรอสวนทายหรอทงสวนหนาและสวนทายของค า 5) ใชในความหมายวา "ถง" เพอแสดงชวงเวลา จ านวน สถานท 6) ใชเขยนแยกกลมตวเลขตามรหสทก าหนดไว เชน เลขบญชธนาคาร 7) ใชกระจายอกษรเพอใหเหนวาค านนประกอบดวยพยญชนะสระและวรรณยกตอะไรบาง

ปรศน question mark

? 1) ใชเขยนทายความหรอประโยคทเปนค าถาม 2) ใชเขยนในเครองหมายวงเลบหลงขอความเพอแสดงความสงสยหรอไมแนใจ

ไปยาลนอยหรอเปยยาลนอย

- ฯ 1) ใชละค า 2) ใชในค า "ฯพณฯ"

ไปยาลใหญหรอเปยยาลใหญ

- ฯลฯ ใชละขอความทอยในประเภทเดยวกน

ไมยมกหรอยมก

- ๆ ใชเขยนหลงค าวล หรอประโยค เพอใหอานซ าอกครง

วงเลบ หรอนขลขต

parenthesis ( ) 1) ใชกนขอความทขยายหรออธบายจากขอความอน 2) ใชขยายความใหชดเจนยงขน 3) ใชกนตวอกษรหรอตวเลขทเปนหวขอยอยอาจใชเพยงวงเลบปดขางเดยวกได

อศเจรย exclamation mark

! 1) ใชเขยนหลงค า วล หรอประโยคทเปนค าอทาน 2) ใชเขยนหลงค าเลยนเสยงธรรมชาต 3) ใชเขยนหลงขอความสน ๆ ทตองการเนน

Page 54: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

42

วงเลบเหลยม square brackets

[ ] ใชกบสตรคณตศาสตรการเขยนโปรแกรม สทอกษรสากล

วงเลบปกกา braces { } ใชกบสตรคณตศาสตรการเขยนโปรแกรม วงเลบสามเหลยม

- <> ใชเปนเครองหมายนอยกวาและมากกวาใชในการเขยนโปรแกรม

บพสญญา ditto mark " ใชเขยนแทนค าหรอประโยคทอยในบรรทดบนเพอทจะไมตองเขยนซ าอก

สญประกาศ underscore _ ใชขดเสนใตขอความส าคญหรอขอความทควรสงเกตพเศษ

เสมอภาค equal = ใชเพอแสดงความเทยบเทากบของสงทอยทางซายและขวา

อญประกาศ quotation “ ” ใชกนค าวล หรอขอความทตองการเนนเปนพเศษ สามารถใชไดทงอญประกาศค “ ”หรออญประกาศเดยว ' '

ทบ Slash / 1) ใชเขยนคนระหวางทางเลอก 2) ใชคนตวเลข ยตภาค Dash -- 1) ใชในความหมาย "และ" หรอ "กบ" 2) ใชขยาย

ความขางหนา 3) ใชในความหมายวา "ถง" เชนเดยวกบยตภงค 4) ใชเปนสญลกษณน าหวขอยอยทไมตองการเรยงล าดบ

ตารางท 4.1 แสดงเครองหมายวรรคตอนทใชในภาษาไทย

นอกจากนยงมเครองหมายวรรคตอนอน ๆ อกจ านวนหนงทไมไดแสดงในตาราง เชน #,*, &, @, °, ^ ฯลฯ และเครองหมายวรรคตอบไทยโบราณ เชน โคมตร (๛) องคน (ฯ, ๚, ฯะ, ๚ะ) ฟองมน (๏) ฯลฯ ซงยงพบไดในค าประพนธรอยแกวและรอยกรองบางประเภท

จากเครองหมายวรรคตอนทไดกลาวมาในตารางขางตน พบวาเครองหมายทมการใชมากในงานเขยนภาษาไทย ไดแก จด (.), จลภาค (,), อฒภาค (;), ทวภาค (:), ตอ (-), ยตภงค (-), ไปยาลนอย (ฯ), ไปยาลใหญ (ฯลฯ), ไมยมก (ๆ), วงเลบ, บพสญญา (“), อญประกาศ (“ ”), ทบ (/) และยตภาค (--) ทงนเครองหมายทมกเปนจดเรมตน EDU เสมอ ไดแก วงเลบเปด อญประกาศเปด และยตภาคทท าน าหวขอยอย สวนเครองหมายทมกอยทาย EDU ไดแก วงเลบปด อญประกาศปด และไปยาลใหญ เครองหมายทมกแทรกกลางภายใน EDU ไดแก จด จลภาค ยตภงค ตอ และทบ สวนเครองหมายอน ๆ เปนเครองหมายทสามารถปรากฏไดหลายต าแหนงใน EDU เชน ไมยมกและไปยาลนอย สามารถปรากฏภายในหรอทาย EDU กได จากทกลาวมา ผวจยจงไดใชการปรากฏของเครองหมายวรรคตอนในการชวยระบขอบเขต EDU

Page 55: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

43

8) โครงสรางหนวยเดยวกน (Same unit construction)

โครงสรางหนวยเดยวกน หมายถง โครงสราง EDU ทถกแยกออกเปน 2 สวนเนองจากมหนวยอนแทรกกลาง เชน คณานประโยค ขอความในวงเลบ ฯลฯ ทงนทง 2 สวนทถกแทรกยงถอวาเปนโครงสรางหนวยเดยวกน Carlson and Marcu (2001) เรยกปรจเฉทสมพนธระหวางสองสวนทเปนโครงสรางหนวยเดยวกนนวา multinuclear pesudo-relation นนคอเปนความสมพนธเทยมแบบททงสองขางมสถานะเทาเทยมกนยกตวอยางค าภาษาองกฤษในวงเลบดงตวอยาง (24) แทรกกลางระหวางหนวยท 1 และ 3 แบบนถอวาทง 2 หนวยเปนโครงสรางหนวยเดยวกน

ตวอยาง (24) [ตอมาในสมยหลงสมยใหม]1 [(Post-modern)]2 [ไดเกดวรรณกรรมแนวทดลอง] 3

นอกเหนอจากหลกเกณฑการก าหนดขอบเขตอนพากยภาษาไทยทไดกลาวมาขางตนแลว ยงมหลกเกณฑอน ๆ อกท Carlson and Marcu (2001) ไดกลาวถง แตผวจยไมไดน าหลกเกณฑเหลานมาอภปรายและใชก าหนดขอบเขตอนพากยภาษาไทย เพราะเหนวาหลกเกณฑบางอยางองลกษณะทางภาษาของภาษาองกฤษมากเกนไป และไมเหมาะสมกบลกษณะทางภาษาของภาษาไทย ไดแก หนวยสรางทประกอบดวยกรยาในรป gerund หรอ participle เปนตน

Page 56: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

44

บทท 5

การแยกอนพากยภาษาไทยดวยแบบจ าลองซพพอรตเวกเตอรแมชชน

ในบทน ผวจยจะกลาวถงระบบการแยกอนพากยภาษาไทยดวยแบบจ าลองซพพอรตเวกเตอรแมชชน ลกษณ (Features) ส าหรบฝกฝนและทดสอบแบบจ าลอง การเตรยมไฟลขอมลส าหรบฝกฝนและทดสอบแบบจ าลอง เคอรเนลฟงกชนและการตงคาพารามเตอร วธการประเมนประสทธภาพของแบบจ าลอง และผลการทดสอบแบบจ าลอง ดงน

5.1 ระบบการแยกอนพากยภาษาไทยดวยแบบจ าลองซพพอรตเวกเตอรแมชชน

การแยกอนพากยภาษาไทยดวยเครองในงานวจยน หมายถง การระบค าขอบเขตเรมตนอนพากยภาษาไทย หรอ EDU โดยการใชแบบจ าลองทางสถตซพพอรตเวกเตอรแมชชน ซงผวจยใชตวแบบจ าลองซพพอรตเวกเตอรแมชชนจากฟงกชน SMO (Sequential Minimal Optimization) ทมอยในโปรแกรมวกา 3.6.10 (Weka 3.6.10) ในสวนของ SMO นน เปนอลกอรทมทพฒนาโดย Platt (1998) ใชในการจ าแนกประเภทขอมลดวยซพพอรตเวกเตอรแมชชน ตวอลกอรทมนไดรบการพฒนาขนเพอแกปญหาการโปรแกรมเชงก าลงสอง (Quadratic programming) ซงเปนปญหาทพบในการจ าแนกประเภททไมเปนเสนตรง (Nonlinear classification) ปญหาทวานกคอปญหาของการหาคาทดทสดส าหรบการแยกขอมลออกเปนประเภทตาง ๆ ตามเปาหมาย

ขนตอนของการแยกอนพากยภาษาไทยดวยแบบจ าลองซพพอรตเวกเตอรแมชชน เรมจากการจดท าคลงขอมลและก ากบหมวดค าในคลงขอมล จากนนน าคลงขอมลฝกฝนไปท าการฝกฝนแบบจ าลองโดยใชตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน เมอสรางแบบจ าลองไดแลวกน าไปทดสอบกบคลงขอมลทดสอบ เพอประเมนประสทธภาพของแบบจ าลอง ส าหรบงานวจยน ผวจยท าการทดลองแบบ 10-fold cross-validation กลาวคอ ไดท าการฝกฝนและทดสอบทงหมด 10 ครง โดยแบงคลงขอมลออกเปน 10 สวน แตละสวนจะถกใชเปนคลงขอมลทดสอบ และอก 9 สวนทเหลอจะถกใชเปนคลงขอมลฝกฝน นนคอผวจยใชคลงขอมลฝกฝน 90 เปอรเซนต และคลงขอมลทดสอบ 10 เปอรเซนต ดวยวธการน ขอมลทกสวนจะไดรบการฝกฝนและทดสอบหมด

5.2 การก าหนดลกษณทใชในการฝกฝนและทดสอบแบบจ าลอง

เนองจากแบบจ าลองซพพอรตเวกเตอรแมชชนเปนแบบจ าลองทางสถตทจ าแนกประเภทขอมลโดยตดสนใจจากลกษณตาง ๆ ทเตรยมเอาไวให การก าหนดลกษณจงมความส าคญและมผลตอการตดสนใจของเครอง ประเภทของลกษณทสามารถใชในฟงกชนการจ าแนกประเภทตาง ๆ ของโปรแกรมวกา ไดแก ลกษณทมสองคา (Binary), ลกษณทมลกษณะเปนการจดประเภทตาง ๆ ทเกดจากการแบงขอมลออกเปนกลม ๆ (Nominal), ตวเลขทแสดงคาตาง ๆ (Numeric), และขอความ

Page 57: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

45

(String) ลกษณทใชในงานนมลกษณะเปนลกษณทางภาษา ซงไดจากการพจารณาโครงสรางทางวากยสมพนธของอนพากยในการก าหนดลกษณ ในสวนนจะน าเสนอลกษณะโครงสราง EDU ภาษาไทยในหวขอยอย 5.2.1 และลกษณทใชในการฝกฝนและทดสอบแบบจ าลองในงานนในหวขอยอย 5.2.2

5.2.1 ลกษณะทางโครงสราง EDU ภาษาไทย

โดยทวไปแลว อนพากยและกลมนามวลทขนตนดวยตวเชอมเดนจะใชเปนหนวยพนฐานในการศกษาโครงสรางและความสมพนธภายในปรจเฉท ในทน ผวจยจงแบง EDU ออกเปน 2 ประเภทตามระดบโครงสรางภาษา คอ EDU ทมโครงสรางระดบอนพากย และ EDU ทมโครงสรางต ากวาระดบอนพากย ทงสองประเภทนมรปแบบและองคประกอบของโครงสรางดงน

5.2.1.1 EDU ทมโครงสรางระดบอนพากย

อนพากยทเปน EDU ในทนจะหมายถงเปนอนพากยทมกรยาแทเทานน โดยทวไปแลว อนพากยจะประกอบไปดวยประธานและภาคแสดง (Subject and predicate) หากพจารณาหนวยสรางระดบอนพากย กจะพบวาอนพากยประกอบไปดวยหนวยสรางนามวล (Noun phrase) ในต าแหนงประธาน และกรยาวล (Verb phrase) ซงจะปรากฏในต าแหนงภาคแสดงของอนพากย โดยหนวยสรางกรยาวลเปนหนวยสรางทจ าเปนและขาดไมไดในโครงสรางอนพากย เพราะกรยาวลประกอบไปดวยค ากรยาหลก ซงเปนแกนหลกของโครงสรางอนพากย มหนาทแสดงขอมลเกยวกบประธาน ไดแก การกระท า ลกษณะ สภาวะ และอาการ

ในต าแหนงประธานของอนพากยจะเปนหนวยสรางนามวล ซงมรปแบบโครงสราง Head noun + (Complement) + (Modifier) + (Determiner) โดยท Head noun หมายถง ค านามหลก ซงเปนสวนทส าคญและจ าเปนตองมเสมอ Complement หมายถง สวนเตมเตม ไดแก บพบทวล และอนพากยเตมเตม Modifier หมายถง สวนขยายค านาม ไดแก ค าคณศพท, ค านาม, บพบทวล Determiner หมายถง ตวก าหนด เชน “น”, “เหลาน”, “นน”, “เหลานน” ฯลฯ องคประกอบของนามวลในเครองหมายวงเลบ ไดแก complement, modifier, Determiner หมายถงองคประกอบทสามารถละได

ตวอยางนามวลภาษาไทย (1) “สถานทแหงน” ประกอบไปดวย ค านามหลก “สถานท” + สวนขยาย “แหงน” สามารถแยกองคประกอบและแสดงในรปแผนภมตนไมไดดงน

Page 58: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

46

(2) “บานหรของเขาในตางประเทศน” ประกอบไปดวย ค านามหลก “บาน” + สวนขยาย “หร” + สวนเตมเตม “ของเขา” + สวนขยาย “ในตางประเทศ” + ตวก าหนด “น” สามารถแยกองคประกอบและแสดงในรปแผนภมตนไมไดดงน

(3) “ความตองการทจะชวยเหลอผอนน” ประกอบไปดวย ค านามหลก “ความตองการ” + อนพากยเตมเตม “ทจะชวยเหลอผอน” + ตวก าหนด “น” สามารถแยกองคประกอบและแสดงในรปแผนภมตนไมไดดงน

ในสวนของภาคแสดงของอนพากยจะเปนกรยาวล มรปแบบโครงสรางคอ Head verb + (Object) + (Complement) + (Modifier) โดยท Head verb หมายถง ค ากรยาหลก ซงเปนสวนทส าคญและขาดไมได Object หมายถง กรรมของกรยา ซงอาจเปนกรรมตรงหรอกรรมรองขนอยกบลกษณะของกรยา Complement หมายถง สวนเตมเตมกรยา ไดแก บพบทวล และอนพากยเตมเตม Modifier หมายถง สวนขยายค ากรยา ไดแก ค ากรยาวเศษณ และบพบทวล

Page 59: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

47

องคประกอบของโครงสรางนามวลในเครองหมายวงเลบไดแก object, complement, modifier หมายถงองคประกอบทละได

ตวอยางกรยาวลภาษาไทย (4) “สญเสยความนยม” ประกอบไปดวย ค ากรยาหลก “สญเสย” + กรรมตรง “ความนยม สามารถแยกองคประกอบและแสดงในรปแผนภมตนไมไดดงน

(5) “อยในวงลอมของครอบครว” ประกอบไปดวย ค ากรยาหลก “อย” + สวนเตมเตม “ในวงลอมของครอบครว” สามารถแยกองคประกอบและแสดงในรปแผนภมตนไมไดดงน

(6) “สามารถพฒนาอตสาหกรรมอยางรวดเรว” ประกอบไปดวย ค ากรยาชวย “สามารถ” + ค ากรยาหลก “พฒนา” + กรรมตรง “อตสาหกรรม” + สวนขยาย “อยางรวดเรว” สามารถแยกองคประกอบและแสดงในรปแผนภมตนไมไดดงน

Page 60: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

48

(7) “ตองการเขารวมกจกรรม” ประกอบไปดวย ค ากรยาหลก “ตองการ” + อนพากยเตมเตม “เขารวมกจกรรม” สามารถแยกองคประกอบและแสดงในรปแผนภมตนไมไดดงน

(8) “ตอสชวงชงความหมาย” เปนโครงสรางกรยาเรยง ประกอบไปดวย ค ากรยาหลก “ตอส” + “ชวงชง” + กรรมตรง “ความหมาย” สามารถแยกองคประกอบและแสดงในรปแผนภมตนไมไดดงน

เมออนพากยมากกวาหนงอนพากยประกอบเขาดวยกน กจะไดโครงสรางปรจเฉททใหญขน โดยอาจใชกลวธการเชอมโยงความดวยค าเชอมหรอไมกได โดยค าเชอมจะมหนาทเปนตวเชอมโยงอนพากย และยงสามารถบงบอกถงลกษณะความสมพนธระหวางอนพากยไดดวย ซงอาจเปนความสมพนธแบบสองขางซายขวาเทากนหรอสองขางไมเทากน อกทงยงสามารถชวยระบขอบเขตเรมตนอนพากยไดอกดวย ค าเชอมอนพากย ไดแก อนสนธานซงจะปรากฏหนาอนพากยไมอสระ และค าเชอมสนธานประสานซงจะปรากฏหนาอนพากยอสระ

นอกเหนอจากค าเชอมอนพากยแลว ในกรณคณานประโยค ซงเปนอนพากยทท าหนาทขยายนาม มกจะขนตนดวยตวน าสวนเตมเตม “ท” “ซง” “อน” และกรณอนพากยเตมเตมของกรยา มกจะขนตนดวยตวน าสวนเตมเตม “วา” ดงนนสามารถเรยกค าเชอมและตวน าสวนเตมเตมทปรากฏหนาอนพากยวา ค าบงช (Marker) เพราะเปนค าทสามารถใชบงชขอบเขตอนพากยได

ตวอยางจากคลงขอมล (9) “ซงเรยกวาไมโครเซลล” เปนอนพากยทมรปแบบ ค าบงช “ซง” + ภาคแสดง “เรยกวาโมโครเซลล” (10) “เพราะไดรบอทธพลจากแม” เปนอนพากยทมรปแบบ ค าบงช “เพราะ” + ภาคแสดง

Page 61: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

49

“ไดรบอทธพลจากแม” (11) “และเนอหาจากวรรณกรรมท าใหงานจตกรรมของเขาโดดเดน” เปนอนพากยทมรปแบบ ค าบงช “และ” + ประธาน “เนอหาจากวรรณกรรม” + ภาคแสดง “ท าใหงานจตกรรมของเขาโดดเดน”

นอกจากนยงมขอสงเกตประการหนงเกยวกบการประกอบเขาดวยกนของอนพากยกคอ มกจะมการเวนวรรคหรอใชชองวางคนระหวางอนพากย ท าใหสามารถระบขอบเขตอนพากยโดยอาศยการปรากฏของชองวางได โดยเฉพาะในกรณทอนพากยไมไดขนตนดวยค าบงชแตมชองวางปรากฏอยขางหนา ดงนนรปแบบของปรจเฉททเกดจากการเชอมโยงความกนของอนพากยสามารถเปนไดดงน

อนพากยท 1 + (ชองวาง) + (ค าบงช +(ชองวาง)) + อนพากยท 2+ (ชองวาง) + (ค าบงช +(ชองวาง)) + อนพากยท 3

แตอยางไรกตาม ชองวางในภาษาไทยไมไดมหนาทเพยงการเปนตวคนอนพากย ท าใหเกดความก ากวมในการตดสนวาชองวางทปรากฏในขอความเปนชองวางทเปนตวคนอนพากยหรอไม จากการสงเกตการปรากฏของชองวางในคลงขอมล พบวามจ านวนทงหมด 9,938 ครง และพบวาเปนชองวางทคนอนพากยจ านวน 4,606 ครง นนคอเกอบครงของชองวางทงหมดท าหนาทเปนตวคนอนพากย นอกนนท าหนาทอน ๆ เชน คนระหวางค าในรายการค า คนระหวางค าเชอมและอนพากยทตามมา คนระหวางเครองหมายวรรคตอนและขอความ เปนตน

เมอน าชองวางทท าหนาทคนอนพากยจ านวน 4,606 ครงมาพจารณาด โดยอาศยหมวดค ารอบขางชองวางนนประกอบ กพบวาชองวางทเปนตวคนอนพากยมกจะตามมาดวยหมวดค าบางหมวดค า ทพบจ านวนมากทสดคอชองวางแลวตามดวยสนธานประสานหรออนสนธานหรอตวน าสวนเตมเตม รวมกนทงหมดแบงอนพากยจ านวน 2,166 ครง ซงเปนจ านวนเกอบครงของชองวางทเปนตวคนอนพากย แตกไมใชเรองแปลกมากนก เพราะตวเชอมและตวน าสวนเตมเตมนมกปรากฏหนาอนพากย และธรรมเนยมการเขยนภาษาไทยกมกจะเวนวรรคกอนขนตนอนพากยใหม

เมอพจารณาชองวางทท าหนาทคนอนพากยจ านวนทเหลอ คอ 2,440 ครง พบวาชองวางทเปนตวคนอนพากยมกจะตามดวยหมวดค ากรยา กรยาชวย บพบท ค าบอกปฏเสธ กรยาวเศษณ สรรพนาม เครองหมายวรรคตอน และค าบอกจ านวนหนานาม ดงนนความเปนไปไดทชองวางจะเปนตวคนอนพากยอาจสามารถอาศยหมวดค าทตามหลงพจารณาประกอบได

Page 62: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

50

5.2.1.2 EDU ทมลกษณะทางโครงสรางตากวาระดบอนพากย

โครงสรางของ EDU ทต ากวาอนพากยและเปนหนวยพนฐานในการศกษาโครงสรางปรจเฉทมเพยงนามวลอยางเดยว ซงจะตองเปนนามวลทตามหลงค าเชอมเดน หรอไมกเปนนามวลทมหนาทในระดบปรจเฉทเทานน

กรณนามวลตามหลงค าเชอม จะตองเปนค าเชอมใดค าเชอมหนงในสองประเภทเทานน คอ ค าเชอมแสดงตวอยาง เชน “เชน” “ตวอยางเชน” “อาท” ฯลฯ และค าเชอมแสดงวตถประสงค ซงมค าเดยวคอ “เพอ” สวนกรณทไมไดน าหนาดวยค าเชอม ตองเปนนามวลทมหนาทในระดบปรจเฉท เชน นามวลทอยในเครองหมายวงเลบ ท าหนาทแสดงขอมลเพมเตมใหกบขอความสวนหนา หรอนามวลทเปนชอหวขอขอ/ชอเรองทปรากฏในบรรทดโดด ๆ ในงานเขยน ซงเปนการแสดงใหเหนวาเนอหาทก าลงจะกลาวถงเปนเรองเกยวกบอะไร ดงนนรปแบบโครงสราง EDU ระดบต ากวาอนพากยไดจงมเพยง 2 รปแบบ คอ

รปแบบท 1 ค าเชอมเดน + นามวลหรอกลมนามวล รปแบบท 2 นามวลทมหนาทในระดบปรจเฉท

ทงน จากการสงเกตขอมลพบวานามวลทเปน EDU มความแตกตางจากนามวลทท าหนาทประธานอนพากยทกลาวไปขางตน คอ มกจะไมพบตวก าหนดทายค านาม นนคอมรปแบบ Head noun + (Complement) + (Modifier) และนอกจากนยงพบวา ในกรณการใชค าเชอมแสดงตวอยาง นามวลทตามหลงค าเชอมมกจะมจ านวนมากกวาหนง และมการใชชองวางคนระหวางนามวลแตละตว และในบางครงพบวามการใชเครองหมายจลภาค (,) คนระหวางนามวลดวย ในกรณทมรายการทเปนตวอยางเปนจ านวนมาก มกจะมการละตวอยางอน ๆ ในกลมเดยวกนโดยการใชเครองหมายไปยานใหญ (ฯลฯ) หรอค ากรยาวเศษณ “เปนตน” ทายตวอยางสดทาย ซงเปนขอบเขตสนสดของ EDU

ตวอยางนามวลทเปน EDU (12) $_เชน คะแนนเสยงในสภา, ค าพพากษาของศาลรฐธรรมนญ, ค าวนจฉยของคณะกรรมการตรวจเงนแผนดน, ลายเซนของส านกงานนโยบายและแผนสงแวดลอม ฯลฯ (13) $_เชน หอก แหลน หลาว ไมตะบอง เปนตน (14) $_กหนยมสนมา$_เพอการตอสคด (15) $_พลวตของความรชาวบานในกระแสโลกาภวตน (ชอบทความ) (16) $_1.1 ความเปนมาและความส าคญของปญหา (ชอหวขอยอยของบทความ)

Page 63: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

51

5.2.2 ลกษณทใชในการฝกฝนและทดสอบแบบจ าลอง

หลงจากวเคราะหลกษณะทางโครงสรางของ EDU ภาษาไทยแลว ผวจยจงไดก าหนดรายการตอไปนเปนลกษณทใชในการฝกฝนและทดสอบแบบจ าลอง

1) ประเภทของค า (Parts of speech: POS) เปนขอมลเชงโครงสรางภาษาทมความส าคญตอการแยกอนพากยเปนอยางมาก เนองจากหากมองอนพากยในเชงโครงสรางทางวากยสมพนธแลว กจะพบวาอนพากยประกอบไปดวยการเรยงตวกนอยางเปนระบบของ POS ตาง ๆ ทกลาววามความเปนระบบนนหมายความวา POS ทเรยงตวกนนนจะมการเรยงล าดบการปรากฏรวมกนอยางมแบบแผน เชน ตวก าหนดจะปรากฏหลงค านามเทานน ไมสามารถปรากฏหนาค านามได ดงนน “นโรงเรยน” หรอ “นนการปฏบต” จงเปนการเรยงตวกนทผด และจะไมเกดขนในภาษาทใชกนปกต โดยทวไปแลว อนพากยจะตองมกรยาแทซงเปนกรยาหลกของอนพากย 1 ตว หรอมากกวานนหากเปนโครงสรางกรยาเรยง POS บางประเภทสามารถชวยในการระบของอนพากยได เชน coordinator ซงเปนค าเชอมทจะปรากฏหนาอนพากยเสมอ สามารถใชระบขอบเขตเรมตนอนพากยได

ในการศกษาน ผวจยใช POS เปนลกษณส าหรบใหแบบจ าลองใชในการตดสนใจ ไดแก POS ปจจบนของค าทพจารณาอย (POS-P), POS กอนหนาค าทพจารณา (POS-B) และ POS ทตามหลงค าทพจารณา (POS-A) คาของลกษณ (Feature value) จะเปนแบบ nominal เชน NCNM, DET, CCOR, PREP,… ฯลฯ ซงกคอ POS ของแตละค าทไดก ากบมาแลวในคลงขอมล ตวอยางคาลกษณ POS ของขอมลเปนดงตอไปน

ค า(token) POS-P POS-B POS-A

กจกรรม NCMN SPACE NCMN

นนทนาการ NCMN NCMN PREP

ส าหรบ PREP NCMN NCMN

ชาว NCMN PREP NCMN

ชนบท NCMN NCMN AUX

ควร AUX NCMN AUX

จะ AUX AUX VERB

เนน VERB AUX NCMN ตารางท 5.1 แสดงตวอยางคาลกษณ POS ของคลงขอมล

Page 64: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

52

2) รายการค าเชอม (Discourse markers: DM) หมายถงรายการค าทท าหนาทเชอมระดบอนพากยหรอระดบทใหญกวา เชนค าวา “อยางไรกตาม” “และ” “หรอไมก” ฯลฯ นอกจากนยงหมายถง strong marker หรอค าเชอมเดน เชนค าวา “เชน” “ยกตวอยางเชน” “อยางเชน” “ไดแก” ฯลฯ ค าเชอมเหลานท าหนาทเชอมโยงปรจเฉทกอนหนากบกลมของวลทตามหลงค าเชอมเหลาน

ผวจยไดจดท ารายการค าเชอม โดยรวบรวมรายการค าเชอมจากวทยานพนธ เรองหนวยเชอมโยงปรจเฉทภาษาไทยตงแตสมยสโขทยจนถงปจจบน ของเทพ จรสจรงเกยรต (2543) ซงไดศกษาและรวบรวมรายการค าเชอมภาษาไทยตงแตสมยสโขทยจนถงปจจบน โดยแบงค าเชอมออกเปน 2 กลมตามรปภาษา คอ ค าเชอมทมรปเปนค า เชนค าวา “ก” “เพราะ” และค าเชอมทมรปเปนกลมค า เชนค าวา “กเพราะ” “เพราะวา” พบวาค าเชอมทมการใชกนอยในปจจบนมดงตารางตอไปน

ค าเชอมแบบค า ค าเชอมแบบกลมค า ก, เกลอก, กวา, กบ, ครน, คอ, จน, จง, ฉะนน, เชน, ดวย, ดง, โดย, ตอ, ถา, ถง, ทง, ท านอง, เทา, เผอ, เพราะ, เพอ, แมน, แม, เมอ, แล, และ, แลว, ส าหรบ, เหมอน, หรอ, ฤา, หาก, เหต, อนง, กระนนถา, กเพราะ, กเพอ, กบทง, กบอนง, ครนเมอ, จนกระทง, จนกวา

จนถง, ตอเมอ, แตก, แตทวา, แตอยางไรกด, แตอยางไรกตาม, ถาแล, ถาหาก, ถงกระนน, ถงกระนนกด, ถงกระนนถา, ถงมาทวา, ถงแม, เทาเมอ, เพราะฉะนน, เพราะฉะนนก, เพราะดวย, เพราะเหต, เพอส าหรบ, แมกระนน, แลวก, แลวจง, หรออยางไรกด, หากแต, หากทวา, เหตฉะนน, เหตฉะน, เหตดวย, เหมอนเชน, เหมอนอยาง, อกทง, กระนนกตาม, กลาวคอ, กเพราะเหตวา, ขณะท, ขณะนน, ครงตอมา, คอวา, ดวยเปนเพราะ, ดวยเหตท, ดวยเหตวา, ดจหนง, โดยทในขณะเดยวกนก, โดยทในขณะเดยวกนก, ตรงกนขามดวยซ า, ตอนนมา, ตอมา, ตงแต, ตวอยางเชน, แตตรงกนขาม, แตทงนทงนนก, แตทจรง, แตทแทก, แตทแทจรง, แตวา, ถงอยางไร, ทงน, ทง ๆ ท, ทงนคงเนองมาจาก, ทงนดวยเหตผลทวา, ทงนเนองจาก, ท านองเดยวกนกบท, ทจรง, ทจรงก, เทาท, นอกจากน, นนกคอ, เนองจาก, เนองดวย, เนอง

Page 65: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

53

ดวยเหตผลทวา, เนองเพราะ, เนองมาจาก, เนองมาแตเมอ, ในขณะเดยวกน, ในขณะท, ในทางตรงกนขาม, ในท านองเดยวกน, ในท านองเดยวกนกบ, ในทสด, ในระหวางนน, บดน, ประการหนง, เปนตนแต, เปนตนวา, เพราะวา, เพราะเหตท, เพราะเหตวา, เพราะอยางนอยก, แมวา, ระหวางน, ราวกบวา, หรอกลาวอกนยหนง, หรอทถกก, หรอมฉะนนอยางสงกวานนขนไป, หรอไมก, หรอวา, หรอวาอกอยางหนง, หรออกนยหนง, หรออกอยางหนง, หากแตวา, เหตดงนน, เหตน, เหมอนดงวา, อยางไรกด, อยางไรกตาม, อนงคอวา, อกประการหนง, อกอยางหนง

ตารางท 5.2 แสดงรายการค าเชอม แบงตามรปภาษา

เนองจากรายการค าเชอมทแสดงในตาราง 5.2 ไมมค าเชอมเดนอยดวย ผวจยจงไดเพมรายการค าเชอมเดนเขาไป เนองจากเปนตวเชอมความทมความหมายบงบอกถงความสมพนธทางปรจเฉท ไดแกค า “เชน” “อาท” “อาทเชน” “อยางเชน” “ตวอยางเชน” “ยกตวอยางเชน” “ไดแก”

ส าหรบลกษณน ผวจยใชคาลกษณแบบ binary คอก าหนดใหมสองคา คอ Y (เปนค าเชอม) และ N (ไมเปนค าเชอม) วธการก าหนดคาของลกษณนท าโดยการเทยบค าในคลงขอมลกบค าในรายการค าเชอมทเตรยมไว หากค าทพจารณาปรากฏอยในรายการค าเชอม กจะมคาเปน Y แตหากไมปรากฏอยในรายการค าเชอม กจะใหคาเปน N

อยางไรกตาม คลงขอมลทใชในงานน เปนคลงขอมลแบบตดค า ดงนนค าเชอมทมรปเปนกลมค า เชนค าวา “เหตฉะน” “ถงแมวา” ฯลฯ จะถกแบงค าเปน “เหต+ฉะน” และ “ถง+แม+วา” หากน าค าวา “เหต” และ “ถง” ไปคนในรายการค าเชอม กจะไมพบ ผวจยจงแกปญหานโดยการเทยบค าในคลงขอมลทละ 4 ค าเรยงตดกน หรอสายของค า 4 ค า (token1|token2|token3|token4) หาก token1 หรอ token1|token2 หรอ token1|token2|token3 หรอ token1|token2|token3|token4 ปรากฏอยในรายการค าเชอม กจะใหค าแรกของค าเชอมนนมคาลกษณเปน Y ค าถดไปทจะน าเทยบกบรายการค าเชอมคอค าทอยถดจาก token สดทายของ

Page 66: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

54

ค าเชอม แตถาหากวาค าในรายการเชอมตงแต token1 ไมปรากฏในรายกายค าเชอม กจะให token นนมคาเปน N และใชสายของค า 4 ค าถดจาก token1 เทยบกบรายการค าเชอมตอไป ยกตวอยาง

|ถง|กระนน|ก|ด| |การ|หา|ทาง|ออก|ของ|ปญหา|…

จากตวอยาง จะเทยบสายของค า |ถง|กระนน|ก|ด| กอน และพบวา 4 ค าเรยงกนนพบในรายการค าเชอม จงก าหนดใหมคาลกษณเปน Y ตรง token แรกเทานน คอ |ถง| สวนอก 3 token คอ |กระนน|ก|ด| จะมคาเปน N สายของค าทจะใชเทยบตอไปคอ | |การ|หา|ทาง| และพบวาชองวาง | | ไมพบในรายการค าเชอม จงมคาเปน N สายของค าถดไปทจะใชเทยบคอ |การ|หา|ทาง|ออก| ซงไมพบ |การ| ในรายการค าเชอม จงมคาเปน N สายของค าถดไปทจะใชเทยบคอ |หา|ทาง|ออก|ของ| ซงไมพบ |หา| ในรายการค าเชอม จงมคาเปน N ท าเชนนไปเรอย ๆ กจะไดคาของลกษณของแตละค าดงน

ค า (tokens) DM

ถง Y

กระนน N

ก N

ด N

<s> N

การ N

หา N

ทาง N

ออก N

ของ N

ปญหา N ตารางท 5.3 แสดงตวอยางจากคลงขอมลและลกษณรายการค าเชอม

ทงน ผวจยไมไดใชประโยชนจากระยะหางระหวางค าเชอมค เชน “แม...แต”, “เมอ...จง”, “เพราะ...จง” เปนตน ตามทไดกลาวเอาไวในสมมตฐานวาระยะหางระหวางค าเชอมคจะสามารถชวยในการแยกอนพากยภาษาไทย แตเนองจากเหนวา การก ากบหมวดค า CCOR และ CSUB กสามารถชวยระบขอบเขตเรมตน EDU ไดแลว จงไมมความจ าเปนตองพจารณาระยะหางระหวางค าเชอมคอก

Page 67: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

55

3) ชองวาง (Space) แมวาชองวางจะไมไดท าหนาทแบงอนพากยออกจากกนทกครงไป แตเมอพจารณาจากสถตการปรากฏรวมกนของ POS หลงชองวาง หรอ space|POS กจะพบวา POS บางประเภททตามหลงชองวางมโอกาสทจะเปนตวแบงอนพากยมากกวา POS ประเภทอน ดงนนการพจารณา space|POS จงนาจะสามารถบอกไดวาชองวางนนเปนตวแบงอนพากยหรอไม

SPACE|POS เกดรวมกน (ครง) แบงอนพากย

(ครง) คดเปนเปอรเซนต

SPACE SPACE 7 0 0

SPACE CCOR 1074 1066 99.25512104

SPACE FOREIGN 902 19 2.106430155

SPACE VERB 899 380 42.26918799

SPACE CSUB 620 574 92.58064516

SPACE PUNC 1006 495 49.20477137

SPACE NNUM 552 9 1.630434783

SPACE NPRP 631 137 21.71156894

SPACE NCMN 1472 529 35.9375

SPACE CCORIN 342 21 6.140350877

SPACE DET 29 1 3.448275862

SPACE COMPF 527 526 99.81024668

SPACE PREP 543 256 47.14548803

SPACE PFAV 8 2 25

SPACE ADJ 3 0 0

SPACE CSBI 112 35 31.25

SPACE NCLS 110 4 3.636363636

SPACE MNCB 4 0 0

SPACE AUX 296 133 44.93243243

SPACE NEG 51 37 72.54901961

SPACE PT 8 1 12.5

SPACE MNCF 56 32 57.14285714

SPACE PFN 332 119 35.84337349

Page 68: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

56

SPACE ADVERB 224 146 65.17857143

SPACE NPRO 127 84 66.14173228

รวม 9935 4606 ตารางท 5.4 แสดงจ านวนครงท POS ตาง ๆ ปรากฏหลงชองวาง และจ านวนครงทชองวาง

จะเปนตวแบงอนพากย

จากตารางดงกลาว พบวาชองวางท าหนาทเปนตวแบงอนพากยทงหมด 4606 ครง โดยชองวางทน าหนา CCOR หรอ space|CCOR ท าหนาทเปนตวแบงอนพากยมากถง 1066 ครง คดเปน 99 เปอรเซนตของ space|CCOR ทเกดรวมกนทงหมด รองลงมาคอ space|CSUB และ space|COMPF โดยชองวางนนเปนตวแบงอนพากยทงหมด 574 และ 526 ครง หรอคดเปน 92 และ 99 เปอรเซนต ตามล าดบ ในขณะท space|SPACE, space|ADJ, space|MNCB เปนคทไมใชตวแบงอนพากยเลย

แตอยางไรกตาม ปรากฏการณทชองวางน าหนาค าเชอมอนพากย CCOR , CSUB และตวน าสวนเตมเตม COMPF แลวชองวางนนท าหนาทเปนตวแบงอนพากย เปนปรากฏการณทปกต เนองจากการเรมอนพากยหรอถอยความใหมโดยมค าเชอมขนตน การใชชองวางคนเปนสงทพบไดทวไปอยแลวในภาษาเขยนภาษาไทย ดงนนจงไมแปลกทจ านวนชองวางตามดวย POS เหลานนจะเปนตวแบงอนพากยมากถง 90 กวาเปอรเซนต

ผวจยไดใชประโยชนจากขอมลดงตารางดงกลาวในการก าหนดคาของลกษณ โดยน าเฉพาะค space|POS ทเกดรวมกนและชองวางนนเปนตวแบงอนพากยมากกวา 40 เปอรเซนตของของการเกด space|POS นน ๆ มาพจารณา นนคอก าหนดใหชองวางทตามดวย POS ไดแก CCOR, VERB, CSUB, PUNC, COMPF, PREP, AUX, NEG, MNCF, ADVERB, NPRO เปนชองวางทมความเปนไปไดทจะท าหนาทเปนตวแบงอนพากย และมผลท าใหค าทม POS เหลานมความเปนไปไดทจะเปนขอบเขตเรมตนอนพากยเชนกน ดงนนผวจยจงก าหนดคาของลกษณเปนแบบสองคา คอ Y และ N โดยค าทพจารณาจะมคาเปน Y เมอค า ๆ นนปรากฏหลงชองวางทมความเปนไปไดทจะเปนตวแบงอนพากย ในขณะทจะมคาเปน N เมอค า ๆ นนไมไดปรากฏหลงชองวางทมความเปนไปไดทจะเปนตวแบงอนพากย ตวอยางคลงขอมลและคาของลกษณเปนดงน

ค า (tokens) Space

<s> N

<w PUNC>(</w> Y

<w FOREGIN>Impressionist</w> N

Page 69: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

57

<w PUNC>)</w> N

<s> N

<w VERB>มา</w> Y

<w VERB>ใช</w> N

<w PREP>ใน</w> N

<w NCMN>ลกษณะ</w> N

<w NCMN>ประตมากรรม</w> N ตารางท 5.5 แสดงตวอยางจากคลงขอมลและการก าหนดลกษณชองวาง

จากตารางจะเหนวา เครองหมายวงเลบเปด และค าวา “มา” มคาลกษณเปน Y เนองจากทงสองม POS เปน PUNC และ VERB ตามล าดบ และปรากฏหลงชองวางทมความเปนไปไดทจะเปนตวแบงอนพากย ในขณะทค าอน ๆ มคาเปน N เนองจากไมไดปรากฏหลงชองวาง

4) เครองหมายวรรคตอน (Punctuations) จากการส ารวจคลงขอมล ค าทถกก ากบหมวดค าเปน PUNC หรอเครองหมายวรรคตอนมจ านวนทงหมด 2,665 ครง เครองหมายทสามารถใชชวยระบขอบเขตอนพากยไดมเพยงเครองหมายวงเลบเทานน โดยพบวามเครองหมายวงเลบเปดและวงเลบปดรวมกนได 900 ครง นอกนนเปนเครองหมายวรรคตอนอน ๆ ทมการปรากฏแบบกระจาย คอปรากฏไดหลายต าแหนง ในทนจงก าหนดใหมองเฉพาะเครองหมายวงเลบเปนลกษณเทานน การก าหนดคาของลกษณคอ ก าหนดใหเฉพาะค า หรอ token ทเปนเครองหมายวงเลบเปด และค าถดจากชองวางทปรากฏหลงเครองหมายวงเลบปดมคาลกษณเปน Y คอเปนขอบเขตเรมตนอนพากยนนเอง นอกเหนอจากน ก าหนดใหมคาลกษณเปน N คอเปนค าทไมใชขอบเขตเรมตนอนพากย ตวอยางขอมลและคาของลกษณเปนดงน

ค า (tokens) PUNC

ไบรอน N

แมคเคน N

( Y

BYRON N

<s> N

MCCAIN N

) N

<s> N

Page 70: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

58

พอคา Y

ขาย N

มา N ตารางท 5.6 แสดงตวอยางจากคลงขอมลและการก าหนดลกษณเครองหมายวรรคตอน

จากตางราง เครองหมายวงเลบเปด และค าวา “พอคา” มคาเปน Y เนองจากมความเปนไปไดทจะเปนจดเรมตนอนพากย ในขณะทค าอน ๆ มคาเปน N เนองจากไมตรงกบขอก าหนดทไดกลาวมา

5.3 การเตรยมไฟลขอมลส าหรบฝกฝนและทดสอบแบบจ าลอง

ขอมลทตองการจะจ าแนกประเภทโดยโปรแกรมวกาจะตองจดใหอยในรปแบบไฟล CSV (Comma Separated Value) หรอ ARFF (Attribute-Relation File Format) ในทนจะใชไฟลนามสกล ARFF ซงมโครงสรางของไฟลทประกอบไปดวย 2 สวนหลก คอ สวนหว (Header) และชดขอมล (Data)

สวนหวเปนสวนทแสดงรายละเอยดตาง ๆ ของขอมล ประกอบไปดวยชอ relation ซงเปนชอเรยกตารางขอมลเชงสมพนธ สามารถใชชอเรยกอะไรกได ไมมผลตอการตดสนใจของแบบจ าลอง อกสวนหนงคอ attribute ซงจะแสดงชอและประเภทของลกษณ การตงชอ attribute จะตองไมซ ากน สวนประเภทของลกษณจะตองก าหนดใหถกตองตรงตามชดขอมล เชน numeric, string, nominal ฯลฯ ในสวนของ attribute สดทาย จะเปนค าตอบทตองการใหเครองตอบ ไมใชลกษณทตองการใหเครองพจารณา ตวอยางรปแบบของสวนหวจะมลกษณะดงน

@relation weather

@attribute outlook {sunny, overcast, rainy} @attribute temperature numeric @attribute humidity numeric @attribute windy {TRUE, FALSE} @attribute class {yes, no}

ตวอยางดงกลาวน ามาจากงานของ Witten and Frank (2005) แสดงรปแบบไฟลสวนหว ชอเรยกตารางมชอวา weather บรรทดถดมาเปนรายละเอยด attribute หรอลกษณทใชในการจ าแนกประเภท ลกษณแรกมชอวา outlook เปนลกษณประเภท nominal ก าหนดใหมคาของลกษณ 3 แบบ คอ sunny, overcast, rainy ลกษณตอมามชอวา temperature ซงเปนประเภท

Page 71: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

59

numeric หรอมคาเปนตวเลข บรรทดสดทายของสวนหวคอค าตอบทตองการใหเครองเลอก ในทนตงชอวา class ก าหนดใหตอบไดเพยง 2 แบบเทานน คอ yes กบ no

ในสวนขอมล จะขนตนดวย @data บรรทดถดมาจะแสดงขอมลแถวละหนงตวอยาง (Instance) แตละตวอยางจะประกอบไปดวยคาของลกษณ เรยงล าดบตาม attribute ของสวนหว แตละคาคนดวยเครองหมายจลภาค (Comma) โดยคาสดทายจะเปนค าตอบเสมอ ตวอยางรปแบบสวนขอมลเปนดงน

@data

sunny, 85, 85, FALSE, no sunny, 80, 90, TRUE, no overcast, 83, 86, FALSE, yes rainy, 70, 96, FALSE, yes rainy, 68, 80, FALSE, yes rainy, 65, 70, TRUE, no overcast, 64, 65, TRUE, yes sunny, 72, 95, FALSE, no sunny, 69, 70, FALSE, yes rainy, 75, 80, FALSE, yes sunny, 75, 70, TRUE, yes overcast, 72, 90, TRUE, yes overcast, 81, 75, FALSE, yes rainy, 71, 91, TRUE, no

ในวทยานพนธน ผวจยใชลกษณในการฝกฝนและทดสอบแบบจ าลองทงหมด 6 ลกษณ ไดแก หมวดค าของค าปจจบน (POS-P) หมวดค ากอนหนา (POS-B) หมวดค าทตามหลง (POS-A) รายการค าเชอมอนพากย (DM) ชองวาง (Space) และเครองหมายวรรคตอน (Punc) โดยมรปแบบค าตอบเปนแบบสองค าตอบ คอ เปนขอบเขตเรมตนอนพากย (Boundary) และไมเปนขอบเขตเรมตนอนพากย (NonBoundary) ในงานนจะไมมค าตอบวาเปนขอบเขตสนสดอนพากย เนองจากเหนวา หากสามารถระบขอบเขตเรมตนไดแลว กจะท าใหเหนขอบเขตขอบของอนพากยแลว นนคอ เมอเครองระบจดใดใหเปนขอบเขตเรมตนแลว จดทอยกอนหนากคอจดสนสดนนเอง จงไมมความจ าเปนทจะตองระบจดสนสดอก

ในการน าขอมลทก ากบในคลงขอมลมาจดเรยงโครงสรางใหมใหเปนไฟล ARFF น ผวจยเขยนโปรแกรมเพอดงขอมลทจะใชเปนลกษณ ขอมลทสามารถดงไดทนท ไดแก POS ของค านน POS

Page 72: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

60

ของค ากอนหนา และ POS ของค าทตามหลง สวนลกษณอน ๆ ไดแก ลกษณรายการค าเชอม ลกษณชองวาง และลกษณเครองหมายวรรคตอน จะแทนคาลกษณดวย Y หรอ N หากเขาเงอนไขทก าหนดไวในหวขอการก าหนดลกษณ ซงไดกลาวไปแลวในหวขอกอนหนาน ส าหรบค าทก ากบ <EDU> หรอเปนค าขอบเขตเรมตนอนพากย กจะดงออกมาและใชค าวา Boundary แทน สวนค าทไมไดก ากบ <EDU> กจะดงออกมาและใชค าวา NonBoundary ทง 2 นจะใชเปนค าตอบส าหรบฝกฝนแบบจ าลอง

เมอดงขอมลทกอยางจากคลงขอมลครบแลว กสรางไฟลขนมาใหม ใชเครองหมายจลภาค (,) คนระหวางทกอยางทดงออกมา โดยแตละบรรทดจะประกอบไปดวย POS ของค านน POS ของค ากอนหนา POS ของค าทตามหลง ลกษณรายการค าเชอม ลกษณชองวาง ลกษณเครองหมายวรรคตอน และค าตอบวาเปนขอบเขตเรมตนอนพากยหรอไม ตามล าดบ จากนนเพมสวนหวของไฟล ARFF เขาไป ขอมลไฟล ARFF ทใชในงานน สามารถดเพมเตมไดทภาคผนวก ข

5.4 เคอรเนลฟงกชนและการตงคาพารามเตอร

ในการจ าแนกประเภทขอมลดวยเทคนคซพพอรตเวกเตอรแมชชน จะตองมการเลอกใชเคอรเนลฟงกชน (Kernal Fuction) ซงมใหเลอกใชหลายประเภท ไดแก เคอรเนลแบบเชงเสน (Linear) เคอรเนลแบบโพลโนเมยล (Polynomial) เรเดยลเบสสฟงกชน (Radial Basis Function) เปนตน การเลอกเคอรเนลฟงกชนทเหมาะสม ยอมสงผลตอประสทธภาพของตวจ าแนกประเภท ในงานน ผวจยเลอกใชเคอรเนลแบบโพลโนเมยล ซงมการใชอยางแพรหลายในงานทางดานการประมวลผลภาษาธรรมชาต แมจะใชเวลาในการฝกฝนแบบจ าลองนานกวาเคอรเนลแบบเชงเสน แตกใหผลทดกวา ในขณะทเมอน าไปเปรยบเทยบกบเรเดยลเบสสฟงกชน เคอรเนลแบบโพลโนเมยลใชเวลาในการฝกฝนนอยกวาและใหผลทใกลเคยงกน

นอกจากการเลอกเคอรเนลฟงกชนแลว ยงจ าเปนตองปรบคาพารามเตอรตาง ๆ ใหเหมาะสมเพอเพมประสทธภาพการท างานของแบบจ าลอง พารามเตอรส าคญทเกยวของกบการจ าแนกประเภทดวยเทคนคซพพอรตเวกเตอรแมชชนของฟงกชน SMO ในโปรแกรมวกามดงน

1) คา C (Soft-Margin Constant) เปนคาการควบคมขอผดพลาดทเกดจากการฝกฝนแบบจ าลอง (Training error) การเพมคา C จะท าใหขอผดพลาดของการฝกฝนแบบจ าลองนอยลง แตจะท าใหตวจ าแนกหรอซพพอรตเวกเตอรแมชชนสญเสยคณสมบตทวไป เนองจากคา C ทสงขนจะท าใหเกดการบงคบใหสรางแบบจ าลองทสมบรณทสด นอกจากนยงท าใหตองใชเวลาในการฝกฝนแบบจ าลองนานขนอกดวย ในงานวจยน ผวจยตงคา C เทากบ 1 ซงเปนคา default

Page 73: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

61

2) พารามเตอรของเคอรเนล ในงานนใชเคอรเนลแบบโพลโนเมยล คาพารามเตอรทตองปรบคอ คา D (Degree of polynomial kernel) หรอ คา Exponent D การปรบคา D ใหเหมาะสม จะชวยใหแบบจ าลองท างานมประสทธภาพสงสด โดย default ของโปรแกรม คานจะเทากบ 1 ซงจะท าใหไดตวจ าแนกซพพอรตเวกเตอรแบบเชงเสน (Linear SVM) และหากปรบคาพารามเตอรตวนใหมากกวา 1 กจะไดตวจ าแนกซพพอรตเวกเตอรแบบไมเชงเสนแทน (Nonlinear SVM) ในงานนผวจยไดท าการทดสอบพารามเตอรของเคอรเนลเพอหาคาพารามเตอรทเหมาะสมทสด โดยการทดลองครงแรกจะตงคาพารามเตอร D=1 กอน เพอหารปแบบลกษณทสงผลตอประสทธภาพของแบบจ าลองมากทสด จากนนจะน าแบบจ าลองทใชรปแบบลกษณทดทสดมาท าการทดลองกบคาพารามเตอร D=2, D=3 และ D=4 เพอดวาพารามเตอรของเคอรเนลคาใดทจะท าใหผลการทดสอบแบบจ าลองออกมาดทสด ผวจยจะไมท าการทดสอบคา D ทสงกวา 4 เนองจากคาทสงอาจท าใหเกดปญหา overfitting นนคอการทแบบจ าลองมประสทธภาพสงมากเมอใชกบขอมลฝกฝน แตจะมประสทธภาพต าเมอใชกบขอมลทดสอบ นอกจากน การตงคา D สงยงท าใหตองใชเวลาในการฝกฝนแบบจ าลองนานขนอกดวย

5.5 การประเมนประสทธภาพของแบบจ าลอง

การประเมนประสทธภาพของแบบจ าลองท าไดโดยการหาคาความแมนย า (Precision) คาความครบถวน (Recall) และคา F-measure

คาความแมนย า เปนการวดความสามารถของระบบในการขจด token ทไมใชขอบเขตเรมตนอนพากยออกไป โดยแสดงคาออกมาในรปของสดสวนของจ านวนขอบเขตอนพากยทเครองตอบถกตองเมอเปรยบเทยบกบจ านวนของขอบเขตอนพากยทเครองตอบมาทงหมด สามารถค านวณไดจากสมการตอไปน

( เปอรเซนต) (จ านวน ทเครองตอบถก

จ านวน ทเครองตอบทงหมด)

คาความครบถวน เปนการวดความสามารถของระบบในการระบ token ทเปนขอบเขตเรมตนอนพากย โดยแสดงคาออกมาในรปของสดสวนของจ านวนขอบเขตอนพากยทเครองตอบถกตองเมอเปรยบเทยบกบจ านวนขอบเขตอนพากยทมทงหมดในคลงขอมล สามารถค านวณไดจากสมการตอไปน

( เปอรเซนต) (จ านวน ทเครองตอบถก

จ านวน ในคลงขอมลทงหมด)

Page 74: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

62

F-measure คอคาทแสดงความสมพนธระหวางคาความแมนย าและคาความครบถวน เพอหาคาความถกตองโดยรวม สามารถค านวณไดจากสมการตอไปน

( เปอรเซนต) (

)

ในงานน ผวจยไดประเมนประสทธภาพของการระบขอบเขตเรมตนอนพากยภาษาไทยดวยแบบจ าลองซพพอรตเวกเตอรแมชชนทใชกบคลงขอมลทดสอบ มการทดสอบทงหมด 10 ครง และรายงานผลการทดสอบแตละครงโดยใชคาความแมนย า คาความครบถวน และ F-measure ตามทไดกลาวมา ผลการทดสอบจะไดกลาวถงในล าดบตอไป

5.6 ผลการทดสอบ

ในการทดสอบการท างานของแบบจ าลองซพพอรตเวกเตอรแมชชนทใชในการระบขอบเขตหรอจดเรมตนของอนพากย ผวจยไดทดลองใชลกษณรปแบบตาง ๆ รวมกน แลวน าแตละรปแบบไปทดสอบทงหมด 10 ครง และเปรยบเทยบผลการทดสอบ เพอดวาลกษณใดบางทสงผลตอประสทธภาพของแบบจ าลอง โดยตงคาพารามเตอร C=1 และ D=1 หลงจากไดผลการทดลองออกมาแลว ผวจยจะเลอกรปแบบของลกษณทไดผลการทดสอบออกมาทสดมาท าการทดลองอกครงกบคาพารามเตอร D= 2, D=3 และ D=4 ตามล าดบ เพอดวาการปรบคา D ของเคอรเนลโพลโนเมยลจะสงผลตอประสทธภาพแบบจ าลองไดมากนอยเพยงใด ในสวนของรปแบบตาง ๆ ของลกษณ มดงตอไปน

รปแบบท 1 ใชลกษณเดยว คอ POS ของค า รปแบบท 2 ใช 3 ลกษณ ไดแก POS ของค า, POS ค ากอนหนา และ POS ค าตามหลง รปแบบท 3 ใช 4 ลกษณ ไดแก POS ของค า, POS ค ากอนหนา, POS ค าตามหลง และค าเชอม รปแบบท 4 ใช 4 ลกษณ ไดแก POS ของค า, POS ค ากอนหนา, POS ค าตามหลง และชองวาง รปแบบท 5 ใช 4 ลกษณ ไดแก POS ของค า, POS ค ากอนหนา, POS ค าตามหลง และเครองหมายวรรคตอน

รปแบบท 6 ใช 6 ลกษณ ไดแก POS ของค า, POS ค ากอนหนา, และ POS ค าตามหลง, Discourse Marker, Space, Punctuation

Page 75: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

63

ในการทดสอบรปแบบลกษณตาง ๆ ผวจยก าหนดใหรปแบบลกษณท 1 เปนการใชลกษณเพยงลกษณเดยว คอ POS ของค า รปแบบท 2 เปนการด POS ของค าทอยขางหนาและขางหลงรวมดวย สวนลกษณรปแบบท 3–6 เปนการใชลกษณทางภาษาศาสตรตาง ๆ รวมกบการใช POS ของ 3 ค า เพอทจะไดเหนวาลกษณเหลานนชวยเพมประสทธภาพใหกบแบบจ าลองหรอไม

5.6.1 ผลการทดสอบของลกษณรปแบบตาง ๆ ของลกษณ พารามเตอร C=1 และ D=1

รปแบบลกษณในแบบตาง ๆ จะไดรบการทดสอบรปแบบละ 10 ครง ทกสวนของขอมลจะถกใชเปนขอมลทดสอบซงคดเปน 10 เปอรเซนตของคลงขอมลทงหมด ประเมนผลการทดสอบโดยการค านวณคาความแมนย า คาความครบถวน และคา F-measure ผลการทดสอบเปนดงตาราง 5.7–5.13

ครงท 1 2 3 4 5 6 7 8 9 10 mean

P 87.6 91.4 92.8 91.3 94.8 91.6 92.7 94.9 88.8 94.7 92.06

R 50.7 40.4 66.6 63.4 70.6 61.5 50.9 53.3 59.5 57.4 57.43

F 64.3 56 77.5 74.9 80.9 73.6 65.7 68.3 71.3 71.5 70.4

จ านวน 461 319 461 420 478 523 416 505 531 496 461 ตารางท 5.7 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงท

แบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 1 (POS-P)

ครงท 1 2 3 4 5 6 7 8 9 10 mean

P 94.6 96.2 96.1 95.3 98 96.1 97.7 96.1 94.8 98.9 96.38

R 56.1 55.1 70.4 70.7 80.2 72.2 56.6 59.8 61 61.9 64.4

F 70.4 70 81.2 81.2 88.2 82.4 71.7 73.7 74.2 76.2 76.92

จ านวน 510 435 487 468 543 614 463 566 544 535 516.5 ตารางท 5.8 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงท

แบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 2 (POS-P, POS-B, POS-A)

Page 76: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

64

ครงท 1 2 3 4 5 6 7 8 9 10 mean

P 97.5 97.8 97.4 97.2 98.3 97.9 79.8 99.3 98.9 98.4 96.25

R 56.4 55.2 70.7 73.3 83.2 75.6 59.8 65.2 61.1 60.8 66.13

F 71.5 70.6 81.9 83.5 90.1 75.6 74.2 78.7 75.5 75.1 77.67

จ านวน 513 436 489 485 563 643 566 563 545 497 530 ตารางท 5.9 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงท

แบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 3 (POS-P, POS-B, POS-A, DM)

ครงท 1 2 3 4 5 6 7 8 9 10 mean

P 94.6 96.2 96.1 95.3 98 96.1 97.7 96.1 94.8 98.9 96.38

R 56.1 55.1 70.4 70.7 80.2 72.2 56.6 59.8 61 61.9 64.4

F 70.4 70 81.2 81.2 88.2 82.4 71.7 73.7 74.2 76.2 76.92

จ านวน 510 435 487 468 543 614 463 566 544 535 516.5 ตารางท 5.10 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงท

แบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 4 (POS-P, POS-B, POS-A, Space)

ครงท 1 2 3 4 5 6 7 8 9 10 mean

P 94.9 95.9 96.1 95.5 98.1 96.3 97.7 96.3 94.9 98.9 96.46

R 59.2 62 71.5 73.4 83 77.2 57.3 66.8 64.3 65 67.97

F 72.9 75.3 82 83 89.9 85.7 72.3 78.9 76.7 78.5 79.52

จ านวน 538 490 495 486 562 657 469 633 574 562 546.6 ตารางท 5.11 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงท

แบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 5 (POS-P, POS-B, POS-A, Punc)

Page 77: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

65

ครงท 1 2 3 4 5 6 7 8 9 10 mean

P 97.7 97.2 97.5 97.3 98.3 98 98.4 97.8 98.8 99.3 98.03

R 59.5 62.2 71.8 76 85.8 80.4 61.5 66.8 64.5 68.3 69.68

F 74 75.8 82.7 85.3 91.6 88.3 75.7 79.4 78 80.9 81.17

จ านวน 541 491 497 503 581 684 503 633 575 590 559.8 ตารางท 5.12 แสดงคาความแมนย า คาความครบถวน F-measure และจ านวนครงท

แบบจ าลองระบขอบเขตเรมตน EDU ไดถกตอง ของแบบจ าลองทใชลกษณรปแบบท 6 (POS-P, POS-B, POS-A, DM, Space, Punc)

รปแบบ 1 รปแบบ 2 รปแบบ 3 รปแบบ 4 รปแบบ 5 รปแบบ 6

P 92.06 96.38 96.25 96.38 96.46 98.03

R 57.43 64.4 66.13 64.4 67.97 69.68

F 70.4 76.92 77.67 76.92 79.52 81.17

จ านวน 461 516.5 530 516.5 546.6 559.8

ตารางท 5.13 แสดงคาเฉลยของผลการทดสอบแบบจ าลองทใชลกษณรปแบบท 1 - 6 ในการฝกฝนและทดสอบ ประกอบไปดวยคาความแมนย า คาความครบถวน F-measure และจ านวนครงทแบบจ าลองระบขอบเขต EDU ไดถกตอง

จากตาราง 5.7 ทรายงานผลการทดสอบ 10 ครงของแบบจ าลองทฝกฝนดวยลกษณรปแบบท 1 ซงเปนการใชหมวดค าของแตละค าเพยงอยางเดยว พบวาค านวณคาความแมนย าออกมาไดคอนขางสง คออยระหวาง 94.1–97.7 เปอรเซนต แสดงใหเหนวาค าทถกดงออกมาสวนใหญจะเปนค าขอบเขตเรมตนทถกตอง มทผดพลาดประมาณ 3-6 เปอรเซนตเทานน สวนคาความครบถวนค านวณไดประมาณ 40.4–70.6 เปอรเซนต แสดงใหเหนวาแบบจ าลองยงไมมความสามารถทจะดงค าในคลงทดสอบทเปนขอบเขตเรมตน EDU ไดมากนก สงผลใหค านวณคา F-measure ออกมาไดระหวาง 56–80.9 เปอรเซนต หรอเฉลยได 70.4 เปอรเซนต

เมอทดสอบแบบจ าลองทใชลกษณรปแบบท 2 ซงเปนการเพมหมวดค าของค าขางเคยงเขาไป ไดแก หมวดค ากอนหนาและหมวดค าทตามหลง กจะไดผลการทดสอบดงตารางท 5.8 ซงพบวาแบบจ าลองสามารถตดสนใจไดดยงขน ค านวณคาความแมนย า คาความครบถวน และคา F-measure ไดมากกวาการใชลกษณรปแบบแรก แตยงถอวาไดคาความครบถวนทไมสงมาก ดงจะเหนไดวา ผลการทดสอบจ านวน 6 ครง ไดคาความครบถวนระหวาง 55.1–61.9 เปอรเซนต และสงผลให

Page 78: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

66

คาความแมนย าเฉลยแลวไดเพยง 64.4 เปอรเซนต แสดงวาแบบจ าลองทใชลกษณรปแบบนยงไมสามารถดงค าทถกตองจากคลงขอมลไดมากนก

สวนลกษณรปแบบท 3 ไดผลการทดสอบดงตารางท 5.9 เปนการใชลกษณรายการค าเชอมรวมกบลกษณหมวดค าของ 3 ค า พบวาไดคาความแมนย าทคอนขางสง คออยระหวาง 97.2–99.3 เปอรเซนต คาความครบถวนสงกวาการใชลกษณ 2 แบบแรกเลกนอย คออยระหวาง 55.2–83.2 เปอรเซนต แสดงวาแบบจ าลองมความสามารถในการดงค าขอบเขตเรมตน EDU ทถกตองจากคลงขอมลเพมขนเลกนอยเทานน อยางไรกตามภาพรวมของแบบจ าลองทใชลกษณรปแบบนมประสทธภาพทสงกวาการใชลกษณรปแบบท 2 เลกนอย ซงเหนไดจากคา F-measure ทวดเฉลยแลวได 77.67 เปอรเซนต หรอเพมขนไมถง 1 เปอรเซนต

ส าหรบลกษณรปแบบท 4 ไดผลการทดสอบดงตารางท 5.10 เปนการใชลกษณชองวางรวมกบลกษณหมวดค าของ 3 ค า พบวาวดคาความแมนย า คาความครบถวน และคา F-measure ไดเทากนกบลกษณรปแบบท 2 คอได 96.38, 64.4 และ 76.92 เปอรเซนตตามล าดบ แสดงวาการใชลกษณชองวางรวมกนกบลกษณหมวดค าของค า 3 ค าไมไดชวยเพมประสทธภาพของแบบจ าลองเลยแมแตนอย อยางไรกตามลกษณชองวางกลบมบทบาทชวยเพมประสทธภาพการตดสนใจของแบบจ าลองได หากปรบคาพารามเตอรเคอรเนลใหสงขน ซงประเดนนจะอภปรายตอไปในบทท 6

เมอทดสอบแบบจ าลองทฝกฝนดวยลกษณรปแบบท 5 ไดผลการทดสอบดงตารางท 5.11 ลกษณรปแบบท 5 นเปนการใชลกษณเครองหมายวรรคตอนรวมกบลกษณหมวดค าของ 3 ค า กพบวาค านวณคาความแมนย าไดใกลเคยงกบการใชลกษณหมวดค าของ 3 ค า คอเฉลยได 96.46 เปอรเซนต แตไดคาความครบถวนเฉลย 67.97 เปอรเซนต ซงเพมขนประมาณ 4 เปอรเซนต และค านวณคา F-measure เฉลยได 79.52 เปอรเซนต

ส าหรบแบบจ าลองทฝกฝนดวยลกษณรปแบบท 6 ซงประกอบไปดวยลกษณหมวดค าปจจบน หมวดค ากอนหนา หมวดค าตามหลง รายการค าเชอม ชองวาง และเครองหมายวรรคตอน ผลการทดสอบเปนดงตารางท 5.12 พบวาการรวมทกลกษณเขาดวยกน ท าใหแบบจ าลองมประสทธภาพมากทสด กลาวคอ ค านวณคาความแมนย าได 97.2–99.3 เปอรเซนต คาความครบถวนอยระหวาง 59.5–85.8 เปอรเซนต และค านวณคา F-measure เฉลยได 81.17 เปอรเซนต ซงถอวาสงกวาแบบจ าลองทใชลกษณรปแบบอน ๆ ประมาณ 2-11เปอรเซนต

5.6.2 ผลการทดสอบทปรบคาพารามเตอร C=1 และ D=2, D=3, D=4

จากการประเมนประสทธภาพของแบบจ าลองทฝกฝนและทดสอบดวยลกษณรปแบบตาง ๆ จะพบวาการใชลกษณรปแบบท 6 ซงประกอบไปดวยลกษณ POS ของค าปจจบน, POS ของค ากอน

Page 79: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

67

หนา, POS ของค าหลง, รายการค าเชอมอนพากย, ชองวาง, และเครองหมายวรรคตอน เปนรปแบบของลกษณทท าใหแบบจ าลองมประสทธภาพสงสด ทงนเปนการฝกฝนและทดสอบแบบจ าลองโดยใชตวจ าแนกประเภทซพพอรตเวกเตอรแมชชนทตงคาพารามเตอรของเคอรเนลโพลโนเมยล D=1 ดงนนผวจยจงน าลกษณเหลานไปทดสอบตอ เพอหาคาพารามเตอรของเคอรเนลทเหมาะสมตอไป เนองจากการใชคาพารามเตอรของเคอรเนลทเหมาะสม จะสงผลตอประสทธภาพการตดสนใจของแบบจ าลอง ในการทดสอบน ผวจยจะปรบคาพารามเตอรจากเดม D=1 เปน D=2, D=3 และ D=4 สวนคา C ยงใชคาเดม คอ C=1 ท าการทดสอบทงหมด 10 ครง ผลการทดสอบเปนดงตารางตอไปน

ครงท 1 2 3 4 5 6 7 8 9 10 mean

P 92.1 91 89.9 89.3 91.7 92.4 90.3 97.8 92.2 93 91.97

R 71.7 74.2 78.6 80.8 88.3 85.5 77.4 66.8 75.1 77.1 77.55

F 80.6 81.7 83.9 84.9 90 88.8 83.3 79.4 82.8 84.3 83.97

B 652 586 544 535 598 728 633 633 670 666 624.5 ตารางท 5.14 แสดงคาเฉลยของผลการทดสอบทงหมด 10 ครง ทมการปรบคาพารามเตอร

ของเคอรเนล D=2 ใหกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน

ครงท 1 2 3 4 5 6 7 8 9 10 mean

P 91.7 91.8 89.8 89.6 92.5 93.6 91.9 92.3 91.4 92.1 91.67

R 73.8 73.4 77.9 81.7 87.9 85.7 77.4 77 75.1 78.5 78.84

F 81.8 81.6 83.4 85.5 90.2 89.4 84 83.9 82.5 84.7 84.7

B 671 580 539 541 595 729 633 729 670 678 636.5 ตารางท 5.15 แสดงคาเฉลยของผลการทดสอบทงหมด 10 ครง ทมการปรบคาพารามเตอร

ของเคอรเนล D=3 ใหกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน

Page 80: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

68

ครงท 1 2 3 4 5 6 7 8 9 10 mean

P 91.7 92.4 89.8 90 92.5 93.6 91.9 92.7 91.7 93.4 91.97

R 73.7 73.4 77.9 81.7 87.9 85.8 77.4 76.7 75.1 77.3 78.69

F 81.7 81.8 83.4 85.7 90.2 89.5 84 83.9 82.6 84.6 84.74

B 670 580 539 541 595 730 633 726 670 668 635.2 ตารางท 5.16 แสดงคาเฉลยของผลการทดสอบทงหมด 10 ครง ทมการปรบคาพารามเตอร

ของเคอรเนล D=4 ใหกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน

D=1 D=2 D=3 D=4

P 98.03 91.97 91.67 91.97

R 69.68 77.55 78.84 78.69

F 81.17 83.97 84.70 84.74 ตารางท 5.17 สรปคาเฉลยของผลการทดสอบทงหมด 10 ครง ทมการปรบคาพารามเตอร

ของเคอรเนลตาง ๆ ใหกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน

จากตาราง 5.14 ซงปรบคาพารามเตอร D=2 เมอทดสอบแบบจ าลองทฝกฝนดวยลกษณรปแบบท 6 นนคอใชทกลกษณรวมกน ทดสอบทงหมด 10 ครง ค านวณคาความแมนย าออกมาไดไมต ากวา 90 เปอรเซนตทกครง ความครบถวนค านวณไดต ากวา 70 เปอรเซนตแคครงเดยว คอในการทดสอบครงท 8 นอกนนวดคาไดระหวาง 71.1–88.3 เปอรเซนต คาความครบถวนนชใหเหนวาแบบจ าลองสามารถดงค าขอบเขตเรมตน EDU จากคลงขอมลไดถกตองจ านวนมากขน เมอเปรยบเทยบกบการทดสอบแบบจ าลองทปรบคาพารามเตอร D=1 สวนคา F-measure เฉลยวดได 83.97 เปอรเซนต ซงสงกวาการปรบคาพารามเตอร D=1 เชนกน

สวนการปรบคาพารามเตอร D=3 ไดผลการทดสอบ 10 ครงดงตาราง 5.15 ซงแสดงใหเหนวาแบบจ าลองระบขอบเขตเรมตน EDU ไดผลดยงขน ดงจะเหนไดจากคาเฉลย F-measure ทสงกวาการปรบ D=1 และ D=2 คอวดได 84.70 เปอรเซนต แมวาคาความแมนย าจะตกลงมาเลกนอย นนคออยระหวาง 89.6–92.5 เปอรเซนต แตวดคาความครบถวนไดมากขนเลกนอย คอเฉลยได 78.84 เปอรเซนต โดยรวมแลว แบบจ าลองนสามารถดงค าขอบเขตเรมตน EDU จากคลงขอมลไดถกตองเพมขนเลกนอย เมอเปรยบเทยบกบแบบจ าลองทปรบคาพารามเตอร D=2

ส าหรบการปรบคาพารามเตอร D=4 นน ไดผลการทดสอบ 10 ครงดงตาราง 5.16 พบวาค านวณคาความแมนย า คาความครบถวน และคา F-measure ไดสงกวาการปรบ D=3 เพยง

Page 81: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

69

เลกนอยเทานน นนคอวดคาเฉลยได 91.97, 78.69 และ 84.74 เปอรเซนตตามล าดบ เมอเปรยบเทยบผลการทดสอบ 10 ครงของแบบจ าลองทปรบคา D=4 และ D=3 แลว จะเหนวาแตละครงททดสอบจะไดผลการทดสอบใกลเคยงกนทกครง แสดงใหเหนวา มความเปนไปไดวา หากมการปรบคาพารามเตอรของเคอรเนลใหสงไปมากกวาน กอาจจะไมท าใหไดผลทดขนมากแลว

โดยสรปแลวจะเหนไดวา การปรบคาพารามเตอรของเคอรเนลใหสงขน สงผลใหตวจ าแนกประเภทซพพอรตเวกเตอรแมชชนมประสทธภาพสงขนตามไปดวย ทงน การปรบคาพารามเตอรของเคอรเนลแบบโพลโนเมยลมากกวา 1 จะท าใหไดตวจ าแนกประเภทซพพอรตเวกเตอรแมชชนแบบไมเชงเสน หรอ nonlinear SVM และการปรบคาใหเทากบ 1 จะไดซพพอรตเวกเตอรแมชชนแบบเชงเสน หรอ linear SVM ซงเมอพจารณาผลการทดสอบดงตารางขางตนกจะพบวาตวจ าแนกประเภท nonlinear SVM มประสทธภาพในการระบขอบเขตเรมตนอนพากยมากกวา linear SVM

นอกจากน ผวจยมความเหนวา การปรบคาพารามเตอร D=2, D=3 และ D=4 ใหผลทคอนขางใกลเคยงกน คอวดคา F-measure ได 83.97, 84.70 และ 84.74 เปอรเซนต ตามล าดบ โดยการปรบคา D=2 จะใชเวลาในการฝกฝนแบบจ าลองทนอยกวา ในขณะทการปรบคา D=4 ใชเวลามากทสด ดงนนผวจยจงคดวาคาพารามเตอรทเหมาะสมทสดส าหรบการทดลองนควรจะอยท D=3 เพราะนอกจากจะใชเวลาในการฝกฝนแบบจ าลองไมมากนก ยงไดผลการทดสอบทวดคาออกมาแลวไดสงกวาคา D=2 และในขณะเดยวกนกใกลเคยงมากกบการใชคา D=4 อกดวย

จากทไดกลาวมาทงหมดน ชใหเหนวาการใช POS ของ 3 ค าตดกน หรอ POS-B|POS-P|POS-A รวมกบรายการค าเชอม ชองวางทมความเปนไปไดทจะเปนตวแบงขอบเขตอนพากย และเครองหมายวรรคตอนทมกจะอยหวและทายอนพากย เหลานสามารถชวยฝกฝนแบบจ าลองส าหรบใชระบขอบเขตเรมตนอนพากยภาษาไทยได นอกจากเรองลกษณแลว การปรบคาพารามเตอรของเคอรเนลทใชกบตวจ าแนกประเภทซพพอรตเวกเตอรแมชชนกสามารถชวยเพมประสทธภาพของแบบจ าลองไดเปนอยางด อยางไรกตามการใชคาพารามเตอรทสงมาก ๆ อาจสงผลเสยตอแบบจ าลองได เพราะอาจจะมความเสยงทจะเกดปญหา overfitting หรอปญหาการมประสทธภาพในการฝกฝนแบบจ าลองทดเยยม แตเมอน าไปใชกบคลงขอมลทดสอบ กลบใหผลการทดสอบทแย อกทงยงท าใหตองใชเวลานานเกนไปในการฝกฝนแบบจ าลองอกดวย

Page 82: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

70

บทท 6

ลกษณทางภาษาทมผลตอประสทธภาพของแบบจ าลอง

เนองจากการใชตวจ าแนกซพพอรตเวกเตอรแมชชนตองอาศยลกษณ ในการฝกฝนแบบจ าลอง การใชลกษณทเหมาะสมจงเปนการชวยเพมประสทธภาพของตวจ าแนก ในบทน ผวจยจะอภปรายประสทธภาพของลกษณทางภาษาทใชในการฝกฝนแบบจ าลองส าหรบระบค าขอบเขตเรมตน EDU และประสทธภาพของแบบจ าลองเมอมการปรบคาพารามเตอรของเคอรเนลใหสงขน

6.1 ประสทธภาพของลกษณทางภาษาทใช

จากรปแบบโครงสรางอนพากยและนามวลทเปน EDU ทไดกลาวถงไปแลวในบทกอนหนา น ามาสการก าหนดลกษณทางภาษาส าหรบใชในการฝกฝนแบบจ าลอง ไดแก การใชหมวดค า การใชรายการค าเชอม การใชความนาจะเปนทชองวางจะเปนตวแบงอนพากย และการใชเครองหมายวรรคตอนมกปรากฏในต าแหนงทเปนขอบเขต EDU ลกษณแตละตวมบทบาทในการชวยระบขอบเขตเรมตน EDU ในระดบทแตกตางกนออกไป ประสทธภาพของลกษณทจะอภปรายในหวขอน ผวจยไดวเคราะหจากการพจารณาผลการทดสอบแบบจ าลองทมการปรบคาพารามเตอรไวต าสด ซงเปนคา default ของโปรแกรม รายละเอยดมดงตอไปน

6.1.1 หมวดค า

เมอพจารณาโครงสรางภายในของอนพากย ซงประกอบไปดวยหนวยสรางนามวลในต าแหนงประธานตามดวยหนวยสรางกรยาวลในต าแหนงภาคแสดง กจะพบวามการเรยงตวกนของหมวดค าตาง ๆ (POS sequence) เชนขอความจากคลงขอมล “แวน โกะห กไดน าเกาอถกสเหลองทเคยวางแจกนใบนนมาเปนแบบ” มการเรยงล าดบหมวดค าคอ NPRP-NPRP-CSBI-AUX-VERB-NCMN-VERB-ADJ-COMPF-AUX-VERB-NCMN-NCLS-DET-VERB-VERB-NCMN ทงนการเรยงตวกนของหมวดค าของอนพากยมกจะปรากฏเปนรปแบบ (Pattern) ทซ า ๆ กน เชนรปแบบ นาม+ค าปฏเสธ+กรยา+นาม เปนตน ดงนนการก ากบหมวดค าในคลงขอมลจงมประโยชนตอการแยกอนพากยอยางมาก เพราะนอกจากจะสามารถชวยแยกความก ากวมของค าไดแลว เชนค าวา “ปาย” เปนไดทงค านามและกรยา สายของหมวดค าทเรยงกนยงชวยท าใหเหนโครงสรางทางวากยสมพนธอกดวย ดงเชนตวอยางทกลาวไปแลวขางตน

ในเบองตน ผวจยไดท าการทดสอบแบบจ าลองโดยใชลกษณหมวดค าเพยงลกษณเดยวกอน ผลจากการทดสอบ พบวาสามารถระบค าขอบเขตเรมตน EDU ไดมากกวาครงหนงของ EDU ทงหมดในคลงขอมลทดสอบ EDU สวนใหญทแบบจ าลองระบขอบเขตเรมตนไดถกตองจะเปน EDU ทน าหนาดวยค าบงช ไดแก ค าเชอมและตวน าสวนเตมเตม ความผดพลาดทเกดขนสวนใหญเกดจาก

Page 83: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

71

การไมสามารถระบขอบเขตอนพากยทมชองวางปรากฏดานหนาและไมมค าบงชอนพากยขนตน เชน “$_ซงเปนผชวยแมบาน<s>$_จอรจเลาเรองนใหมชโยะฟง” ประกอบไปดวยขอบเขตเรมตน EDU 2 แหง คอตรงค าวา “ซง” และ “จอรจ” เครองหมาย <s> แสดงการใชชองวาง และเครองหมาย $_ แสดงขอบเขตเรมตน EDU ในขอความน แบบจ าลองไมสามารถระบค าขอบเขตเรมตน EDU ท 2 ได ดงนนจงเปน “$_ซงเปนผชวยแมบาน<s>จอรจเลาเรองนใหมชโยะฟง” ทงนเกดจากการทแบบจ าลองมองเหนเพยงหมวดค าของค าของทก าลงพจารณาเทานน ไมไดพจารณาหมวดค ารอบขาง ท าใหแบบจ าลองไมสามารถตดสนใจไดในกรณทเปน token ขอบเขตเรมตน EDU ทมชองวางดานหนาได จากตวอยางดงกลาวจงเหนไดวา แบบจ าลองไมสามารถระบใหค า “จอรจ” เปนค าขอบเขตเรมตน EDU ใหมได เพราะแบบจ าลองไมไดสนใจวา “จอรจ” ปรากฏตดกบชองวางดานหนาหรอไม

นอกจากนแบบจ าลองยงไมสามารถระบค าขอบเขตเรมตน EDU ทไมมค าบงชน าหนา และเปน EDU ทตดกบ EDU กอนหนาโดยไมมชองวางคน เชน “$_ส านกทางจรยธรรมบางอยาง$_ทเคยมมาเมอกอนสมยใหมในญปนนน$_จางหายไป” มทงหมด 3 EDU แตแบบจ าลองระบขอบเขตเรมตนไดเพยง 2 แหงเทานน คอ “$_ส านกทางจรยธรรมบางอยาง$_ทเคยมมาเมอกอนสมยใหมในญปนนนจางหายไป”

ส าหรบ EDU ทขนตนดวยเครองหมายวงเลบเปด พบวา การใช POS ของ 3 ค า สามารถระบวงเลบเปดเหลานใหเปนขอบเขตเรมตน EDU ไดเปนจ านวนมาก แตส าหรบค าในต าแหนงหลงวงเลบปด ซงควรจะตองไดรบการระบใหเปนขอบเขตเรมตน EDU ดวย แบบจ าลองกลบไมสามารถตดสนใจไดถกตอง ดงนนควรตองมการใชลกษณอนชวยเพอแกปญหาตรงน ในงานน ผวจยจงมการใชลกษณเครองหมายวรรคตอนในการแกปญหาน ซงจะไดกลาวถงตอไปในเรองของลกษณเครองหมายวรรคตอน

อกประเดนคอค าเชอมทมลกษณะเปนวลซงจะถกแยกออกเปนหลาย token เชน “แตเมอ” ถกแยกเปน แต|เมอ และแตละ token กจะม POS ประจ าค า ในทน “แต” ถกก ากบใหเปนค าเชอม CCOR และ “เมอ” ก ากบใหเปนค าเชอม CSUB แบบจ าลองจะมองวาทง 2 ค านสามารถเปนขอบเขตเรมตน EDU ได จงระบทงคเปนค าขอบเขตเรมตน เชน “$_แตเมอปรบตวโดยปราศจากฐานคด” มจดเรมตน EDU ตรงค าวา “แต” เพยงแหงเดยว แตแบบจ าลองระบขอบเขตเรมตน EDU ถง 2 แหงดวยกน คอ “$_แต$_เมอปรบตวโดยปราศจากฐานคด”

ทงหมดนคอปญหาของการใหแบบจ าลองมอง POS ประจ าค าเพยงอยางเดยวโดยไมอาศยบรบทรอบขาง ท าใหแบบจ าลองตดสนใจโดยดความเปนไปไดของขอมลทฝกฝนทงหมด ซงจะพบวาค าบงชตาง ๆ มกเปนขอบเขตเรมตน EDU เสมอ ดงนนทกครงทแบบจ าลองพบค าบงชกจะระบให

Page 84: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

72

เปนขอบเขตเรมตน EDU และถาค าไหนไมใชค าบงช กจะตดสนใจไมใหค านนเปนขอบเขตเรมตน EDU

ทงน ความผดพลาดเรองค าเชอมทมเปนรปแบบวลและม POS เปน CCOR และ CSUB ไดรบการแกไขเมอใชลกษณหมวดค าของ 3 token ไดแก ค าปจจบน ค ากอนหนา และค าทตามหลง ซงเมอทดสอบแบบจ าลอง พบวาแบบจ าลองจะระบขอบเขต EDU ใหกบ token แรกของค าเชอมทเปนวลเทานน เชน จากตวอยางเดม “$_แตเมอปรบตวโดยปราศจากฐานคด” แบบจ าลองระบขอบเขต EDU ตรงค าวา “แต” เทานน สวนค าเชอมเดนซงจะม POS เปน ADVERB นน แบบจ าลองยงไมสามารถตดสนใจไดถกตอง ตวอยางจากคลงขอมล แสดงการเปรยบเทยบการใช POS ของ 3 ค า และการใช POS เดยว เปนดงน

ขอบเขตเรมตน EDU ทถกตอง ใช POS ของ 3 token ใช POS เดยว (17) $_แตทงนภาครฐหรอภาคเอกชนจะตองใหการสนบสนน

$_แตทงนภาครฐหรอภาคเอกชนจะตองใหการสนบสนน

$_แต$_ทงนภาครฐหรอภาคเอกชนจะตองใหการสนบสนน

(18) $_และเมอเขารวมกจกรรมแลว

$_และเมอเขารวมกจกรรมแลว $_และ$_เมอเขารวมกจกรรมแลว

(19) ...ความสมพนธในแงตางๆ<s>$_เชน<s>ความสมพนธเชงอ านาจ<s>ตามชาตพนธ<s>ตามเพศ...

...ความสมพนธในแงตางๆ<s>เชน<s>ความสมพนธเชงอ านาจ<s>ตามชาตพนธ<s>ตามเพศ...

...ความสมพนธในแงตางๆ<s>เชน<s>ความสมพนธเชงอ านาจ<s>ตามชาตพนธ<s>ตามเพศ...

ตารางท 6.1 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณ POS ของ 3 ค า

จากตวอยาง 19 ขางตน จะเหนไดวา แมวาผลการทดสอบ POS ของค า 3 ค า จะท าใหสามารถระบค าขอบเขตเรมตน EDU ไดถกตองมากขน แตการใช POS ของ 3 ค าตดกนไมสามารถระบค าเรมตน EDU ทเปนค าเชอมเดน หรอ strong marker ได สาเหตนาจะเนองจากค าเชอมเดนถกก ากบหมวดค าเปน ADVERB นอกจากนปญหาค าเชอมอนพากยทเปนวลกยงไมสามารถขจดไดทงหมด อกทงยงไมไดชวยแกปญหาอนพากยทมชองวางปรากฏหนาและไมไดขนตนดวยค าบงช ดงนนการใชขอมล POS เพยงอยางเดยวไมสามารถท าใหแบบจ าลองระบขอบเขตเรมตน EDU ไดอยางมประสทธภาพสงสด

6.1.2 ค าเชอมหนาอนพากย

จากการส ารวจคลงขอมลซงประกอบไปดวย 8,102 EDU พบวา เฉพาะอนพากยทขนตนดวยอนสนธานและสนธานประสานรวมกนมจ านวน 2,349 EDU คดเปนเกอบ 30 เปอรเซนตของค า

Page 85: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

73

ขอบเขตเรมตน EDU ทงคลงขอมล ดงนนหากใชค าเชอมเหลานในการชวยระบขอบเขตเรมตน EDU กจะท าใหแบบจ าลองสามารถแยก EDU ไดจ านวนไมนอย ผวจยจงใชค าเชอมหนาอนพากยเปนลกษณทใชในการฝกฝนแบบจ าลอง โดยจดท ารายการค าเชอมแลวน าไปเทยบกบค าในคลงขอมล ดวยวธการเชนน สามารถขจดปญหาค าเชอมทเปนวลได อกทงยงสามารถจดการกบค าเชอมเดนทขนตน EDU เชนค าวา “ยกตวอยาง” “ตวอยางเชน” “เชน” ฯลฯ ไดอกดวย เพราะค าเชอมเดนถอวาเปนตวเชอมอนพากย จงอยในรายการค าเชอมทจดท าขนดวย

เมอทดสอบวาลกษณรายการค าเชอมชวยเพมประสทธภาพใหกบแบบจ าลองทใช POS ของ 3 ค าตดกนไดมากนอยเพยงใด กพบวาแบบจ าลองสามารถระบจ านวนค าขอบเขตเรมตน EDU ไดถกตองเพมขนประมาณ 3 เปอรเซนต ในจ านวนนสวนใหญพบวาเปนค าเชอมเดนทขนตน EDU ตอไปนเปนตวอยางจากคลงขอมล แสดงการเปรยบเทยบการระบค าขอบเขตเรมตน EDU ของแบบจ าลองทใชลกษณรายการค าเชอมและแบบจ าลองทไมไดใชรายการค าเชอม

ขอบเขตเรมตน EDU ทถกตอง POS 3 ค า และค าเชอม POS ของ 3 ค า (20) $_ทเปนคตรงกนขาม<s>$_เชน<s>สกกบดบ<s>วฒนธรรมกบธรรมชาต<s>เปนตน

$_ทเปนคตรงกนขาม<s>$_เชน<s>สกกบดบ<s>วฒนธรรมกบธรรมชาต<s>เปนตน

$_ทเปนคตรงกนขาม<s>เชน<s>สกกบดบ<s>วฒนธรรมกบธรรมชาต<s>เปนตน

(21) $_และยงเสนอใหเนนถงความส าคญของกระบวนการผสมผสานความคด<s>$_อาทเชน<s>กระบวนการสรางอตลกษณแบบลกผสม<s>และกระบวนการผสมผสานความรในสถานการณเฉพาะ

$_และยงเสนอใหเนนถงความส าคญของกระบวนการผสมผสานความคด<s>$_อาทเชน<s>กระบวนการสรางอตลกษณแบบลกผสม<s>และกระบวนการผสมผสานความรในสถานการณเฉพาะ

$_และยงเสนอใหเนนถงความส าคญของกระบวนการผสมผสานความคด<s>อาทเชน<s>กระบวนการสรางอตลกษณแบบลกผสม<s>และกระบวนการผสมผสานความรในสถานการณเฉพาะ

ตารางท 6.2 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณค าเชอม

จะเหนไดวาการใชรายการค าเชอมรวมกบหมวดค าของค า 3 ค า ท าใหค า “เชน” ในตวอยาง (20) และค า “อาทเชน” ในตวอยาง (21) สามารถระบใหเปนค าขอบเขตเรมตน EDU ไดถกตอง ในขณะทการใชหมวดค าของค า 3 ค าโดยไมมรายการค าเชอมไมสามารถท าได

6.1.3 ชองวาง

การใชชองวางในภาษาไทยมความนาสนใจเปนอยางยง เนองจากชองวางในภาษาเขยนภาษาไทยมหลายหนาท ทงน ผวจยเชอวาชองวางทท าหนาทคนระหวาง EDU มความเปนไปไดทจะปรากฏในบางบรบทเทานน นนคอ ชองวางแลวตามดวยหมวดค าบางประเภทมโอกาสทจะเปนตวคน

Page 86: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

74

EDU มากกวาเมอตามดวยบางหมวดค า กลาวคอ จากการศกษาคลงขอมล พบวาชองวางแลวตามดวยตวเลขหรอตามดวยค าภาษาตางประเทศมความเปนไปไดนอยทชองวางนนจะเปนตวคนอนพากย ในขณะทชองวางแลวตามดวยค าเชอมมความเปนไปไดสงมากทชองวางนนจะเปนตวคนอนพากย ดวยเหตนผวจยจงใชหมวดค าทปรากฏหลงชองวาง เพอใหแบบจ าลองใชประกอบการตดสนใจวาชองวางนนจะเปนตวคนอนพากยและท าใหค าทอยตดกบชองวางนนเปนขอบเขต EDU หรอไม

ผลการทดสอบแบบจ าลองทใชลกษณ POS ของ 3 ค าตดรวมกบลกษณชองวาง โดยปรบคาพารามเตอรของเคอรเนล D=1 พบวาการใชลกษณชองวางไมไดชวยเพมประสทธภาพการตดสนใจของแบบจ าลองได ค าทเปนขอบเขตเรมตน EDU และน าหนาดวยชองวางสวนใหญยงไมสามารถถกดงออกมาได ตวอยางการระบค าทเปนขอบเขตเรมตน EDU ทมชองวางขางหนาเมอเทยบกบการใช POS ของ 3 ค าตดกนเปนดงน

ขอบเขตเรมตน EDU ทถกตอง POS 3 ค า รวมกบ space POS ของ 3 ค า (22) $_ซงถอเปนเงอนไขหรอบรบทของเรองนน<s>$_ประกอบดวยบรบทของวฒนธรรม<s>บรบททางประวตศาสตร<s>บรบทของระบบนเวศ<s>และบรบททางสงคมของความสมพนธ

$_ซงถอเปนเงอนไขหรอบรบทของเรองนน<s>ประกอบดวยบรบทของวฒนธรรม<s>บรบททางประวตศาสตร<s>บรบทของระบบนเวศ<s>และบรบททางสงคมของความสมพนธ

$_ซงถอเปนเงอนไขหรอบรบทของเรองนน<s>ประกอบดวยบรบทของวฒนธรรม<s>บรบททางประวตศาสตร<s>บรบทของระบบนเวศ<s>และบรบททางสงคมของความสมพนธ

(23) $_จะตองเขาใจความหมายของคนชายชอบใหด<s>$_ไมใชมองแตเฉพาะความเปนชายขอบในแงภมศาสตร

$_จะตองเขาใจความหมายของคนชายชอบใหด<s>ไมใชมองแตเฉพาะความเปนชายขอบในแงภมศาสตร

$_จะตองเขาใจความหมายของคนชายชอบใหด<s>ไมใชมองแตเฉพาะความเปนชายขอบในแงภมศาสตร

ตารางท 6.3 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณชองวาง

จากตารางจะเหนวา ทง 2 ตวอยางมชองวางคนระหวาง EDU โดยตวอยางแรกเปนชองวางแลวตามดวยค ากรยา “ประกอบดวย” เปนค าเรมตนขอบเขต EDU และอกตวอยางเปนชองวางแลวตามดวยค าบอกปฏเสธ “ไม” เปนค าเรมตนขอบเขต EDU แบบจ าลองทใชลกษณชองวางไมสามารถระบจดทเปนขอบเขตเรมตน EDU ทมชองวางปรากฏอยดานหนาได เชนเดยวกนกบในกรณแบบจ าลองทใชเพยงลกษณ POS ของ 3 ค า

อยางไรกตาม เมอมการปรบคาพารามเตอรเคอรเนลใหมากกวา 1 พบวาลกษณชองวางชวยแบบจ าลองในการตดสนใจค าขอบเขตเรมตน EDU ทมชองวางน าหนาได ซงประเดนนจะกลาวถงตอไปในหวขอ 6.2 เรองประสทธภาพแบบจ าลองเมอปรบพารามเตอรเคอรเนลใหสงขน

Page 87: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

75

6.1.4 เครองหมายวรรคตอน

จากการใชลกษณเครองหมายวรรคตอน ผวจยก าหนดใหมองเฉพาะเครองหมายวงเลบเปดและวงเลบปดเทานน เนองจากเปนเครองหมายวงเลบสามารถชวยระบขอบเขตของ EDU ได ในงานน ก าหนดให token ทเปนวงเลบเปด และ token ทไมใชชองวางและอยถดจากเครองหมายวงเลบปดเปนขอบเขตเรมตน EDU การก าหนดลกษณนจงมลกษณะเปนกฎ ผวจยทดสอบประสทธภาพของลกษณเครองหมายวรรคตอนนโดยการใชผลการทดสอบชดของลกษณรปแบบท 2 นนคอประกอบไปดวย POS ของค า 3 ค า เปรยบเทยบกบผลการทดสอบชดลกษณรปแบบท 5 คอเปนการเพมลกษณเครองหมายวรรคตอนเขาไป พบวา คาความครบถวนและคา F-measure มคาเพมขนเมอใชลกษณรปแบบท 5 และเมอพจารณาผลลพธของการทดสอบ กพบวาคาทเพมขนมาน เกดจากการทแบบจ าลองสามารถระบใหค าทตามหลงวงเลบปดเปนค าขอบเขตเรมตน EDU ได โดยสรปแลว ลกษณนมบทบาทในการชวยแบบจ าลองใหสามารถตดสนใจค าขอบเขตเรมตน EDU ทอยต าแหนงหลงวงเลบปดได ตวอยางขอความในตารางตอไปน เปนการเปรยบเทยบผลการระบค าขอบเขตเรมตน EDU ระหวางการใช POS ของค า 3 ค า และการใชลกษณเครองหมายวรรคตอนรวมดวย

ขอบเขตเรมตน EDU ทถกตอง POS 3 ค า รวมกบ Punc POS ของ 3 ค า (24) $_ (Salary<s>man)<s> $_สามหรอพอบานมกจะใชเวลาสวนใหญอยในทท างาน

$_ (Salary<s>man)<s>$_สามหรอพอบานมกจะใชเวลาสวนใหญอยในทท างาน

$_ (Salary<s>man)<s>สามหรอพอบานมกจะใชเวลาสวนใหญอยในทท างาน

(25) ...สเอกรงค<s>$_ (Monochrome)<s>$_องคประกอบของภาพมเสนโคง...

...สเอกรงค<s>$_ (Monochrome)<s>$_องคประกอบของภาพมเสนโคง...

...สเอกรงค<s>$_ (Monochrome)<s>องคประกอบของภาพมเสนโคง...

ตารางท 6.4 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณเครองหมายวรรคตอน

6.1.5 การใชทกลกษณรวมกน

เมอใชลกษณตาง ๆ รวมกนทงหมด ไดแก หมวดค าปจจบน หมวดค ากอนหนา หมวดค าตามหลง รายการค าเชอม ชองวาง และเครองหมายวรรคตอน แลวน าไปฝกฝนแบบจ าลอง พบวาสามารถชวยเพมประสทธภาพของแบบจ าลองได กลาวคอ แบบจ าลองสามารถระบขอบเขตเรมตน EDU ทมค าเชอมอนพากยและตวน าสวนเตมเตมไดเกอบ 100 เปอรเซนต ความผดพลาดทพบ อยางแรกคอ ค าขอบเขตเรมตน EDU ทปรากฏตดกบอนพากยกอนหนาโดยไมมค าเชอมหรอชองวางคน ดงตวอยางขอความ 24 ความผดพลาดอกประการคอ ค าขอบเขตเรมตน EDU ทปรากฏหลงชองวาง ทงนเพราะลกษณชองวางไมมประสทธภาพในการชวยแบบจ าลองในการตดสนใจค าทอยหลงชองวาง ดงตวอยางขอความในตารางตอไปน

Page 88: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

76

การแบง EDU ทถกตอง ใชทกลกษณรวมกน ปญหาทพบ (26) $_หรอไมยดตดกรอบคดนน<s>$_คงจะตองปรบวธวทยาดวยเชนเดยวกน

$_หรอไมยดตดกรอบคดนน<s>คงจะตองปรบวธวทยาดวยเชนเดยวกน

ไมสามารถระบขอบเขตเรมตน EDU ทปรากฏหลงชองวางได

(27) $_ทเลยนแบบการบรโภคสนคาแบบชนชนกลาง$_จะสรปไดอยางไร

$_ทเลยนแบบการบรโภคสนคาแบบชนชนกลางจะสรปไดอยางไร

ไมสามารถระบขอบเขตเรมตน EDU ทปรากฏตดกนกบ EDU กอนหนาโดยไมมค าเชอมหรอชองวางคนได

ตารางท 6.5 ตวอยางขอความจากคลงขอมล แสดงผลการใชทกลกษณรวมกน

จากตวอยางขอความ 26 และ 27 สามารถมองไดวา ปญหาอาจไมไดเกดจากชองวางเพยงอยางเดยว แตอาจเกดจากค าทปรากฏหลงชองวาง นนกคอ ค าวา “คง” และ “จะ” ซงเปน AUX ตรงนอาจเปนสวนหนงทท าใหแบบจ าลองตดสนใจออกมาเปนเชนนน กลาวคอ หากพจารณาการปรากฏรวมกนของชองวางแลวตามดวย AUX ในคลงขอมล กพบวา มขอความอน ๆ ในคลงขอมลอกจ านวนหนงท AUX หลงชองวาง ไมไดเปนขอบเขตเรมตน EDU เหมอนในกรณตวอยาง 26 และ 27 ตวอยางจากคลงขอมล เชน “$_ส าหรบขนตอนทหก<s>จะเปนแนวทางการอธบาย” จะเหนไดวา ค าวา “จะ” ซงเปน AUX ไมใชค าขอบเขตเรมตน EDU จงเปนไปไดวา เหตผลทแบบจ าลองไมดง AUX ทตามหลง space ออกมาได จะเปนเพราะการปรากฏรวมของคนจ านวนมากจะไมใชขอบเขตเรมตน EDU

โดยสรปแลว หากตวจ าแนกซพพอรตเวกเตอรแมชชนตงคาพารามเตอรเคอรเนล D=1 แลว ลกษณทมประสทธภาพมากทสดคอลกษณหมวดค า ซงตองพจารณาหมวดค าขางเคยงดวย สวนลกษณอน ๆ ทน ามาใชประกอบกบลกษณหมวดค าสามารถชวยเพมประสทธภาพแบบจ าลองไดในระดบทแตกตางกนออกไป โดยทลกษณทมสวนชวยเพมความสามารถใหกบแบบจ าลองมากทสดคอลกษณเครองหมายวรรคตอน สวนลกษณรายการค าเชอมชวยเพมคาความครบถวนไดเลกนอย และลกษณชองวางไมชวยเพมประสทธภาพแบบจ าลองเลย ทงน ผลการทดสอบลกษณทกลาวมาทงหมดนเปนการทดสอบโดยตงคาพารามเตอรของเคอรเนลไวต าสด หากเพมคาพารามเตอรใหสงกวานกจะไดผลทดกวาน

6.2 ประสทธภาพของแบบจ าลองเมอปรบคาพารามเตอรของเคอรเนลใหสงขน

เนองจากซพพอรตเวกเตอรแมชชนมเคอรเนลฟงกชนทสามารถใชไดหลายตว ในงานน ผวจยใชเคอรเนลโพลโนเมยลฟงกชน ในขนแรก ผวจยท าการทดสอบแบบจ าลองโดยปรบคาพารามเตอรของเคอรเนลไวทต าสด คอ D=1 ซงเปนคา default ของโปรแกรมวกา จากนนผวจยไดปรบคาพารามเตอรนใหสงขนเปน D=2, D=3, และ D=4 พบวาคาพารามเตอรทสงขนสามารถเพม

Page 89: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

77

ประสทธภาพของแบบจ าลองได เมอดคลงขอมลทดสอบทผานการระบขอบเขตเรมตน EDU แลว พบวาการเพมขนของค าขอบเขตเรมตน EDU ทแบบจ าลองดงออกมา สวนใหญจะเปนค าทขนตนดวยชองวางและไมมค าเชอมอนพากย และอกจ านวนหนงเปนค าทไมไดขนตนดวยชองวางหรอค าเชอมอนพากยเลย

ผลของการการปรบคาพารามเตอรของเคอรเนลใหมากกวา 1 ท าใหแบบจ าลองสามารถระบค าขอบเขตเรมตน EDU ทน าหนาดวยชองวางแตไมมค าเชอมไดจ านวนหนง ผวจยพบวาหมวดค าทตามหลงชองวางทแบบจ าลองตดสนใจใหเปนค าขอบเขตเรมตน EDU ไดแก ค านาม ค ากรยา ค าปฏเสธ ค าบพบท ค าสรรพนาม และค านามชเฉพาะ

ขอบเขตเรมตน EDU ทถกตอง

ใชลกษณ POS รวมกบ space คาพารามเตอร D=1

ใชลกษณ POS รวมกบ space คาพารามเตอร D=3

(28) $_ซงสะทอนชวตความเปนอยของผหญงเหลานออกมาไดอยางชดเจนทสด<s>$_ภาพโสเภณ<s>หญงขายบรการ<s>และนกเตนเหลานถกบนทกไวนบรอยภาพ

$_ซงสะทอนชวตความเปนอยของผหญงเหลานออกมาไดอยางชดเจนทสด<s>ภาพโสเภณ<s>หญงขายบรการ<s>และนกเตนเหลานถกบนทกไวนบรอยภาพ

$_ซงสะทอนชวตความเปนอยของผหญงเหลานออกมาไดอยางชดเจนทสด<s>$_ภาพโสเภณ<s>หญงขายบรการ<s>และนกเตนเหลานถกบนทกไวนบรอยภาพ

(29) $_ทนาสนใจไมยงหยอนไปกวากน<s>$_บนปลายของชวต<s>คสแสททเกอบสญเสยการมองเหน

$_ทนาสนใจไมยงหยอนไปกวากน<s>บนปลายของชวต<s>คสแสททเกอบสญเสยการมองเหน

$_ทนาสนใจไมยงหยอนไปกวากน<s>$_บนปลายของชวต<s>คสแสททเกอบสญเสยการมองเหน

ตารางท 6.6 ตวอยางขอความจากคลงขอมล แสดงผลการใชลกษณชองวางเมอปรบคาพารามเตอรตางกน

ตวอยางจากคลงขอมล (28) และ (29) เปนการเปรยบเทยบผลการระบค าขอบเขตเรมตน EDU ของแบบจ าลองทฝกฝนดวย SVM ทมการตงคาพารามเตอรเคอรเนล D=1 และคาพารามเตอรทสงขน ในทนคอเปรยบเทยบกบพารามเตอร D=3 ซงจะเหนวา ค า “ภาพ” ในตวอยาง (28) และค า “บนปลาย” ในตวอยาง (29) ถกระบใหเปนค าขอบเขตเรมตน EDU ไดถกตองเมอปรบคาพารามเตอร D=3

อยางไรกตาม พบวามความผดพลาดของการตดสนใจระบค าขอบเขตเรมตน EDU ทมชองวางน าหนาอยพอสมควร ยกตวอยาง (30) พบวาตวจ าแนกทตงคาพารามเตอร D=3 สามารถระบค า “สตร” ใหเปนค าขอบเขตเรมตน EDU ได แตกลบไมสามารถระบค า “ประเภท” และ “มอง” ให

Page 90: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

78

เปนค าขอบเขตเรมตน EDU ได แมวาจะเปนค าทปรากฏหลงชองวางกตาม และในตวอยาง (31) การตงคาพารามเตอร D=3 กไมสามารถระบค า “ใช” ใหเปนค าขอบเขตเรมตน EDU ไดเชนกน

ขอบเขตเรมตน EDU ทถกตอง ใชลกษณ POS รวมกบ space

คาพารามเตอร D=3 (30) the basic important of the line<s>$_สตรในงานของโลเทรค<s>แบงอยางหยาบๆ<s>ไดเปนสองประเภท<s>$_ประเภทแรกมใบหนาแบบสภาพชน<s>$_มองโลกดานด

the basic important of the line<s>$_สตรในงานของโลเทรค<s>$_แบงอยางหยาบๆ<s>ไดเปนสองประเภท<s>ประเภทแรกมใบหนาแบบสภาพชน<s>มองโลกดานด

(31) $_ทหยาบกราน<s>$_ใชชวตในโลกของผชายทงสถานเรงรมยและส านกโสเภณ

$_ทหยาบกราน<s>ใชชวตในโลกของผชายทงสถานเรงรมยและส านกโสเภณ

ตารางท 6.7 ตวอยางขอความจากคลงขอมล แสดงความผดพลาดทเกดขนกบการใชลกษณชองวางเมอปรบคาพารามเตอร D=3

อยางไรกตาม ความสามารถทเพมขนของการดงค าขอบเขตเรมตน EDU ทไมใชค าเชอม และเปนค าทตามหลงชองวาง ชวนใหสงสยวา เปนผลอนเนองมาจากการใชลกษณใด เพราะหากดจากผลการทดสอบทเสนอไปในบทท 5 ทแสดงใหเหนวา การใชลกษณรปแบบท 2 ซงเปนการใช POS ของค า 3 ค า และลกษณรปแบบท 4 ซงเปนการใชลกษณชองวางรวมดวย ไดผลการทดสอบออกมาเหมอนกน ทงคาความแมนย า คาความครบถวน และคา F-measure ซงแสดงใหเหนวาลกษณชองวางไมไดชวยเพมประสทธภาพการตดสนใจของแบบจ าลองเลย ดงนนเมอมการปรบพารามเตอรใหสงขน ลกษณชองวางกไมนาจะมสวนชวยในการตดสนใจเชนกน

ในการไขขอสงสยน ผวจยจงไดท าการทดสอบแบบจ าลอง โดยใชชดของลกษณ 2 ชดเปรยบเทยบผลกน ชดแรกเปนการใชลกษณรวมกนทงหมด ซงผลการทดสอบกเปนตามทเสนอไวแลวในบทท 5 สวนลกษณอกชดหนงประกอบไปดวยลกษณทกลกษณเหมอนชดแรก ยกเวนลกษณชองวาง ท าการทดสอบ 10 ครงเชนเคย และมการปรบคาพารามเตอร D=1, D=2, D=3, และ D=4 ทงนจะเปรยบเทยบผลเพอดวา ความสามารถทเพมขนของแบบจ าลองทมการปรบคาพารามเตอรใหสงขน ทชใหเหนวาสามารถระบค าทตามหลงชองวางใหเปนค าขอบเขตเรมตน EDU ไดนน เกดจากการใชลกษณชองวางหรอลกษณอน ผลการทดสอบเปนดงตารางตอไปน

Page 91: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

79

D=1 D=2 D=3 D=4

ชด 1 ชด 2 ชด 1 ชด 2 ชด 1 ชด 2 ชด 1 ชด 2

P 98.03 98.03 91.97 91.56 91.67 91.62 91.97 91.82

R 69.68 69.68 77.55 76.88 78.84 78.54 78.69 78.54

F 81.17 81.17 83.97 83.4 84.7 84.49 84.74 84.57 ตารางท 6.8 ตวอยางขอความจากคลงขอมล เปรยบเทยบผลการทดสอบลกษณชดท 1 และ 2

จากตารางจะเหนวา หากปรบคาพารามเตอร D=1 ผลการทดสอบลกษณชด 1 และชด 2 ใหผลออกมาเหมอนกน ชใหเหนวาลกษณชองวางไมไดชวยเพมประสทธภาพการตดสนใจของแบบจ าลอง เมอปรบคาพารามเตอร D=2, D=3, และ D=4 จะเหนวาลกษณชดท 2 ไดคาความแมนย าทต าลง แตคาความครบถวนและคา F-measure เพมขนเลกนอย แสดงใหเหนวา การปรบคาพารามเตอร ท าใหเครองพยายามดงค าออกมามากขน ผลกคอ เกดขอผดพลาดมากขน คาความแมนย าจงลดลง ในขณะเดยวกน ค าทเปนขอบเขตเรมตน EDU กสามารถดงออกมาจากคลงขอมลไดเพมมากขน คาความครบถวนจงสงขน อยางไรกด ความสามารถทเพมขนอนเนองมาจากการใชลกษณชองวางน ถอวานอยมาก เพราะคา F-measure เพมขนไมถง 1 เปอรเซนต

ดงนนตอบของขอสงสยขางตนจงสามารถตอบไดวา ลกษณชองวางมสวนชวยเพมความสามารถในการระบค าขอบเขตเรมตน EDU จรง แตกนอยมาก จงอาจกลาวไดวา ลกษณชองวางมความโดดเดนชดเจนนอยกวาลกษณอน ๆ ซงอาจเปนเพราะขอมลของลกษณนเปนขอมลทซ าซอนกบขอมลของลกษณอน ๆ พอปรบคาพารามเตอรไวต า จงไมสงผลตอการตดสนใจแบบจ าลองเลย และเมอปรบคาพารามเตอรใหสงขน กสงผลตอการตดสนใจของแบบจ าลองไดเพยงเลกนอยเทานน และหากลกษณชองวางมบทบาทนอยมากตอการเพมประสทธภาพแบบจ าลองแลว แสดงวาการเพมขนของประสทธภาพของแบบจ าลองเมอมการปรบคาพารามเตอรสงขนนน เปนผลมาจากลกษณตาง ๆ มากกวาลกษณชองวาง

อกประเดนหนงทยงเปนปญหาอย แมจะปรบคาพารามเตอรใหสงขนแลวกตาม กคอปญหาของค าเรมตนขอบเขต EDU ทไมมชองวางและค าเชอมใด ๆ ปรากฏขางหนา กลาวคอแบบจ าลองไมสามารถจดการกบค าเหลานและระบใหเปนค าขอบเขตเรมตน EDU ไดเลย ดงนนจงนาจะเปนเพราะไมมลกษณใดทใชในการฝกฝนแบบจ าลองทจะชวยในการตดสนใจค าขอบเขตเรมตน EDU ในบรบทเชนน

Page 92: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

80

บทท 7

สรปผลการศกษา ปญหา และขอเสนอแนะ

ในบทท 3 ถงบทท 6 ไดกลาวไปแลวถงกระบวนการตาง ๆ ในการแบงอนพากยภาษาไทย ซงถอเปนหนวยทเลกทสดส าหรบการศกษาโครงสรางปรจเฉท ดวยตวจ าแนกประเภทซพพอรตเวกเตอรแมชชน ตงแตขนตอนการสรางคลงขอมล การก ากบคลงขอมล ไปจนถงการรายงานผลการทดสอบแบบจ าลองและการอภปรายลกษณทางภาษาทใชในการด าเนนการทดสอบดวย ในบทน ผวจยจะไดสรปผลการศกษาโดยภาพรวมอกครง และอภปรายปญหาทพบในการศกษาครงน พรอมทงเสนอขอเสนอแนะส าหรบการศกษาการแบงอนพากยภาษาไทยดวยเครองเพอเปนประโยชนตองานทางดานการประมวลผลภาษาธรรมชาต

7.1 สรปผลการศกษา

การแบงอนพากยภาษาไทยดวยเครองสามารถมองวาเปนการจ าแนกประเภทอยางหนงได กลาวคอ เมอใหเครองรบขอมลเขาทละค า เครองมหนาทตดสนใจหรอแยกประเภทวา ค าทพจารณาอยนนเปนขอบเขตอนพากยภาษาไทยหรอไม ซงในทน ผวจยใหเครองระบขอบเขตเรมตนของอนพากยเทานน เนองจากสามารถมองไดวา ค าสดทายกอนทจะเปนค าเรมตนขอบเขตอนพากยใหม กคอค าขอบเขตทายอนพากยนนเอง ในการศกษาน ผวจยใชฟงกชน SMO ของโปรแกรมวกาในการสรางตวจ าแนกประเภทซพพอรตเวกเตอรแมชชนเพอระบขอบเขตเรมตนอนพากย ตวฟงกชน SMO นท าใหงายตอการเตรยมไฟลขอมลทจะใชในการฝกฝนและทดสอบ เพราะ SMO สามารถอานลกษณทใชฝกฝน หรอ feature ไดหลายรปแบบ ไดแก คาตวเลข, ขอความ, และขอมลแบบแบงกลม

ลกษณทใชในการฝกฝนแบบจ าลองเปนลกษณทางภาษา ไดแก หมวดค าปจจบน หมวดค ากอนหนา หมวดค าตามหลง รายการค าเชอม ชองวางทเปนตวแบงอนพากย และเครองหมายวรรคตอนทมกปรากฏหนาหรอทายอนพากย ทงนผวจยไดท าการทดสอบเพอเปรยบเทยบประสทธภาพการท างานของลกษณแตละตว โดยการท าการทดสอบลกษณรปแบบตาง ๆ ทงหมด 6 รปแบบ คอ

รปแบบท 1 ใชลกษณหมวดค าของค าปจจบนเพยงลกษณเดยว รปแบบท 2 ใชลกษณหมวดค าปจจบน หมวดค ากอนหนา และหมวดค าทตามหลง รปแบบท 3 ใชรายการค าเชอมรวมกบลกษณหมวดค าปจจบน หมวดค ากอนหนา และหมวดค าทตามหลง รปแบบท 4 ใชความนาจะเปนของชองวางทเปนตวคน EDU รวมกบลกษณหมวดค าปจจบน หมวดค ากอนหนา และหมวดค าทตามหลง รปแบบท 5 ใชเครองหมายวรรคตอนทมกเปนของเขต EDU รวมกบลกษณหมวดค าปจจบน หมวด

Page 93: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

81

ค ากอนหนา และหมวดค าทตามหลง รปแบบท 6 ใชลกษณหมวดค าปจจบน หมวดค ากอนหนา หมวดค าทตามหลง รายการค าเชอม ลกษณชองวาง และลกษณเครองหมายวรรคตอน

จากการทดสอบ พบวาการใชลกษณรปแบบท 1 หรอการใชหมวดค าปจจบนเพยงลกษณเดยวไมสามารถท าใหแบบจ าลองระบค าขอบเขตเรมตน EDU ไดมากนก ค าขอบเขตเรม EDU สวนใหญทแบบจ าลองดงออกมากมกจะเปนพวกค าบงช ไดแก ค าเชอมอนพากย และตวน าสวนเตมเตม สวนค าขอบเขตเรมตน EDU ทไมไดขนตนดวยค าบงชกไมถกดงออกมา ทงนเนองจากการใชเพยงลกษณเดยวเชนนเปนการใหขอมลแกตวจ าแนกประเภทนอยเกนไป ท าใหแบบจ าลองไมสามารถตดสนใจนอกเหนอไปจากขอมลทมในลกษณ

การใชลกษณรปแบบท 2 หรอการใชหมวดค าปจจบน หมวดค ากอนหนา และหมวดค าทตามหลงในการฝกฝนแบบจ าลอง พบวาใหผลทดยงขน สามารถดงค าขอบเขตเรมตน EDU ไดถกตอง คดเปน 60 กวาเปอรเซนตของค าขอบเขตเรมตน EDU ทงหมดในคลงทดสอบ และวดคา F-measure เฉลยไดเกน 75 เปอรเซนต

จากผลการทดสอบลกษณรปแบบท 2 ผวจยเหนวาค าขอบเขตเรมตน EDU ทไมสามารถดงออกมาได สวนใหญจะเปนค าทขนตนดวยค าเชอมทเปนวล ค าทไมมค าบงชน าหนา และค าทมชองวางปรากฏดานหนา ดงนนจงใชหมวดค าปจจบน หมวดค ากอนหนาและตามหลง รวมกบลกษณอน ๆ ทคาดวาจะมสวนชวยในการระบขอบเขตเรมตน EDU ไดแก ลกษณรายการค าเชอม ลกษณชองวาง และลกษณเครองหมายวรรคตอน และเพอใหทราบวาลกษณตาง ๆ เหลานสามารถเพมความสามารถใหกบแบบจ าลองไดในระดบทมากนอยตางกนอยางไรบาง จงไดท าการทดสอบรปแบบลกษณท 3, 4 และ 5

จากการทดสอบแบบจ าลองทฝกฝนดวยลกษณรปแบบท 3, 4 และ 5 พบวาการใชลกษณรปแบบท 4 ซงเปนการใชหมวดค าปจจบน หมวดค ากอนหนาและตามหลง รวมกบลกษณชองวาง ไมสามารถท าใหแบบจ าลองระบค าขอบเขตเรมตน EDU ไดเพมมากขนจากเดมเลย ทงนเพราะขอมลของลกษณชองวางซ าซอนกบขอมลลกษณหมวดค าไปแลว เมอไมมขอมลใหม แบบจ าลองจงไมสามารถดงค าทถกตองออกมาไดมากขน สวนการใชลกษณรปแบบท 3 และ 5 ท าใหแบบจ าลองสามารถระบค าขอบเขตเรมตน EDU ไดจ านวนเพมมากขน

การใชลกษณรปแบบท 6 เปนการใชทกลกษณรวมกน เมอปรบคาพารามเตอรตวจ าแนกประเภทอยางต าทสด พบวาสามารถดงค าขอบเขตเรมตน EDU จากคลงขอมลไดถกตองเกอบ 70 เปอรเซนต สวนค าขอบเขตเรมตน EDU ทเหลออกประมาณ 30 เปอรเซนตทแบบจ าลองไมสามารถ

Page 94: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

82

ดงออกมาได ไดแก ค าทปรากฏตามหลงชองวาง และค าขอบเขตเรมตนอนพากยทไมมทงชองวางและค าบงชน าหนา

อยางไรกตาม ความผดพลาดเรองค าขอบเขตเรมตน EDU ทปรากฏหลงชองวางไดรบการแกไขเมอมการปรบพารามเตอรของเคอรเนลใหสงขน กลาวคอ เมอปรบคาพารามเตอรเคอรเนล D=3 พบวาแบบจ าลองสามารถดงค าขอบเขตเรมตน EDU จากคลงทดสอบไดถกตองคดเปน 78.5 เปอรเซนต ในจ านวนค าขอบเขตเรมตน EDU ทเพมขนมาน สวนใหญเปนค าทปรากฏหลงชองวางทงสน

แมการปรบคาพารามเตอรใหสงขนจะมสวนชวยเพมประสทธภาพของแบบจ าลองในการระบค าขอบเขตเรมตน EDU ได ผวจยพบวา กยงมความผดพลาดเกยวกบความก ากวมของชองวางอยไมนอย นนคอแบบจ าลองไมสามารถตดสนใจไดอยางถกตองในกรณค าขอบเขตเรมตน EDU ทปรากฏหลงชองวาง อกความผดพลาดหนงทพบและไมสามารถแกไดดวยการปรบคาพารามเตอรกคอปญหา EDU ทปรากฏตดกนโดยไมมทงชองวางและค าเชอมคน

7.2 ปญหาทพบในการศกษา

ผวจยพบวามลกษณะบางประการของภาษาไทยทท าใหเปนปญหาตอการระบขอบเขตเรมตน EDU ปญหาทใหญทสดของการศกษาครงน คอปญหาการใชชองวาง ผวจยพบวา เกอบครงหนงของชองวางทปรากฏในขอเขยน เปนชองวางทคนระหวางอนพากย ทเหลอจะเปนชองวางทท าหนาทอน ๆ เชน คนระหวางค านามทอยในชดเดยวกน คนระหวางตวเลขกบตวอกษร คนระหวางตวอกษรภาษาไทยกบตวอกษรภาษาตางประเทศ คนระหวางเครองหมายวรรคตอนและตวอกษร เปนตน ในการศกษาครงน สามารถจดการกบความก ากวมของชองวางทปรากฏทงหมดไดประมาณ 60-65 เปอรเซนต ในจ านวนนไดแกชองวางทตามดวยค าบงชและชองวางทตามดวยหมวดค าบางประเภท สวนเกอบ 40 เปอรเซนตทเหลอเปนชองวางทเปนตวคนอนพากยแตแบบจ าลองไมสามารถตดสนใจได

อกประเดนทเปนปญหาเชนกน กคอปญหาการละค าบงชอนพากย ในกรณทอนพากยไมไดขนตนดวยค าบงช แบบจ าลองอาจจะไปพจารณาลกษณชองวางรวมดวย เพอดวาค านนปรากฏหลงชองวางทมความเปนไปไดทจะเปนตวคนอนพากยหรอไม แตหากไมมชองวางปรากฏหนาขอบเขตเรมตนอนพากยเลย บวกกบไมมค าบงชอนพากยดวย เชนนแลวแบบจ าลองจะไมสามารถตดสนใจไดเลยวาจดไหนเปนขอบเขตเรมตนอนพากย ในการศกษาครงนพบวาปญหาเรองความก ากวมของชองวางและการละค าบงชอนพากย ท าใหมค าขอบเขตเรมตน EDU ทแบบจ าลองไมสามารถดงออกมาไดประมาณ 20 เปอรเซนตของค าขอบเขตเรมตนทงหมดในคลงทดสอบ

Page 95: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

83

นอกจากนยงมปญหาเกยวกบลกษณทใชในการฝกฝนแบบจ าลอง การก าหนดลกษณทเหมาะสมมผลอยางมากตอการตดสนใจของแบบจ าลอง จากผลการทดสอบการใชลกษณทางภาษาทไดเสนอไป กพบวา การตดสนใจของแบบจ าลองเปนผลอนเนองมาจากการใชลกษณหมวดค าเปนหลก สวนลกษณอน ๆ ทใช กใหขอมลทความซ าซอนกบลกษณหมวดค า ท าใหชวยเพมความสามารถในการตดสนใจของแบบจ าลองไดไมมากนก

7.3 ขอเสนอแนะ

จากผลการศกษา จะพบวาปญหาหลกทเกดจากลกษณะทางภาษาจะเปนเรองความก ากวมของชองวาง แตลกษณทใชในการจดการกบปญหาของงานวจยนเปนเพยงการใหขอมลวาชองวางทปรากฏตดกบหมวดค าใดมโอกาสสงทจะเปนตวคนอนพากย เชน ชองวางแลวตามดวยค ากรยา หรอตามดวยค าสรรพนาม เปนตน และมการก าหนดคาของลกษณเปนแบบสองคา คอ Y และ N โดยพจารณาความเปนไปไดทค าตามหลงชองวางจะเปนค าขอบเขตเรมตน EDU แตในความเปนจรง แมชองวางจะตามดวยค าบางประเภททมโอกาสเปนค าขอบเขตเรมตน EDU แตไมไดหมายความวา ค า ๆ นนทปรากฏรวมกบชองวางจะเปนค าขอบเขตเรมตน EDU เสมอไป เชน ชองวางแลวตามดวยค ากรยา กไมจ าเปนวาค ากรยานนจะเปนค าขอบเขตเรมตน EDU ดงนนหากเพมจ านวนหมวดค าทปรากฏรวมกบชองวางใหมากขนกจะท าใหเหนรปแบบของการปรากฏรวมทแคบลง ซงอาจชวยจดการกบความก ากวมชองวางทเปนตวคนอนพากยได

จากการส ารวจคลงขอมล พบวาชองวางเกน 50 เปอรเซนตท าหนาทแยกอนพากยออกจากกน การปรากฏของชองวางจงนาจะยงสามารถใชก าหนดเปนลกษณในการฝกฝนแบบจ าลองได นอกจากการดวาค าประเภทไหนทปรากฏรวมกบชองวางทแยกอนพากยแลว อาจจะใชวธนบค าจากค าหนงไปยงชองวางทใกลสด เพอใชระยะหางระหวาง 2 จดนเปนขอมลใหเครองตดสนใจวา ชองวางนนเปนชองวางแยกอนพากยหรอไม และหากชองวางนนเปนตวแยกอนพากย ค าทปรากฏตดกบชองวางนนกจะเปนขอบเขตอนพากย

เมอพจารณาการใชลกษณเครองหมายวรรคตอนในงานน จะพบวามลกษณะเปนการก าหนดกฎตายตววาจะใหเครองมองเฉพาะเครองหมายวงเลบ ดงนนหากเปลยนรปแบบการใชลกษณนเปนการใชเครองหมายวรรคตอนตามรป คอก าหนดคาของลกษณตามรปเลย ดงนนแทนทจะใหเครองมองวาเครองหมายวรรคตอนทกประเภทเปน PUNC เหมอนกนหมด กใหเครองมองวาเครองหมายวรรคตอนแตละตวแตกตางกนออกไปตามรปทปรากฏแทน ซงเครองหมายวรรคตอนแตละตวกจะมบทบาทชวยระบขอบเขตอนพากยแตกตางกนออกไป ดงนนเครองนาจะสามารถใชขอมลนในการตดสนใจหาขอบเขตอนพากยได

Page 96: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

84

อกประเดนคอเรองของชดของหมวดค าทใชก ากบคลงขอมล เนองจากงานนใชขอมลจากหมวดค ามบทบาทส าคญมากในการฝกฝนแบบจ าลอง การก าหนดชดหมวดค าใหเหมาะสมจงเปนสงทตองพจารณาใหดยงขน เชน ในงานนจะพบวา ไมวาจะก ากบหมวดค า CCOR (Coordinating conjunction) และ CSUB (Subordinating conjunction) แทบไมมบทบาททตางกนเลย เพราะทงคตางกเปนค าเชอมอนพากย นอกจากนค าเชอมเดนทมหมวดค าเปน ADVERB หรอกรยาวเศษณกถอวาเปนค าเชอมระดบอนพากยเชนกน ดงนนอาจจะรวมทง 3 หมวดค านเขาดวยกนเปนหมวดค าค าเชอมกได เพอทจะไดไมตองใชลกษณรายการค าเชอมอก

นอกจากน หากไมนบอนภาคทาย (Final particle) ทผวจยไดก ากบหมวดค าเปน PT แลว อาจส ารวจคลงขอมลเพอดค าทมกจะลงทายอนพากยและไมไดก ากบหมวดค า PT แลวดวาค าเหลานนมความนาจะเปนทจะปรากฏทายอนพากยมากกวาปรากฏในต าแหนงอน ๆ ในอนพากยหรอไม หากมสดสวนการปรากฏททายอนพากยมากกวา กอาจจะจดท ารายการค าเหลานแลวน าไปเทยบกบค าในคลงขอมล เพอใหตวจ าแนกประเภทพจารณาค าเหลานในฐานะเปนขอบเขตทายอนพากย ซงจะสงผลใหค าทอยถดไปขางหลงมโอกาสเปนค าขอบเขตเรมตน EDU ได ทงน จากการส ารวจคลงขอมลทใชในการศกษาน ผวจยพบค าทไมไดก ากบหมวดค า PT และลงทายอนพากยจ านวนไมมากนก และสวนใหญมการปรากฏแบบกระจาย คอสามารถปรากฏไดหลายต าแหนง ดงนนจงไมไดใชประโยชนจากค าทมกจะลงทายอนพากยในงานน แตเปนไปไดวา หากขยายคลงขอมลใหใหญยงขน อาจจะเหนความนาจะเปนทค าบางค ามกจะลงทายอนพากย

Page 97: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

รายการอางอง

Al-Saleem, S. M. (2010). "Associative Classification to Categorize Arabic Data Sets " The International Journal of CM Jordan (ISSN 2078-7952) 1(3).

Antony, P. J., et al. (2010). SVM Based Part of Speech Tagger for Malayalam. International

Conference on Recent Trends in Information, Telecommunication and Computing (ITC).

Aroonmanakun, W. (2007). Thoughts on Word and Sentence Segmentation in Thai. The

Seventh International Symposium on Natural Language Processing. Basu, A., et al. (2003). Support Vector Machines for Text Categorization. The 36th Annual

Hawaii International Conference. Borji, A. and M. Hamidi (2007). Support Vector Machine for Persian Font Recognition.

World Academyof Science, Engineering and Technology 28. Buscaldi, D., et al. (2006). Verb Sense Disambiguation Using Support Vector Machines:

Impact of WordNet-Extracted Features. International Conference on Intelligent Text Processing and Computational Linguistics (CICLing 2006).

Butler, C. S. ( 2003). Structure and Function: A Guide to Three Major Structural

Functional Theories. Part 1: Approaches to the Simplex Clause. Part 2: From Clause to Discourse and Beyond. Amsterdam and Philadelphia: John Benjamins.

Carlson, L. and D. Marcu (2001). Discourse Tagging Reference Manual. ISI Technical

Report, ISI-TR-545. Charoensuk, J. (2005). Thai Elementary Discourse Unit Segmentation by Discourse

Segmentation Cues and Syntactic Information, Kasetsart University, Bangkok. Dik, S. C. ( 1997). The Theory of Functional Grammar,Part 1: The Structure of the Clause

(2 nd ed.). Berlin: Mouton de Gruyter.

Page 98: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

86

DTREG. "SVM-Support Vector Machines: Introduction to Support Vector Machine (SVM) Models." 2012, from http://www.dtreg.com/svm.htm.

Ekbal, A. and S. Bandyopadhyay (2008). Named Entity Recognition using Support Vector

Machine: A Language Independent Approach. International Journal of Computer, Systems Sciences and Engg (IJCSSE).

Foley, W. A. and O. Mike (1985). Clausehood and verb serialization. Grammar Inside and

Outside the Clause: Some Approaches to Theory from the Field. J. a. A. C. W. Nichols. Cambridge, Cambridge University Press: 17-60.

Foley, W. A. and R. D. VanValin, Jr. (1984). Functional syntax and universal grammar,

Cambridge: Cambridge University Press. Ganapathiraju, A. (2002). Support Vector Machines for Speech Recognition. (Ph. D

dissertation), Mississippi State University, Mississippi. Giménez, J. and L. Márquez (2003). Fast and Accurate Part-of-Speech Tagging: The SVM

Approach Revisited. The International Conference RANLP – 2003. Halliday, M. A. K. (1994). An introduction to functional grammar (2nd ed.). London:

Edward Arnold. Hernault, H., et al. (2010). "A Discourse Parser Using Support Vector Machine

Classification." Dialogue and Discourse, 1(3): 1–33. Ivanciuc, O. (2005). "SVM-Support Vector Machines OPTimum Separation Hyperplane."

from http://www.support-vector-machines.org/SVM_osh.html. Iwasaki, S. and I. P. Horie (2005). A Reference Grammar of Thai. Cambridge, UK,

Cambridge University Press. Jenks, P. (2006). Control in Thai. Variation in control structures. S. D. University of

California. University of California, San Diego.

Page 99: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

87

Joachims, T. (1998). Text Categorization with Support Vector Machines: Learning with Many Relevant Features. The European Conference on Machine Learning (ECML).

Joshi, A., et al. (2006). Discourse Annotation: Discourse Connectives and Discourse

Relations. In: Tutorial at COLING/ACL. Ketui, N., et al. (2012). A Rule-Based Method for Thai Elementary Discourse Unit

Segmentation (TED-Seg). The 2012 Seventh International Conference on Knowledge, Information and Creativity Support Systems (KICSS 2012).

Lee, Y. K., et al. (2004). Supervised Word Sense Disambiguation with Support Vector

Machines and multiple knowledge sources. Senseval-3. Lemnitzer, L. (2006). "Sentence Segmentation." from http://www.cl.uni-

heidelberg.de/courses/archiv/ss06/textech/slidesSentSeg.pdf. Liberati, C., et al. (2009). "Data AdaPTive Simultaneous Parameter and Kernel Selection

in Kernel Discriminant Analysis (KDA) Using Information Complexity." Journal of Pattern Recognition Research 1: 119-132.

Mann, W. C. and M. Taboada (2005). "Intro to RST.". from

http://www.sfu.ca/rst/01intro/intro.html. Mann, W. C. and S. Thompson (1988). "Rhetorical Structure Theory: Toward a Functional

Theory of Text Organization." Text8(3): 243-281. Molina, A. and F. Pla (2001). Clause DETection using HMM. The 5th Conference on

Computational Natural Language Learning (CoNLL-2001), Toulouse, France. Nguyen, H., et al. (2004). Combined Kernel Function for Support Vector Machine and

Learning Method Based on Evolutionary Algorithm. ICONIP 2004, Calcutta, India. Platt, J. (1998). Fast Training of Support Vector Machines using Sequential Minimal

OPTimization. Advances in Kernel Methods - Support Vector Learning. B. Schoelkopf, B. C. and S. A., The MIT Press.

Page 100: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

88

Poel, M., et al. (2007). A Support Vector Machine Approach to Dutch Part-of-Speech Tagging. the 7th International Symposium on Intelligent Data Analysis.

Polanyi, L. (1988). "A formal Model of the Structure of Discourse." Journal of Pragmatics

12: 601–638. Pongsutthi, M., et al. (2013). Thai Serial Verb Constructions: A Corpus Based Study. SNLP

2013. Pradhan, S., et al. (2004). Shallow Semantic Parsing Using Support Vector Machines. HLT-

NAACL, Boston. Ruangjaroon, S. (2005). The syntax of WH-expressions as variables in Thai. Vancouver,

University of British Columbia. Sinthupoun, S. (2009). Thai Rhetorical Structure Analysis. (PhD dissertation). National

Institute of Development Administration, Bangkok. Sornlertlamvanich, V., et al. (1997). ORCHID: Thai part-of-speech tagged corpus. , In

Technical report Orchid corpus: 5-19. Sporleder, C. and M. Lapata (2005). Discourse Chunking and its Application to Sentence

Compression. The Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing.

Subba, R. and B. Di Eugenio (2007). Automatic Discourse Segmentation Using Neural

Networks. The 11th Workshop on the Semantics and Pragmatics of Dialogue. Takahashi, K. (2009). "Basic Serial Verb Constructions in Thai." Journal of the Southeast

Asian Linguis-tics Society 1. Thepkanjana, K. (1986). Serial Verb Constructions in Thai, University of Michigan. Tofiloski, M., et al. (2009). A Syntactic and Lexical-based Discourse Segmenter. The ACL-

IJCNLP 2009 Conference Short Papers Association for Computational Linguistics.

Page 101: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

89

Van der Vliet, N. (2010). Syntax-based Discourse Segmentation of Dutch Text. The 15th Student Session, ESSLLI.

Vijay Sundar Ram, R., et al. (2009). Tamil Clause Identifier. The 3rd National Conference

on Recent Advances and Future Trends in IT-2009(RAFIT2009) Witten, I. H. and E. Frank (2005). Data Mining: Practical Machine Learning Tools and

Techniques San Francisco, Morgan Kaufmann. Xu, Y. and F. Zhang (2006). "Using SVM to construct a Chinese dependency parser."

Journal of Zhejiang University-Science A (7)2: 199-203. Yaowapat, N. and A. Prasithrathsint (2006). Reduced relative clauses in Thai and

Vietnamese. Paper presented at The Sixteenth Annual Meeting of the Southeast Asian Linguistics Society (SEALS XVI), Jakarta, Indonesia, SePTember 20-21, 2006.

ก าชย ทองหลอ (2515). หลกภาษาไทย. กรงเทพมหานคร, รวมสาสน. เทพ จรสจรงเกยรต (2543). หนวยเชอมโยงปรจเฉทภาษาไทยตงแตสมยสโขทยจนถงปจจบน,

จฬาลงกรณมหาวทยาลย. นววรรณ พนธเมธา (2527). ไวยากรณไทย. กรงเทพมหานคร, รงเรองสาสน. นฐวฒ ไชยเจรญ (2544). การตดค าและการก ากบหมวดค าภาษาไทยแบบเบดเสรจดวยคอมพวเตอร,

จฬาลงกรณมหาวทยาลย. นเวศ จระวชตชย, et al. (2553). "การพฒนาประสทธภาพการจดหมวดหมเอกสารภาษาไทยแบบ

อตโนมต." วารสารพฒนบรหารศาสตร. สถาบนบณฑตพฒนบรหารศาสตร. บรรจบ พนธเมธา (2514). ลกษณะภาษาไทย. กรงเทพมหานคร, มหาวทยาลยรามค าแหง. พระยาอปกตศลปะสาร (2533). หลกภาษาไทย. กรงเทพมหานคร, ไทยวฒนาพานช. เมธ วฒนะเมธานนท (2549). การรจ าความสมพนธระดบปรจเฉทในเอกสารภาษาไทยโดยใชโมเดลการ

คดแยกแบบเนอฟเบย, จฬาลงกรณมหาวทยาลย.

Page 102: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

90

ราชบณฑตยสถาน (2548). หลกเกณฑการใชเครองหมายวรรคตอนและเครองหมายอน ๆ หลกเกณฑ

การเวนวรรค หลกเกณฑการเขยนค ายอ ฉบบราชบณฑตยสถาน.พมพครงท 6 (แกไขเพมเตม). กรงเทพฯ, ราชบณฑตยสถาน.

เรองเดช ปนเขอนขตย (2541). ภาษาศาสตรภาษาไทย. นครปฐม, มหาวทยามหดล. วาทน นยเพยร, et al. (2553). การเปรยบเทยบประสทธภาพและวเคราะหการจ าแนกขอมลโดยใช

โครงขายประสาทเทยมซพพรอรตเวกเตอรแมชชน นาอฟเบย และเคเนยรตเนเบอร. การประชมทางวชาการเสนอผลงานวจยระดบบณฑตศกษา ครงท 11, มหาวทยาลยขอนแกน.

วจนตน ภาณพงศ (2532). โครงสรางของภาษาไทย: ระบบไวยากรณ. กรงเทพมหานคร, มหาวทยาลย

รามค าแหง. อมรา ประสทธรฐสทธ (2543). ชนดของค าในภาษาไทย: การวเคราะหทางวากยสมพนธโดยอาศย

ฐานขอมลภาษาไทยปจจบนสองลานค า, รายงานวจยเสนอส านกงานกองทนสนบสนนการวจย (ทนวจยองคความรใหมทเปนพนฐานตอการพฒนา).

อดม วโรตมสกขดตถ (2535). ความรเบองตนเกยวกบภาษา. กรงเทพมหานคร, มหาวทยาลยรามค าแหง.

Page 103: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

ภาคผนวก

Page 104: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

92

ภาคผนวก ก ตวอยางคลงขอมลและการก ากบขอมล

<EDU><w CCOR>อยางไรกตาม</w><w SPACE>space</w><w NCMN>อดมการณ</w><w NCMN>สากล</w></EDU><EDU><w COMPF>ท</w><w VERB>ครอบง า</w><w DET>นน</w></EDU><w SPACE>space</w><EDU><w PREP>ใน</w><w MNCF>หลาย</w><w PUNC>ๆ</w><w SPACE>space</w><w NCLS>กรณ</w><w CSBI>ก</w><w NEG>ไม</w><w ADVERB>เพยง</w><w VERB>ชวย</w><w VERB>เปด</w><w VERB>ให</w><w VERB>เกด</w><w PFN>การ</w><w VERB>สราง</w><w NCMN>อดมการณ</w><w VERB>ตอตาน</w><w ADVERB>เทานน</w></EDU><w SPACE>space</w><EDU><w CCOR>แต</w><w AUX>ยง</w><w AUX>สามารถ</w><w VERB>น า</w><w VERB>มา</w><w VERB>ใช</w><w PFAV>อยาง</w><w VERB>ม</w><w NCMN>พลวต</w></EDU><w SPACE>space</w><EDU><w CSUB>เพอ</w><w VERB>ปรบ</w><w VERB>เปลยน</w><w VERB>ให</w><w NCMN>ประเพณ</w><w NCMN>ทองถน</w><w VERB>เปน</w><w NCMN>กฎหมาย</w><w PREP>ของ</w><w NCMN>ชาต</w><w SPACE>space</w><w CCORIN>หรอ</w><w PREP>แมกระทง</w><w PFN>การ</w><w VERB>สราง</w><w NCMN>ความหมาย</w><w VERB>ใหม</w><w PREP>ใน</w><w NCMN>เรอง</w><w PREP>ของ</w><w NCMN>สทธ</w><w NCMN>ชมชน</w></EDU><w SPACE>space</w><EDU><w CCOR>ดงนน</w><w SPACE>space</w><w NCMN>พลวต</w><w PREP>ของ</w><w NCMN>ความร</w><w NCMN>ชาวบาน</w></EDU><EDU><w COMPF>ท</w><w VERB>เกด</w><w VERB>ขน</w><w PREP>ใน</w><w NCMN>ประเทศ</w><w NPRP>ไทย</w></EDU><EDU><w VERB>บงช</w><w PFAV>อยาง</w><w VERB>ชดเจน</w></EDU><EDU><w COMPF>วา</w><w SPACE>space</w><w NCMN>กระแส</w><w NCMN>โลกาภวตน</w><w DET>นน</w><w VERB>เปน</w><w NCMN>กระบวนการ</w></EDU><EDU><w COMPF>ท</w><w VERB>ขดแยง</w><w NPRO>กนเอง</w><w ADVERB>ตลอด</w><w ADVERB>เวลา</w></EDU><w SPACE>space</w><EDU><w COMPF>ซง</w><w AUX>สามารถ</w><w VERB>น า</w><w VERB>ไป</w><w PREP>ส</w><w PFN>การ</w><w VERB>สราง</w><w NCMN>คณคา</w><w CCORIN>และ</w><w NCMN>อตลกษณ</w></EDU><EDU><w COMPF>ท</w><w VERB>แตกตาง</w><w NPRO>กน</w><w PFAV>อยาง</w><w VERB>หลากหลาย</w></EDU>

Page 105: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

93

ภาคผนวก ข ตวอยางไฟล ARFF ซงเปนรปแบบไฟลทใชในการฝกฝนและทดสอบแบบจ าลอง

@relation test-data-edu

@attribute POS-P {NCMN,VERB,SPACE,PREP,PUNC,AUX,PFN,COMPF,NPRP,ADVERB,CCOR,FOREIGN,DET,CCORIN,NNUM,CSUB,NPRO,CSBI,NCLS,MNCF,NEG,PFAV ,ADJ,COMPNF,PT,MNCB,MCN,NON }

@attribute POS-B {NCMN,VERB,SPACE,PREP,PUNC,AUX,PFN,COMPF,NPRP,ADVERB,CCOR,FOREIGN,DET,CCORIN,NNUM,CSUB,NPRO,CSBI,NCLS,MNCF,NEG,PFAV ,ADJ,COMPNF,PT,MNCB,MCN,NON }

@attribute POS-A {NCMN,VERB,SPACE,PREP,PUNC,AUX,PFN,COMPF,NPRP,ADVERB,CCOR,FOREIGN,DET,CCORIN,NNUM,CSUB,NPRO,CSBI,NCLS,MNCF,NEG,PFAV ,ADJ,COMPNF,PT,MNCB,MCN,NON }

@attribute DM {Y,N}

@attribute Space {Y,N}

@attribute Punc {Y,N}

@attribute Label {Boundary,NonBoundary}

@data

CCOR,NCMN,SPACE,Y,N,N,Boundary SPACE,CCOR,NCMN,N,N,N,NonBoundary NCMN,SPACE,NCMN,N,Y,N,NonBoundary NCMN,NCMN,COMPF,N,N,N,NonBoundary COMPF,NCMN,VERB,N,N,N,Boundary VERB,COMPF,DET,N,N,N,NonBoundary DET,VERB,SPACE,N,N,N,NonBoundary SPACE,DET,PREP,N,N,N,NonBoundary PREP,SPACE,MNCF,N,N,N,Boundary MNCF,PREP,PUNC,N,N,N,NonBoundary PUNC,MNCF,SPACE,N,N,N,NonBoundary

Page 106: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

94

SPACE,PUNC,NCLS,N,N,N,NonBoundary NCLS,SPACE,CSBI,N,N,N,NonBoundary CSBI,NCLS,NEG,N,N,N,NonBoundary NEG,CSBI,ADVERB,N,N,N,NonBoundary ADVERB,NEG,VERB,N,N,N,NonBoundary VERB,ADVERB,VERB,N,N,N,NonBoundary VERB,VERB,VERB,N,N,N,NonBoundary VERB,VERB,VERB,N,N,N,NonBoundary VERB,VERB,PFN,N,N,N,NonBoundary PFN,VERB,VERB,N,N,N,NonBoundary VERB,PFN,NCMN,N,N,N,NonBoundary NCMN,VERB,VERB,N,N,N,NonBoundary VERB,NCMN,ADVERB,N,N,N,NonBoundary ADVERB,VERB,SPACE,N,N,N,NonBoundary SPACE,ADVERB,CCOR,N,N,N,NonBoundary CCOR,SPACE,AUX,Y,Y,N,Boundary AUX,CCOR,AUX,N,N,N,NonBoundary AUX,AUX,VERB,N,N,N,NonBoundary VERB,AUX,VERB,N,N,N,NonBoundary VERB,VERB,VERB,N,N,N,NonBoundary VERB,VERB,PFAV,N,N,N,NonBoundary PFAV,VERB,VERB,N,N,N,NonBoundary VERB,PFAV,NCMN,N,N,N,NonBoundary NCMN,VERB,SPACE,N,N,N,NonBoundary SPACE,NCMN,CSUB,N,N,N,NonBoundary CSUB,SPACE,VERB,Y,Y,N,Boundary VERB,CSUB,VERB,N,N,N,NonBoundary VERB,VERB,VERB,N,N,N,NonBoundary

Page 107: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

95

ภาคผนวก ค ตวอยางผลลพธทแสดงบนหนาจอของโปรแกรมวกา

=== Run information === Scheme:weka.classifiers.functions.SMO -C 1.0 -L 0.001 -P 1.0E-12 -N 0 -V -1 -W 1 -K "weka.classifiers.functions.supportVector.PolyKernel -C 250007 -E 2.0" Relation: train-data-edu Instances: 68814 Attributes: 8 POS-P POS-B POS-A DM Space Punc Lable Test mode:user supplied test set: size unknown (reading incrementally) === Classifier model (full training set) === SMO Kernel used: Poly Kernel: K(x,y) = <x,y>^2.0 Classifier for classes: Boundary, NonBoundary Number of support vectors: 21544 Number of kernel evaluations: 1361254762 Time taken to build model: 18320.79 seconds

Page 108: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

96

=== Predictions on test split === inst#, actual, predicted, error, probability distribution 1 2:NonBound 2:NonBound 0 *1 2 2:NonBound 2:NonBound 0 *1 3 2:NonBound 2:NonBound 0 *1 4 2:NonBound 2:NonBound 0 *1 5 2:NonBound 2:NonBound 0 *1 6 2:NonBound 2:NonBound 0 *1 7 1:Boundary 1:Boundary *1 0 8 2:NonBound 2:NonBound 0 *1 9 2:NonBound 2:NonBound 0 *1 10 2:NonBound 2:NonBound 0 *1 11 2:NonBound 2:NonBound 0 *1 12 2:NonBound 2:NonBound 0 *1 13 2:NonBound 2:NonBound 0 *1 14 2:NonBound 2:NonBound 0 *1 15 2:NonBound 2:NonBound 0 *1 16 2:NonBound 2:NonBound 0 *1 17 2:NonBound 2:NonBound 0 *1 18 2:NonBound 2:NonBound 0 *1 19 1:Boundary 1:Boundary *1 0 20 2:NonBound 2:NonBound 0 *1 21 2:NonBound 2:NonBound 0 *1 22 2:NonBound 1:Boundary + *1 0 23 2:NonBound 2:NonBound 0 *1 24 2:NonBound 2:NonBound 0 *1 25 2:NonBound 2:NonBound 0 *1 26 2:NonBound 2:NonBound 0 *1 27 2:NonBound 2:NonBound 0 *1 28 2:NonBound 2:NonBound 0 *1 29 1:Boundary 1:Boundary *1 0

Page 109: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

97

=== Evaluation on test set === === Summary === Correctly Classified Instances 7398 96.7565 % Incorrectly Classified Instances 248 3.2435 % Kappa statistic 0.8251 Mean absolute error 0.0324 Root mean squared error 0.1801 Relative absolute error 16.6831 % Root relative squared error 56.869 % Total Number of Instances 7646 === DETailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.771 0.007 0.93 0.771 0.843 0.882 Boundary 0.993 0.229 0.971 0.993 0.982 0.882 NonBoundary Weighted Avg. 0.968 0.204 0.967 0.968 0.966 0.882 === Confusion Matrix === a b <-- classified as 666 198 | a = Boundary 50 6732 | b = NonBoundary

Page 110: นางสาวนลินี อินต๊ะซาวling/thesis/2556MA-LING-Nalinee.pdf · academic written language, consisting of 8,102 clauses. SMO, which is one of the

98

ประวตผเขยนวทยานพนธ

นางสาวนลน อนตะซาว เกดเมอวนท 19 มกราคม พ.ศ. 2529 ทจงหวดล าปาง ส าเรจการศกษาระดบปรญญาตรศลปศาสตรบณฑต สาขาภาษาองกฤษ มหาวทยาลยเชยงใหม ในปการศกษา 2550 จากนนท างานต าแหนงครผสอน (อตราจาง) หลกสตรสองภาษาทโรงเรยนอนบาลเชยงใหม และเขาศกษาตอในหลกสตรอกษรศาสตรมหาบณฑต ภาควชาภาษาศาสตร จฬาลงกรณมหาวทยาลย ในปการศกษา 2553