80
การตรวจแก้การสะกดผิดแบบเป็นคาจริงในภาษาไทยโดยใช้แบบจาลองไตรแกรม นายพลวัฒน์ ไหลมนู วิทยานิพนธ์นี้เป็นส่วนหนึ่งของการศึกษาตามหลักสูตรปริญญาอักษรศาสตรมหาบัณฑิต สาขาวิชาภาษาศาสตร์ ภาควิชาภาษาศาสตร์ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ปีการศึกษา 2559 ลิขสิทธิ์ของจุฬาลงกรณ์มหาวิทยาลัย

นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

การตรวจแกการสะกดผดแบบเปนค าจรงในภาษาไทยโดยใชแบบจ าลองไตรแกรม

นายพลวฒน ไหลมน

วทยานพนธนเปนสวนหนงของการศกษาตามหลกสตรปรญญาอกษรศาสตรมหาบณฑต สาขาวชาภาษาศาสตร ภาควชาภาษาศาสตร คณะอกษรศาสตร จฬาลงกรณมหาวทยาลย

ปการศกษา 2559 ลขสทธของจฬาลงกรณมหาวทยาลย

Page 2: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

THAI REAL-WORD SPELLING ERROR CORRECTION USING A TRIGRAM MODEL

Mr. Ponlawat Laimanoo

A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of Arts Program in Linguistics

Department of Linguistics Faculty of Arts

Chulalongkorn University Academic Year 2016

Copyright of Chulalongkorn University

Page 3: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

หวขอวทยานพนธ การตรวจแกการสะกดผดแบบเปนค าจรงในภาษาไทยโดยใชแบบจ าลองไตรแกรม

โดย นายพลวฒน ไหลมน สาขาวชา ภาษาศาสตร อาจารยทปรกษาวทยานพนธหลก รองศาสตราจารย ดร. วโรจน อรณมานะกล

คณะอกษรศาสตร จฬาลงกรณมหาวทยาลย อนมตใหนบวทยานพนธฉบบนเปนสวนหนงของการศกษาตามหลกสตรปรญญามหาบณฑต

คณบดคณะอกษรศาสตร

(รองศาสตราจารย ดร.กงกาญจน เทพกาญจนา)

คณะกรรมการสอบวทยานพนธ

ประธานกรรมการ

(ดร. วรรณชย ค าภระ)

อาจารยทปรกษาวทยานพนธหลก

(รองศาสตราจารย ดร. วโรจน อรณมานะกล)

กรรมการภายนอกมหาวทยาลย

(ดร. เทพชย ทรพยนธ)

Page 4: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

บทค ดยอ ภาษาไทย

พลวฒน ไหลมน : การตรวจแกการสะกดผดแบบเปนค าจรงในภาษาไทยโดยใชแบบจ าลองไตรแกรม (THAI REAL-WORD SPELLING ERROR CORRECTION USING A TRIGRAM MODEL) อ.ทปรกษาวทยานพนธหลก: รศ. ดร. วโรจน อรณมานะกล{, 80 หนา.

งานวจยนมวตถประสงคเพอรวบรวมและวเคราะหการสะกดผ ดแบบเปนค าจรงในภาษาไทยทพบบนอนเทอรเนต พรอมกบพฒนาระบบตรวจแกการสะกดผดแบบเปนค าจรงในภาษาไทยดวยแบบจ าลองไตรแกรมและประเมนประสทธภาพของระบบทพฒนาขน

งานวจยนแบงออกเปนสองสวน สวนแรกเปนการวเคราะหการสะกดผดแบบเปนค าจรงในภาษาไทยจ านวน 1,674 ค า จากหนงสอค าไทยทมกเขยนผดรวบรวมโดยผเชยวชาญภาษาไทย ซงทกค าลวนผานการตดค าส าเรจและพบตวอยางการใชจรงบนอนเทอรเนต จากการวเคราะหพบวาค าทสะกดผดเหลานสวนใหญหรอรอยละ 80 เปนค าทสะกดผดหนงต าแหนงซงมกจะสะกดผดทพยญชนะตนมากทสด และสวนทเหลออก 20% เปนค าทสะกดผดหลายต าแหนงและสวนใหญจะยงออกเสยงเหมอนเดม ในสวนทสองเปนการพฒนาระบบตรวจแกการสะกดผดแบบเปนค าจรงในภาษาไทยดวยแบบจ าลองไตรแกรมพรอมกบประเมนประสทธภาพของระบบ ขอมลทน ามาใชทดสอบเปนขอความทมค าสะกดผดอยอยางนอยหนงค าและค านนจะตองเปนค าทสะกดผดแบบเปนค าจรง จ านวน 1,000 ขอความ ซงระบบจะท าการตรวจจบค าทสะกดผดทงหมดในขอความโดยน าสายค าเรยงสามแตละสายของขอความเทยบกบคลงขอมลไตรแกรม หากไมพบแสดงวาสายค าเรยงสามนนตองสงสยวาสะกดผด โดยสายค าเรยงสามทตองสงสยทงหมดจะถกน าไปปรบแกดวยวธการปรบแกนอยสด จากนนสายเรยงสามค าทถกปรบแกแลวจะถกน าไปแทนทการสะกดผดเดมแลวค านวณหาคาความนาจะเปนของขอความ ซงระบบจะเลอกสายค าเรยงสามทใหคาความนาจะเปนของขอความสงสดมาใชแกไขการสะกดผด ผวจยไดประเมนประสทธภาพของระบบในสามดาน ไดแก ดานระยะเวลาในการประมวลผลพบวาระบบแบบจ าลองไตรแกรมใชเวลาในการประมวลผลทงหมด 128 วนาท ดานประสทธภาพในการตรวจจบค าทสะกดผดแบบเปนค าจรงในภาษาไทยพบวามคาความแมนย า (precision) และคาความครบถวน (recall) เทากน คอ 0.47 สวนดานประสทธภาพในการแกไขค าทสะกดผดแบบเปนค าจรงในภาษาไทยพบวามคาความครบถวนและคาความแมนย าอยท 0.85

ภาควชา ภาษาศาสตร

สาขาวชา ภาษาศาสตร

ปการศกษา 2559

ลายมอชอนสต

ลายมอชอ อ.ทปรกษาหลก

Page 5: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

บทค ดยอ ภาษาองกฤษ

# # 5680132222 : MAJOR LINGUISTICS KEYWORDS: REAL-WORD ERROR / SPELLING CORRECTION / TRIGRAM MODEL / THAI REAL WORD ERROR / THAI SPELLING CORRECTION

PONLAWAT LAIMANOO: THAI REAL-WORD SPELLING ERROR CORRECTION USING A TRIGRAM MODEL. ADVISOR: ASSOC. PROF. WIROTE AROONMANAKUN, Ph.D. {, 80 pp.

This research aims to collect and analyze Thai real-word spelling errors found on the internet, develop a Thai real-word error spelling correction program using a trigram model, and evaluate its performance.

This research consists of two parts; first is an analysis of 1,674 Thai real-word spelling errors found in ‘Thai often misspelled words’ books. It is found that 80 percent of these analyzed errors contain only one spelling error which mostly occurs at word initial position. The other 20 percent of the analyzed errors have more than one spelling errors individually, most of which are pronounced the same. The latter part of the research is about developing a Thai real-word spelling error correction program using a trigram model and evaluating its performance. The test data are 1,000 Thai strings of words. Each contains at least one real-word spelling error. To detect a real-word error, word trigrams of each string are checked with the trigram corpus and those which do not exist in the corpus are considered misspelling suspects. Then, all misspelling suspects are edited to generate possible candidates. Only one candidate, that gives the highest probability of the observed string when replacing the detected error, is chosen as the correct one. The program’s efficiency is measured in three aspects. First is the processing duration. The program’s execution takes 128 seconds to finish. Second is the error detection efficiency. It is found that the values of precision and recall are similar, which is 0.47. Last is the error correction efficiency. The program’s values of precision and recall are also equal, which is 0.85.

Department: Linguistics Field of Study: Linguistics Academic Year: 2016

Student's Signature

Advisor's Signature

Page 6: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

กตตกรรมประกาศ

กตตกรรมประกาศ

ผวจยขอขอบพระคณ รองศาสตราจารย ดร. วโรจน อรณมานะกล อาจารยทปรกษาวทยานพนธเปนอยางสงทไดใหความร ความชวยเหลอ ความเมตตากรณา ค าแนะน าและขอคดเหนตางๆ อนเปนประโยชนอยางยงในการท าวจย อกทงยงชวยแกปญหาตางๆ ทเกดขนระหวางการท าวจย รวมถงชวยปรบแกวทยานพนธฉบบนใหส าเรจลลวงไปดวยด และผวจยขอขอบพระคณอาจารย ดร.วรรณชย ค าภระและดร. เทพชย ทรพยนธ กรรมการสอบวทยานพนธเปนอยางสงทไดใหค าแนะน าตางๆ ในการท าวจยและเสยสละเวลาเพอตรวจแกวทยานพนธเลมนใหมความสมบรณมากยงขน

ขอขอบพระคณ ผชวยศาสตราจารย ดร. พทยาวฒน พทยาภรณ ทใหโอกาสผวจยไดชวยท างานวจยซงเปนการเพมพนความรและเสรมสรางประสบการณการท างานใหแกผวจย รวมถงคณาจารยภาควชาภาษาศาสตรทกทานทไดประสทธประสาทความรแกผวจย

สดทายผวจยขอขอบพระคณบดาและมารดา คณวฑรยและคณเสาวภาคย ไหลมน ทคอยใหความรก ความเปนหวงเปนใยพรอมกบคอยมอบก าลงใจและการสนบสนนทดมาโดยตลอด ขอขอบคณพสาวและนองชาย คณพลอยไพฑรยและคณภาคภม ไหลมน ทใหความชวยเหลอ ค าแนะน าและก าลงใจแกผวจย ขอขอบคณ คณวรชย อ าพรไพบลยและคณนชชา ถระสาโรช ทชวยเหลอผวจยในดานการเขยนโปรแกรมคอมพวเตอร รวมถงขอขอบคณเพอนๆ พๆ นองๆ และเจาหนาทภาควชาภาษาศาสตรส าหรบการสนบสนน ก าลงใจและความชวยเหลอในดานตางๆ ทมอบใหแกผวจยตลอดมา

Page 7: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

สารบญ หนา

บทคดยอภาษาไทย ............................................................................................................................. ง

บทคดยอภาษาองกฤษ ....................................................................................................................... จ

กตตกรรมประกาศ............................................................................................................................. ฉ

สารบญ .............................................................................................................................................. ช

สารบญตาราง .................................................................................................................................. 11

สารบญรปภาพ ................................................................................................................................ 12

บทท 1 บทน า ................................................................................................................................. 13

1.1 ทมาและความส าคญของปญหา ........................................................................................... 13

1.2 วตถประสงคของการวจย ..................................................................................................... 15

1.3 สมมตฐานของการวจย ......................................................................................................... 15

1.4 ขอบเขตของการวจย ............................................................................................................ 15

1.5 ประโยชนทคาดวาจะไดรบ ................................................................................................... 15

1.6 วธด าเนนการวจย ................................................................................................................. 16

1.7 เครองมอทใชในการวจย ....................................................................................................... 16

บทท 2 ทบทวนวรรณกรรม ............................................................................................................. 17

2.1 หลกการท างานเบองตนของการตรวจแกการสะกดผด ......................................................... 17

2.1.1 การตรวจจบการสะกดผด (Error Detection) ........................................................... 17

2.1.2 การแกไขการสะกดผด (Error Correction) ............................................................... 18

2.2 ประเภทของการสะกดผด ..................................................................................................... 19

2.2.1 การสะกดผดแบบไมเปนค า (non-word spelling errors) ....................................... 19

2.2.2 การสะกดผดแบบเปนค าจรง (real-word spelling errors) ...................................... 20

2.3 ประเดนและขอเทจจรงตางๆ ทนาสนใจเกยวกบการสะกดผด .............................................. 20

Page 8: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

หนา

2.4 วธการตางๆ ทมการน ามาใชในงานดานการตรวจแกการสะกดผดดวยระบบคอมพวเตอร .... 23

2.4.1 การตรวจจบการสะกดผด (spelling errors detection) .......................................... 24

2.4.2 การแกไขการสะกดผด (spelling errors correction) .............................................. 26

บทท 3 การจดเตรยมคลงขอมล ...................................................................................................... 31

3.1 คลงขอมลไตรแกรมค า (word-trigram corpus) ................................................................. 31

3.1.1 การเตรยมคลงขอมลไตรแกรมค า .............................................................................. 32

3.1.2 ลกษณะโครงสรางของคลงขอมลไตรแกรมค า ............................................................ 33

3.2 คลงขอมลยนแกรมค า (word-unigram corpus) ................................................................ 34

3.2.1 การเตรยมคลงขอมลยนแกรมค า ............................................................................... 34

3.2.2 ลกษณะโครงสรางของคลงขอมลยนแกรมค า ............................................................. 34

3.3 คลงขอมลชดค าสบสน (confusion set corpus) ................................................................ 35

3.3.1 การเตรยมคลงขอมลชดค าสบสน ............................................................................... 35

3.3.2 ลกษณะโครงสรางของคลงขอมลชดค าสบสน............................................................. 36

3.3.3 ขอมลฝกฝนและทดสอบ (training and test data) ................................................. 37

3.3.3.1 การเตรยมขอมลฝกฝน (training data) .................................................................. 37

3.3.3.2 การเตรยมขอมลทดสอบ (test data) ..................................................................... 37

3.3.3.3 ลกษณะโครงสรางของขอมลฝกฝนและทดสอบ ....................................................... 38

บทท 4 การวเคราะหค าไทยทมกเขยนผด ....................................................................................... 39

4.1 ขนตอนการวเคราะหค าไทยทมกเขยนผด ............................................................................. 39

4.2 รปแบบการสะกดผด ............................................................................................................ 41

4.2.1 ค าทสะกดผดหนงต าแหนง ......................................................................................... 41

4.2.1.1 ค าสะกดผดทพยญชนะตน ...................................................................................... 41

4.2.1.2 ค าสะกดผดทตวสะกด ............................................................................................. 42

Page 9: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

หนา

4.2.1.3 ค าสะกดผดทสระ .................................................................................................... 43

4.2.1.4 ค าสะกดผดทตวการนต ........................................................................................... 44

4.2.1.5 ค าสะกดผดทวรรณยกต .......................................................................................... 45

4.2.2 ค าทสะกดผดหลายต าแหนง ...................................................................................... 46

4.2.2.1 ค าทสะกดผดหลายต าแหนงแตออกเสยงเหมอนเดม................................................ 46

4.2.2.2 ค าทสะกดผดหลายต าแหนงและออกเสยงเปลยนไป................................................ 47

บทท 5 การตรวจแกการสะกดผดแบบเปนค าจรง ........................................................................... 51

5.1 ขอมลทใชทดสอบ (test data) ............................................................................................ 51

5.2 การตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรม ..................................... 51

5.2.1 หลกการท างานของระบตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรม .................... 52

5.2.1.1 ขนตอนทหนง: ตรวจจบค าทตองสงสยในขอความ .................................................. 52

5.2.1.2 ขนตอนทสอง: ปรบแกค าทตองสงสย ...................................................................... 53

5.2.1.3 ขนตอนทสาม: เลอกค าทเหมาะสมเพอใชแกไขค าทสะกดผด .................................. 57

5.2.2 การประเมนประสทธภาพการตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรม ........... 59

5.2.2.1 ประสทธภาพในการตรวจจบการสะกดผดดวยแบบจ าลองไตรแกรม ....................... 60

5.3 การตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองยนแกรม ...................................... 61

5.3.1 หลกการท างานของระบบตรวจแกการสะกดผดดวยแบบจ าลองยนแกรม .................. 62

5.3.1.1 ขนตอนการเลอกค าทถกตองเพอใชแกไขการสะกดผด ............................................ 62

5.3.2 ประสทธภาพการตรวจแกการสะกดผดดวยแบบจ าลองยนแกรม ............................... 63

5.4 การตรวจแกการสะกดผดแบบเปนค าจรงดวยชดค าสบสน ................................................... 64

5.4.1 หลกการท างานของระบบตรวจแกการสะกดผดดวยชดค าสบสน ............................... 64

5.4.2 ประสทธภาพการตรวจแกการสะกดผดดวยชดค าสบสน ............................................ 66

5.5 ผลการเปรยบเทยบประสทธภาพในการตรวจแกการสะกดผดของระบบทงสาม ................... 67

Page 10: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

หนา

5.5.1 ดานระยะเวลาทใชในการประมวลผล ........................................................................ 67

5.5.2 ดานการตรวจจบการสะกดผดแบบเปนค าจรง ........................................................... 68

5.5.3 ดานการแกไขการสะกดผดแบบเปนค าจรง ................................................................ 69

บทท 6 สรปผลการวจย ปญหาและขอเสนอแนะ ............................................................................ 71

6.1 สรปผลการวจย .................................................................................................................... 71

6.1.1 สรปผลการศกษาวเคราะหค าไทยทมกสะกดผด ......................................................... 71

6.1.2 สรปผลการทดสอบประสทธภาพในการท างานของระบบตรวจแกการสะกดผดแบบเปนค าจรง ................................................................................................................. 72

6.2 ปญหาทพบ .......................................................................................................................... 74

6.2.1 ปญหาดานระบบ ....................................................................................................... 75

6.2.2 ปญหาดานขอมล ....................................................................................................... 75

6.3 ขอเสนอแนะ ........................................................................................................................ 75

รายการอางอง ................................................................................................................................. 77

ประวตผเขยนวทยานพนธ ............................................................................................................... 80

Page 11: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

สารบญตาราง

หนา

ตารางท 4.1แสดงตวอยางขอมลการสะกดผดแบบเปนค าจรงในภาษาไทยทน ามาวเคราะห ............ 40

ตารางท 5.1 แสดงตวอยางรปแบบทน าไปใชปรบแกค าทตองสงสยวาสะกดผด ............................... 53

ตารางท 5.2 แสดงตวอยางค าสะกดผดทมจ านวนแกรมเปลยนไปเมอไดรบการปรบแก ................... 55

ตารางท 5.3 แสดงคาประสทธภาพการตรวจจบการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรม ..... 60

ตารางท 5.4 แสดงคาประสทธภาพในการเลอกค ามาแกไขการสะกดผดไดถกตองดวยแบบจ าลองยนแกรม .... 64

ตารางท 5.5 แสดงประสทธภาพในการตรวจจบการสะกดผดดวยชดค าสบสน ................................ 66

ตารางท 5.6 แสดงผลการเปรยบเทยบระยะเวลาทใชในการประมวลของแตละระบบ ..................... 68

ตารางท 5.7 แสดงคาประสทธภาพในการตรวจจบการสะกดผดดวยระบบทแตกตางกน ................. 68

ตารางท 5.8 แสดงคาประสทธภาพในการแกไขการสะกดผดดวยระบบทแตกตางกน ...................... 69

Page 12: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

12

สารบญรปภาพ

หนา

รปภาพท 3.1 แสดงขนตอนในการเตรยมคลงขอมลไตรแกรมและคลงขอมลยนแกรม ..................... 35

รปภาพท 3.2 แสดงขนตอนในการเตรยมคลงขอมลชดค าสบสน ..................................................... 36

รปภาพท 4.1 ประเภทของการสะกดผดจ าแนกตามจ านวนการสะกดผดทพบในหนงค า ................. 47

รปภาพท 4.2 แผนภมแทงแสดงค าทสะกดผดหนงต าแหนงประเภทตางๆ ....................................... 48

รปภาพท 4.3 แผนภมแทงแสดงค าทสะกดผดหลายต าแหนงสองประเภท ....................................... 49

รปภาพท 4.4 แผนภมแทงแสดงค าทสะกดผดประเภทตางๆ ทพบในการวเคราะหครงน ................. 49

รปภาพท 5.1 แสดงขนตอนในการตรวจจบค าทตองสงสยในขอความ ............................................. 52

รปภาพท 5.2 แสดงขนตอนการปรบแกค าทตองสงสย .................................................................... 56

รปภาพท 5.3 แสดงการเลอกค าทเหมาะสมเพอแกไขการสะกดผดในขอความ ................................ 58

รปภาพท 5.4 กระบวนการตรวจแกการสะกดผดดวยชดค าสบสน ................................................... 65

Page 13: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

13

บทท 1

บทน ำ

1.1 ทมำและควำมส ำคญของปญหำ

ในปจจบนผคนสวนใหญใหความส าคญกบโลกออนไลนและสอโซเชยลเนตเวรคเปนอยางมาก ท าใหมการสอสารผานตวอกษรดวยการพมพมากขน ซงขอความทพมพนนควรจะมการสะกดค าทถกตองตามหลกภาษาเพราะจะสงผลตอความหมายของขอความทสอสาร ถาหากวาขอความนนสะกดไดถกตองตามหลกภาษากจะท าใหขอความนนสอความหมายตรงตามทผพมพตองการ แตในทางกลบกน ถาขอความนนมค าทสะกดผดปะปนอยกอาจจะท าใหขอความนนไมสอความหมายใดๆ หรอสอความหมายทผดเพยนไปจากทผพมพตองการกเปนได ดวยเหตนระบบตรวจแกการสะกดค าจงมบทบาทส าคญในการชวยตรวจสอบความถกตองและแกไขขอผดพลาดดานการเขยนสะกดค าทอาจเกดขน เพอชวยท าใหการสอสารผานทางตวอกษรนนมประสทธภาพสงสด

งานทางดานการตรวจแกการสะกดค านนเปนหนงในงานดานการประมวลผลภาษา (Language Processing) ทส าคญมากงานหน ง ซ งนกวศวกรคอมพวเตอร นกวทยาศาสตรคอมพวเตอร และนกภาษาศาสตรคอมพวเตอร ตางคดคนและพฒนาระบบชวยตรวจแกการสะกดค ามาอยางตอเนองเพอชวยตรวจหาและแกไขขอผดพลาดในการสะกดค าของขอความกอนทจะถกสงตอหรอเผยแพรใหผอนไดรบร

ซงขอผดพลาดในการสะกดค าสามารถแบงออกไดเปน 2 ประเภท คอ

1. ขอผดพลาดในรปของค าทสะกดผดแบบไมเปนค า (non-word error) คอ ค าในขอความทผพมพสะกดค าไมถกตองท าใหไดรปค าทไมตรงกบค าใดในภาษา ตวอยางเชน “วนนอทงฟาแจมใส” มสายอกขระ อทง ซงไมตรงค าใดในภาษาและตองแกไขใหเปนประโยคทถกตองคอ “วนนทองฟาแจมใส”

2. ขอผดพลาดในรปของค าทสะกดผดแบบเปนค า (real-word error) คอ ค าในขอความทผพมพสะกดผดแตไดบงเอญตรงกบรปค าทมอยในภาษา ( Islam & Inkpen, 2009) ตวอยางเชน ในภาษาไทย “น าไสจนเหนตวปลา” ผพมพพมพค าวา ใส ผดเปน ไส แมค าวา ไส จะเปนค าทมจรงในภาษาไทย แตเมอใหความหมายทผดเพยนไป ไมสอดคลองกบค าอนๆ ในประโยค ซงตองไดรบการแกไขใหเปนประโยคทถกตองคอ“น าใสจนเหนตวปลา”

Page 14: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

14

หากพจารณาในเรองความยากงายในการตรวจจบการสะกดผดแตละประเภท การตรวจจบขอผดพลาดประเภทแรกท าไดงายกวาเนองจากในขอความมสายอกขระทไมเปนค าอยและสามารถตรวจจบค าทสะกดผดโดยเทยบกบรายการค าในพจนานกรมได ซงสายอกขระใดทไมปรากฏในพจนานกรมแสดงวาสายอกขระนนมการสะกดผดแบบไมเปนค า ในขณะทขอผดพลาดในการสะกดผดประเภททสองจะตรวจจบไดยากกวา เนองจากตองพจารณาหาวาค าใดทไมควรปรากฏรวมกบค าอนๆ ในบรบทหรอประโยคหนงๆ งานตรวจแกการสะกดค าผดจงมกแยกเปนงานสองประเภทขาดจากกนได คอ งานตรวจแกการสะกดผดแบบไมเปนค า (non-word spelling error correction) และงานตรวจแกการสะกดผดแบบเปนค าจรง (real-word spelling error correction)

ในกรณของภาษาไทย หากพบขอผดพลาดในการสะกดประเภทแรก ระบบตดค าภาษาไทยจะสามารถบงชขอผดใหได เพราะถามค าใดทระบบตดค าตดไมไดแสดงวาค าๆ นนสะกดผดแบบไมเปนค า แตในกรณขอผดพลาดในการสะกดประเภททสอง ระบบตดค าภาษาไทยจะไมสามารถบงชขอผดพลาดในลกษณะเชนนได เพราะตองอาศยบรบทชวยในการระบการสะกดผด

อยางไรกตามสงทยงคงเปนปญหาส าหรบการตรวจแกการสะกดผดในภาษาไทยนนกคอการทยงไมสามารถตรวจแกการสะกดผดแบบเปนค าจรงไดเพราะเครองตรวจแกการสะกดผดทใชกนอยทวไปในขณะนจะยงไมสามารถตรวจจบการสะกดผดแบบเปนค าจรงนได เนองจากหลกการท างานพนฐานของเครองมอเหลานกคอการน าค าแตละค าในขอความทผใชปอนใหไปเปรยบเทยบกบคลงศพทพจนานกรม ถาค าไหนตรงกบค าในคลงศพทพจนานกรมกจะถอวาค านนเปนค าทสะกดถกตอง ในทางกลบกนถาไมพบค าทปอนเขาไปในคลงศพทพจนานกรม ค านนกจะถกท าเครองหมายเพอบอกวาเปนค าทสะกดไมถกตองแลวใหผใชไดด าเนนการปรบแกตอไป ตวอยางเชน ค าวา “อรงเทา” โดยท “อรง” เปนค าทไมพบในคลงศพทพจนานกรมของ Microsoft Word 2010 จงไดรบการขดเสนหยกสแดงใตค าเพอบอกวาเปนค าทสะกดผดและใหผใชกลบไปแกไขใหถกตอง ซงค าทถกตองกคอ ค าวา “รองเทา” แตถาหากวาผใชตองการจะพมพค าวา “รองเทา” เชนกนนแตกลบพมพผดเปน “นองเทา”และ“ยองเทา” ดงในประโยค “รบไปใสนองเทาสลก” หรอ “ยองเทาคนสวยด” เครองชวยตรวจการสะกดค าใน Microsoft Word กลบไมท าเครองหมายใดๆ ไมวาจะเปนค าเดยว ( isolated word) หรอเมอค านปรากฏอยในประโยค ดวยสาเหตทวาค าทงสองเปนค าทสะกดผดแบบเปนค าจรงเพราะฉะนนการทจะตรวจหาและแกไขค าทสะกดผดแบบเปนค าจรงนจงตองอาศยวธการทตางไปจากการตรวจแกการสะกดผดแบบไมเปนค าเพอจดการกบขอผดพลาดในลกษณะน ดวยเหตนผวจยจงสนใจทจะศกษาและพฒนาระบบตรวจแกการสะกดผดแบบเปนค าจรงเพอแกไขปญหาน

Page 15: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

15

1.2 วตถประสงคของการวจย

1.2.1. เพอรวบรวมและวเคราะหการสะกดผดแบบเปนค าจรงทพบบนอนเทอรเนต

1.2.2. เพอพฒนาระบบตรวจแกการสะกดผดแบบเปนค าจรงในภาษาไทยโดยใชแบบจ าลองไตรแกรม

1.2.3. เพอประเมนประสทธภาพของระบบตรวจแกการสะกดผดแบบเปนค าจรงทพฒนาขน

1.3 สมมตฐำนของกำรวจย

1.3.1 การสะกดผดแบบเปนค าจรงในภาษาไทยมกมความผดพลาดทพยญชนะสะกดและยงออกเสยงเหมอนเดม

1.3.2 การตรวจแกการสะกดผดแบบเปนค าจรงโดยใชแบบจ าลองไตรแกรมจะไดผลถกตองมากกวาการใชแบบจ าลองยนแกรม

1.3.3 การใชเซตค าสบสนทถกก าหนดไวแลว (pre-defined confusion set) จะใชเวลาในการประมวลผลนอยกวาการใชเซตค าสบสนทสรางแบบอตโนมตดวยวธการตรวจแกนอยสด (minimum edit distance)

1.4 ขอบเขตของการวจย

การวจยครงนศกษาและพฒนาระบบตรวจแกการสะกดผดแบบเปนค าจรงในภาษาไทย ซงขอมลทใชในการฝกฝนและทดสอบระบบนนเปนขอความภาษาไทยทมค าสะกดผดแบบเปนค าจรงปนอยจ านวน 4,787 ขอความ และทกขอความตองผานการตดค าดวยระบบตดค า ThaiSegmentation Version 2.2 (Aroonmanakul, 2002)

1.5 ประโยชนทคาดวาจะไดรบ

1.5.1 ไดเครองมอพนฐานในการตรวจแกการสะกดผดทจะน าไปประยกตใชกบงานประมวลผลภาษาไทยดวยคอมพวเตอรดานอนๆ เชน การแปลภาษาดวยคอมพวเตอร เปนตน

1.5.2 เปนแนวทางการศกษาระบบการตรวจแกการสะกดผดในภาษาอนๆ

Page 16: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

16

1.6 วธด าเนนการวจย

1.6.1 ศกษาทบทวนวรรณกรรมท เกยวของกบการตรวจแกการสะกดผด (Spelling Correction)

1.6.2 เกบรวบรวมขอมลและสรางคลงขอมลทจะน าไปใชฝกฝนและทดสอบระบบ

1.6.3 พฒนาระบบชวยตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรม

1.6.4 ทดสอบวธการตรวจแกสะกดค าดวยแบบจ าลองไตรแกรม

1.6.5 ประเมนคาประสทธภาพการท างานของระบบทเสนอเปรยบเทยบกบระบบขนพนฐาน

1.6.6 วเคราะหและสรปผลการวจย

1.7 เครองมอทใชในการวจย

1.7.1. ระบบ Strawberry Perl version 5.24.2.1 เปนระบบภาษา Perl ทผวจยใชเขยนระบบตรวจแกการสะกดผดในงานวจยน

1.7.2. ระบบตดค า ThaiSegmentation version 2.2 ของภาควชาภาษาศาสตร จฬาลงกรณมหาวทยาลย

1.7.3. ขอมลจาก คลงขอมลภาษาไทยแหงชาต 2 (Thai National Corpus 2) ของภาควชาภาษาศาสตร จฬาลงกรณมหาวทยาลย

Page 17: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

17

บทท 2

ทบทวนวรรณกรรม

เนอหาในสวนนจะกลาวถงแนวคด ทฤษฎ รวมถงงานวจยตางๆ ทเกยวของกบการตรวจแกการสะกดผดดวยระบบคอมพวเตอร ซงไดแก 2.1 หลกการท างานเบองตนของการตรวจแกการสะกดผด เพอใหผอานมองเหนภาพรวมของงานดานนวาประกอบดวยกระบวนการท างานเบองตนอะไรบาง จากนนผวจยจะกลาวถง 2.2 ประเภทของการสะกดผด สามารถแบงออกไดเปน 2 ประเภท คอ การสะกดผดแบบไมเปนค าและการสะกดผดแบบเปนค าจรง เพอใหเขาใจวาการสะกดผดแตละประเภทนนหมายถงอะไรและมลกษณะอยางไร ซงการสะกดผดแตละประเภทนนตองการการแกไขจากวธการทเหมาะสมจงจะสามารถแกไขไดอยางมประสทธภาพมากทสด 2.3 รปแบบหรอปจจยทอาจสงผลใหเกดการสะกดผด เพอเปนแนวทางในการหาหรอสรางตวอยางค าทสะกดผดส าหรบน ามาใชเปนขอมลในการฝกฝนและทดสอบระบบได 2.4 วธการตางๆ ทมการน ามาใชตรวจแกการสะกดผด ในสวนนจะกลาวถงการตรวจแกการสะกดผดดวยวธการแตละวธทแตกตางกน เพอแสดงใหเหนถงหลกการท างานในเบองตนของวธการเหลานนโดยอางองจากงานวจยตางๆ ทเกยวของ ดงนนแนวคดทงหมดทไดในสวนนจะสามารถชวยใหผวจยสามารถเลอกใชวธการทเหมาะสมส าหรบตรวจแกการสะกดผดแบบเปนค าจรงได

2.1 หลกการท างานเบองตนของการตรวจแกการสะกดผด

โดยปกตแลวในการจะตรวจแกการสะกดผดในขอความหนงๆ ผทจะสามารถท าการแกไขค าทสะกดผดใหถกตองไดในขนแรกจะตองสามารถระบถงต าแหนงทมสะกดผดในขอความนนกอน หลงจากนนจงน าค าทสะกดผดนนมาปรบแกใหถกตอง ในทางคอมพวเตอรกเชนกน การตรวจแกการสะกดผด (Spelling Correction) ดวยคอมพวเตอรคอ การตรวจจบและแกไขค าทสะกดผดในเอกสารขอความ (Mishra & Kaur, 2013) ดวยระบบคอมพวเตอร ซงหลกการท างานเบองตนของตวระบบตรวจแกการสะกดผดประกอบไปดวยกระบวนการหลก 2 กระบวนการ คอ การตรวจจบการสะกดผด (Error Detection) และการแกไขการสะกดผด (Error Correction)

2.1.1 การตรวจจบการสะกดผด (Error Detection)

การตรวจจบการสะกดผดเปนกระบวนการสกดเอาค าจากขอความเอกสารทปอนเขามาไปเปรยบเทยบกบคลงศพททบรรจค าทสะกดถกตอง เชน คลงศพทจากพจนานกรม วาตรงกนหรอไม

Page 18: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

18

จากนนหากพบวามค าทสะกดไมถกตองกจะมการท าเครองหมายก ากบค าทสะกดผดนนเพอเปนการแสดงผลของการตรวจจบ เชน ขดเสนใตหรอเปลยนสของค าทสะกดผด โดยวธการดงกลาวจะสามารถตรวจจบไดเฉพาะความผดพลาดทเปนการสะกดผดแบบไมเปนค าเทานน เพราะค าทสะกดผดประเภทนเมอน าไปเปรยบเทยบกบคลงศพทจากพจนานกรมแลวจะไมพบวาตรงกบค าใดเลย ซงกระบวนการตรวจจบการสะกดผดขางตนนจะไมสามารถตรวจจบขอผดพลาดทเปนการสะกดผดแบบเปนค าจรงได เพราะค าทสะกดผดแบบเปนค าจรงจะมรปรางหนาตาเหมอนกบค าทสะกดถกตองและปรากฏในคลงศพทพจนานกรม ดวยเหตนกระบวนการตรวจจบการสะกดผดแบบเปนค าจรงจงมความทาทายและยงยากซบซอนมากกวา นนคอในการทจะตรวจจบการสะกดผดแบบเปนค าจรงไดนนจะตองอาศยบรบทขางเคยงเขามาชวยในการตดสน ซงถาหากสงสยวาค าหนงๆ นนเปนค าทสะกดผดแบบเปนค าจรงหรอไม ตวบรบททอยขางเคยงค านนๆ จะสามารถชวยบอกไดวาค าทนาสงสยนนเปนค าทควรปรากฏอยในบรบทนนหรอไม

2.1.2 การแกไขการสะกดผด (Error Correction)

หลงจากทตรวจพบค าทสะกดผด ไมวาจะเปนค าทสะกดผดแบบไมเปนค าหรอค าทสะกดผดแบบเปนค าจรงแลวตางกตองน าค าทสะกดเหลานนไปผานกระบวนการแกไขค าทสะกดผดใหถกตอง ซงกระบวนการการแกไขการสะกดผดสามารถแบงยอยออกเปน ขนตอนการสรรหาหรอสรางค าหรอรายการค าทนาจะเปนไปไดและขนตอนการคดเลอกค าทถกตองเหมาะสมมากทสด ในขนตอนของการสรรหาหรอสรางค าทนาจะเปนไปได โดยสวนใหญแลวค าทนาจะเปนมกจะไดมาจากการปรบแกค าทสะกดผดนนใหถกตองโดยมจ านวนของการแกไขนอยครงทสด ซงถาหากพบวามค าทนาจะเปนเพยงหนงค า กจะถอวาค าๆ นนกคอค าทถกตองเหมาะสมทสดและน าไปใชแกไขค าทสะกดผด แตถาพบวาค าทนาจะเปนไปไดมจ านวนมากกวาหนงค า รายการค าเหลานนจะตองผานขนตอนสดทาย คอการคดเลอกค าทถกตองเหมาะสมมากทสดจากรายการค าทนาจะเปน ซงวธการคดเลอกค าทเหมาะสมทสดนนจะขนอยกบผวจยแตละทาน เชน ในงานของ (Mays, Damerau, & Mercer, 1991) เลอกค าทเหมาะสมทสดโดยใชแบบจ าลอง tri-gram สวนในงานของ (Islam & Inkpen, 2009) ใช noisy channel model เพอเลอกค าทเหมาะสมทสด เมอไดค าทเหมาะสมทสดแลวจงน าค านนไปแกไขค าทสะกดผด นอกจากนในสวนของวธการด าเนนการแกไขค าทสะกดผดสามารถท าได 2 แบบ (Kukich, 1992) ไดแก แบบทหนงเปนการแกไขแบบอตโนมต (Automatic Correction) คอ การแกไขค าทสะกดผดใหเสรจสรรพโดยอตโนมตไมจ าเปนตองถามความเหนจากผใช ซงในกรณนจ าเปนตองใชวธการทมความสามารถเพยงพอทจะคดเลอกเอาเฉพาะค าทถกตองและเหมาะสมทสดเพยงหนงค า สวนแบบทสองเปนการแกไขแบบมปฏสมพนธ (Interactive Correction) คอ เมอได

Page 19: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

19

รายการค าทนาจะเปนค าทสะกดถกตองแลวกเสนอรายการค าเหลานนใหผใชไดท าการตดสนเลอกค าทเหมาะสมทสดดวยตวเอง

2.2 ประเภทของการสะกดผด

การตรวจแกการสะกดผดโดยทวไปแลวจะหมายถงการปรบแกค าทมการสะกดทไมตรงกบค าในพจนานกรมหรอการสะกดทไมเปนค าใหถกตอง แตส าหรบการตรวจแกการสะกดผดของงานดานการประมวลผลภาษาธรรมชาตจะหมายถงระบบทสามารถตรวจความถกตองของขอความทปอนใหวาขอความนนมขอผดพลาดในดานการสะกดค าในขอความนนหรอไม ถาหากตรวจพบวามขอผดพลาดระบบกจะท าการแกไขใหถกตองหรอเสนอแนะรายการค าทนาจะเหมาะสมทสด (Dembitz, Gledec, & Randić, 2009; Kaur & Garg, 2014) ซงขอความทถกตองนนหมายถงขอความทนอกจากจะตองมการสะกดค าทถกตองตามหลกภาษาและปรากฏในพจนานกรมของภาษานนๆ แลวยงตองมความถกตองและเหมาะสมกบบรบทและค าขางเคยงเมอปรากฏรวมกนอกดวย ตวอยางเชน “โปรดพจารณาควมเสยวกอนตดสนใจลงทน” ในขอความนมจดผดพลาดสองจดทแตกตางกน จดแรกคอ “ควม” เปนผลของการสะกดผดแบบไมเปนค าคอ “ควม” นนไมมความหมายและไมปรากฏอยในพจนานกรม ค านจงเปนค าทสะกดผด ซงค าทถกตองกคอ “ความ” สวนขอผดพลาดในจดทสองนเปนขอผดพลาดทมความซบซอนกวาอนแรก คอค าวา “เสยว” ซงถาดแบบผวเผนโดยไมสนใจค าบรบทขางเคยงจะไมสามารถทราบไดวา “เสยว” นนเปนค าทสะกดผดเพราะวา “เสยว” เปนค าทมความหมายและปรากฏในพจนานกรม แตในประโยคน “เสยว” เปนการสะกดผดแบบเปนค าจรง คอ ค าทสะกดผดนนเปนค าทปรากฏในพจนานกรม แตเมอดจากค าแวดลอมอนๆ ในประโยค เชน ค าบรบท “ลงทน” จะเหนไดวาค าวา “เสยว” เมอปรากฏกบค าบรบทนแลวท าใหความหมายของประโยคฟงดแปลกประหลาดจงท าใหทราบไดวา “เสยว” เปนค าทสะกดผด ซงค าทถกตองเหมาะสมทสดควรจะเปนค าวา “เสยง” แทน

จากตวอยางขางตนจะเหนไดวา การสะกดผดนนสามารถแบงออกไดเปน 2 ประเภท (Mishra & Kaur, 2013; Mitton, 1987; S, Madi, D, & P, 2012; Verberne, 2002) ตามลกษณะของค าผดทปรากฏ ซงไดแก การสะกดผดแบบไมเปนค า (non-word spelling errors) และการสะกดผดแบบเปนค าจรง (real-word spelling errors) 2.2.1 การสะกดผดแบบไมเปนค า (non-word spelling errors)

คอ ความผดพลาดในการประกอบตวอกษรขนเปนค าท าใหค านนมการสะกดทผดและค าทไดนนไมตรงกบค าใดเลยในพจนานกรม ซงอาจจะมสาเหตมาจากการเ ตม (insertion) การลบ

Page 20: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

20

(deletion) หรอการแทนท (substitution) ตวอกษรตงแตหนงตวขนไปผดพลาดไปจากค าเดมทมการสะกดถกตอง (Kaur & Garg, 2014; Stehouwer, 2011) ตวอยางเชน

สะกด สะกกด เปนความผดพลาดทเกดจาก การเตม คอพมพอกษร ก เกนมา สะกด สะด เปนความผดพลาดทเกดจาก การลบ คอพมพตกอกษร ก สะกด สกด เปนความผดพลาดทเกดจาก การแทนท คอพมพสระ แทนทจะเปนสระ -ะ

2.2.2 การสะกดผดแบบเปนค าจรง (real-word spelling errors)

คอ ความผดพลาดในการประกอบตวอกษรขนเปนค าโดยมการพมพผดพลาดเชนเดยวแบบแรก แตค าทไดจากการสะกดผดบงเอญยงเปนค าทมในพจนานกรมแตสอความหมายทแตกตาง จงท าใหโครงสรางหรอความหมายของประโยคผดเพยนไป (Mitton, 1987) ซงความผดพลาดทเกดขนนนอาจจะเกดจากสาเหตเดยวกบการสะกดผดในประเภทแรกทเกดจากการเตม การลบ หรอการแทนทตวอกษรภายในค า ตวอยางเชน

หมอนกอด หมอนอกอด เปนความผดพลาดทเกดจาก การเตม คอพมพอกษร อ เกนมา หมอนกอด หมอกอด เปนความผดพลาดทเกดจาก การลบ คอพมพอกษร น ตกไป หมอนกอด หมอรกอด เปนความผดพลาดทเกดจาก การแทนท คอพมพ ร แทนทจะเปน น

2.3 ประเดนและขอเทจจรงตางๆ ทนาสนใจเกยวกบการสะกดผด

จากหลกการท างานเบองตนของการแกไขการสะกดผดทอธบายในหวขอทแลวจะเหนไดวากอนทจะสามารถท าการแกไขค าทสะกดผดใหถกตองไดนนจะตองมการตรวจจบและระบค าทสะกดผดภายในขอความใหไดกอน เพอทจะน าค าทสะกดผดนนไปแกไขใหถกตองตอไป ดงนนในการทจะตรวจสอบวาวธการหรอระบบทจะใชนนมประสทธภาพทจะใชแกไขการสะกดผดหรอไม ในเบองตนอาจจะดไดจากความสามารถในการตรวจจบค าทสะกดผดวาสามารถตรวจจบความผดพลาดนไดในระดบทนาพงพอใจหรอไม ซงในการทจะพฒนาระบบใหสามารถตรวจจบและระบความผดพลาดในขอความไดอยางมประสทธภาพนนอาจจะตองใชขอมลความรเกยวกบการสะกดผด กลาวคอกอนทระบบแกไขการสะกดผดจะสามารถน ามาใชปฏบตงานไดนนจะตองไดรบการฝกฝนใหเรยนรวาขอมลตวอยางทถกตองและขอมลทมขอผดพลาดมลกษณะอยางไร ซงโดยสวนใหญแลวประสทธภาพของระบบการตรวจสะกดค านนจะขนอยกบจ านวนขอมลตวอยางทหลากหลายและครอบคลมทไดรบการฝกฝน ถายงมขอมลตวอยางมาใชส าหรบการฝกฝนระบบมากเทาไหร ประสทธภาพในการแกไขการ

Page 21: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

21

สะกดผดของระบบกจะมากขนตามไปดวย จะเหนไดวาขอมลตวอยางนนมความส าคญตอการออกแบบและพฒนาระบบ แตอยางไรกตามการทจะหาขอมลทมหลากหลายเพอมาพฒนาตวระบบนนไมใชงานทงายเลย ผวจยจงไดตระหนกถงความส าคญของการศกษาขอมลตางๆ ทเกยวของหรออาจสงผลใหเกดการสะกดผด และผวจยเหนวาเปนเรองทจ าเปนตองศกษาเพอทจะสามารถน าความรในสวนนไปประยกตใชระบขอผดพลาดเหลานนและน ามาใชส าหรบฝกฝนตวระบบใหสามารถท างานไดอยางมประสทธภาพ ส าหรบการหารปแบบหรอสาเหตของการสะกดผดนน Kukich ไดท างานวจยทศกษาเกยวกบสาเหตเหลานนขนในป 1992 ซงไดมการกลาวถงประเดนทนาสนใจเกยวกบการสะกดผด โดยอางองขอมลจากงานวจยตางๆ ทเกยวของทสวนใหญเปนงานททดลองกบขอมลภาษาองกฤษ เปาหมายของการศกษาของนกวจยเหลานคอเพอน าขอมลทไดไปออกแบบระบบหรอวธการจดการกบขอผดพลาดเหลานน ซงในงานวจยนไดน าเสนอประเดนตางๆ ทนาสนใจเกยวกบการสะกดผดไวดงตอไปน 1 พบวาค าทสะกดผดสวนใหญมกจะมจดผดพลาดเพยงทเดยว Kukich ไดอางขอมลจากงานวจยของ Mitton (1987) ซงพบวามากกวา 80% ของค าทสะกดผด 4,218 ค า เปนค าทสะกดพลาดเพยงหนงจด ซงใชหลกของ minimal edit distance ในการระบจ านวนของขอผดพลาด โดยขอมลในสวนนสามารถน าไปใชในการคาดเดาลกษณะของค าทนาจะสะกดผดเพอใหสามารถตรวจจบค าทสะกดผดเหลานนไดดขน 2 พบวาค าทมจ านวนตวอกษรนอยกวาจะตรวจจบความผดพลาดไดยากกวาค าทมจ านวนตวอกษรมาก จากงานวจยของ (POLLOCK, & ZAMORA,1983) พบวาค าสนหรอค าทประกอบขนจากจ านวนตวอกษรเพยงแค 2-4 ตวนนมกจะตรวจจบไดยากกวาค าทยาวหรอกคอค าทประกอบขนจากตวอกษรจ านวนมากกวา 4 ตวขนไป ซงขอมลในสวนนชวยใหผวจยเพมความระมดระวงในการทจะตรวจสอบความผดพลาดในเหลาค าสนเพอทจะตรวจจบความผดพลาดใหไดครบถวนทสด. 3 พบวาตวอกษรตวแรกของค ามกจะไมผด (First-position errors) จากงานวจยตางๆ ทไดศกษาเกยวค าลกษณะของค าทสะกดผดทกลาวไวในงานของ Kukich พบวา ความผดพลาดของการสะกดค ามกจะไมเกดขนทตวอกษรตวแรก กลาวคอตวอกษรตนของค าโดยสวนใหญแลวมกจะถกตองเสมอ ขอมลในสวนนกสามารถน าไปประยกตในการกระบวนการตรวจจบค าทสะกดผดไดเชนเดยวกน 4 พบวาความใกลชดในต าแหนงของตวอกษรบนแปนพมพกสามารถท าใหเกดความผดพลาดได เนองจากแปนพมพโดยทวไปจะประกอบดวยปมจ านวนมากเรยงตอกนบนแปนพมพ ซงปมแตละปมบนแปนพมพจะมตวอกษรแตละตวก ากบอยซงในบางปมอาจจะสามารถมอกษรก ากบอย

Page 22: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

22

มากกวา 1 ตว จงมความเปนไปไดสงมากทความผดพลาดในการสะกดค านนจะเกดจากความใกลช ดของต าแหนงตวอกษรบนแปนพมพ ซงในงานวจยของ Kukich กไดยนยนถงความผดพลาดทเกดจากสาเหตน โดยไดรายงายไววาขอผดพลาดของผช านาญการพมพสวนใหญมกจะเกดจากการท าการเพมตวอกษรโดยไมไดตงใจเนองจากนวมอพลาดไปกดตวอกษรบางตวอยางไมตงใจ สวนส าหรบผไมช านาญการพมพมกจะเกดจากการท าการแทนทตวอกษรท าใหค าผดเพยนไป ซงขอมลในสวนนเปนอกสวนหนงทมประโยชนมากในการชวยคาดเดาค าทถกตองเมอตรวจพบค าทสะกดผด โดยสามารถน าไปตรวจสอบดไดวาความผดพลาดนนเกดจากความใกลชดของตวอกษรบนแปนพมพหรอไม 5 พบวาความผดพลาดของค าทสะกดผดอาจจะมสาเหตมาจากความรดานสทศาสตร (Phonetic errors) ความรทางดานสทศาสตรของผใช เชน ความรดานการออกเสยงของค า กเปนอกปจจยหนงทอาจจะท าใหเกดความผดพลาดในการสะกดค าได ตวอยางเชน หากผใชตองพมพขอความจากการฟงและในขอความนนมค าพองเสยงทมรปเขยนตางกนอยกอาจจะท าใหผใชพมพค าทไมถกตองได เพอใหชดเจนยงขน ผวจยจงขอยกตวอยางในภาษาไทย เชน “เมอเขาเดนนบกาว” อาจจะผดเพยนไปเปน “เมอเขาเดนนบเกา” หรอพบค าทมค าทมการออกเสยงทใกลเคยงกนภายในขอความ กอาจจะท าใหเกดความผดพลาดไดเชนกน “ตวอยางเสน” อาจจะผดเพยนไปเปน “ตวอยางเชน” ขอมลในสวนนกสามารถน าไปใชในการชวยหาค าทถกตองเมอทราบค าทสะกดผดไดเชนเดยวกน 6 พบวาความผดพลาดของค าทสะกดผดอาจเกดจากสาเหตอนๆ นอกจากสาเหตตางๆ ทไดกลาวมาแลวขางตน ความผดพลาดทเกดขนอาจจะยงมสาเหตมาจากปจจยอนๆ อก ดงทกลาวไวในงานของ Kukich เชน รปแบบขอความทปอน เชน ขอความทไดจากการเขยนซงลายมอในการเขยนอาจจะท าใหเกดความผดพลาดในขนตอนถอดขอความทเขยน หรอความทนสมยของเครองมอกมอาจจะสวนในการระบความผดพลาดภายในขอความคลาดเคลอนไปได นอกจากงานวจยของ Kukich แลวยงมงานวจยของ Baba and Suzuki (2012) ทศกษาถงปจจยตางๆ ทอาจท าใหเกดการสะกดผด ซงงานของ Baba & Suzuki นนจะแตกตางจากงานของ Kukich ตรงทงานของ Baba & Suzuki นนจะน าเสนอปจจยตางๆทมผลกระทบตอหรอกอใหเกดการสะกดผด โดย Baba & Suzuki ไดเสนอปจจยตางๆ ทมผลตอการสะกดผดไว ซงสามารถแบงออกเปน 3 กลม ดงน 1 ความผดพลาดทเกดจากปจจยทางดานการสมผส (Physical factors) ไดแก ก. ความผดพลาดทเกดจากความพลาดพลงของนวมอ คอ การสะกดผดทเกดจากการทนวมอบงเอญไปกดโดนปมบนแปนพมพโดยไมตงใจในระหวางทก าลงพมพขอความอย โดยทปมทเผลอไปกด

Page 23: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

23

โดนนนไมจ าเปนตองเปนปมทอยตดกบปมทตองการจะกด เชน ตกใจ พมพผดเปน ต กใจ (เผลอกดเวนวรรค) ข. ความผดพลาดทเกดจากต าแหนงทอยตดกนหรอใกลกนของตวอกษรบนแปนพมพ คอ การสะกดผดทเกดจากตวอกษรทตองการจะพมพนนอยในต าแหนงทใกลชดกนบนแปนพมพ เชน จรง เปน ขรง 2 ความผดพลาดทเกดจากปจจยทางดานการมองเหน (Visual factors) ไดแก ก. ความผดพลาดทเกดจากรปเขยนทคลายคลงกนของตวอกษร คอ การสะกดผดทเกดจากตวอกษรนนมรปเขยนทใกลเคยงกน ตวอยางสมมต เชน ในภาษาไทย อาจมความผดพลาดจากการมองตวอกษร ช หรอ ซ, ก หรอ ถ เปนตน ข. ความผดพลาดทเกดจากการใชตวอกษรซ าภายในค า คอ ความผดพลาดทมกจะเกดกบค าทมการใชตวอกษรตวเดมซ ากนท าใหเกดการลบตวอกษรซ าทปรากฏตดกนออก เชน ‘บคคล’ -> ‘บคล' 3 ความผดพลาดทเกดจากปจจยทางดานสทวทยา (Phonological factors) เปนความผดพลาดทเกดจากการแทนทตวอกษรทมการออกเสยงใกลเคยงกน คอ การพมพตวอกษรหนงแทนทอกตวอกษรหนงท าใหเกดการสะกดทผด ซงมทงการแทนพยญชนะผดตว ตวอยางเชน “โอกาส” พมพผดเปน “โอกาศ” และการแทนสระผดตว เชน “หลงใหล” พมพผดเปน “หลงไหล” เปนตน โดย Baba & Suzuki ยงพบวาค าทสะกดผดจากการแทนพยญชนะผดตวนน

2.4 วธการตางๆ ทมการน ามาใชในงานดานการตรวจแกการสะกดผดดวยระบบคอมพวเตอร

ในงานดานการตรวจแกการสะกดผดนนเปนงานทมนกวจยหลายทานเสนอวธการตางๆ เพอจดการกบปญหาการสะกดผด แตไมมการระบทแนชดวาควรจะใชวธใดมาตรวจแกการสะกดผดเหลานน โดยวธการทนกวจยแตละทานน ามาประยกตใชนนจะแตกตางกนไปตามวตถประสงคและเปาหมายของนกวจยแตละคนวาประสงคทจะน าตวระบบทพฒนาขนมานนไปประยกตใชจดการกบปญหาการสะกดผดประเภทใดและใชอลกอรทมใดจงจะสามารถจดการกบปญหานนไดดทสด โดยการทจะประยกตใชเทคนคหรอวธการหนงๆ ใหสามารถท างานไดอยางมประสทธภาพสงสดนนผใชจะตองรถงความถนดของวธการทจะน ามาใชดวยวามนสามารถจดการกบขอมลประเภทไหนและในสงแวดลอมแบบใดไดดทสด ดวยเหตนผวจยจงเหนวาการศกษาการท างานเบองตนของวธการตางๆ ทน ามาประยกตใชตรวจแกการสะกดผดแตละวธนนเปนสงทจ าเปนและควรทจะมการอธบายรายละเอยดเพอชวยใหผอานเขาใจในงานดานการตรวจแกการสะกดผดมากขน ซงเนอหาในสวนนจะกลาวถงวธการทน ามาใชจดการตรวจแกปญหาการสะกดผดเหลานน

Page 24: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

24

จากการศกษาทบทวนงานวจยทเกยวของพบวาวธการทน ามาใชนนอาจมความแตกตางกนไปตามขนตอนการท างานของการตรวจแกการสะกดผดซงประกอบไปดวย 2 ขนตอนหลก ไดแก ขนตอนแรก คอ การตรวจจบค าทสะกดผด (Detection) เปนกระบวนการตรวจหาค าทสะกดผดในขอความ วธการทน ามาใชในขนตอนนจงมเปาหมายเพอตรวจหาขอผดพลาดในการสะกดค าใหไดครบถวนมากทสด เชน งานของ Wilcox-O'Hearn (2014) ไดใช lexicon-based model เปนการน าค าในขอความแตละค าไปคนในคลงศพทวาพบหรอไม หากไมพบแสดงวาค านนอาจเปนค าทมการสะกดผด เปนตน สวนขนตอนทสอง คอ การแกไขค าทสะกดผด (Correction) เปนขนตอนทประกอบดวยขนตอนยอยอก 2 ขนตอน คอ ขนตอนการจดหาหรอสรางค า (Generation) หรอรายการค าทนาจะเปน อาจท าไดดวยวธการใช n-gram model เชน ในงานของ Bassil (2012) ไดใช letter-bi-gram model เพอหาค าทมการจดเรยงอกษร 2 ตวทคลายคลงกนแลวเลอกเอาค าทปรากฏมากทสด เปนตน และขนตอนยอยของการแกไขการสะกดผดอกขนตอนหนงคอ การคดเลอกค าทเหมาะสมทสดจากรายการค าทนาจะเปนนน ตวอยางเชน งานวจยของ Islam and Inkpen (2009) ไดใช noisy channel model เพอหาคาความนาจะเปนของค าทเปนไปไดแลวเลอกเอาค าทใหคาความนาจะเปนสงทสดเพอน ามาแกไขค าทสะกดผด เปนตน ดวยเหตนผวจยจงไดอธบายรายละเอยดของวธการตางๆ ทน ามาใชแกไขปญหาการสะกดผดตามขนตอนตางๆ ไวดงตอไปน 2.4.1 การตรวจจบการสะกดผด (spelling errors detection)

การตรวจจบการสะกดผด เปนขนตอนแรกของการตรวจแกการสะกดค าทมหนาทตรวจหาค าทสะกดผดในขอความ อาจจะสามารถท าไดโดยการใชแบบจ าลองคลงศพท (Lexicon-based model) ทบรรจค าทสะกดถกตองเอาไว เชน คลงศพทพจนานกรม เปนตน วธการนเปนวธการพนฐานทใชตรวจหาค าทสะกดผด (Hirst & Budanitsky, 2005) ซงหลกการท างานของวธการนกคอการน าค าแตละค าในขอความไปคนหาในคลงศพทวาพบหรอไม หากพบกแสดงวาค านนสะกดถกตองแลวผานไปคนหาค าอนตอไป แตถาหากไมพบแสดงวาค านนอาจจะเปนค าทสะกดผด โดยทประสทธภาพของวธการนอยทจ านวนค าภายในคลงศพท คอ ตองมจ านวนค าในคลงศพทมากเพยงพอจงจะสามารถท าการตรวจจบค าทสะกดผดไดอยางครบถวน (Bassil, 2012) อยางไรกตามวธการนสามารถทจะใชตรวจหาค าทสะกดผดแบบไมเปนค าเทานน (non-word spelling errors) แตจะไมสามารถตรวจหาค าทมการสะกดผดแบบเปนค าได (real-word spelling errors) ยกตวอยางเชน ในภาษาไทย ถาใชวธการตรวจหาค าทสะกดผดภายในขอความดวยแบบจ าลองคลงศพท “เขาตนไปโรงเรบนตงแตเชา” จะสามารถตรวจพบเฉพาะค าทสะกดผดอยเพยงหนงค า คอ “เรบน” เพราะไม

Page 25: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

25

พบค านในคลงศพท ทงๆ ทประโยคตวอยางขางตนมค าทสะกดผดอยอกหนงค า คอ “ตน” แตเนองจากค าวา “ตน” เปนค าทพบในคลงศพท จงตรวจจบไมพบความผดพลาดในการสะกดของค าๆ น ดวยสาเหตนวธการนจงไมเหมาะทจะน ามาใชตรวจจบค าทสะกดผดแบบเปนค าจรง นอกจากน ปญหาดานการสะกดผดแบบเปนค าจรงนนมความซบซอนมากกวาและตรวจพบไดยากกวาการสะกดผดแบบไมเปนค า การหาวธทจะจดการกบปญหานจงถอเปนเรองททาทายส าหรบงานทางดานการตรวจแกการสะกดผด ซงงานวจยตางๆ ทเกยวของสวนมากจงมงพฒนาแบบจ าลองทสามารถตรวจหาค าทสะกดผดแบบเปนค าจรง โดยมการประยกตใชวธการตางๆ เพอทจะจดการแกไขปญหาน ตวอยางเชน การใชแบบจ าลองเอนแกรม (N-gram model) ในงานของ Bassil (2012) ไดมการประยกตใชคลงขอมล unigram ทไดจาก Yahoo! N-Grams Dataset ซงคลงขอมล unigram นคอคลงขอมลทบรรจค าจาก Yahoo! N-Grams Dataset ไวเปนค าเดยวๆ โดยน าคลงขอมล unigram นมาชวยในการตรวจหาค าทสะกดผดในขอความดวยการน าค าแตละค าภายในขอความมาคนหาในคลงขอมล unigram หากไมพบแสดงวาค าๆ นนสะกดผด ซงในงานวจยของ Bassil ไดใชเปนคลงขอมล unigram นท าการตรวจหาค าทสะกดผดแบบไมเปนค าไดส าเรจ 87% และการสะกดผดแบบเปนค าจรงไดส าเรจเพยงแค 13% ซงจะเหนไดวาเปอรเซนตในการใชคลงขอมล unigram เพอตรวจหาค าทสะกดผดแบบเปนค านนยงไมใชวธทเหมาะสมนก วธทเหมาะสมกวา นาจะเปนการน าค าบรบทใกลเคยงมาชวยในการตรวจหาค าทสะกดผดแบบเปนค าจรง เชนในงานวจยของ Mays et al. (1991) ไดเสนอวธจดการกบปญหานดวย Word-trigrams statistical language model ซงเปนวธการเชงสถตทชวยตดสนความถกตองเหมาะสมของค าแตละค าดวยการค านวณหาคาความนาจะเปนของสายค าหนงๆ ซงความนาจะเปนของประโยค w1, w2, w3, …, wn จะไดจากการค านวณหา คาความนาจะเปนของ P(w1) x P(w2|w1) x P(w3|w1w2) x P(w4|w2w3) x … P(wn|wn-2wn-1) และสามารถประมาณดวยความนาจะเปนของไตรแกรมของค า สามารถเขยนเปนสตรไดดงน

𝑃(𝑤) = ∏ 𝑃(𝑤𝑛|𝑤𝑛−2𝑤𝑛−1)

𝑛

𝑖=1

โดย P(w) คอ ความนาจะเปนของสายค าหนงๆ w คอ ค าในประโยค n คอ จ านวนของค าทงหมดภายในประโยค

Page 26: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

26

ในงานวจยของ Mays และคณะไดมการใช ค าศพททถกตองจ านวน 20,000 ค าและมการสกดหาคาความนาจะเปนของ trigrams จากโครงการ IBM Speech Recognition (Bahl, Jelinek, & Mercer, 1983) แตไมพบวามการกลาวถงขนาดของคลงขอมลทน ามาใชเพอสกดขอมลออกมา ซงขอมลทน ามาทดสอบนน Mays และคณะใชประโยค 100 ประโยคทลวนประกอบดวยค าศพททถกตองทจดเตรยมไว ตอจากนนกน าประโยคเหลานนมาสรางประโยคใหมทคลายคลงกนแตภายในประโยคใหมแตละประโยคทถกสรางขนนนจะประกอบดวยค าทสะกดผดแบบเปนค าจรงอย โดยค าทสะกดผดแบบเปนค าจรงนนไดมาจากการปรบแกค าเดมทถกตองดวยการเพม การลด การแทนท หรอ การสลบ อยางใดอยางหนงเพยงครงเดยวเทานน ซงสามารถสรางประโยคใหมทมค าทสะกดผดอยไดทงหมด 8,628 ประโยค แลวจงน าแตละประโยคทมอยทงหมดไปค านวณหาคาความนาจะเปนของ trigrams ในการตรวจจบการสะกดผดของ Mays และคณะใชหลกการเทยบหาค าทสะกดไมเหมอนกบค าในประโยคดงเดมเปนค าทสะกดผด และหลกการแกไขค าทสะกดผดคอการน าค าทนาจะเปนจากชดค าสบสนทเตรยมไวมาแทนทแลวเลอกค าทใหคาความนาจะเปนของประโยคสงสดเปนค าทสะกดถกตอง งานวจยชนนไดสามารถท าการตรวจจบค าทสะกดผดไดส าเรจ 76% และแกไขค าสะกดผดไดส าเรจ 74% แตอยางไรกตามในงานวจยชนนไมไดมการน าไปใชในการตรวจจบและแกไขค าทสะกดผดแบบเปนค าดวยขอมลจรงทไมใชขอมลทจดท าขนเอง ผลการวจยท ไดจงอาจจะไมแสดงถงความสามารถในการน าไปใชงานไดจรงของวธการแกไขค าทสะกดผดดวย Word-trigrams statistical language model 2.4.2 การแกไขการสะกดผด (spelling errors correction)

หลงจากทสามารถตรวจพบค าทสะกดผดแลวกจะตองมการจดหาค าหรอรายการค าทนาจะเปนไปไดเพอแกไขค าทสะกดผดนนซง minimum edit distance เปนวธพนฐานทสามารถจดหาค าทนาจะเปนไดงายทสด โดยการปรบแกค าทสะกดผดดวยจ านวนการแกไขนอยครงทสด ซงถาหากวาพบค าทนาจะเปนมจ านวนมากกวาหนงค ากจะตองเสนอเปนรายการค าเพอใหผใชตดสนใจเลอกค าทถกตองเอง แตถาหากพบวาค าทนาจะเปนมจ านวนมากเกนไป เชน มากกวา 20 ค าขนไป การจดหาค าทเหมาะสมดวย edit distance คงเปนวธทไมเหมาะสม จงมการเสนอวธอนๆ เพอน ามาใชในการจดหาค าทนาจะเปนเพอแกไขค าทสะกดผด เชน การใชวธการทางสถตมาชวยในการแกไข เปนตน ในงานของ Bassil (2012) ไดท าการคดเลอกค าทนาจะเปนดวยวธการทางสถตจากการใช letter-based bi-gram model เปนการน าเอาค าทสะกดผดมาแบงออกเปน อกษรเรยงค (bi-gram letter sequence) ดงท Bassil ไดยกตวอยางไวในงานวจยของเขา คอ ‘modil’ จะถกท าใหเปนขอมลอกษรเรยงค ดงน mo, od, di, il แลวน าไปเทยบกบค าในคลงขอมล unigram ทไดจาก

Page 27: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

27

Yahoo! N-Grams Dataset วา มค าใดบางทมจ านวนตวอกษรใกลเคยงกบค าทสะกดผดและมอกษรเรยงค: mo, od, di, il เหลานอยภายในค ามากทสดแลวจงน าเอา 5 ค าแรกซงไดแก modal, model, radian, mother, lading เปนตวเลอกของค าทนาจะเปน โดยท modal และ model นนพบอกษรเรยงค 2 ตว (mo และ od) อยภายในค า radian และ lading พบอกษรเรยงค 1 ตวคอ di อยภายในค า สวน mother กพบอกษรเรยงค 1 ตวคอ mo อยภายในค า หลงจากทไดรายการค าทนาจะเปนมาแลวจะน าค าทนาจะเปนเหลานไปแทนทค าทสะกดผดในรปแบบของประโยคค าเรยงหา (5-gram word sentence) ดงสตร

𝑁𝑞 = 𝑤𝑞−4𝑤𝑞−3𝑤𝑞−2𝑤𝑞−1𝑐𝑞𝑓 โดย N คอ ประโยคค าเรยงหา w คอ ค าในประโยคทอยกอนหนาค าทสะกดผด c คอ ค านาจะเปน q คอ ล าดบของค าทสะกดผดในประโยคเรมตน f คอ ล าดบของค านาจะเปนทสรางขน จะได

“also work with plastic (modal)” “also work with plastic (model)” “also work with plastic (radian)” “also work with plastic (mother)” “also work with plastic (lading)”

แลวจงเลอกเอาค าทแทนแลวท าใหประโยคนนมคาความถสงสดใน Yahoo! N-Grams Dataset เปนค าทเหมาะสมทสด ซงค าทถกเลอกคอ model เพราะ “also work with plastic model” เปนประโยคค าเรยงหาทพบความถใน Yahoo! N-Grams Dataset มากทสด โดยผลงานวจยนพบวาวธการแกไขค าทสะกดผดดวย N-gram model นนสามารถแกไขค าทสะกดผดแบบไมเปนค าไดถกตอง 99% และแกไขค าทสะกดผดแบบเปนค าไดถกตอง 65% จะเหนไดวาการเลอกใช 5-grams model มาชวยแกไขค าทสะกดผดแบบเปนค านนอาจจะไมไดผลดมากนก เพราะส าหรบค าทถกตองบางค าอาจจะพบความถในการปรากฏแบบค าเรยงหานอยมากจนท าใหเลอกค าทยงไมใชค าทเหมาะสมทสดไปใชแกไข นอกจากการน าวธการทางสถตมาใชในกระบวนการแกไขค าทสะกดผดแบบเปนค าแลว การใชความนาจะเปนกเปนอกวธหนงทสามารถน ามาชวยจดการกบปญหาน เชนงานวจยของ Golding

Page 28: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

28

(1995) ทใชบรบทในการแกไขการสะกดผดแบบเปนค าจรง โดยมการใช confusion sets ทงหมด 18 ชด แตละชดจะประกอบดวยค าทมรปเขยน การออกเสยง หรอประเภทค า ทเหมอนกนหรอใกลเคยงกน โดยสวนใหญแลวconfusion sets นน ามาจาก “Words Commonly Confused” ทอยดานหลงของ พจนานกรม Random House ของ Flexner ปค.ศ. 1983 ซงในงานวจยของ Golding (1995) นไดใชขอมลในการฝกจ านวนหนงลานค าจาก Brown Corpus ของ Kucera and Francis และขอมลในการทดสอบจ านวนเจดแสนหาหมนค าจาก Wall Street Journal Text ของ Marcusและคณะ มาใชในการเปรยบเทยบประสทธภาพของวธการทตางกน 5 วธ ไดแก วธทหนง baseline method เปนวธการพนฐานทน ามาใชเพอใชเปนตวเปรยบเทยบกบวธการอนๆ โดยเมอระบบตรวจพบวาในขอความมค าใน confusion sets อยกจะน าค าในเซตนนมาเปรยบเทยบความถในการปรากฏโดยไมสนใจบรบทแลวเลอกเอาค าทพบความถสงสด วธทสอง Context words เปนวธการทใชค าบรบทขางเคยงทอยในระยะ +k ค าของค าเปาหมาย (k เปนคาท Golding ก าหนดขนเองตามทเหนสมควร ซงเขาไดลองก าหนดให k = 3, 6, 12, และ 24 ซงพบวา k=3 ใหผลดทสด) มาชวยในการตดสนเลอกค าใน confusion sets ทใหคาความนาจะเปนสงสดในบรบทเหลานน ซงวธนพบปญหาในเรองของค าบรบททน ามาชวยในการเลอกค าทเหมาะสมทสดเพราะไมใชค าในบรบททกค าจะสามารถระบความเหมาะสมของค าเปาหมายได เชน ค าไวยากรณตางๆ เปนตน วธทสาม Collocations เปนวธการทใชค าบรบททปรากฏรวมและอยตดกบค าเปาหมาย (collocation) มาชวยในการเลอกค าเหมาะสมทสดจากใน confusion sets ซงขอบกพรองของวธการนอยทค าบรบททอยตดกบค าเปาหมายจ านวนมากไมมคณลกษณะทจะสามารถน ามาใชในการคดเลอกค าทเหมาะสมได เพราะค าทอยตดกบค าเปาหมายสวนใหญอาจจะเปนค าไวยากรณทสามารถปรากฏไดกบค าจ านวนมหาศาล จงไมสามารถชวยในการคดเลอกค าทเหมาะสมได วธทส Decision lists เปนวธการทประยกตใชทง context words และ collocations โดยน าค าบรบทและค าขางเคยงทไดจากวธการทงสองมารวมกนแลวหาคาความนาเชอถอของค าบรบททงหมดจากสตร

𝑟𝑒𝑙𝑖𝑎𝑏𝑖𝑙𝑖𝑡𝑦 ′(𝑓) = max 𝑝(𝑤𝑖|𝑓) โดย wi แทน ค าใน confusion set f แทน ค า context หรอ collocation

แลวน าค าบรบทเหลานนมาเรยงล าดบตามคาความนาเชอถอจากมากสดไปหานอยสด จากนนกเลอกใชค าบรบทค าแรกทมคาความนาเชอถอมากสดและสามารถชวยคดเลอกค าใน

Page 29: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

29

confusion set ทเหมาะสมได จดออนของวธการนอยทการใชค าบรบททมคาความนาเชอถอมากทสดเพยงค าเดยวในการชวยเลอกค าทเหมาะสมเพราะค าบรบททมคาความนาเชอถอมากทสดนนอาจจะไมไดเปนค าบรบททจะชวยเลอกค าทเหมาะสมทสดได วธทห าคอ Bayesian Classifiers เปนว ธการทประยกต ใชท ง context words และ collocations เชนเดยวกนกบ Decision lists แตวธการนจะตางไปตรงทการเลอกใชค าบรบทมาชวยในการคดเลอกค าทเหมาะสมจากหนงค าเปนทกค าบรบททจะสามารถชวยเลอกค าทเหมาะสมทสดได ซงเมอน าผลการปฏบตการของวธการทงหมดรวมถง trigrams มาเปรยบเทยบกนไดผลวาวธการนสามารถจดการกบปญหาการสะกดผดแบบเปนค าไดใกลเคยงกบวธการอนๆ โดยจะสามารถจดการค าทสะกดผดทเปนค าประเภทเดยวกนกบค าใน confusion set ไดดกวา trigrams แตจะแยกวาหากประเภทของค าตางกน ซ ง ใน เวลาตอมา Golding and Schabes (1996) ได เสนอว ธ การแบบผสม (hybrid method) ทรวมเอาวธการเชงสถตอยาง trigrams และ วธการหาความนาจะเปนอยาง Bayes เขาไวดวยกนแลวเสนอเปนวธใหมคอ Tribayes โดยใช confusion sets เดยวกนกบทใชในงานของ Golding เมอปค.ศ. 1995 ซง เมอตรวจพบค าใน confusion set ภายในขอความ Tribayes จะน าค าแตละค าใน confusion set มาแทนในประโยคและหาคาความนาจะเปนของประโยคนนจาก POS trigrams แลวเลอกเสนอค าทใหคาความนาจะเปนสงสด ซงผลปรากฏวา Tribayes ท างานไดอยางนาพอใจ แตอยางไรกตาม งานวจยของ Golding ทงในป 1995 และ 1996 วดผลการท างานของวธการตางๆ จากการตรวจจบและแกไขค าใน confusion sets เพยง 18 เซตเทานน หากตองการทจะวดความสามารถของการแกไขการสะกดผดแบบเปนค าจรงในความเปนจรง คงจะตองใช confusion sets จ านวนมากกวานถงจะสามารถตรวจแกค าทสะกดผดไดอยางมประสทธภาพ อกทงในปจจบน ภาษาไทยยงไมมคลงขอมลทมการตดประเภทของค า (Part-Of-Speech Tagging) เพราะฉะนนการใช Part-Of-Speech N-gram เพอชวยในการแกไขการสะกดผดจงยงไมใชวธการทสมควรนกส าหรบสถานการณปจจบน

เนองจากขอบกพรองตางๆ ของวธการทางสถตและความนาจะเปน จงไดมน าวธการดานการเรยนรของเครอง (Machine learning) มาประยกตใชในการแกไขการสะกดผดแบบเปนค าจรง เชน งานของ Golding and Roth (1999) ซงไดมการใชวนโนว (Winnow) เพอชวยในการแกไขค าทสะกดผดแบบเปนค าจรง โดยวนโนวเปนวธการทเรยนรและพฒนาจากการอพเดทน าหนกความนาเชอถอดวยการคณ ซงวธการนจ าเปนตองใช confusion set เพอสอนใหวนโนวเรยนรการปรากฏของค าในบรบททเหมาะสม โดยทค าตางๆ ใน confusion set เปรยบเสมอน กลมกอนเมฆ (clouds) ทเชอมโยงกบโหนดค าบรบท (context words node) และ collocations ตางๆ ท าใหมโครงสรางคลายกบโครงขายใยประสาท (neuron-like network) โดยค าบรบทและ collocations เหลานนจะ

Page 30: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

30

เปนคณลกษณะทน ามาชวยในการตดสนวาค าแตละค าใน confusion set ควรทจะปรากฏในบรบทแวดลอมใด เพอเปนการแกไขความก ากวมในระดบค าซงเปนปญหาทเกดจากการสะกดผดแบบเปนค าจรง วธการจดการกบปญหานดวยวนโนวดเหมอนจะเปนวธการทนาจะสามารถแกไขปญหานไดอยางมประสทธภาพ แตมความยากล าบากในการหาขอมลทครอบคลมค าใน confusion set ทมากพอจะใชในการฝกฝนระบบเพอใหสามารถหา feature ทเกยวของในการเลอกค าตอบไดถกตอง

Page 31: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

31

บทท 3

การจดเตรยมคลงขอมล

เนอหาในบทนจะกลาวถงขอมลและคลงขอมลตางๆ ทน ามาใชในการตรวจแกการสะกดผดแบบเปนค าจรงในงานวจยน เนองจากแบบจ าลองทเสนอในการตรวจแกค าผดในทนใชขอมลไตรแกรมของค าเปนส าคญ หวขอ 3.1 จงจะกลาวถงการเตรยมและสรางคลงขอมลไตรแกรมค า (word-trigram corpus) ส าหรบหวขอ 3.2 คลงขอมลยนแกรมค า (word-unigram corpus) เปนรายการค าพรอมความถทสรางขนมาเพอใชกบระบบทเปนตวเทยบพนฐาน หวขอถดมา กลาวถงการเตรยมคลงขอมลชดค าสบสน (confusion set corpus) ทจะเปนขอมลส าหรบหาตวอยางการสะกดผดแบบเปนค าจรงมาใชและสรางเปนขอมลฝกฝนและทดสอบ (training and testing data) โดยขอมลเหลานเปนสวนทมความส าคญมากทสดสวนหนงของงานวจยชนน เนองจากความสามารถและประสทธภาพในการท างานของระบบชวยตรวจแกการสะกดผดทผวจยไดพฒนานนขนอยกบขอมลทงหลายเหลาน

3.1 คลงขอมลไตรแกรมค า (word-trigram corpus)

คลงขอมลไตรแกรมค าทใชในงานวจยชนน เปนคลงขอมลทเกบขอมลเชงสถตของชดค าเรยงตอกนสามค าคกบความถในการปรากฏของชดค าเรยงนนเอาไว ซงงานวจยนผวจยตองการทดลองพฒนาระบบตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรม ซงแบบจ าลองไตรแกรมทวานนกคอการน าขอมลไตรแกรมค ามาใชในการตรวจจบและแกไขการสะกดผดแบบเปนค าจรงในขอความ เพราะฉะนนคลงขอมลไตรแกรมค าจงเปนเสมอนหวใจส าคญของระบบ ซงวธการในการน าขอมลไตรแกรมในคลงขอมลไตรแกรมค าไปใชตรวจแกการสะกดผดอยางไรนนผวจยได อธบายไวในบทท 5 และในการจดเตรยมคลงขอมลไตรแกรมค าเพอทจะสามารถน ามาใชในการตรวจแกการสะกดผดแบบเปนค าจรงในภาษาไทยนนจ าเปนตองอาศยคลงขอมลภาษาไทยขนาดใหญทมความหลากหลายและเปนขอมลทผใชภาษาไทยใชจรงซงจะชวยใหไดคลงขอมลไตรแกรมค าท จะสามารถชวยใหการตรวจแกการสะกดผด ผวจยจงไดเลอกใชคลงขอมลภาษาไทยแหงชาต (Thai National Corpus II) (Aroonmanakul, 2007) ในการจดเตรยมคลงขอมลไตรแกรมค า ซงคลงขอมลภาษาไทยแหงชาตเปนคลงขอมลภาษาไทยทรวบรวมการใชภาษาไทยทงภาษาเขยนและภาษาพดทใชจรงในปจจบนกวา 32 ลานค า และมความหลากหลายทงทางดานเนอหา (เชงวชาการ กงวชาการ เปนตน) และสอทใชเปนแหลงขอมล (หนงสอ วารสาร หนงสอพมพ นยาย เปนตน) เพราะฉะนนผวจยจงเชอ

Page 32: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

32

วาคลงขอมลไตรแกรมค าทไดจากขอมลในคลงขอมลภาษาไทยแหงชาตจะสามารถน าไปใชตรวจหาและแกไขการสะกดผดแบบเปนค าจรงได

3.1.1 การเตรยมคลงขอมลไตรแกรมค า

เนองจากคลงขอมลไตรแกรมค าในงานวจยชนนใชขอมลจากคลงขอมลภาษาไทยแหงชาต ซงมการก ากบขอมลค าพรอมค าอาน (ดงตวอยาง 3.1.1) แตขอมลทผวจยตองการมเพยงแครปค าไทยเทานน เพราะฉะนนขนตอนแรกในการเตรยมคลงขอมลไตรแกรมค ากคอการสกดเอาเฉพาะค าไทยออกมาจากคลงขอมลภาษาไทยแหงชาตแลวใชเครองหมาย “|” คนระหวางค าแตละค า จากขอมลในตวอยาง 3.1 เมอสกดเอาค าไทยออกมาจากขอมลในสวนนแลวใชเครองหมาย “|” เชอมค าแตละค าเขาดวยกนจะไดประโยคขอความดงน “โครงการ|วจย|เพอ|ปรบปรง|วธการ|ก าหนด|ชอง|สญญาณ|แบบ|พลวต|ใน|ระบบ|โทรศพท|เคลอนท|แบบ|เซล|ล|ลาร” และหากพบตวเลขไมวาจะเปนตวเลขไทยหรออารบก ตวอกษรภาษาองกฤษ หรอสญลกษณเครองหมายตางๆ ทไมใชเครองหมายแบงค า ( | ) ไมยมก (ๆ) ไมไตค ( ) และไปยาลนอย (ฯ) ปรากฏในขอมลทสกดออกมาจากคลงขอมลภาษาไทยแหงชาต ดงตวอยาง 3.2 ตวเลขและตวอกษรภาษาองกฤษเหลานนจะถกเปลยนใหอยในรปของรหสขอมลคอ num และ en โดย num หมายถง ตวเลข และ en หมายถง ตวอกษรหรอค าภาษาองกฤษ สวนสญลกษณเครองหมายตางๆ นอกเหนอจากทยกเวนจะถกตดทง ดงตวอยางท 3.3 หลงจากทไดสกดเอาประโยคขอความออกมาจากคลงขอมลภาษาไทยแหงชาตไดทงหมดแลว ขนตอนทสองคอ แบงค าในแตละประโยคออกเปนสายค าเรยงสามค า เชน “โครงการ|วจย|เพอ” “วจย|เพอ|ปรบปรง” “เพอ|ปรบปรง|วธการ” เปนตน แลวนบความถในการปรากฏของสายค านนทงหมดทพบในคลงขอมลภาษาไทยแหงชาต จากนนขนตอนสดทายกคอ จดเกบขอมลสายค าเรยงสามค าคกบความถในการปรากฏของสายค านนโดยใชเครองหมาย “=” เชอมระหวางขอมลทงสองเอาไวในคลงขอมลไตรแกรมค า

ตวอยาง 3.1 แสดงตวอยางขอมลภายในคลงขอมลภาษาไทยแหงชาต </tncHeader> <text><body>

<p n="1 " ><w tran="khrooN0 kaan0 " >โ ค ร งก า ร </w><w tran="wi3 caj0 ">ว จ ย</w><w tran="phUUa2 " >เ พ อ </w><w tran="prap1 pruN0 " >ป ร บ ป ร ง </w><w tran="wi3thii0kaan0">วธการ</w><w tran="kam0not1">ก าหนด</w><w tran="chOON2">ช อ ง </w><w tran="san4 jaan0 " >ส ญ ญ า ณ </w><w tran="bxxp1 " >แ บ บ </w><w

Page 33: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

33

tran="phon0 la3wat3">พลวต</w><w tran="naj0">ใน</w><w tran="ra3bop1">ระบบ</w><w tran="thoo0ra3sap1">โทรศพท</w><w tran="khlUUan2thii2">เคลอนท</w><w tran="bxxp1 " >แ บ บ </w><w tran="seel0 " >เ ซ ล </w><w tran="luu0 " >ล </w><w tran="laa0">ลาร</w> </p>ccc ตวอยางท 3.2 แสดงตวอยางทสกดไดจากคลงขอมลภาษาไทยแหงชาต |วธการ|ท|จะ|เพม|ความ|จ|ของ|ระบบ|เพอ|รองรบ|การ|ใชงาน|ท|เพม|ขน| |อาจ|ท า|ได|โดย|การ|ลด|ขนาด |ของ |พนท|ครอบคลม |ของ |สถาน|ฐาน|ให |เลก|ลง| |ซง|เรยกวา |ไมโคร|เซลล | |Microcell| |Greenstein| |et| |al|. 1992| |และ| |Sarnecki| |et| |al|. 1993| |ได|กลาวถง|ขอด|ของ|ไมโคร|เซลล| ตวอยางท 3.3 แสดงตวอยางทจดการกบตวเลข ค าภาษาองกฤษ และเครองหมายตางๆ เรยบรอยแลว |วธการ|ท|จะ|เพม|ความ|จ|ของ|ระบบ|เพอ|รองรบ|การ|ใชงาน|ท|เพม|ขน| |อาจ|ท า|ได|โดย|การ|ลด|ขนาด|ของ|พนท|ครอบคลม|ของ|สถาน|ฐาน|ให|เลก|ลง| |ซง|เรยกวา|ไมโคร|เซลล| |en| |num| |และ| |en| |num| |ได|กลาวถง|ขอด|ของ|ไมโคร|เซลล|

3.1.2 ลกษณะโครงสรางของคลงขอมลไตรแกรมค า

คลงขอมลไตรแกรมค าทใชในการวจยนจะประกอบดวยขอมลสองสวน สวนแรกคอขอมลไตรแกรมค า (word trigram) หรอสายค าสามค าเรยงตอเนองกนโดยมเครองหมาย “|” ขนระหวางค า ตวอยางเชน “ฉน|ก าลง|รบประทาน” “ก าลง|รบประทาน|อาหาร” และ “รบประทาน|อาหาร|กลางวน” ซงเปนไตรแกรมค าของประโยค “ฉน|ก าลง|รบประทาน|อาหาร|กลางวน” และสวนทสองคอขอมลความถในการปรากฏของไตรแกรมค าแตละชด ขอมลในสวนแรกและสวนทสองจะถกเกบไวรวมกนเปนค โดยมเครองหมาย “=” คนกลาง ดงนนขอมลในไตรแกรมค าจงมลกษณะโครงสรางดงตวอยางดานลาง

ตวอยาง 3.4 แสดงตวอยางขอมลในคลงขอมลไตรแกรมค า (ความถในตวอยางเปนความถสมมต)

ไตรแกรมค า=ความถ ฉน|ก าลง|รบประทาน=57

ก าลง|รบประทาน|อาหาร=63 รบประทาน|อาหาร|กลางวน=45

Page 34: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

34

3.2 คลงขอมลยนแกรมค า (word-unigram corpus)

คลงขอมลยนแกรมค าในงานวจยน หมายความถงคลงขอมลทเกบขอมลเชงสถตของค าแตละค าคกบความถในการปรากฏของค าๆ นนเอาไว ซงผวจยเตรยมคลงขอมลนขนเพอน าไปใชในระบบตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองยนแกรม เพอน าผลการท างานทไดมาเปรยบเทยบกบผลการท างานของระบบทใชแบบจ าลองไตรแกรม ตามสมมตฐานขอท 2 ของงานวจยนทผวจยระบไววาผลการท างานของระบบตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรมจะไดผลถกตองมากกวาดวยแบบจ าลองยนแกรม

3.2.1 การเตรยมคลงขอมลยนแกรมค า

การเตรยมคลงขอมลยนแกรมค านนคลายคลงกบการเตรยมคลงขอมลไตรแกรมค าทอธบายไวในหวขอ 3.1.1 ในสวนของการสกดเอาประโยคขอความภาษาไทยทงหมดออกมาจากคลงขอมลภาษาไทยแหงชาจ แตจะตางกนในขนตอนการน าค าแตละค าไปหาความถในการปรากฏ คลงขอมลยนแกรมค าจะเกบรวบรวมความถในการปรากฏทงหมดของค าแตละค าในคลงขอมลภาษาไทยแหงชาตไมใชชดค าเรยงตอกนสามค า

3.2.2 ลกษณะโครงสรางของคลงขอมลยนแกรมค า

ขอมลในคลงขอมลยนแกรมค าประกอบดวยขอมลสองสวน สวนแรกคอขอมลยนแกรมค า (word unigram) ตวอยางเชน “ฉน” “ก าลง” “รบประทาน” “อาหาร”เปนยนแกรมค าของประโยค “ฉน|ก าลง|รบประทาน|อาหาร” และสวนทสองคอขอมลความถในการปรากฏของยนแกรมค า ขอมลในสวนแรกและสวนทสองจะถกเกบไวรวมกนเปนค โดยมเครองหมาย “=” คนกลาง ซงมลกษณะโครงสรางดงตวอยางตอไปน ตวอยาง 3.5 แสดงตวอยางขอมลในคลงขอมลยนแกรมค า (ความถในตวอยางเปนความถสมมต)

ยนแกรมค า=ความถ ฉน=2,278

ก าลง=4,152 รบประทาน=394 อาหาร=735

Page 35: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

35

รปภาพท 3.1 แสดงขนตอนในการเตรยมคลงขอมลไตรแกรมและคลงขอมลยนแกรม

3.3 คลงขอมลชดค าสบสน (confusion set corpus)

คลงขอมลชดค าสบสนในงานวจยน หมายถง คลงขอมลทประกอบดวยขอมล 2 ประเภท ประเภทแรกคอ ค าไทยทสะกดผด และประเภททสองคอ ค าทสะกดถกตอง ซงค าแตละค าในรายการค าทสะกดผดจะถกเกบไวคกบค าทถกตองของค าผดนน คลงขอมลชดค าสบสนนเปนคลงขอมลทน าไปใชในการตรวจแกสะกดผดแบบเปนค าจรงเชนกน ซงผลการท างานของระบบตรวจแกการสะกดผดทใชคลงขอมลชดค าสบสนในการตรวจแกการสะกดผดนจะถกน าไปเปรยบเทยบกบผลการท างานของระบบตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรมดวย ตามทระบในสมมตฐานขอท 3 เอาไววาระบบตรวจแกการสะกดผดแบบเปนค าจรงทใชคลงขอมลชดค าสบสนในการแกไขการสะกดผดจะใชเวลาในการประมวลผลนอยกวาการใชวธการตรวจนอยทสด (minimum edit distance)

3.3.1 การเตรยมคลงขอมลชดค าสบสน

ในการเตรยมคลงขอมลชดค าสบสนนน ผวจยไดรวบรวมค าทสะกดผดจากหนงสอค าไทยทมกเขยนผดทงหมดหาเลม ไดแก “อานอยางไรและเขยนอยางไร ฉบบราชบณฑตยสถาน (แกไขเพมเตม) พมพครงท ๒๒” (ราชบณฑตยสถาน, 2557), “๒๘๐ ค าไทยทมกเขยนและใชกนผด” (ดนย เมธตานนท, 2549) , “รอยแปด (๑๐๘) ค าทมกเขยนผด” (ธน ทดแทนคณ, 2550), “ค าไทยทมกใช

คลงขอมลภาษาไทยแหงชาต

คลงขอมลไตรแกรม คลงขอมลยนแกรม

สกดเอาเฉพาะประโยคขอความภาษาไทย

ประโยคขอความ

แบงประโยคเปนชดค าเรยงสามค าและนบความถ

นบความถของค าแตละค า

Page 36: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

36

ผด” (ตระการ เอยมตระกล, 2554) และ “ภาษาไทย ค าทมกเขยนผด” (ฝายวชาการ พบซ, 2553) ทภายในบนทกค าภาษาไทยทมกเขยนผดรวมถงค าทเขยนถกตองเอาไว เนองจากงานวจยนสนใจทจะตรวจแกเฉพาะการสะกดผดแบบเปนค าจรง ผวจยจงไดน าขอมลค าเหลานไปผานกระบวนการตดค าดวยระบบตดค า“Thai Segmentation” (Aroonmanakun, 2002) แลวคดเอาเฉพาะคค าสะกดผดและถกตองทผานกระบวนการตดค า เพราะค าทมความหมายและปรากฏในพจนานกรมเทานนทระบบจะสามารถตดค าไดส าเรจ ดงนนค าสะกดผดทผานการตดค าส าเรจกคอค าทสะกดผดแบบเปนค าจรง ซงมจ านวนทงหมด 1,674 คค า จากนนกจดเกบคค าสะกดผดและถกตองทงหมดนไวในคลงขอมลชดค าสบสน

รปภาพท 3.2 แสดงขนตอนในการเตรยมคลงขอมลชดค าสบสน 3.3.2 ลกษณะโครงสรางของคลงขอมลชดค าสบสน

ขอมลในคลงขอมลชดค าสบสนประกอบดวยขอมลสองสวน สวนแรกคอขอมลค าสะกดผด และสวนทสองคอขอมลค าทสะกดถกตอง ขอมลในสวนแรกและสวนทสองจะถกเกบไวรวมกนเปนค โดยคนกลางดวยแทบ ซงมลกษณะโครงสรางดงตวอยางตอไปน

หนงสอค าไทยทมกเขยนผด

คลงขอมลชดค าสบสน

สกดเอาค าทสะกดผดและค าทสะกดถกตอง

รายการค าทสะกดผดและสะกดถกตอง

ผานระบบตดค า ThaiSegmentation คดเอาเฉพาะค าทตดค าส าเรจ

Page 37: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

37

ตวอยาง 3.6 แสดงตวอยางขอมลในคลงขอมลชดค าสบสน ค าทสะกดผด ค าทสะกดถกตอง

|เกรด|ปลา| |เกลด|ปลา| |แกง|บวช| |แกงบวด| |คน|บนได| |ขน|บนได|

3.3.3 ขอมลฝกฝนและทดสอบ (training and test data)

เนองจากงานวจยนสนใจเฉพาะการตรวจแกการสะกดผดแบบเปนค าจรงเทานน เพราะฉะนนขอมลทจะน ามาใชฝกฝนและทดสอบตวระบบกควรเปนขอมลทจะสะทอนความสามารถในการตรวจแกการสะกดผดแบบเปนค าจรงได ผวจยจงไดน าเอาค าทสะกดผดในคลงขอมลชดค าสบสนมาใชเปนค าส าคญในการคนหาประโยคตวอยางบนอนเตอรเนต ดวยเหตผลทวาค าทสะกดผดในคลงขอมลชดค าสบสนนนลวนผานการตดค าส าเรจ ในทางคอมพวเตอรถอวาเปนค าทสะกดผดแบบเปนค าจรงและการน าค าสะกดผดไปคนหาประโยคตวอยางบนอนเตอรเนตนนกเพอใหไดตวอยางประโยคทปรากฏการใชจรง

3.3.3.1 การเตรยมขอมลฝกฝน (training data) ในขนแรกผวจยไดสมเอาค าทสะกดผดในคลงขอมลชดค าสบสนจ านวนหนงไปคนหาขอความตวอยางทมค าสะกดผดนนอยในขอความดวยจาก google ซงขอความนนตองมความยาวระหวาง 5-50 ค าตอหนงขอความ ตวอยางเชน ค าวา “ขดขน” เปนค าทสะกดผดในคลงขอมลชดค าสบสน ทน าไปคนหาขอความตวอยางจาก google ไดขอความ “ตวอยางของเครองหมายขดขนแบบไมแบงสวน” จากนนผวจยไดเกบรวบรวบขอความตวอยางในลกษณะเชนนไวคกบค าสะกดผดทน าไปคนและค าทสะกดถกตองซงในตวอยางนคอค าวา “ขดคน” เอาไวดวยกนเปนชด ซงรวบรวมไดจ านวนทงหมด 3,787 ชด แลวในขนตอนสดทายผวจยกน าขอมลท ง 3,787 ขอมล น ไปผานระบบตดค า “ThaiSegmentation 2.2”(Aroonmanakul, 2002) เพอคดเลอกเอาเฉพาะตวอยางขอความทตดค าส าเรจทงขอความและเพอเปนการชวยระบขอบเขตของค าแตละค าดวยเครองหมาย |

3.3.3.2 การเตรยมขอมลทดสอบ (test data) ขนตอนในการเตรยมขอมลทดสอบนนเหมอนกบการเตรยมขอมลฝกฝน แตจะแตกต างกน

ตรงทจ านวนขอความภาษาไทยภายในขอมล ซงจ านวนขอความของขอมลทดสอบนนเทากบ 1,000 ขอความ ทไดจากการสมเลอกค าทสะกดผดแบบเปนค าจรงจากคลงชดค าสบสนมา 375 ค า แลวน าไปสบคนบนอนเตอรเนตเพอใหไดขอความตวอยางของค าสะกดผดทเกดขนจรงและมค าสะกดผดทสมเลอกมาจากชดค าสบสนนปนอยอยางนอยหนงค าตอหนงขอความจ านวน 1,000 ขอความ หรอ

Page 38: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

38

ประมาณ 33,000 ค า แลวน าขอความทจะใชทดสอบทงหมดนไปผานกระบวนการตดค า แลวคดเลอกเอาเฉพาะขอความทตดค าไดส าเรจทงขอความ หากพบวามขอความใดตดค า ไมส าเรจ ผวจยกจะหาขอความตวอยางใหมมาทดแทนใหมจ านวนขอมลทดสอบครบ 1,000 ขอความ ซงภายในยงคงมค าทสะกดผดแบบเปนค าจรงอยเชนเดม

3.3.3.3 ลกษณะโครงสรางของขอมลฝกฝนและทดสอบ ขอมลทจะใชฝกฝนและทดสอบแตละชด จะประกอบดวยขอมลทงหมด 3 สวน สวนแรกคอประโยคตวอยางซงมค าทสะกดผดแบบเปนค าจรงอย สวนทสองคอค าทสะกดผดแบบเปนค าจรงทปรากฏอยในประโยค และสวนสดทายคอค าทสะกดถกตอง โดยจะมเครองหมาย “>>” คนกลางระหวางขอมลแตละสวน และมเครองหมาย “|” เปนตวระบขอบเขตของค า ดงตวอยางดานลาง ตวอยาง 3.7 แสดงตวอยางขอมลฝกฝนและทดสอบ ประโยคตวอยาง>>ค าทสะกดผด>>ค าทสะกดถกตอง |นอกจาก|ขาวตม|มด|แลว|ยง|ม|แกง|บวช|ฟกทอง|>>แกง|บวช>>แกงบวด คลงขอมลทงหมดทจดเตรยมไวในสวนนจะถกน าไปใชเปนองคประกอบส าคญส าหรบตรวจจบและแกไขการสะกดผดแบบเปนค าจรงดวยวธการทแตกตางกนไปตามประเภทของขอมลในคลงขอมล ซงผวจยไดอธบายไวในบทท 5 สวนในบทตอไปผวจยจะกลาวถงการวเคราะหค าไทยท มกเขยนผด

Page 39: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

39

บทท 4

การวเคราะหค าไทยทมกเขยนผด

เนอหาในบทนจะกลาวถงการน าค าไทยทมกเขยนผดมาศกษาวเคราะหหาลกษณะและรปแบบการสะกดผดแบบเปนค าจรง ซงเนอหาสวนแรกจะบอกถงขนตอนวธการวเคราะหค าทมกเขยนผดและขอมลทน ามาใช จากนนในสวนทสองจะกลาวถงผลการวเคราะหรปแบบการสะกดผดทพบในการศกษาครงน

4.1 ขนตอนการวเคราะหค าไทยทมกเขยนผด

ขนตอนท 1 เตรยมขอมล ส าหรบค าไทยทมกเขยนผดทจะน ามาใชในการศกษาวเคราะหครงนตองเปนค าทสะกดผดแบบเปนค าจรงและตองปรากฏการใชจรงบนอนเตอรเนตดวยเพอใหตรงตามวตถประสงคขอท 1 ของงานวจยน ผวจยจงไดน าค าทสะกดผดจ านวน 1,674 ค าจากคลงขอมลชดค าสบสนในหวขอ 3.3 มาใชในการศกษาวเคราะห ซงลวนเปนค าทสะกดผดแบบเปนค าจรง จากนนจงน าค าทสะกดผดเหลานนไปคนบนอนเตอรเนตเพอหาตวอยางการใชจรงของค าเหลานนมาเปนขอมล ขนตอนท 2 ก ากบขอมล ในขนตอนน ผวจยไดน าแนวคดวธการปรบแกนอยครงสด (minimum edit distance) มาใชชวยในการหารปแบบของการสะกดผด โดยมองวาความแตกตางของค าทสะกดถกและค าทสะกดผดนนเกดจากการปรบแกอยางนอย 1 จาก 3 แบบตอไปน ไดแก การเตม (insertion) การลบ (deletion) และการแทนท (substitution) กลาวคอ ถาหากวาจ านวนตวอกษรของค าทสะกดผดนนมากกวาค าทสะกดถกแสดงวาการสะกดผดนเกดจากการเตมตวอกษร x เขาไปในค าทสะกดผด ซงค าทสะกดผดนจะถกก ากบรปแบบการสะกดผดเปน “0_x” โดย 0 หมายถง ความวางเปลา เครองหมาย _ หมายถง เปลยนไปเปน และ x หมายถงตวอกษรทเตมเขาไปในค าทสะกดถกตอง ตวอยางเชน ค าวา “มาตรการ” เขยนผดเปน “มาตราการ” จะเหนวาเมอเตม “สระ -า” เขาไป ค าทสะกดถกกจะกลายเปนค าทสะกดผด ดงนนขอมลนจะถกก ากบรปแบบของการสะกดผดเปน “0_า” แตถาหากวาจ านวนตวอกษรของค าทสะกดผดนอยกวาค าทสะกดถก แสดงวาการสะกดผดนเกดจากการลบตวอกษร x ออกจากค าทถกตอง โดยค าสะกดผดในลกษณะนจะถกก ากบขอมลดวย “x_0” โดย x หมายถงตวอกษรทถกลบออกจากค าสะกดถก ตวอยางเชน ค าวา “อกกาบาต” เขยนผดเปน “อกาบาต” จะเหนไดวาเมอลบ “ก” ในค าทสะกดถกออกหนงตว กจะกลายเปนค าทสะกดผด ดงนนขอมล

Page 40: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

40

นจะถกก ากบขอมลเปน “ก_0” และถาหากวาจ านวนตวอกษรของค าทสะกดถกและสะกดผดมจ านวนเทากน แสดงวาการสะกดผดนเกดจากการแทนทตวอกษร x ดวยตวอกษร y ซงการสะกดผดลกษณะนจะถกก ากบขอมลเปน “x_y” โดย x หมายถงตวอกษรในค าทสะกดถกซงถกแทนทดวยตวอกษร y และ y หมายถงตวอกษรในค าทสะกดผดซงปรากฏแทนทตวอกษร x ตวอยางเชน ค าวา “ลมหวน” เขยนผดเปน “ลมหวล” จะเหนไดวาเมอ น ในค าทสะกดถกนนถกแทนทดวย ล กจะกลายเปนค าทสะกดผด ซงขอมลทมการสะกดผดในลกษณะนจะถกก ากบรปแบบการสะกดผดเปน “น_ล” ดวยวธการนจะท าใหสามารถระบและก ากบขอมลรปแบบของการสะกดผดหรอรปตวอกษรอะไรเปลยนไปเปนอะไรเทยบจากค าสะกดถกไปเปนค าสะกดผด จ านวนการสะกดผดทปรบแก และการสะกดผดปรากฏทต าแหนงใดบางตามโครงสรางค าภาษาไทย ไดแก พยญชนะตน สระ วรรณยกต ตวสะกด และตวการนต (สนนท อญชลนกล, 2552) ผวจยไดก ากบขอมลตางๆ เหลานเพอน าไปวเคราะหในขนตอนตอไป ซงขอมลทไดรบการก ากบขอมลเรยบรอยแลวจะมลกษณะดงทปรากฏในตารางท 1 ตารางท 4.1แสดงตวอยางขอมลการสะกดผดแบบเปนค าจรงในภาษาไทยทน ามาวเคราะห

ขนตอนท 3 วเคราะหขอมล หลงจากทก ากบขอมลเสรจเรยบรอยแลว ผวจยไดน าขอมลเหลานนมาศกษาวเคราะหโดยอาศยขอมลตางๆ ทไดก ากบค าทสะกดผดแตละค าเอาไวไมวาจะเปนจ านวนการสะกดผด ต าแหนงทสะกดผด และรปแบบของการสะกดผดทพบในแตละค าวามความเหมอนหรอความตางกนอยางไรบางเพอทจะสามารถน ามาใชจ าแนกหรอจดประเภทของค าทสะกดผดตามลกษณะหรอรปแบบทปรากฏได

ค ำทสะกดถกตอง

มกสะกดผดเปน จ ำนวนกำรสะกดผดทพบในหนงค ำ

ต ำแหนงของ กำรสะกดผด

รปแบบกำรสะกดผด

ราดหนา ลาดหนา 1 พยญชนะตน ร_ล (ร ถกแทนทดวย ล) วกฤตกาล วกฤตการ 2 สระ

ตวสะกด _0 (ลบสระ อ) ล_ร (ล ถกแทนทดวย ร)

นานปการ นานบประการ 3 ตวสะกด

พยญชนะตน

สระ

0_บ (เตม บ) 0_ร (เตม ร) 0_ะ (เตมสระ อะ)

Page 41: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

41

4.2 รปแบบการสะกดผด

จากการศกษาวเคราะหค าทสะกดผดแบบเปนค าจรงของค าทมกเขยนผดในครงนพบวา เมอพจารณาจ านวนการสะกดผดทปรบแกในค าแตละค าดงตวอยางในตารางท 1 สามารถจ าแนกขอมลค าทสะกดผดเหลานออกเปน 2 กลมใหญ คอ กลมของค าทมการสะกดผดหนงต าแหนง และ กลมของค าทสะกดผดหลายต าแหนง โดยพบวามจ านวนค าทสะกดผดในกลมแรก 1,339 ค า และกลมทสอง 335 ค า จากทงหมด 1,674 ค า หรอรอยละ 80 และ 20 ตามล าดบ 4.2.1 ค าทสะกดผดหนงต าแหนง

เมอศกษาวเคราะหค าทสะกดผดกลมนตามต าแหนงทปรากฏการสะกดผดพบวาสามารถแบงค าในกลมนออกเปน 5 กลมตามโครงสรางค าไทยทประกอบดวย พยญชนะตน สระ วรรณยกต ตวสะกด และตวการนต แลววเคราะหรปแบบของการสะกดผดในแตละกลมตามวธการปรบแกจากค าทสะกดถกไปเปนค าทสะกดผดใน 3 ลกษณะคอ การเตม การลบ และการแทนท ซงผลจากการศกษาวเคราะหมดงตอไปน

4.2.1.1 ค าสะกดผดทพยญชนะตน จากการศกษาพบวามค าทสะกดผดในต าแหนงพยญชนะตนมจ านวนมากทสดคอมจ านวน 382 ค า จากทงหมด 1,674 ค าหรอรอยละ 22.82 หรอเมอเทยบกบค าทสะกดผดหนงต าแหนงทงหมด 1,339 ค า จะคดเปนรอยละ 28.53 ซงตวอยางของการสะกดผดทพบมากทสดในกลมน คอ การแทนท ร ดวย ล เชน ค าวา “รองน า” “ราดหนา” “หารอ” สะกดผดเปน “ลองน า” “ลาดหนา” “หาลอ” ตามล าดบ เปนตน และผลการวเคราะหรปแบบการสะกดผดตามวธการปรบแก 3 แบบมดงน ก ค าสะกดผดทมการแทนทพยญชนะตน จากการวเคราะหค าทสะกดผดในต าแหนงพยญชนะตน 382 ค า พบวารอยละ 63.61 หรอ 243 ค า เปนการสะกดผดทมการแทนทพยญชนะตนดวยพยญชนะตวอนทออกเสยงคลายกนหรอเหมอนกนแตมรปเขยนตางกน เชน การใชพยญชนะ ร /r/ และ ล /l/ ซงเปนพยญชนะในภาษาไทยทในความเปนจรงแลวมกจะถกใชสลบกนอยเปนประจ า และถงแมวาจะออกเสยงพยญชนะสองตวนสลบกนผฟงกยงคงเขาใจในสงทผพดตองการสอ ดวยบรบทในการสนทนาจงไมสงผลตอความหมายเชน “นงเลอไปซอพลก” ดวยเหตนความถกตองในการออกเสยงของค าจงอาจเปนปจจยส าคญทสงผลใหพยญชนะสองตวนถกใชสลบกนในรปเขยนและท าใหเกดการสะกดผดในลกษณะน จากผลการวเคราะหยงพบวามค าทสะกดผดโดยเขยนพยญชนะสองตวนสลบกน คอใช ร

Page 42: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

42

แทน ล หรอ ร แทน ล ในต าแหนงพยญชนะตนมากถง 135 ค า จาก 382 ค าหรอรอยละ 35.34 ตวอยางเชน ค าวา “พรางตา” สะกดผดเปน “พลางตา” และ “เกลดปลา” สะกดผดเปน “เกรดปลา” เปนตน นอกจากนยงพบวามการสะกดผดในลกษณะนเกดขนกบพยญชนะตวอนๆ ดวย ตวอยางเชน การใชพยญชนะ น แทน ณ , ใช ส แทน ศ, และใช ทร แทน ซ ในค าวา “ปราณ” สะกดผดเปน “ปราน”, “ประกาศต” สะกดผดเปน “ประกาสต” และ “ซาบซง” สะกดผดเปน “ทราบซง” ตามล าดบ ซงจะเหนไดวาพยญชนะตนแตละคทสะกดผดในลกษณะนมกเปนรปเขยนทใชแทนหนวยเสยงเดยวกน คอ น และ ณ แทนหนวยเสยง /n/ และ ส ศ ซ และทร(ในค าวา “ทราบ”) แทนหนวยเสยง /s/ ข ค าสะกดผดทมการเตมพยญชนะตน จากการวเคราะหพบวามค าทสะกดผดในลกษณะนรอยละ 20.94 หรอจ านวน 80 ค าจากค าทสะกดผดในต าแหนงพยญชนะตนทงหมด 382 ค า โดยพบวาค าทสะกดผดในลกษณะนสวนใหญเปนค าควบกล า โดยเฉพาะค าควบกล าทม ร และ ล ประสมในอกษรควบ และตวอยางของค าสะกดผดในลกษณะนทพบมากทสดคอ การเตม ร หลงพยญชนะตน ก ไดเปนอกษรควบกล า กร เชน “กะทนหน” “กะพรบ” สะกดผดเปน “กระทนหน” “กระพรบ” เปนตน และตวอยางทพบรองลงมา คอ การเตม ล หลงพยญชนะตน ผ หรอ ก ไดเปนอกษรควบกล า ผล หรอ กล เชน “ผดผอน” สะกดผดเปน “ผลดผอน” และ “วางกาม” สะกดผดเปน “วางกลาม” เปนตน ค ค าสะกดผดทมการลบพยญชนะตน ค าทสะกดผดในลกษณะนมจ านวน 59 ค าจาก 382 ค าหรอรอยละ 15.45 ซงค าสะกดผดทมการลบพยญชนะตนสวนใหญกเปนค าควบกล าทมพยญชนะตนตวทสองเปน ร หรอ ล ซงตวอยางการสะกดผดลกษณะนทพบบอยคอ การพมพตกพยญชนะควบกล า ร ทตามหลงพยญชนะตน ก ตวอยางเชน “กระเพาะ” สะกดผดเปน “กะเพาะ” และไมใส ล หรอ ร หลงพยญชนะตน ผ และ ป ตามล าดบ เปนตวอยางการสะกดผดลกษณะนทพบรองลงมา ตวอยางเชน “ผลดเวร” สะกดผดเปน “ผดเวร” และ “ประปา” สะกดผดเปน “ปะปา” เปนตน

4.2.1.2 ค าสะกดผดทตวสะกด จากการวเคราะหพบวาจากค าทสะกดผดหนงต าแหนง 1,339 ค า มค าทสะกดผดทตวสะกดจ านวน 338 ค า คดเปนรอยละ 25.24 หรอเทากบรอยละ 20.20 เมอค านวณจากค าสะกดผดทศกษาทงหมด 1,674 ค า และเมอวเคราะหค าในกลมนตามวธการปรบแก 3 แบบ ไดผลดงน ก ค าสะกดผดทมการแทนทตวสะกด ค าสะกดผดในรปแบบนมกเปนค าทแทนทตวสะกดทถกตองดวยตวสะกดอนในมาตราตวสะกดเดยวกน จงท าใหเกดการสะกดผดทยงคงออกเสยงเชนเดมอย ค าสะกดผดกลมน พบ

Page 43: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

43

มากทสดคอ 315 ค า หรอ 93.2% จากค าสะกดผดทตวสะกดทงหมด 338 ค า ตวอยางการสะกดผดทพบมากเปนอนดบตนๆ ไดแก การใชตวสะกด ล แทน น เชน “ทนหว” สะกดผดเปน “ทลหว” การใช น แทน ล เชน “กงวล” สะกดผดเปน “กงวน” และการใช น แทน ณ เชน “เกษยณอาย” สะกดผดเปน “เกษยนอาย" เปนตน ข ค าสะกดผดทมการเตมตวสะกด ค าสะกดผดในรปแบบนเกดจากการเตมตวสะกดเพมเขาไปในค าทถกตองท าใหกลายเปนค าทสะกดผด พบทงหมด 12 ค า หรอรอยละ 3.55 ตวอยางเชน การเตมตวสะกด น ใน ค าวา “ทรมาทรกรรม” สะกดผดเปน “ทรมานทรกรรม” หรอเตมตวสะกด ม ในค าวา “กรรมาชพ” ซงสะกดผดเปน “กรรมมาชพ” เปนตน ค ค าสะกดผดทมการลบตวสะกด ค าทสะกดผดเนองจากตวสะกดของค าทสะกดถกตองบางตวหายไปท าใหค านนสะกดผด มทงหมด 11 ค าหรอ 3.25% เชน การลบตวสะกด ษ ออก จากค าวา “อธษฐาน” ท าใหสะกดผดเปน “อธฐาน” เปนตน

4.2.1.3 ค าสะกดผดทสระ การสะกดผดในลกษณะนเกดจากการเลอกใชสระไมถกตอง ซงพบจ านวนค าทสะกดผดในลกษณะนจ านวน 306 ค า เทากบรอยละ 18.28 จากค าสะกดผดทงหมดทศกษาและเทากบรอยละ 22.85 จากค าทสะกดผดหนงต าแหนงทงหมด และเมอจ าแนกค าทสะกดผดในลกษณะนออกเปน 3 กลมยอย ตามวธการปรบแก 3 แบบ ไดผลดงน ก ค าสะกดผดทมการเตมสระ การสะกดผดในลกษณะนเกดจากการใสรปสระเพมเขาไปในค า ซงจากการวเคราะหพบวาประมาณครงหนงของค าสะกดผดทสระจากทงหมด 306 ค า มค าทสะกดผดในลกษณะนอย 151 ค า หรอรอยละ 49.35 นอกจากนยงพบวาค าทสะกดผดในลกษณะนมกเปนค าทไมประวสรรชนยหรอกคอค าทมเสยงสระ อะ ประสมอยแตไมปรากฏในรปเขยน โดยธรรมชาตของค าทไมประวสรรชนยนนจะออกเสยงสระ อะ เพยงกงเสยง ตวอยางเชน “ธรกจ” สะกดผดเปน “ธระกจ” “สไบ” สะกดผดเปน “สะไบ” “ชบา” สะกดผดเปน “ชะบา” “ลออ”สะกดผดเปน “ละออ” เปนตน อยางไรกตามจากตวอยางขางตน หากลองออกเสยงสระ อะ ในค าเหลานเตมเสยงจะพบวาไมมผลตอการรบรหรอเขาใจความหมายของค าเหลาน ดงนนความยดหยนในวธการออกเสยงค าเหลานอาจเปนปจจยส าคญทท าใหเกดการสะกดผดในลกษณะน นอกจากการเตมสระ อะ ในค าทไมประวสรรชนยแลว ยงพบการสะกดผดจากการเตมรปสระอนๆ อก เชน สระอา สระโอ สระอ เปนตน ตวอยางเชน

Page 44: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

44

ค าวา “มาตรฐาน” สะกดผดเปน “มาตราฐาน” “หยกศก” สะกดผดเปน “หยกโศก” “กรยา” สะกดผดเปน “กรยา” เปนตน ข ค าสะกดผดทมการลบสระ ลกษณะของการสะกดผดนคอการทมรปสระบางตวตกหลนไป ซงมจ านวน 99 ค าหรอรอยละ 32.35 ตวอยางของการสะกดผดในลกษณะนทพบมากทสดคอ การไมประวสรรชนยใหกบค าทประวสรรชนย ซงค าทประวสรรชนยนนจะออกเสยงสระเตมเสยงเฉพาะพยางคทอยทายค า ถาอยต าแหนงอนออกเสยงกงเสยง ตวอยางเชน ค าวา “อสระ” สะกดผดเปน “อสร” “ชะงด” สะกดผดเปน “ชงด” “สะดง สะกดผดเปน “สดง” เปนตน การสะกดค าเหลานผดอาจจะมสาเหตหลกมาจากวธการออกเสยงดงทกลาวไวในหวขอทแลว รปสระอนในการสะกดผดลกษณะนทพบมากรองลงมา ไดแก การลบไมไตคออก ( ) ซงเปนเครองหมายทเปนสวนประกอบของสระแอะ (แ ะ) และสระเอาะ( อ_) ตวอยางเชน “นอนแบบ” สะกดผดเปน “นอนแบบ” “ผลอย” สะกดผดเปน “ผลอย” เปนตน ค ค าสะกดผดทมการแทนทสระ การสะกดผดนเกดจากการเลอกใชสระไมถกตอง ซงพบวามค าทสะกดผดในลกษณะน 56 ค า จาก 306 ค า เทากบ 18.30% ซงการสะกดผดในลกษณะนตวอยางทพบมากทสดจะเปนการเลอกใชรปสระผดระหวาง สระ ไ- และ ใ- ตวอยางเชน “ไตฝน” เขยนผดเปน “ใตฝน” และ “เยอใย” เขยนผดเปน “เยอไย” เปนตน รองลงมาคอการเลอกใชรปสระอะ แทน สระอา ตวอยางเชน “ประณต” สะกดผดเปน “ปราณต” “จะละเมด” สะกดผดเปน “จาละเมด” เปนตน

4.2.1.4 ค าสะกดผดทตวการนต จากการวเคราะหพบวามค าสะกดผดในต าแหนงตวการนตจ านวน 270 ค า จากค าสะกดผดทน ามาศกษาทงหมด 1,674 ค า ซงคดเปนเปอรเซนตได 16.13% และ 20.16% ของกลมค าทสะกดผดหนงต าแหนง 1,339 ค า หลงจากทไดศกษาวเคราะหค าทมกเขยนผดในกลมนตามวธการปรบแก 3 แบบ ไดผลดงน ก ค าสะกดผดทมการเตมตวการนต การสะกดผดลกษณะนเปนการสะกดผดทมตวอกษรหรอเครองหมายการนต ( ) เพมเขาไปในสวนของตวการนตท าใหสะกดผด ค าสะกดผดในกลมนเปนการสะกดผดทตวการนตทพบวามมากทสดคอ 130 ค า จากทงหมด 270 ค า หรอคดเปน 48.15% ตวอยางเชน การเตม ย ในค าวา “อนทร” (นก) สะกดผดเปน “อนทรย” (สาร) หรอ “บณฑต” สะกดผดเปน “บณฑตย” ซงตวอยางทพบรองลงมาไดแก การเตม ค หรอ ณ ตวอยางเชน “คดสรร” สะกดผดเปน “คดสรรค” “รกษาการ” สะกดผดเปน “รกษาการณ” ตามลบดบ

Page 45: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

45

ข ค าสะกดผดทมการลบตวการนต ค าทสะกดผดในกลมนเปนค าทขาดตวการนตไปแลวท าใหสะกดผด ซงพบวามค าทสะกดผดในกลมนทงหมด 98 ค า หรอ 36.30% ตวอยางการสะกดผดลกษณะทพบมากทสด คอ ค าทตก ณ เชนค าวา “ประสบการณ” ไดเปนค าทสะกดผด “ประสบการ” และตวอยางทพบมากรองลงมาคอ ค าทตก ย ค ห ฯ ตามล าดบ เชน “ครองราชย” สะกดผดเปน “ครองราช” “สงสรรค” สะกดผดเปน “สงสรร” “มโนราห” สะกดผดเปน “มโนรา” เปนตน ค ค าสะกดผดทมการแทนทตวการนต สวนค าในกลมนเปนค าทสะกดผดเนองจากใชตวการนตไมถกตอง ซงมค าทสะกดผดในกลมนทงหมด 42 ค าหรอรอยละ 15.56 ซงตวอยางการสะกดผดในลกษณะนทพบมากทสด คอ การใช ร แทน น เชนในค าวา “จนทนเทศ” “ดอกไมจนทน” “จนทนผา” ซงสะกดผดเปน “จนทรเทศ” ดอกไมจนทร” “จนทรผา” ตามล าดบ ตวอยางการสะกดผดทพบรองลงมา คอ การใช ส แทน ฆ และ ศ แทน ค เชน “ผลานสงส” สะกดผดเปน “ผลานสงฆ” “ดรยางค” เขยนผดเปน “ดรยางศ” เปนตน

4.2.1.5 ค าสะกดผดทวรรณยกต จากการศกษาพบวาการสะกดผดหนงต าแหนงทเกดจากความผดพลาดในการใชวรรณยกตนนเปนการสะกดผดทพบนอยทสดคอ 43 ค า จากทงหมด 1,674 ค า หรอเทากบรอยละ 2.57 หรอเทากบรอยละ 3.21 จากค าทสะกดผดหนงต าแหนงทงหมด 1,339 ค า หลงจากทไดศกษาวเคราะหค าทมกเขยนผดในกลมนตามวธการปรบแก 3 แบบ ไดผลดงน ก ค าสะกดผดทมการเตมวรรณยกต ค าทสะกดผดในกลมนเปนค าทมรปวรรณยกตเกนมาซงเปนลกษณะการสะกดผดทวรรณยกตทพบมากทสด คอ 22 ค าจากทงหมด 43 ค า หรอเทากบ 51.16% โดยรปวรรณยกตทมกถกเตมเขาไปในค าแลวท าใหเกดการสะกดผดในลกษณะนคอ วรรณยกตเอก ตร โท และจตวา ไลเรยงตามจ านวนตวอยางค าสะกดผดทพบ ตวอยางเชน “จกจน” สะกดผดเปน “จกจน”, “ตงโอ” สะกดผดเปน “ตงโอ” และ “กวยจ” สะกดผดเปน “กวยจ” เปนตน ข ค าสะกดผดทมการแทนทวรรณยกต ค าทสะกดผดในกลมนเปนค าทมการสะกดผดเพราะใชรปวรรณยกตผดเพยนไปจากเดม ซงมทงหมด 15 ค า คดเปน 34.88% ซงการสะกดผดในลกษณะนมกจะมรปแบบดงน คอ ใชรปวรรณยกตตรแทนทรปวรรณยกตโท หรอใชรปวรรณยกตเอกแทนทรปวรรณยกตโท ตวอยางเชน “ปลกไฟ” สะกดผดเปน “ปลกไฟ” หรอ “เลอยเจอย สะกดผดเปน เลอยเจอย” เปนตน ค ค าสะกดผดทมการลบวรรณยกต

Page 46: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

46

สวนค าในกลมนเปนค าทสะกดผดเนองจากการขาดรปวรรณยกตทถกตองซงจากการวเคราะหพบวามค าทสะกดผดในลกษณะน 6 ค า หรอเทากบ 13.96% และรปแบบการสะกดผดทมกพบในลกษณะน ไดแก การไมใสรปวรรณยกตตร ตวอยางเชน “กาซ” เขยนผดเปน “กาซ” เปนตน 4.2.2 ค าทสะกดผดหลายต าแหนง

ค าสะกดผดทถกจ าแนกไวในกลมนเปนค าทพบการสะกดผดมากกวาหนงต าแหนง เชนค าวา “จนทนกพอ” สะกดผดเปน “จนทรกะพอ” จะเหนไดวามจดทสะกดผดอยสองต าแหนง ไดแก การสะกดผดในการเลอกใชตวการนตคอใช ร แทน น และการสะกดผดในการประวสรรชนย คอ ไมควรใสรปสระอะในค าๆ น ค าวา “ขโมย” สะกดผดเปน “โขมย" ซงพบการสะกดผดสองต าแหนงเชนกน คอ การลบพยญชนะตน ข หรอ สระ โ- แลวจงเตมสระ โ- หนาพยญชนะ ข หรอเตมพยญชนะ ข หลงสระ โ- หรอค าวา “ขนลงหน” สะกดผดเปน “ขนรองหน” ทมการใช ร แทน ล และเตม อ หรอ สระออ เพมเขาไปอก ซงจากการศกษาพบวามค าทสะกดผดในลกษณะเชนนอยทงหมด 335 ค า หรอรอยละ 20 ของค าทงหมดในคลงค าทใชศกษาวเคราะห โดยสามารถจ าแนกออกไดเปน 2 กลม ดงน

4.2.2.1 ค าทสะกดผดหลายต าแหนงแตออกเสยงเหมอนเดม ค าทสะกดผดหลายต าแหนงในกลมแรกเปนกลมของค าทมการสะกดผดโดยเขยนพยางคในรปแบบอนทมเสยงคงเดมหรอเปนค าพองเสยงทมรปเขยนตางกนและมการสะกดผดทตองปรบแกมากกวาหนงต าแหนง จากการวเคราะหพบวามค าทสะกดผดในลกษณะนอยจ านวน 239 ค า หรอเทากบรอยละ 71.34 ของค าทสะกดผดหลายต าแหนง และรอยละ 14.28 ของค าสะกดผดในการศกษาครงนทงหมด ตวอยางการสะกดผดในลกษณะนทพบมากคอ การใชรป - น แทน รป ร หน -รร ซงความผดพลาดในลกษณะนมกจะเกดขนกบค าทขนตนดวยค าวา “กรร-” หรอ “บรร-” เชนค าวา “กรรแสง” สะกดผดเปน “กนแสง” และค าวา “บรรทด” สะกดผดเปน “บนทด" เปนตน ค าเหลานเปนค าทมการสะกดผดหลายต าแหนงเพราะตองปรบแกมากกวาหนงครง คอตอง แทนท ร ตวแรกดวย - และแทนท ร ตวทสองดวย น นอกจากนยงม ค าวา “สญ” กบ “ศนย” และ “ปด” กบ “ปทม” ซงทงหมดเปนค าพองเสยงทมรปเขยนไมเหมอนกน หากใชไมถกบรบทกอาจจะท าใหความเหมายผดเพยนไปได ตวอยางเชนค าวา “ศนยหนา” สะกดผดเปน “สญหนา" และ “หนาปทม” สะกดผดเปน “หนาปด” ตามล าดบ นอกจากนยงมค าทสะกดผดในลกษณะนอยอกกลมหนงทพบตวอยางการสะกดผดจ านวนไมนอย นนกคอ กลมค าอกษรน า เชนค าวา “ขเยก” “สแตมป” “สแลง” “ถไล” เปนตน เหลานลวนเปนค าทสะกดผด รปค าทสะกดถกของค าเหลานคอ “เขยก” “แสตมป”

Page 47: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

47

“แสลง” “ไถล” ตามล าดบ ซงผวจยคดวาปจจยทท าใหเกดการสะกดค าเหลานผดนนอาจมสาเหตมาจากรปแบบการสะกดค าของอกษรน ามทงแบบทใหพยญชนะตนตวแรกน าหนาสระหนา เชน “ทแยง” “อเนก” “พยกพเยด” เปนตน และแบบทใหพยญชนะตนตวแรกตามหลงสระหนา เชน “โพยม” “ไศล” “แสยง” เปนตน โดยไมวาสะกดแบบใดค าเหลานกยงอานออกเสยงเหมอนเดม

4.2.2.2 ค าทสะกดผดหลายต าแหนงและออกเสยงเปลยนไป จากการศกษาพบวามค าทสะกดในลกษณะนจ านวน 96 ค าจาก 335 ค า หรอรอยละ 28.66 ของค าทสะกดผดหลายลกษณะ และ 5.72% ของค าผดทศกษาทงหมด 1,674 ค า และผวจยคาดวาค าทสะกดผดในกลมนเปนการสะกดผดทมสาเหตมาจากการออกเสยงค าหรอการรบรค าทผดเพยนไปท าใหรปเขยนของค าเหลานผดเพยนตามไปดวย ตวอยางเชน ค าวา “กระบวนการ” สะกดผดเปน “ขบวนการ” “ฟน” สะกดผดเปน “ควน” “สะเพรา” สะกดผดเปน “สบเพรา” หรอ “ออกหาก” สะกดผดเปน “ออกหาง” เปนตน

จากผลการศกษาวเคราะหค าทมกเขยนผดทเปนการสะกดผดแบบเปนค าจรงจ านวน 1,674 ค า โดยเปรยบเทยบลกษณะของค าทสะกดผดแตละค าวาเปลยนแปลงไปไปจากรปการสะกดทถกตองอยางไรบาง สรปไดวาค าสะกดผดแบบเปนค าจรงทน ามาศกษาวเคราะหในครงนสามารถจ าแนกตามจ านวนของการสะกดผดทพบในค าทสะกดผดแตละค าไดเปน 2 กลมใหญ คอ กลมของค าทสะกดผดหนงลกษณะ 1,339 ค า และกลมของค าทสะกดผดหลายลกษณะ 335 ค า หรอรอยละ 80 และรอยละ 20 ตามล าดบ ดงทแสดงในรปภาพท 4.1

รปภาพท 4.1 ประเภทของการสะกดผดจ าแนกตามจ านวนการสะกดผดทพบในหนงค า

ผดหนงต ำแหนง, 1,339 ค ำ, 80%

ผดหลำยต ำแหนง,335 ค ำ, 20%

ประเภทของกำรสะกดผดตำมจ ำนวนกำรสะกดผดทพบในหนงค ำ

Page 48: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

48

เมอพจารณากลมค าทสะกดผดหนงต าแหนงจ านวน 1,339 ค า พบวาสามารถจ าแนกออกเปนกลมยอยไดทงหมด 5 กลมตามองคประกอบของโครงสรางค าภาษาไทย (ดงรปภาพท 4.2) ไดแก 1. ค าทสะกดผดทพยญชนะตน จ านวน 382 ค า คดเปนรอยละ 28.53 2. ค าทสะกดผดทตวสะกด จ านวน 338 ค า คดเปนรอยละ 25.24 3. ค าสะกดผดทสระ จ านวน 306 ค า คดเปนรอยละ 22.85 4. ค าทสะกดผดทตวการนต จ านวน 270 ค า คดเปนรอยละ 20.16% 5. ค าทสะกดผดทวรรณยกต จ านวน 43 ค า คดเปนรอยละ 3.21

รปภาพท 4.2 แผนภมแทงแสดงค าทสะกดผดหนงต าแหนงประเภทตางๆ

นอกจากนยงพบวาสามารถจ าแนกค าทสะกดผดหลายต าแหนงจ านวน 335 ค า ออกเปน 2 กลม

(ดงรปภาพท 4.3) ไดแก 1. ค าทสะกดผดหลายต าแหนงแตออกเสยงเหมอนเดม จ านวน 239 ค า คดเปนรอยละ 71.34 2. ค าทสะกดผดหลายต าแหนงและออกเสยงเปลยนไป จ านวน 96 ค า คดเปนรอยละ 28.66

0

100

200

300

400

พยญชนะตน ตวสะกด สระ การนต วรรณยกต

382 ค า [28.53%]338 ค า [25.24%] 306 ค า [22.85%]

270 ค า [20.16%]

43 ค า [3.21%]

ค าทสะกดผดหนงต าแหนง

Page 49: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

49

รปภาพท 4.3 แผนภมแทงแสดงค าทสะกดผดหลายต าแหนงสองประเภท

เมอน าค าทสะกดผดแบบเปนค าจรงในรปแบบตางๆ ทงประเภทสะกดผดหนงต าแหนงและ

หลายต าแหนงมาจดเรยงรวมกนตามจ านวนตวอยางทปรากฏ พบวาการสะกดผดแบบเปนค าจรงในภาษาไทยนนมกมความผดพลาดในการสะกดเกดขนทพยญชนะตน รองลงมาเปนทตวสะกด และต าแหนงทพบตวอยางการสะกดผดนอยทสดคอทวรรณยกต ดงทแสดงในรปภาพท 4 .4 แสดงใหเหนวาผลการวเคราะหทไดนนไมเปนไปตามสมมตฐานขอทหนงของงานวจยนเสยทงหมด ซงคาดวาต าแหนงทจะพบการสะกดผดแบบเปนค าจรงในภาษาไทยมากทสดนนเปนทตวสะกดและยงออกเสยงเหมอนเดม คอสวนทระบวาการสะผดทตวสะกดสวนใหญจะยงออกเสยงเหมอนเดมนนเปนจรง เพราะตวอยางการสะกดผดทตวสะกดกวารอยละ 90 นนลวนเปนการใชตวสะกดในมาตราเดยวผดตวท าใหสะกดผด

รปภาพท 4.4 แผนภมแทงแสดงค าทสะกดผดประเภทตางๆ ทพบในการวเคราะหครงน

0

100

200

300

ออกเสยงเหมอนเดม ออกเสยงเปลยนไป

239 ค า [71.34%]

96 ค า [28.66%]

ค าทสะกดผดหลายต าแหนง

0

100

200

300

400

382 ค า [22.82%]338 ค า [20.20%]

306 ค า [18.28%]270 ค า [16.13%]

239 ค า [14.28%]

96 ค า [5.72%]43 ค า [2.57%]

ค าสะกดผดประเภทตางๆ ทพบในการศกษาครงน

Page 50: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

50

ผลการวเคราะหทไดจากการศกษาในครงน ผวจยพบประเดนทนาสนใจ คอ ขอผดสวนใหญเปนการสะกดผดหนงต าแหนง คอ ใชอกษรผดหนงตว หรอ ตกอกษรหนงตว หรอ ใสอกษรเกนมาหนงตว เชน “ครอก” สะกดผดเปน “คลอก” หรอ “หวน” สะกดผดเปน “หวล” ซงค าแรกใช ล แทน ร และค าทสอง ใช ล แทน น เปนตน ซงการศกษาครงนพบวามค าทสะกดผดหนงต าแหนงถง 80% และมเพยง 20% ทเปนค าทสะกดผดหลายต าแหนง เชน “จนทนกพอ” สะกดผดเปน “จนทรกะพอ” ซงมการสะกดผดสองแหง คอ ใช ร แทน น และเตมสระอะเกนมา หรอ สญ เขยนผดเปน ศนย มการเขยนผดรวมสแหง คอ จดแรกจาก ส เปน ศ จดทสองจาก ญ เปน น จดทสามคอเตม ย และ จดทสคอเตมตวการนต สดสวนของการสะกดผดทงสองประเภทนแสดงใหเหนวาค าทสะกดผดสวนใหญนนเกดจากการเปลยนแปลงเลกนอยเพยงครงเดยว ซงตรงกบแนวคดในการ ใชโมดล edit distance (Neil Bowers, 2015) เทยบหาค าทมความตางของตวอกษรเพยง 1 ตวอกษรเพอแกไขค าทสะกดผดหรอสรางค าทนาจะเปนไปไดในกรณทมค ามากกวาหนงค าทสามารถน ามาแกไขการสะกดผด นอกจากนการก ากบขอมลรปแบบของการสะกดผดในการศกษาครงนท าใหผวจยสามารถน าขอมลมาสรางเปนคลงขอมลรปแบบการปรบแกตวอกษรวาตวอกษรแตละตวมกจะถกลบออกไป ถกเตมเขาไป หรอถกแทนทดวยตวอกษรใดในค าสะกดผดเพอสรางค าทนาจะเปนส าหรบใชแกไขการสะกดผดทตรวจพบไดซงเปนการเพมประสทธภาพและความรวดเรวในการตรวจจบและแกไขค าทสะกดผดใหปฏบตการไดอยางถกตองแมนย าและรวดเรวมากยงขน สวนเนอหาในบทตอไปจะอธบายถงโครงสราง หลกการท างาน และผลการท างานของระบบตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรมซงเปนวธทน าเสนอในงานวจยน รวมถงเปรยบเทยบผลการท างานของวธทน าเสนอกบวธพนฐานสองวธคอตรวจแกการสะกดผดดวยแบบจ าลองยนแกรมและดวยชดค าสบสน

Page 51: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

51

บทท 5

การตรวจแกการสะกดผดแบบเปนค าจรง

ในบทนจะกลาวถงขอมลทใชทดสอบและระบบตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรมซงเปนวธการทน าเสนอในงานวจยครงน และอกสองระบบพนฐานทพฒนาขนเพอน ามาใชเปรยบเทยบกบประสทธภาพของระบบทน าเสนอ ซงไดแก การตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองยนแกรมและดวยการใชชดค าสบสนในการตรวจแกการสะกดผด ในแตละวธการผวจยจะอธบายถงหลกการท างานซงประกอบดวยสองกระบวนการหลกคอกระบวนการตรวจจบและกระบวนการแกไขค าทสะกดผด รวมถงผลการทดสอบระบบ และในสวนสดทายของบทนจะกลาวถงประสทธภาพในการท างานของระบบทพฒนาขนเปรยบเทยบกบระบบพนฐานทงสอง

5.1 ขอมลทใชทดสอบ (test data)

ขอมลทน ามาใชทดสอบเปนขอความภาษาไทยจ านวน 1,000 ขอความ ทไดจากการสมเลอกค าทสะกดผดแบบเปนค าจรงจากคลงชดค าสบสนมา 375 ค า แลวน าไปสบคนบนอนเตอรเนตเพอใหไดขอความตวอยางของการสะกดผดทเกดขนจรงจ านวน 1,000 ขอความทมจ านวนค าทงหมดประมาณ 33,000 ค า แลวน าขอความทจะใชทดสอบทงหมดนไปผานกระบวนการตดค า โดยผวจยอนมานวาทกค าทผานการตดค าไดส าเรจเปนค าจรง และภายในขอความแตละขอความจะมค าทสะกดผดแบบเปนค าจรงปนอยอยางนอยหนงค า ซงเปนค าสะกดผดทตองการใหระบบตรวจจบและแกไขใหถกตอง

5.2 การตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรม

ผวจยพฒนาระบบตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรมนขนดวยเปาหมายทจะสรางเครองมอทสามารถแกไขปญหาการสะกดผดแบบเปนค าจรง เหตผลทผวจยเลอกใชวธการนกคอวธการนเปนวธการเชงสถตทพจารณาความถกตองของการสะกดจากความถและความนาจะเปนในการปรากฏของค าเรยงตอกนสามค าหรอไตรแกรมค าในคลงขอมลภาษาไทยแหงชาต (Aroonmanakul, 2007) ซงเปนวธการทผวจยคาดวาจะสามารถจดการกบปญหาการสะกดผดประเภทนได

Page 52: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

52

5.2.1 หลกการท างานของระบตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรม

ระบบตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรมทผวจยพฒนาขนนน มขนตอนในการท างานดงน

5.2.1.1 ขนตอนทหนง: ตรวจจบค าทตองสงสยในขอความ ในขนแรกเมอปอนขอความทดสอบใหระบบท าการตรวจแกค าทสะกดผด ระบบจะอานขอความในขอมลทดสอบทมค าสะกดผดปนอยทละหนงขอความ จากนนระบบจะแบงขอความทก าลงอานออกเปนสายค าเรยงตอกนสามค า หลงจากทแบงขอความออกเปนสายค าเรยงสามเรยบรอยแลว สายค าเรยงสามค าเหลานจะถกน าไปตรวจสอบวาปรากฏอยในคลงขอมลไตรแกรมหรอไม ทละสายจนครบทกสายของขอความหนงขอความ ซงถาหากวาสายค าเรยงสามค าทกสายปรากฏในคลงขอมลไตรแกรมค าแสดงวาระบบตรวจไมพบค าทสะกดผดในขอความนน แตในทางกลบกน ถาหากวาสายค าเรยงสามค าสายใดไมปรากฏในคลงขอมลไตรแกรมแสดงวาระบบตรวจพบวาสายค าเรยงนนมค าทตองสงสยวาเปนค าสะกดผดปนอย ดงตวอยางทแสดงในรปภาพท 5.1 จากนนสายค าเรยงสามทมค าทสะกดผดปนอยจะถกสงไปปรบแกในขนตอนตอไป

รปภาพท 5.1 แสดงขนตอนในการตรวจจบค าทตองสงสยในขอความ

เศษ|วสด|กระเดน|ไม|สามารถ|เลดรอด|ผาน|บรเวณ|จมก|ได|

“เศษ|วสด|กระเดน” “วสด|กระเดน|ไม” “กระเดน|ไม|สามารถ” “ไม|สามารถ|เลดรอด” “สามารถ|เลดรอด|ผาน” “เลดรอด|ผาน|บรเวณ”

“ผาน|บรเวณ|จมก” และ “บรเวณ|จมก|ได”

คลงขอมลไตรแกรม

*ไมพบ* “เศษ|วสด|กระเดน” “วสด|กระเดน|ไม” “กระเดน|ไม|สามารถ” “ไม|สามารถ|เลดรอด” “สามารถ|เลดรอด|ผาน” “เลดรอด|

ผาน|บรเวณ” “ผาน|บรเวณ|จมก”

*พบ* “บรเวณ|จมก|ได”

สะกดถกตอง ตองสงสยวามค าสะกดผด

Page 53: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

53

5.2.1.2 ขนตอนทสอง: ปรบแกค าทตองสงสย หลงจากทตรวจพบวามสายค าเรยงสามค าทไมปรากฏในคลงขอมลไตรแกรม สายค าเหลานนจะถกสงมาท าการปรบแก ดวยวธทใชหลกการเดยวกนกบการปรบแกนอยทสดชอ “Levenshtein Distance” หรอ “minimum edit distance” (Bowers, 2015) ซงเปนการปรบแกสายอกขระสายหนงใหเหมอนกบอกสายหนงดวยการปรบแกนอยทสด ซงจากผลการวเคราะหในบททแลวพบวาค าทสะกดผดสวนใหญมกจะสะกดผดพลาดไปดวยการเตม ลบ หรอแทนทตวอกษรตวหนงในค าเพยงแคตวอกษรเดยว ดงนนวธการแกไขค าทสะกดผดสวนใหญกจะสามารถท าไดโดยการปรบแกเพยงครงเดยวเชนกน ซงรปแบบการสะกดผดทไดจากการวเคราะหค าไทยทมกเขยนผดนนท าใหทราบว าตวอกษรใดมกจะถกเตมเกนเขาไป ตกหลน หรอถกแทนทดวยตวอกษรใดจงเกดเปนค าทสะกดผด ในทางกลบกนเมอมองยอนกลบวาจะปรบแกค าทสะกดผดแตละค าใหเปนค าทสะกดถกตองอยางไรกจะสามารถหารปแบบเพอแกไขการสะกดผดของค าๆ นนได ดงตวอยางในตารางท 5.1 ตารางท 5.1 แสดงตวอยางรปแบบทน าไปใชปรบแกค าทตองสงสยวาสะกดผด

ค าทสะกดถกตอง ค าทสะกดผด รปแบบการสะกดผด รปแบบทน าไปใชปรบแกการสะกดผด

|ร า|ลอ| |ล า|ลอ| ร_ล (ใช ล แทน ร) ล_ร (แทนท ล ดวย ร) |กะพรบ| |กระ|พรบ| 0_ร (เตม ร) ร_0 (ลบ ร ออก)

|หวน| |หวล| ล_น (ใช ล แทน น) น_ล (แทนท ล ดวย น) |ล าไย| |ล า|ใย| ไ_ใ (ใช ใ แทน ไ) ใ_ไ (แทนท ไ ดวย ใ) |สะกด| |สกด| ะ_0 (ตกรปสระ -ะ) 0_ะ (เตมรปสระ -ะ) |มนษยสมพนธ| |มนษย|สมพนธ| 0_ (เตม การนต) _0 (ลบการนตออก) |โนต| |โนต| _ (ใช แทน ) _ (แทนท ดวย )

ยกอยางเชนค าวา “กะพรบ” สะกดผดเปน “กระพรบ” ตามวธการก ากบขอมลทผวจยไดกลาวไวในหวขอ 4.1 รปแบบทก ากบการสะกดผดในลกษณะนคอ “0_ร” ซงหมายถง ตวอกษร ร ถกเตมเขาไป ดงนนการแกไขค าวา “กระพรบ” ใหถกตองกคอลบตวอกษร ร ออก และรปแบบในการแกไขการสะกดผดนคอ “ร_0” ผวจยไดเกบรวมรวบรปแบบการในแกไขการสะกดผดทไดจากการวเคราะหการปรบแกการสะกดผดทงหมดนเอาไวเปนคลงขอมลอกคลงหนงเพอใหงายตอการน าไปปรบใช อกทงการน ารปแบบการแกไขการสะกดผดเหลานมาใชในขนตอนการปรบแกค าทตองสงสยใหถกตองนนจะชวยยนระยะเวลาในการหาค าทเปนไปไดใหด าเนนการไดรวดเรวและแมนย ายงขน ไมสนเปลองเวลาในการน าทกตวอกษรทมในภาษาไทยมาทดลองแทนทตวอกษรแตละตวในค าทตองสงสย เพราะโดยสวนใหญแลวตวอกษรแตละตวนนมความเปนไปไดทจะถกใชสลบกบตวอกษรเพยงบางตวเทานน เชน

Page 54: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

54

ตวอกษร ด มกจะถกใชสลบกบตวอกษรในมาตราตวสะกดแมกด เชน ช (บวด กบ บวช) ต (ชาด กบ ชาต) ท (บาด กบ บาท) เปนตน แตจะไมถกใชสลบกบ ม ย ว หรอ ง เปนตน ดวยเหตนผวจยจงไดน าเอารปแบบการสะกดผดทรวบรวมไดจากการวเคราะหค าไทยทมกสะกดผดมาปรบใชในขนตอนปรบแกค าทตองสงสย ซงมประกอบดวยขนตอนยอยอก 3 ขนตอนดงตอไปน ขนตอนแรก สายค าเรยงสามตองสงสยทไมปรากฏในคลงขอมลไตรแกรมแตละสายจะถกน าไปดดแปลงดวยการแทรกตวเลข “0” ระหวางทกตวอกษรในสายค าเรยงนน รวมถงดานหนาและดานหลงสายค านนดวย ตวอยางเชน สมมตวา “จะ|แก|ไข” เปนสายค าเรยงสามทไมปรากฏในคลงขอมลไตรแกรม เมอแทรก “0” ทดานหนา ระหวางตวอกษรแตละตว และดานหลงสายค าเรยงสามทตองสงสยขางตน จะไดเปน 0 จ 0 ะ 0 แ 0 ก 0 0 ไ 0 ข 0 โดยเครองหมายแบงค าจะถกลบออกกอนทจะแทรกตวเลข 0 เขาไป ซงเหตผลของการแทรกตวเลขศนยเขาไปนนกเพอใหสอดคลองกบรปแบบการปรบแกการสะกดผดทน ามาใช คอ 0_x หมายถงการเตมตวอกษร x กลาวคอ ตวเลข 0 ทแทรกเขาไปเปนเสมอนการแทรกพนทเอาไวใหส าหรบเตมตวอกษรเพมเขาไปในค าแลวสามารถแกไขใหค าๆ นนถกตองได ขนตอนทสอง เมอแทรกตวเลข 0 เขาไปในสายค าเรยงสามทมค าตองสงสยวาสะกดผดเรยบรอยแลว สายค าเรยงสามนนจะไดรบการปรบแกเพอหาค าถกตองทเปนไปได ซงจากการวเคราะหค าไทยทมกเขยนผดในบทท 4 พบวาค าทสะกดผดสวนใหญนนเกดจากความผดพลาดในพมพตวอกษรเกนมาหนงตว พมพตวอกษรตกไปหนงตว หรอพมพตวอกษรผดไปหนงตว จากผลการวเคราะหทพบน ผวจยจงอนมานวาภายในสายค าเรยงสามทตองสงสยแตละสายนนมตวอกษรหนงตวทเกนมา ขาดหายไป หรอเปลยนไป เปนสาเหตใหเกดการสะกดผด ซงถาหากสามารถปรบแกตวอกษรนนใหถกตองไดกเทากบสามารถแกไขการสะกดผดใหถกตองไดส าเรจ ซงในขนตอนยอยน ตวอกษรแตละตวในสายค าเรยงทตองสงสยจะถกปรบแกทละตวโดยเรมจากอกษรตวแรกจากทางดานซาย ผวจยไดน ารปแบบการปรบแกการสะกดผดทกลาวไปในตอนตนมาใชในขนตอนน คอ น าตวอกษรแตละตวในสายค าเรยงสามไปคนหากลมตวอกษรทนาจะเปนและน าตวอกษรในกลมทนาจะเปน มาแทนทตวอกษรเดมในสายค าเรยงสามเพอเพมความรวดเรวและแมนย าในการปรบแกการสะกดผด ซงรปแบบการปรบแกการสะกดผดทรวบรวมไวจะชวยระบวาควรจะเตมตวอกษรตวใดเพมเขาไปในค าทตองสงสย ตวอกษรตวใดควรจะถกลบออกไปหรอถกแทนทดวยตวอกษรตวใดเพอใหไดเปนค าทสะกดถกตอง ขนตอนทสาม หลงจากทตวอกษรหนงตวในสายค าเรยงสามทตองสงสยไดรบการปรบแกในแตละครง ตวเลขศนยในชดค าเรยงนนจะถกลบออกทงหมด เมอเหลอแตตวอกษรแลวสายค าเรยงสามทไดรบการปรบแกจะถกสงไปตรวจสอบวามปรากฏอยในคลงขอมลไตรแกรมหรอไม ถาหากวาไมพบกใหน าไปตรวจสอบในคลงขอมลไบแกรมและยนแกรมตามล าดบ เนองจากในชวงฝกฝน

Page 55: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

55

ระบบ ผวจยพบวาสายค าเรยงสามทตองสงสยบางสายเมอไดรบการปรบแกใหสะกดถกตองแลวจะมจ านวนแกรมทลดลง ท าใหไมพบการปรากฏของสายค าเรยงทถกตองในคลงขอมลไตรแกรม แตพบในคลงขอมลในคลงขอมลไบแกรมหรอคลงขอมลยนแกรม ดงตวอยางทแสดงในตารางท 5.2 ตารางท 5.2 แสดงตวอยางค าสะกดผดทมจ านวนแกรมเปลยนไปเมอไดรบการปรบแก

ค าทสะกดผด จ านวนแกรม ปรบแกดวย ค าทสะกดถกตอง จ านวนแกรม

|ธง|ไตร|รงศ| 3 ศ_ค (แทน ศ ดวย ค) |ธง|ไตรรงค| 2

|คลม|เค|ลอ| 3 ล_ร (แทน ล ดวย ร) |คลมเครอ| 1 แตถาหากวาขอความใดทระบบตรวจจบไดวามค าทตองสงสยวาสะกดผดปนอย และถกน าไปปรบแกแลว แตไมพบวามสายค าเรยงสามสายใดในขอความทไดรบการปรบแกแลวปรากฏอยในคลงขอมลไตรแกรม ไบแกรม หรอยนแกรมเลย แสดงวาสายค าเรยงสามทตองสงสยเหลานนอาจจะไมไดสะกดผดตามทสงสยจงไมถกน าไปใชแกไขการสะกดผด แตทนททระบบตรวจพบสายค าเรยงสามทไดรบการปรบแกแลวในคลงขอมล ระบบจะเกบสายค าเรยงสามทตรวจพบการปรากฏในคลงขอมลเปนสายแรกเอาไวเพอทจะน าไปใชแกไขค าทสะกดผดจรงในขนตอนสดทาย ดงทแสดงในรปภาพท 5.2 เมอระบบตรวจสอบสายค าเรยงสามทปรบแกแลวสายหนงเสรจสนแลว ระบบจะกลบไปอานสายค าเรยงสามสายตอไปในขอความเดยวกนและปรบแกสายค าตองสงสยใหมอกซ าแบบนไปจนครบทกสายค าเรยงสามในขอความทถกปอนเขามาหนงขอความ จากนนสายค าเรยงสามทจะน าไปใชแกไขการสะกดผดทงหมดทพบในหนงขอความจะถกสงตอไปยงขนตอนสดทาย คอขนตอนการเลอกแกไขค าสะกดผดจรงเพยงค าเดยวในหนงขอความ

Page 56: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

56

รปภาพท 5.2 แสดงขนตอนการปรบแกค าทตองสงสย

ไมพบ ไมสามารถเลดรอด ไมสามารถเหลกรอด ไมสามารถเลกรอด ไมสามารถเลดรอก

สายค าเรยงสามทไมพบในคลงขอมลไตรแกรม ตวอยางเชน “ไม|สามารถ|เลดรอด”

คลงขอมลไตรแกรม

ไมถกน าไปใชแกไข

พบ ไมสามารถเลดลอด

0 ไ 0 ม 0 0 ส 0 า 0 ม 0 า 0 ร 0 ถ 0 เ 0 ล 0 0 ด 0 ร 0 อ 0 ด 0

แทรก 0 ระหวางตวอกษร

ปรบแกตวอกษรหนงตว

หากลมตวอกษรทนาจะเปน

น าเครองหมาย | ระหวางค าออก

คลงขอมลรปแบบการปรบแกการสะกดผด

ลบตวเลข 0 ทงหมดออก

ไมสามารถเลดรอด

ไมสามารถเหลกรอด

ไมสามารถเลกรอด

ไมสามารถเลดลอด

ไมสามารถเลดรอก

ถกน าไปใชแกไข

ตรวจสอบการปรากฏของสายค าเรยงสามแตละสาย

Page 57: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

57

5.2.1.3 ขนตอนทสาม: เลอกค าทเหมาะสมเพอใชแกไขค าทสะกดผด ในขนตอนสดทายนระบบจะท าการเลอกแกไขค าทสะกดผดจรงเพยงค าเดยว ซงมขนตอนยอยทงหมด 4 ขนตอนดงตอไปน ขนตอนแรก คอ น าสายค าเรยงสามทปรบแกแลวแตละสายมาแทนทสวนทตองสงสยวาสะกดผดเดมในขอความ ซงสายค าเรยงสามทปรบแกแลวแตละสายนนจะแตกตางกนไป ไมซ ากน และไดรบการแกไขเพยงครงเดยวทงหมด หลงจากนนใน ขนตอนทสอง ขอความทไดรบการแกไขแลวทงหมดจะถกน าไปผานกระบวนการตดค าเพอระบขอบเขตของค าแตละค าในขอความ ตอจากนนในขนตอนทสาม ระบบจะค านวณหาคาความนาจะเปนของขอความทแกไขแลวแตละขอความ และในขนตอนสดทาย ระบบจะเลอกสายค าเรยงสามทใหคาความนาจะเปนของขอความสงสดเพยงสายเดยวเปนสายค าเรยงสามทน าไปใชแกไขการสะกดผดในขอความใหถกตองและสายค าเรยงสามตองสงสยทน ามาปรบแกเปนสายค าเรยงทระบบเลอกนคอสายค าเรยงสามทสะกดผดจรง กลาวคอ ระบบจะระบวาสายค าเรยงสามตองสงสยสายใดทเปนสายทสะกดผดหรอมค าทสะกดผดอยจรงหลงจากทระบบสามารถท าการแกไขสายค าเรยงสามตองสงสยนนแลวพบวาใหคาความนาจะเปนของขอความสงสด ดงทปรากฏในรปภาพท 5.3

Page 58: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

58

รปภาพท 5.3 แสดงการเลอกค าทเหมาะสมเพอแกไขการสะกดผดในขอความ

ขนตอนท 3 หาคาความนาจะเปนของขอความ

ขนตอนท 2 น าขอความไปผานกระบวนการตดค า

เศษวสดกระเดนไมสามารถเลดรอดผานบรเวณจมกได ไมสามารถเลดลอด

ประเดนไมสามารถ

ผาบรเวณจมก เศษวสดกระเดนไมสามารถเลดรอดผานบรเวณจมกได

เศษวสดกระเดนไมสามารถเลดรอดผานบรเวณจมกได

ระบบตดค า ThaiSegmentation 2.2

เศษ|วสด|ประเดน|ไม|สามารถ|เลดรอด|ผาน|บรเวณ|จมก|ได|

เศษ|วสด|กระเดน|ไม|สามารถ|เลดลอด|ผาน|บรเวณ|จมก|ได|

เศษ|วสด|กระเดน|ไม|สามารถ|เลดรอด|ผา|บรเวณ|จมก|ได|

0.00003

0.00877 ✓

0.00788

ขนตอนสดทาย เลอกแกไขการสะกดผดทมคาความนาจะเปนสงสด

ขนตอนท 1 น าสายค าเรยงสามทปรบแกแลวมาแทนทสวนทสะกดผดเดมในขอความ

ไมสามารถเลดลอด

ค าทใชแกไข

ค าทสะกดผด

ไมสามารถเลดรอด

Page 59: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

59

5.2.2 การประเมนประสทธภาพการตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรม

หลงจากทไดทดสอบใหระบบไดท าการตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรมโดยใชขอมลทดสอบทจดเตรยมไวซงเปนขอความภาษาไทยจ านวน 1,000 ขอความ ภายในขอความแตละขอความมค าทสะกดผดแบบเปนค าจรงปนอย พบวาระบบใชเวลาในการประมวลผลขอมลทดสอบทงหมดประมาณ 128 วนาท ซงระบบใชเวลาในการอานคลงขอมลตางๆ เพอเตรยมระบบใหพรอมส าหรบการตรวจแกการสะกดผดประมาณ 55 วนาท และใชเวลาประมาณ 73 วนาทในการตรวจแกขอความภาษาไทย 1,000 ขอความ หรอประมาณ 33,000 ค า ในสวนของการประเมนประสทธภาพการตรวจแกการสะกดผดแบบเปนค าจรงของระบบนนผวจยประเมนจากคาประสทธภาพ (F-measure) หรอ (F1) คาความครบถวน (Recall) หรอ (R) และคาความแมนย า (Precision) หรอ (P) จากสตรดานลาง สตรส าหรบค านวณคาความครบถวนและคาความแมนย าในการตรวจจบค าทสะกดผด

𝑅𝑒𝑐𝑎𝑙𝑙 (R) = จ านวนค าสะกดผดทตรวจจบไดถกตอง

จ านวนค าสะกดผดทงหมดในชดขอมลทดสอบหนงชด

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 (𝑃) =จ านวนค าสะกดผดทตรวจจบไดถกตอง

จ านวนค าสะกดผดทงหมดทตรวจจบได

สตรส าหรบค านวณคาความครบถวนและคาความแมนย าในการแกไขค าทสะกดผด

𝑅𝑒𝑐𝑎𝑙𝑙 (R) = จ านวนค าสะกดผดทแกไขไดถกตอง

จ านวนค าสะกดผดทตรวจจบไดถกตองทงหมดในขอมลทดสอบหนงชด

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 (𝑃) =จ านวนค าสะกดผดทแกไขไดถกตอง

จ านวนค าสะกดผดทงหมดทไดแกไข

สตรส าหรบค านวณคาประสทธภาพในการตรวจจบและแกไขค าทสะกดผด

𝐹1 =2𝑃𝑅

𝑃 + 𝑅

ซงคาประสทธภาพ คาความครบถวน และคาความแมนย า นจะอยระหวาง 0 ถง 1 (0 < F1/R/P < 1) หากยงมคาเขาใกล 1 นนหมายถงประสทธภาพของระบบยงสงตามไปดวย

Page 60: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

60

5.2.2.1 ประสทธภาพในการตรวจจบการสะกดผดดวยแบบจ าลองไตรแกรม จากขอความทใชทดสอบทงหมดจ านวน 1,000 ขอความ ซงในแตละขอความมค าทสะกดผดแบบเปนค าจรงทผวจยตองการใหระบบตรวจแกไดอยหนงค าและค าสะกดผดเหลานนกคอค าทผวจยสมเลอกมาจากชดค าสบสนแลวน าไปใชสบคนหาขอความตวอยางมาใชในการทดสอบนนเอง ระบบสามารถตรวจจบค าสะกดผดแบบเปนค าจรงทผวจยตองการใหระบบตรวจจบไดในขอความทดสอบไดอยางถกตอง 465 ขอความ และมขอความจ านวน 3 ขอความทระบบตรวจไมพบการสะกดผดใดๆ ภายในขอความ เทากบวาระบบตรวจจบค าสะกดผดผดพลาดไปจ านวน 532 ขอความ เมอน าขอมลตวเลขทไดจากการทดสอบไปค านวณหาคาความครบถวน (R) ในการตรวจจบการสะกดผดไดเทากบ 0.465 (465/1,000) หมายถงระบบตรวจจบการสะกดผดดวยแบบจ าลองไตรแกรมนนสามารถตรวจจบการสะกดผดแบบเปนค าจรงไดประมาณเกอบครงหนงของค าสะกดผดทตองการใหระบบตรวจพบทงหมด และไดคาความแมนย า (P) เทากบ 0.466 (465/997) ซงบอกใหทราบวาระบบสามารถตรวจจบค าสะกดผดทผวจยตองการใหระบบตรวจจบไดถ กตองประมาณครงหนงของค าสะกดผดทระบบตรวจจบไดทงหมด และมคา F-1 เทากบ 0.466 ดงทแสดงในตารางท 5.3 ผวจยคาดวาวธการตรวจจบค าตองสงสยวาสะกดผดทอาศยคลงขอมลไตรแกรมในการระบวาค าทไมปรากฏในคลงขอมลไตรแกรมเพยงอยางเดยวโดยไมไดผานขนตอนการคดกรองหรอคดเลอกเอาเฉพาะค าทตองสงสยวาสะกดผดจรงกอน เปนปจจยหลกทท าใหระบบตรวจจบการสะกดผดอกครงหนงไมส าเรจและไมถกตอง ตารางท 5.3 แสดงคาประสทธภาพการตรวจจบการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรม

Detection Correction

Recall (R) 0.465 0.85 Precision (P) 0.466 0.85

F-measure (F-1) 0.466 0.85

ในสวนของประสทธภาพในการแกไขการสะกดผดนน จากจ านวนขอความทระบบสามารถตรวจจบไดถกตองทงหมดจ านวน 465 ขอความ ระบบไดท าการแกไขขอความเหลานนไดถกตองจ านวน 394 ขอความ และแกไขผดพลาดไปทงหมด 71 ขอความ จากตารางท 5.3 แสดงใหเหนวาเมอระบบตรวจจบค าทสะกดผดไดถกตอง สามารถท าการแกค าทสะกดผดเหลานนไดเกอบทงหมดและถกตอง เมอผวจยน าผลการทดสอบมาวเคราะหถงปจจยทท าใหระบบท าการแกไขการสะกดผดไดไมถกตองพบวาปจจยสวนหนงทท าใหระบบแกไขค าสะกดผดไมไดนนเปนเพราะขอจ ากดในการ

Page 61: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

61

ปรบแกการสะกดผดของตวระบบ ซงระบบจะสามารถปรบแกค าทสะกดผดแตละค าไดเพยงแคหนงตวอกษรเทานน ตวอยางเชน ระบบสามารถปรบแกค าวา “เมล” ซงเปนค าทสะกดผดใหถกตองไดดวยการแทนท ล ดวย น ไดเปน “เมน” แตระบบจะไมสามารถแกไขค าสะกดผดทตองการการปรบแกทมากกวาหนงตวอกษรได ตวอยางเชนค าวา “เสยสญ” หากตองการปรบแกใหเปนค าทสะกดถกตองระบบตองท าการปรบแกมากกวาหนงครง คอ ตองแทนท ส ดวย ศ นบเปนหนงครง และแทนท ญ ดวย น นบเปนอกหนงครง จากนนยงตองเตม ย และตวการนตอกจงจะไดค าวา “เสยศนย” ซงเมอนบจ านวนครงทใชในการปรบแกค าวา “เสยสญ” ใหถกตองนนตองปรบแกถง 4 ครง ซงค าเหลานอาจจะไมเหมาะทจะใชวธในการปรบแกนอยสดในการแกไข นอกจากปจจยเรองขอจ ากดของจ านวนในการปรบแกค าทสะกดผดแลว คาความถในการปรากฏของค าทสะกดถกตองกเปนอกปจจยหนงทท าใหระบบเลอกค ามาใชแกไขการสะกดผดผดพลาดไป เนองจากระบบจะเลอกค าทท าใหความนาจะเปนของขอความสงสดเพยงค าเดยวเทานน เพราะฉะนนถาหากวาค าทระบบควรเลอกมาแกไขการสะกดผดทตรวจพบในขอความ แตค าๆ นนเปนค าทมความถในการปรากฏนอยจงท าใหคาความนาจะเปนของขอความนอยตามไปดวย ท าใหระบบเลอกค าทใหคาความนาจะเปนสงกวา เปนตน

5.3 การตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองยนแกรม

ระบบตรวจแกการสะกดผดแบบทสองน เปนวธการพนฐานของงานดานการตรวจแกการสะกดผดดวยคอมพวเตอร ซงมกจะถกใชเพอน าผลการท างานหรอคาประสทธภาพในการท างานของวธการพนฐานมาเปรยบเทยบกบคาประสทธภาพในการท างานของวธการทผวจยแตละทานน าเสนอ และดวยเหตผลเดยวกนนผวจยจงไดเลอกทจะใชแบบจ าลองยนแกรมเปนวธการพนฐานเพอน าผลการท างานมาเปรยบเทยบกบผลการท างานของวธการตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรม แตเนองจากงานวจยนสนใจเฉพาะการตรวจแกการสะกดผดแบบเปนค าจรงเทานน ซงหากใชเฉพาะคลงขอมลยนแกรมในการตรวจจบและแกไขการสะกดผดแบบเปนค าจรงคงจะไมสามารถน าผลการท างานทไดมาเปรยบเทยบหรอประเมนประสทธภาพของการตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรมได เนองจากแบบจ าลองยนแกรมนนสามารถตรวจจบเฉพาะการสะกดผดแบบไมเปนค า ซงไมอยในขอบเขตและความสนใจของงานวจยน ดงนนการตรวจแกการสะกดผดดวยแบบจ าลองยนแกรมในงานวจยนจะแตกตางจากการใชแบบจ าลองไตรแกรมเฉพาะในสวนของการค านวณคาความนาจะเปนของขอความเพอใหระบบเลอกท าการแกไขการสะกดผดในขอความทเหมาะสมทสดหรอเลอกใชค าทท าใหคาความนาจะเปนของประโยคสงทสดในการแกไขการสะกดผด

Page 62: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

62

5.3.1 หลกการท างานของระบบตรวจแกการสะกดผดดวยแบบจ าลองยนแกรม

หลกการท างานของระบบตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองยนแกรมนคอนขางคลายคลงกบหลกการท างานของวธการตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรม ซงแบงออกเปน 3 ขนตอนหลก ไดแก หาค าทตองสงสย ปรบแกค าทตองสงสย และเลอกค าทเหมาะสมเพอแกไขการสะกดผด ดงทผวจยไดกลาวถงการปรบวธการตรวจแกการสะกดผดของแบบจ าลองยนแกรมใหเหมาะสมกบงานตรวจแกการสะกดผดแบบเปนค าจรงของงานวจยนเอาไวในตอนตน ในขนตอนการตรวจหาค าตองสงสยดวยแบบจ าลองยนแกรมนจะด าเนนการตรวจจบค าทตองสงสยวาสะกดผดในขอความเหมอนกระบวนการตรวจจบการสะกดผดดวยแบบจ าลองไตรแกรมทกประการ เพราะแบบจ าลองยนแกรมนนพจารณาเฉพาะค าเดยวๆ จงไมสามารถน ามาใชตรวจจบการสะกดผดแบบเปนจรงทตองอาศยค าขางเคยงในการตรวจจบได ในสวนของขนตอนการปรบแกการค าตองสงสยเพอใหไดค าทจะน ามาใชแกไขการสะกดผดนนกมขนตอนเหมอนกนกบกระบวนการปรบแกการสะกดผดของแบบจ าลองไตรแกรม แตขนตอนทท าใหการตรวจแกการสะกดผดดวยแบบจ าลองยนแกรมนตางไปจากการตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรมกคอ การเลอกค าทค าทเหมาะสมมาแกไขการสะกดผดทตรวจจบไดภายในขอความ เพอไมเปนการน าเสนอขอมลทซ าซอนผวจยจะน าเสนอขนตอนในการท างานของระบบตรวจแกการสะกดผดดวยแบบจ าลองยนแกรมเฉพาะในสวนของขนตอนการเลอกค าทถกตองเพอใชแกไขค าทสะกดผดทแตกตางไปจากระบบตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรม

5.3.1.1 ขนตอนการเลอกค าทถกตองเพอใชแกไขการสะกดผด ส าหรบขนตอนในการเลอกค าทถกตองเพอน าไปใชแกไขการสะกดผดดวยแบบจ าลองยนแกรมนน กคลายคลงกบการแกไขดวยแบบจ าลองไตรแกรม คอ ขนแรกนน สายค าเรยงสามทไดรบการปรบแกการสะกดผดแตละสายจะถกน าไปแทนทสวนทสะกดผดในขอความ แลวจงน าขอความทไดรบการแกไขแลวไปผานกระบวนการตดค าเพอระบขอบเขตของค าแตละค าในขอความ ตอจากนนกน าขอความแตละขอความทไดรบการแกไขเรยบรอยแลวมาค านวณหาคาความนาจะเปนของขอความ ซงในสวนนเองทท าใหระบบตรวจแกการสะกดผดแบบยนแกรมแตกตางไปจากระบบตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรม คอ เปลยนจากทจะค านวณหาคาความนาจะเปนของขอความดวยการใชคลงขอมลไตรแกรมไปใชเปนคลงขอมลยนแกรมแทน แลวจงเลอกสายค าทใหคาความนาจะเปนของขอความสงสดเปนสายค าทสะกดถกตองและใชแกไขขอความ และเมอระบบเลอกสายค าทน าไปแกไขการสะกดผดในขอความไดแลวสายค าตองสงสยกอนทจะถกปรบแกและน าไปใชแกไขค าทสะกดผดนนเองคอสายค าทสะกดผดจรง

Page 63: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

63

5.3.2 ประสทธภาพการตรวจแกการสะกดผดดวยแบบจ าลองยนแกรม

ถงแมวาระบบตรวจแกการสะกดผดดวยแบบจ าลองยนแกรมจะเหมอนกบระบบตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรมในเกอบทกขนตอนยกเวนเฉพาะขนตอนการเลอกค าทเหมาะสมเพอใชแกไขค าทสะกดผด แตเนองจากระบบตรวจแกการสะกดผดทงสองแบบนนไมไดท าการระบวาสายค าตองสงสยค าใดเปนสายทสะกดผดจรงกอนจะสงไปท าการปรบแก เพราะฉะนนสายค าตองสงสยทกสายจะถกน าไปปรบแก และระบบจะท าการเลอกสายค าปรบแกแลวใหคาความนาจะเปนของขอความสงทสดเปนสายค าทถกตองและสายค าตองสงสยทถกปรบแกแลวเปนสายค าทระบบเลอกกคอสายค าทสะกดผด เพราะฉะนนทงค าทสะกดถกและผดของทงระบบไตรแกรมและยนแกรมนนไดมาจากการเลอกขอความทมคาความนาจะเปนสงสด แตคลงขอมลทน ามาใชค านวณคาความนาจะเปนของขอความในขนตอนสดของของระบบทงสองนนเปนคนละคลงขอมลกนจงท าใหผลการทดสอบระบบออกมาแตกตางกน ซงจากการทดสอบระบบตรวจแกการสะกดผดดวยแบบจ าลองยนแกรมตรวจแกการสะกดผดในขอความทดสอบ 1,000 ขอความ พบวาระบบตรวจแกการสะกดผดดวยแบบจ าลองยนแกรมใชเวลาในการประมวลผลในสวนของการอานคลงขอมลตางๆ เพอเตรยมระบบใหพรอมส าหรบตรวจแกการสะกดผด ซงใชเวลาใกลเคยงกบระบบตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรม คอประมาณ 50 วนาท และใชเวลาอกประมาณ 46 วนาทในการตรวจแกขอมลทดสอบ รวมใชเวลาในการประมวลผลทงหมด 96 วนาท ในสวนของผลการตรวจแกการสะกดผดในขอความทดสอบพบวา ระบบสามารถตรวจจบการสะกดผดในขอความทดสอบไดถกตองจ านวน 490 ขอความ ตรวจจบค าทสะกดผดผดพลาดไป 507 ขอความ และม 3 ขอความทระบบตรวจไมพบค าทสะกดผดใดๆ ในขอความ สวนผลการแกไขการสะกดผดของระบบตรวจแกการสะกดผดดวยแบบจ าลองยนแกรมพบวา จากขอความทสามารถตรวจจบการสะกดผดไดถกตองจ านวน 490 ขอความ ระบบสามารถแกไขการสะกดผดในขอความเหลานได 426 ขอความ ซงแปลวาจ านวนขอความทระบบแกไขไดไมถกตองนนกคอ 64 ซงเมอน าขอมลตวเลขเหลาน ไปค านวณแลวไดคาความครบถวนและคาความแมนย าในการตรวจจบและแกไขการสะกดผดแบบเปนค าจรงดวยแบบจ าลองยนแกรมดงทปรากฏในตารางท 5.4 ดานลาง

Page 64: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

64

ตารางท 5.4 แสดงคาประสทธภาพในการเลอกค ามาแกไขการสะกดผดไดถกตองดวยแบบจ าลองยนแกรม

Detection Correction Recall (R) 0.49 0.87

Precision (P) 0.49 0.87

F-measure (F-1) 0.49 0.87 จากตารางท 5.4 จะเหนวาการใชคลงขอมลยนแกรมในการเลอกค ามาแกไขการสะกดผดในขอความนนสามารถท าไดคอนขางแมนย า สงเกตไดจากคาความแมนย า (P) ท 0.87 จากการวเคราะหขอมลพบวา ปญหาเรองของความถในการปรากฏของค าทถกตองลดนอยลง แตยงคงมอยตวอยางเชน ขอความ “เหตการณ|ไฟ|ใหม|ครง|แรก|ท|เกด|ขน|ใน|ชวง|บาย|วน|ศกร|ทผานมา|” และค าทจะน ามาใชแกคอค าวา “ไหม” และ “ใหม” ซงเมอน าไปแทนทค าทสะกดผดในขอความแลวไดคาความนาจะเปนของขอความเทากบ 0.00875 กบ 0.7758 ตามล าดบ ค าทถกเลอกมาแกค าทสะกดผดในขอความนคอค าทใหคาความนาจะเปนของขอความสงสด ซงกคอค าวา “ใหม” เพราะฉะนนถงแมวาการใชคลงขอมลยนแกรมอาจจะชวยแกไขปญหาในเรองของความถในการปรากฏของค าไดในบางกรณ แตวธการนจะใชไดจรงกบเฉพาะเมอค าทมความถในการปรากฏสงเปนค าทสะกดถกตองเทานน

5.4 การตรวจแกการสะกดผดแบบเปนค าจรงดวยชดค าสบสน

ระบบตรวจแกการสะกดผดในแบบทสามนเปนการน าเอาคลงขอมลชดค าสบสนมาใชในการตรวจจบและแกไขการสะกดผด เหตผลทผวจยเลอกใชวธการนในการตรวจแกการสะกดผดแบบเปนค าจรงคอเพอทดสอบสมมตฐานของงานวจยนทคาดวาการใชชดค าสบสนในการแกไขการสะกดผดนนจะสามารถประมวลผลไดรวดเรวกวาผลการท างานของวธการแกไขแกนอยสด และผวจยตองการทราบวาการตรวจแกการสะกดผดแบบเปนค าจรงดวยการใชชดค าสบสนนนจะสามารถท าไดมประสทธภาพมากนอยเพยงใด และประสทธภาพในการตรวจแกการสะกดผดดวยวธการนจะถกน าไปเปรยบเทยบกบอกทงสองวธทกลาวมาแลวดวยเชนกน 5.4.1 หลกการท างานของระบบตรวจแกการสะกดผดดวยชดค าสบสน

การตรวจแกการสะกดผดดวยการใชชดค าสบสนนนมขนตอนในการประมวลผลทไมซบซอนอยางสองวธการแรก ซงหลกการท างานของวธการนกคอการน าค าทสะกดถกตองไปแทนทค าทสะกด

Page 65: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

65

ผด โดยอาศยขอมลในคลงขอมลชดค าสบสน ขนตอนในการท างานของการตรวจการแกสะกดผดแบบเปนค าจรงดวยชดค าสบสนมดงน เมอขอความทตองการใหตรวจแกการสะกดผดไดถกปอนใหกบระบบแลว ระบบจะอานขอความทละขอความและเอาเครองหมาย | ทใชบอกขอบเขตของค าในขอความออก และเหตผลทตองน าเครองหมายแบงค า | ออกกอนทจะเรมท าการตรวจจบค าทสะกดผดนนเปนเพราะวาในชวงฝกฝนระบบผวจยพบวาเครองบอกขอบเขตค านนมผลตอการตรวจแกการสะกดผด คอ ค าสะกดผดบางค าเมอปรากฏรวมกบค าอนแลวระบบตดค าจะตดค าเปลยนไปท าใหใชชดค าสบสนตรวจจบไมพบ ตวอยางเชน ค าวา “|ชตา|” และ “|ชะตา|” เปนชดคค าสะกดผดและสะกดถกตองทอยภายในชดค าสบสน นนหมายความวาเมอไหรกตามทพบค าทสะกดผด ค านนจะถกแกไขดวยค าทสะกดถกตอง แตในกรณน ผวจยพบวาเมอค าวา “ชตา” ปรากฏพรอมกบค าวา “โชค” เมอน าไปผานระบบตดค า จะถกตดค าออกเปน “|โช|คช|ตา|” หากใชชดค าสบสนในการตรวจจบค าทสะกดผดในลกษณะเชนนกจะท าใหตรวจไมพบค าทสะกดผด จากนนระบบจะน าค าทสะกดผดในชดค าสบสนมาเทยบดวาในขอความมค าสะกดผดทตรงกบขอมลในชดค าสบสนปนอยดวยหรอไม โดยค าสะกดผดในชดค าสบสนทยาวทสดจะถกน ามาเทยบกบขอความทดสอบกอน และเรยงล าดบไปหาค าทสนทสด หรอกคอค าทมจ านวนตวอกษรมากทสดจะถกน ามาเทยบกอน หากวามความยาวเทากนกเรยงล าดบตามตวอกษรเรมจากตว ก ไปหาตว ฮ ซงภายในคลงขอมลชดค าสบสนนนไดรวบรวมค าทมกเขยนผดเกบเอาไวเปนรายการค า ซงค าทสะกดผดแตละค าในคลงขอมลชดค าสบสนจะถกเกบไวคกบค าทสะกดถกตอง ดงนนถาหากระบบตรวจพบวาในขอความมค าสะกดผดทตรงกบขอมลในชดค าสบสนอย ระบบกจะแทนทค าทสะกดผดนนดวยค าสะกดถกตอง แตถาหากไมพบกแสดงวาภายในขอความนนไมมค าทสะกดผดทปรากฏในคลงขอมลชดค าสบสน หรอระบบตรวจไมพบค าทสะกดผดนน

รปภาพท 5.4 กระบวนการตรวจแกการสะกดผดดวยชดค าสบสน

ขอความ

คลงขอมลชดค าสบสน

ประโยคทปรบแกแลว

หาค าสะกดผดทปรากฏในคลงขอมลชดค าสบสน

แกไขค าสะกดผดใหถกตอง

Page 66: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

66

5.4.2 ประสทธภาพการตรวจแกการสะกดผดดวยชดค าสบสน

หลงจากทผวจยไดทดสอบวธการตรวจแกการสะกดผดแบบเปนค าจรงดวยชดค าสบสน

พบวาดวยคลงขอมลชดค าสบสนทมขนาดเลกกวาคลงขอมลไตรแกรมและยนแกรมมาก ท าใหวธการ

นใชเวลาในการประมวลผลนอยทสด คอ 3 วนาท เนองจากเปนวธการตรวจแกการสะกดผดทไม

ซบซอนและไมจ าเปนตองใชคลงขอมลขนาดใหญในการตรวจแกการสะกดผด ซงถอเปนขอดของการ

ตรวจแกดวยวธน ในการตรวจแกการสะกดผดในขอมลทดสอบ ซงมขอความภาษาไทยอยทงหมด

1,000 ขอความ พบวาวธการนสามารถตรวจจบการสะกดผดในขอความไดถกตองเกอบทงหมด ค อ

978 ขอความจากทงหมด 1,000 ขอความ มเพยง 22 ขอความเทานนทระบบตรวจแกการสะกดผด

ดวยชดค าสบสนตรวจจบไดผดพลาด และในสวนของการแกไขการสะกดผดทตรวจพบถกตองทงหมด

978 ขอความนน ระบบตรวจแกการสะกดผดดวยชดค าสบสนนสามารถแกไขไดถกตองทกขอความ

ซงขอมลในตารางท 5.5 แสดงคาความครบถวน คาความแมนย า และคาประสทธภาพในการตรวจจบ

และการแกไขการสะกดผดดวยชดค าสบสน

ตารางท 5.5 แสดงประสทธภาพในการตรวจจบการสะกดผดดวยชดค าสบสน

Detection Correction

Recall (R) 0.978 1 Precision (P) 0.978 1

F-measure (F-1) 0.978 1 ส าหรบประสทธภาพในการตรวจแกการสะกดผดดวยการใชชดค าสบสนนน ผวจยคาดวาวธการนควรจะสามารถตรวจจบการสะกดผดและแกไขการสะกดผดไดอยางถกตองและครบถวนทงหมด หลงจากทผวจยไดน าผลการทดสอบมาวเคราะหถงสาเหตทท าใหเกดความผดพลาดในการตรวจจบการสะกดผดทเกดขนพบวา ความสนยาวของค าในชดค าสบสนทน ามาใชตรวจจบการสะกดผดนนเปนสาเหตทท าใหระบบตรวจจบการสะกดผดไดไมถกตอง ตวอยางเชน ในขอความน “เกดความคดสรางสรรคสรางแรงบนดานใจใหเดก” ซงค าทสะกดผดกคอ ค าวา “บนดาน” ทควรถกแกไขเปน “บนดาล” แตค าวา “สรางสรร” เปนค าสะกดผดทปรากฏภายในชดค าสบสนเชนกน และเนองจากในการเทยบหาค าทสะกดผดในขอความนน ระบบจะน าค าสะกดผดในชดค าสบสนทม ยาวทสดหรอมจ านวนตวอกษรมากทสดมาเทยบกอน ดงนนเมอระบบท าการตรวจหาค าทสะกดใน

Page 67: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

67

ขอความขางกจะตรวจจบวา “สรางสรร” เปนค าทสะกดผดในขอความขางตน เพราะสรางสรรคมจ านนวนตวอกษรมากกวา

5.5 ผลการเปรยบเทยบประสทธภาพในการตรวจแกการสะกดผดของระบบทงสาม

ในสวนนผวจยจะอภปรายถงประสทธภาพในการตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรมซงเปนวธทน าเสนอเปรยบเทยบกบประสทธภาพในการตรวจแกการสะกดผดดวยวธทน ามาใชเปรยบเทยบอกสองวธ โดยจะพจารณาถงประสทธภาพของระบบแตละระบบใน 3 ดาน ไดแก ดานระยะเวลาทใชในการประมวลผล ดานการตรวจกบการสะกดผด และดานการแกไขการสะกดผด 5.5.1 ดานระยะเวลาทใชในการประมวลผล

ส าหรบประสทธภาพดานระยะเวลาทระบบใชในการตรวจแกขอความภาษาไทยจ านวน 1,000 ขอความหรอประมาณ 33,000 ค า นนพบวาระบบทงสามแบบใชระยะเวลาในการประมวลผลทแตกตางกน ซงระบบตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรมเปนระบบทใชเวลานานมากทสด คอ 128 วนาท สวนระบบตรวจแกการสะกดผดดวยแบบจ าลองยนแกรมเปนระบบทใชระยะเวลาในการประมวลผลนานนอยรองลงมา คอ 96 วนาท สวนระบบทพบวาใชเวลาในการประมวลผลการตรวจแกการสะกดผดในขอความทดสอบนอยทสดคอ ระบบตรวจแกการสะกดผดดวยชดค าสบสน ซงใชเวลาประมาณ 3 วนาท ดงทปรากฏในตารางท 5.6 โดยผลการเปรยบเทยบดานระยะเวลาทใชในการประมวลผลทปรากฏนนเปนไปตามสมมตฐานขอท 3 ของงานวจยน ทผวจยไดคาดเดาไววาการตรวจแกการสะกดผดแบบเปนค าจรงทใชชดค าสบสนในการตรวจแกการสะกดผดจะใชเวลาในการประมวลผลนอยกวาการใชแบบจ าลองไตรแกรมค าหรอแบบจ าลองยนแกรมค าซงใชวธปรบแกนอยสดในการตรวจแกการสะกดผด เนองจากวธการใชชดค าสบสนในการตรวจแกการสะกดผดนน ไดก าหนดค าทมกสะกดผดและค าทสะกดถกตองเอาไวลวงหนาแลวเพราะฉะนนจงไมจ าเปนตองเสยเวลาในการตรวจจบวาค าใดในขอความเปนค าตองสงสยวาสะกดผดหรอปรบแกค าทสะกดผดใหถกตองดวยวธการปรบแกนอยสด เพอน าค าทถกตองมาแกไขการสะกดผดในขอความเหมอนวธการทางสถตอยางไตรแกรมละยนแกรม

Page 68: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

68

ตารางท 5.6 แสดงผลการเปรยบเทยบระยะเวลาทใชในการประมวลของแตละระบบ อนดบท ระบบทใชในการตรวจแกการสะกดผด ระยะเวลาทใชในการประมวลผล (วนาท)

1 ชดค าสบสน 3

2 ยนแกรม 96 3 ไตรแกรม 128

5.5.2 ดานการตรวจจบการสะกดผดแบบเปนค าจรง

การประเมนประสทธภาพดานการตรวจจบการสะกดผดแบบเปนค าจรงในงานวจยนจะพจารณาจากคาความแมนย า (precision) ในการตรวจจบค าทสะกดผดวาระบบแตละระบบสามารถตรวจจบค าทสะกดผดในขอความทดสอบไดถกตองมากนอยเพยงใด และพจารณาจากคาความระลก (recall) วาระบบสามารถตรวจจบค าทสะกดผดไดถกตองครบทกค าหรอไม ดงทปรากฏในตารางท 5.7 ตารางท 5.7 แสดงคาประสทธภาพในการตรวจจบการสะกดผดดวยระบบทแตกตางกน Detection trigram unigram confusion set

recall (R) 0.465 0.49 0.978 precision (P) 0.466 0.49 0.978

F-measure (F-1) 0.466 0.49 0.978

จากขอมลในตารางท 5.7 แสดงใหเหนวาระบบทสามารถตรวจจบการสะกดผดแบบเปนค าจรงไดอยางถกตองและครบถวนมากทสดคอระบบตรวจแกสะกดผดดวยชดค าสบสน รองลงมาเปนระบบยนแกรมและไตรแกรม แตในความเปนจรงแลวคาประสทธภาพในการตรวจแกการสะกดผดแบบเปนค าจรงดวยชดค าสบสนในงานวจยนขนอยกบค าทงหมดภายในชดค าสบสนเพยงอยางเดยวเทานนซงมทงหมด 1,674 คค าสะกดผดและค าสะกดถก คาประสทธภาพในการตรวจจบการสะกดผดดวยชดค าสบสนอาจจะเทากบ 0 กไดถาหากวาภายในขอความทตรวจแกนนไมมค าสะกดผดทปรากฏอยในชดค าสบสนเลย เพราะฉะนนเมอพจารณาถงการน าไปใชตรวจแกการสะกดผดทเกดขนในความเปนจรง วธการนถอเปนวธการทไมเหมาะสมนก ในสวนของประสทธภาพในการตรวจจบค าทสะกดผดดวยการใชขอมลเชงสถตทงสองวธคอดวยแบบจ าลองไตรแกรมและแบบจ าลองยนแกรมนนพบวาสามารถตรวจจบการสะกดผดไดถกตองประมาณครงตอครง ซงยงถอวาเปนจ านวนทยงไมสามารถน าไปใชไดในชวตจรง เพราะยงคงตองพงแรงงานคนในการตรวจแกการสะกดผดอกครงทเหลอ

Page 69: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

69

ปจจยทท าใหผลของการตรวจแกค าทสะกดผดดวยแบบจ าลองไตรแกรมและดวยแบบจ าลองยนแกรมมคาตางกนถงแมวาการท างานของทงสองระบบจะตางกนแคในขนตอนการเลอกค าเพอใชแกไขการสะกดผดนนเปนเพราะระบบทผวจยพฒนาขนนนไมไดท าการระบวาค าตองสงสยใดเปนค าทสะกดผดจรงกอนจะสงไปปรบแกใหถกตอง กลาวคอ ระบบน าค าทตองสงสยทงหมดไปปรบแกแลวเลอกค าทปรบแกแลวและเปนค าทใหคาความนาจะเปนของขอความสงสดหนงค ามาใชแกไขการสะกดผด ซงค าสะกดผดทถกแกไขแลวใหคาความนาจะเปนของขอความสงสดนนเองเปนค าสะกดผดทระบบตรวจจบได เพราะฉะนนอาจกลาวไดวาระบบทผวจยพฒนาขนนนใชความนาจะเปนของขอความทงในการตรวจจบและแกไขการสะกดผด ดวยเหตนคาประสทธภาพในการตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรมและแบบจ าลองยนแกรมจงไมเทากน 5.5.3 ดานการแกไขการสะกดผดแบบเปนค าจรง

ตารางท 5.8 แสดงคาประสทธภาพในการแกไขการสะกดผดดวยระบบทแตกตางกน

Correction trigram unigram confusion set recall (R) 0.85 0.87 1

precision (P) 0.85 0.87 1

F-measure (F-1) 0.85 0.87 1 จากขอมลทปรากฏในตารางท 5.8 จะเหนไดวาทงสามระบบสามารถแกไขค าทสะกดผดแบบเปนค าจรงไดถกตองเปนสวนใหญซงคา F-1 ของระบบตรวจแกการสะกดผดดวยชดค าสบสนเทากบ 1 นนหมายความค าสะกดผดทระบบชดค าสบสนสามารถตรวจจบไดถกตองทงหมดนนไดรบการแกไขไดอยางถกตองทงหมดเชนกน สวนประสทธภาพในการแกไขการสะกดผดดวยแบบจ าลองไตรแกรมและแบบจ าลองยนแกรมนนอยในระดบทคอนขางนาพอใจ เพราะทงสองระบบสามารถแกไขค าสะกดผดไดถกตองมากกวา 80% แตอยางไรกตามคาประสทธภาพในระดบนยงหมายความวา มชองวางอก ประมาณ 20% เพอปรบปรงและพฒนาระบบใหสามารถแกไขการสะกดผดแบบเปนค าจรงไดอยางมประสทธภาพมากยงขน จากขอมลทปรากฏในตารางท 5.7 และ 5.8 พบวามจดทนาสนใจคอคาประสทธภาพในการตรวจจบและการแกไขค าทสะกดผดของแบบเปนค าจรงดวยแบบจ าลองไตรแกรมนนต ากวาการตรวจแกดวยแบบจ าลองยนแกรมอยเลกนอย ซงเปนผลทอยนอกเหนอความคาดหมายของผวจยและท าใหสมมตฐานขอท 2 ของงานวจยนทผวจยไดตงเอาวาวธการตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรมจะสามารถตรวจสอบไดถกตองมากกวาวธการตรวจแกดวยแบบจ าลองยนแกรมนนเปนเทจ

Page 70: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

70

ผวจยจงไดวเคราะหผลการทดสอบระบบทงสองระบบและพบวาปจจยทท าใหการเลอกค าทเหมาะสมเพอใชแกไขค าทสะกดผดจากการใชความนาจะเปนยนแกรมค านวณหาค าทใหคาความนาจะเปนของขอความสงสดนนดกวาการใชความนาจะเปนไตรแกรมกคอ ความถในการปรากฏของค าทเหมาะสม เนองจากแบบจ าลองยนแกรมนนใชความถในการปรากฏของค าหนงค าเดยวๆ จงท าใหค าทกค าในขอความทถกน าไปค านวณหาคาความนาจะเปนนนไมมปญหาในเรองความถในการปรากฏ ซงอาจเปนความบงเอญทความถในการปรากฏของค าทเหมาะสมทสดนนมากกวาค าอนๆ ระบบจงสามารถเลอกมาแกไขไดถก ซงในทางกลบกนหากวาค าทสะกดถกตองนนเปนค าทมความถในการปรากฏนอย ผลในการใชคาความนาจะเปนยนแกรมในการเลอกค าทเหมาะสมทสดนนลดลงได ปญหาในเรองของความถในการปรากฏนนยงเปนปจจยส าคญทท าใหระบบตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรมไมไดเลอกค าทถกตองเพราะมคาความนาจะเปนนอยกวา ซงผวจยยงพบวาปญหาเรองความถในการปรากฏนท าใหระบบไตรแกรมไมเลอกค าทระบบสามารถแกไขไดถกตองถง 82 ขอความ และอาจจะเปนสาเหตส าคญทท าใหประสทธภาพในการตรวจจบและแกไขการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรมต ากวาการใชแบบจ าลองยนแกรม จากผลการวเคราะหขางตนสามารถกลาวไดวาในงานวจยน ระบบตรวจแกการสะกดผดแบบ

เปนค าจรงดวยแบบจ าลองไตรแกรมนนยงคงเปนระบบทเหมาะสมในการน ามาใชตรวจแกการสะกด

ผดแบบเปนค าจรงมากกวาระบบตรวจแกการสะกดผดดวยแบบจ าลองยนแกรมและดวยชดค าสบสน

แมวาผลการประเมนประสทธภาพในการตรวจแกการสะกดผดแบบเปนค าจรงดวยระบบคอมพวเตอร

ทงสามแบบในงานวจยนจะบงชวาวธการใชชดค าสบสนในการตรวจแกการสะกดผดแบบเปนค าจรง

นนดกวาอกสองแบบซงเปนเพราะค าทสะกดผดแบบเปนค าจรงในขอความทดสอบนนลวนเปนค าท

น ามาจากชดค าสบสน ซงถาหากวาในประโยคทดสอบไมมค าในชดค าสบสนระบบกจะไมสามารถ

ตรวจจบการสะกดผดใดๆ ได เพราะฉะนนในทางปฏบตวธการใชชดค าสบสนเพยงอยางเดยวในการ

ตรวจแกการสะกดผดอาจไมใชทางเลอกทเหมาะสมเทาใดนก และในบทตอไปผวจยจะสรป

ผลการวจย และกลาวถงปญหาทพบในงานวจยครงน รวมถงขอเสนอแนะส าหรบผทสนใจจะท างาน

วจยทางดานนในอนาคต

Page 71: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

71

บทท 6

สรปผลการวจย ปญหาและขอเสนอแนะ

ในบทนผวจยจะกลาวถงผลการวจยในงานวจยนทงหมดโดยสรป และจะกลาวถงปญหาทพบในงานวจยนรวมถงขอเสนอแนะทจะเปนประโยชนตองานวนยอนๆ ตอไปตอไป

6.1 สรปผลการวจย

ในสวนนผวจยจะน าเสนอผลการศกษาวเคราะหเกยวกบการตรวจแกการสะกดผดแบบเปนค าจรงแยกเปนสองสวน คอ ในสวนแรกจะเปนการสรปผลการศกษาวเคราะหค าไทยทมกสะกดผด และในสวนหลงจะเปนการสรปผลการทดสอบประสทธภาพในการท างานของระบบตรวจแกการสะกดผดแบบเปนค าจรง 6.1.1 สรปผลการศกษาวเคราะหค าไทยทมกสะกดผด

ในการศกษาวเคราะหน ผวจยไดรวบรวมเอาค ามกเขยนผดในภาษาไทยจากสอแหลงตางๆ ทงหนงสอและบนอนเตอรเนตมาศกษาวเคราะห โดยคดเลอกเอาเฉพาะการสะกดผดแบบเปนค าจรง ดวยการน าค าทสะกดผดทรวบรวมมาไดทงหมดไปตดค าดวยระบบตดค า ThaiSegmentation พฒนาโดย ภาควชาภาษาศาสตร จฬาลงกรณมหาวทยาลย ซงส าหรบงานทางดานการประมวลผลภาษาไทยนน เฉพาะค าทมความหมายและปรากฏในพจนานกรมเทานนทจะตดค าไดส าเรจ ดงนนค าสะกดผดทตดค าไดส าเรจกคอค าทสะกดผดแบบเปนค าจรง จากนนกน าค าทสะกดผดแบบเปนค าจรงทงหมดเหลานไปศกษาวเคราะห ซงผวจยไดตงสมมตฐานไววาค าทสะกดผดแบบเปนค าจรงนนมกจะมการสะกดผดทต าแหนงตวสะกดมากทสดและจะยงคงออกเสยงเหมอนเดม จากการวเคราะหค าทสะกดผดแบบเปนค าจรงทรวบรวมมาไดทงหมดพบวา ค าทสะกดผดแบบเปนค าจรงเหลานสามารถแบงออกเปนสองกลมใหญตามจ านวนการสะกดผดทพบในหนงค า คอ กลมทสะกดผดหนงต าแหนงและกลมทสะกดผดหลายต าแหนง โดยสดสวนของค าทสะกดผดสองกลมนคอ 80 ตอ 20 หมายความวารอยละ 80 ของค าทสะกดผดแบบเปนค าจรงทพบจะสะกดผดเพยงหนงต าแหนงและรอยละ 20 เปนค าทสะกดผดหลายต าแหนง ซงสวนใหญคอสองต าแหนง เมอพจารณาค าทสะกดผดในกลมแรกคอกลมทพบการสะกดผดหนงต าแหนงพบวาสามารถจ าแนกค าใน

Page 72: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

72

กลมนออกตามต าแหนงทพบการสะกดผดได 5 กลมยอยโดยเรยงอนดบตามจ านวนทพบจากมากสดไปนอยสด ไดดงน ก. กลมค าสะกดผดทพยญชนะตน 382 ค า หรอ 28.53% ข. กลมค าสะกดผดทตวสะกด 338 ค า หรอ 25.24% ค. กลมค าสะกดผดทสระ 306 ค า หรอ 22.85% ง. กลมค าสะกดผดทตวการนต 270 ค า หรอ 20.16% จ.กลมค าสะกดผดทวรรณยกต 43 ค า หรอ 3.21% และเมอพจารณาค าทสะกดผดหลายต าแหนงพบวาสามารถจ าแนกออกเปนสองกลมเรยงตามจ านวนค าในกลมจากมากสดไปนอยสด ไดดงน ก. กลมค าสะกดผดหลายต าแหนงทออกเสยงเหมอนเดม 239 ค า หรอ 71.34% ข. กลมค าสะกดผดหลายต าแหนงทออกเสยงเปลยนไป 96 ค า หรอ 28.66% จากผลการวเคราะหค าทสะกดผดในงานวจยนจะเหนไดวาค าสะกดผดสวนใหญทพบมากทสดเปนค าสะกดผดหนงต าแหนงทพยญชนะตน รปแบบของการสะกดผดในลกษณะนทพบบอยทสด คอ การใช ร และ ล สลบกน เชน ค าวา “เลกรา” สะกดผดเปน “เลกลา” สวนค าสะกดผดหนงต าแหนงทตวสะกดซงพบมากรองลงมานนพบวารปแบบของการสะกดผดทพบบอยคอ การใชตวสะกดมาตราเดยวกนผดโดยไมท าใหการออกเสยงของค าเปลยนไป โดยมาตราตวสะกดทใชผดมากทสดคอ แม กน เชนค าวา “เพมพน” สะกดผดเปน “เพมพล” ซงจากผลการวเคราะหนแสดงวาสมมตฐานขอแรกทผวจยตงไวนนเปนจรงเพยงสวนเดยวคอการสะกดผดทตวสะกดนนมกจะออกเสยงเหมอนเดม 6.1.2 สรปผลการทดสอบประสทธภาพในการท างานของระบบตรวจแกการสะกดผดแบบเปนค าจรง

ในงานวจยนน าเสนอระบบตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรม ซงขอมลทน ามาสรางเปนคลงขอมลไตรแกรมนนใชขอมลจากคลงขอมลภาษาไทยแหงชาต และขอมลทน ามาใชทดสอบนนเปนขอมลทไดจากการน าเอาค าทสะกดผดแบบเปนค าจรงในคลงขอมลชดค าสบสนทรวบรวมไว โดยผวจยไดสมเลอกค าทสะกดผดในคลงขอมลออกมาจ านวน 375 ค า แลวน าไปคนหาขอความตวอยางการใชจรงทพบบนอนเตอรเนตไดจ านวนทงหมด 1,000 ขอความ ดงนนแตละประโยคจะมค าทสะกดผดแบบเปนค าจรงทตองการใหระบบตรวจแกไดอยหนงค า ซ งกระบวนการท างานของระบบนคอ แบงขอความออกเปนกลมสายค าเรยงสามค า แลวน าสายค าเรยงสามทละสาย

Page 73: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

73

ไปตรวจสอบวามสายค าเรยงสามสายใดปรากฏในคลงขอมลไตรแกรมหรอไม ถาหากไมพบแสดงวาสายค าเรยงสามนนตองสงสยวามค าทสะกดผด และจะถกน าไปปรบแกใหเปนค าทถกตองดวยวธการปรบแกนอยทสด (minimum edit distance) ซงผวจยไดน าเอารปแบบในการแกไขการสะกดผดมาปรบใชในกระบวนการนดวย โดยรปแบบในการแกไขการสะกดผดทน ามาใชนนจะชวยระบกลมตวอกษรทเปนไปไดในการปรบแกตวอกษรแตละตวใหถกตอง เพราะโดยสวนใหญแลวตวอกษรแตละตวนนมความเปนไปไดทจะถกใชสลบกบตวอกษรเพยงบางตวเทานน เชน ร มกถกแทนทดวย ล ในต าแหนงพยญชนะตน เชน ราด ลาด เปนตน ซงเปนการชวยใหระบบท าการปรบแกค าตองสงสยใหถกตองไดรวดเรวยงขน หลงจากทสายค าเรยงสามทตองสงสยวาสะกดผดแตละสายไดรบการปรบแกแลว จะถกน าไปตรวจสอบวามปรากฏอยในคลงขอมลไตรแกรม หากไมพบกในไปตรวจสอบกบคลงขอมลไบแกรมและยนแกรมตามล าดบ ซงเฉพาะสายค าเรยงสามทตรวจพบวามปรากฏอยในคลงขอมลใดขอมลหนงเทานนทจะถกสงตอไปยงขนตอนสดทาย นนคอการน าสายค าเรยงสามทปรบแกแลวไปแทนทค าทสะกดผดในขอความแลวค านวณคาความนาจะเปนของขอความ และสายค าเรยงสามทใหคาความนาจะเปนของขอความสงทสดจะเปนสายค าเรยงทถกตองและน าไปใชแกไขค าทสะกดผดในขอความ นอกจากนผวจยไดพฒนาระบบตรวจแกการสะกดผดแบบเปนค าจรงอกสองแบบ ไดแก ระบบทใชแบบจ าลองยนแกรมและระบบทใชชดค าสบสนในการตรวจแกการสะกดผดแบบเปนค าจรงเพอน าผลการทดสอบการตรวจแกการสะกดผดดวยระบบสองระบบนไปใชเปรยบเทยบประสทธภาพของระบบตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรม สวนหลกการท างานของระบบตรวจแกการสะกดผดดวยแบบจ าลองยนแกรมนนมขนตอนในการท างานเหมอนกบระบบแบบจ าลองไตรแกรมทงหมดยกเวนหนงขนตอนคอ ขนตอนเลอกค าทเหมาะสมเพอใชแกไขการสะกดผดเทานนทแตกตางไปจากระบบแบบจ าลองไตรแกรม คอเปลยนวธการค านวณคาความนาจะเปนของขอความจากการใชคาความนาจะเปนของไตรแกรม เปนการใชความนาจะเปนของยนแกรมแทน และในสวนหลกการท างานของระบบตรวจแกการสะกดผดแบบเปนค าจรงดวยชดค าสบสนนนไมซบซอนเหมอนระบบทใชขอมลเชงสถตทงสองทกลาวไป ซงขนตอนในการตรวจแกการสะกดผดดวยชดค าสบสนนนเรมตนดวยการน าค าทสะกดผดในชดค าสบสนมาเทยบวามปรากฏอยในขอความหรอไมโดยเรมจากค าสะกดผดทยาวทสดไปสนสดหรอค าทมมตวอกษรในค ามากสดไปนอยสด หากตรวจพบวาในขอความมค าทตรงกบค าสะกดผดในชดค าสบสน ระบบจะท าการแกไขการสะกดผดดวยการน าเอาคค าทสะกดถกตองของค าสะกดผดในชดค าสบสนมาแทนทค าสะกดผดทตรวจพบในขอความ ในสวนของการประเมนประสทธภาพในการตรวจแกการสะกดผดแบบเปนค าจรงในขอความภาษาไทยทน ามาใชทดสอบ 1,000 ขอความของระบบตรวจแกการสะกดผดแบบเปนค าจรงทง 3 แบบ ผวจยไดประเมนประสทธภาพในการท างานของระบบแตละระบบใน 3 ดาน ไดแก ดาน

Page 74: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

74

ระยะเวลาทใชในการประมวลผล ดานประสทธภาพในการตรวจจบการสะกดผด และดานประสทธภาพในการแกไขการสะกดผด ก. ดานระยะเวลาทใชในการประมวลผล พบวาระบบตรวจแกการสะกดผดดวยชดค าสบสนเปนระบบทใชเวลาในการประมวลผลนอยทสดคอ ประมาณ 3 วนาท รองลงมาเปนระบบตรวจแกการสะกดผดดวยแบบจ าลองยนแกรมทใชระยะเวลาในการประมวลผล 96 วนาท สวนระบบตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรมค าเปนระบบทใชเวลานานมากทสด คอ 128 วนาท ซงผลการเปรยบเทยบประสทธภาพในดานระยะเวลาในการประมวลผลทไดนนเปนไปตามทผวจยไดตงสมมตฐานไว คอ การใชชดค าสบสนในการแกไขนนจะใชเวลาในการประมวลผลนอยกวาการปรบแกนอยสดในการปรบแกการสะกดผด ข. ดานการตรวจจบการสะกดผดแบบเปนค าจรง พบวาระบบทตรวจจบการสะกดผดแบบเปนค าจรงไดดทสดคอระบบทใชชดค าสบสน รองลงมาเปนระบบทตรวจจบการสะกดผดดวยแบบจ าลองยนแกรมและแบบจ าลองไตรแกรม ซงมคาความแมนย าและคาความครบถวนในการตรวจจบการสะกดผดเทากนคอ 0.978 0.49 และ0.47 ตามล าดบ ค. ดานการแกไขการสะกดผดแบบเปนค าจรง พบวาระบบทแกไขการสะกดผดแบบเปนค าจรงไดดทสดคอระบบตรวจแกการสะกดผดดวยชดค าสบสน ดวยคาความแมนย าและคาความครบถวนเทากบ 1 รองลงมาเปนระบบตรวจแกการสะกดผดดวยแบบจ าลองยนแกรม ซงมคาความแมนย าและความครบถวนในการแกไขการสะกดผดแบบเปนค าจรงเทากบ 0.87 และอนดบสดทายคอระบบตรวจแกการสะกดผดดวยแบบจ าลองไตรแกรมดวยคาความแมนย าและคาความครบถวน เทากบ 0.85 ผลการทดสอบประสทธภาพของระบบตรวจแกการสะกดผดแบบเปนค าจรงสามแบบนแสดงใหเหนวาวธการตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรมค าในงานวจยนนนยงมจดบกพรองและตองการการพฒนาเพมเตมเพอทจะสามารถน าไปใชในการตรวจแกการสะกดผดแบบเปนค าจรงไดจรงและมประสทธภาพมากยงขน

6.2 ปญหาทพบ

ปญหาหลกทผวจยพบในการพฒนาระบบตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรมค าในงานวจยน ทสงผลตอการท างานของระบบเปนอนมากมดงตอไปน

Page 75: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

75

6.2.1 ปญหาดานระบบ

1) ระบบตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรมทพฒนาขนในงานวจยนยงขาดวธการตรวจจบค าทสะกดผดทมประสทธภาพ ท าใหระบบตองท าการแกไขค าสะกดผดและใชระยะเวลาในการประมวลผลมากเกนความจ าเปน 2) ระบบตรวจแกการสะกดผดแบบเปนค าจรงดวยแบบจ าลองไตรแกรมในการวจยนสามารถแกไขเฉพาะค าสะกดผดทปรบแกใหถกตองดวยจ านวนการปรบแกหนงครงเทานน คอ ระบบไมสามารถแกไขค าสะกดผดทตองการการปรบแกมากกวาหนงครงใหถกตองได เชน ค าสะกดผดทเกดจากการสลบทตวอกษรสองตวทตด ค าวา แสลง กบ สแลง ซงในการจะแกค าทสะกดผดในลกษณะเชนนตองใชการปรบแกสองครงคอ ลบสระหนา แ หรอพยญชนะ ส ออก แลวจงคอยเตมสระ แ หรอ ส กลบเขาไป เปนตน 6.2.2 ปญหาดานขอมล

เนองจากขอความทน ามาใชฝกฝนและทดสอบในงานวจยครงน ผวจยตองการขอความทเปนตวอยางของการสะกดผดทเกดขนจรง เพอใหผลการทดสอบระบบนนแสดงถงประสทธภาพในการตรวจแกการสะกดผดทเกดขนจรง แตปญหาในการใชขอมลตวอยางทสบคนบนอนเตอรเนตคอ ขอความตวอยางทไดมานนมสงรบกวนภายในขอความปะปนอยเปนจ านวนมาก ตวอยางเชน การเวนวรรคระหวางค าหรอประโยค โครงสรางประโยค หรอค าศพททใช ทไมเปนไปตามหลกการใชภาษา สงเหลานเปนปจจยส าคญอกอยางหนงทสงผลตอประสทธภาพในตรวจแกการสะกดผดทพฒนาขนในงานวจยน

6.3 ขอเสนอแนะ

เนองจากการตรวจแกการสะกดผดแบบเปนค าจรงในภาษาไทยนนยงคงเปนงานททาทายและตองการการคนควาวจยเพมเตมเพอพฒนาระบบทสามารถตรวจแกการสะกดผดแบบเปนค าจรงในภาษาไทยไดอยางมประสทธภาพมากยงขน ซงผวจยมขอเสนอแนะส าหรบผทสนใจเกยวกบงานทางดานนหรอตองการจะคนควาวจยตอไปในอนาคตดงน ส าหรบผทสนใจจะท าการวจยเกยวกบการตรวจแกการสะกดผดแบบเปนค าจรง ควรมงเนนการพฒนาประสทธภาพในการตรวจจบการสะกดผด เพราะหวใจส าคญของงานตรวจแกการสะกดผดคอ ระบบตองสามารถระบค าทสะกดผดใหไดอยางครบถวนและแมนย ามากทสด เพราะการตรวจจบค าทสะกดผดแบบเปนค าจรงใหไดอยางครบถวนและแมนย านนเปนงานทยากกวาการแกไขค าสะกด

Page 76: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

76

ผดมาก เนองจากการตรวจจบค าสะกดผดแบบเปนค าจรงจ าเปนตองอาศยค าบรบทขางเคยงหรอความหมายชวยในการระบค าทสะกดผดนน จากการศกษาวเคราะหค าไทยทมกเขยนผดท าใหผวจยทราบรปแบบของการสะกดผดทมกจะเกดขน ผวจยไดน าขอมลทไดในสวนนไปปรบใชในการปรบแกการสะกดผด แตไมไดน ามาปรบใชในการตรวจจบค าทสะกดผด ซงผวจยคาดวารปแบบของการสะกดผดเหลานจะชวยเพมประสทธภาพในการตรวจจบค าทสะกดผดใหไดครบถวนและแมนย ามากยงขน ในสวนของประเดนทนาสนใจและควรน าไปศกษาคนควาเพมเตมหรอพฒนานน ผวจยคดวาการขยายขอบเขตของงานวจยนกเปนแนวทางหนงทสามารถน าไปพฒนาตอได เพราะผวจยไดก าหนดขอบเขตของการวจยไวเปนการตรวจแกการสะกดผดแบบเปนค าจรงในภาษาไทยเทานน ซงในความเปนจรงแลวขอความสวนใหญมกมค าภาษาองกฤษปนอย การคนควาวจยหาวธแกไขการสะกดผดทอยในขอความภาษาไทยทมภาษาองกฤษปนอยกเปนงานวจยทนาสนใจ เนองจากผลการวจยทไดจะแสดงถงความสามารถในการตรวจแกการสะกดผดแบบเปนค าจรงในขอความทใกลเคยงกบทพบจรงในชวตประจ าวนมากขน งานทางดานการตรวจแกการสะกดผดแบบเปนค าจรงดวยระบบคอมพวเตอรนน ค าบรบทแวดลอมทปรากฏรวมกบค าทสะกดผดแบบเปนค าจรงมความส าคญตอการตรวจจบและแกไขค าทสะกดผดไดถกตองเปนอยางมาก ซงในงานวจยนไดใชแบบจ าลองไตรแกรมในการตรวจแกการสะกดผดนนเปนวธการทใชค าทอยตดกบค าทสะกดผดในระยะหางไมเกนสองค า ซงค าบรบททจะชวยระบไดวาค าๆ นนสะกดผดอาจจะอยหางจากค าตองสงสยเกนกวาสองค า ดงนนถาหากมการศกษาคนควาเกยวกบบรบทของค าแตละค าหรอน าขอมลทมการก ากบขอมลชนดของค า (POS tagging) เอาไวมาปรบใชในการตรวจแกการสะกดผดในลกษณะน กอาจจะท าใหประสทธภาพในการตรวจแกการสะกดผดแบบเปนค าจรงเพมมากขนได

Page 77: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

รายการอางอง

ภาษาไทย

ดนย เมธตานนท. (2549). ๒๘๐ ค าไทย ทมกเขยนและใชกนผด. กรงเทพฯ: มตใหม. ตระการ เอยมตระกล. (2554). ค าไทยทมกใชผด. กรงเทพฯ: คลนอกษร. ธน ทดแทนคณ. (2550). รอยแปด (๑๐๘) ค าไทยทมกใชผด. ปทมธาน: สกายบกส. ฝายวชาการ พบซ. (2553). ภาษาไทย ค าทมกเขยนผด. กรงเทพฯ: พบซ. ราชบณฑตยสถาน. (2557). อานอยางไรและเขยนอยางไร ฉบบราชบณฑตยสถาน (แกไข

เพมเตม). กรงเทพฯ: ราชบณฑตยสถาน. สนนท อญชลนกล. (2552). ระบบค าภาษาไทย. กรงเทพฯ: โครงการเผยแพรผลงาน

วชาการ คณะอกษรศาสตร จฬาลงกรณมหาวทยาลย.

ภาษาองกฤษ

Aroonmanakul, W. (2002). Collocation and Thai Word Segmentation Paper presented at the The Fifth Symposium on Natural Language Processing & The Fifth Oriental COCOSDA Workshop, Pathumthani.

Aroonmanakul, W. (2007). Thai National Corpus. Retrieved from http://www.arts.chula.ac.th/~ling/TNCII/

Baba, Y., & Suzuki, H. (2012, 8-14 July 2012). How Are Spelling Errors Generated and Corrected? A Study of Corrected and Uncorrected Spelling Errors Using Keystroke Logs. Paper presented at the the 50th Annual Meeting of the Association for Computational Linguistics, Jeju, Republic of Korea.

Bahl, L. R., Jelinek, F., & Mercer, R. L. (1983). A Maximum Likelihood Approach to Continuous Speech Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 5(2), 179-190.

Page 78: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

78

Bassil, Y. (2012). Parallel Spell-Checking Algorithm Based on Yahoo! N-Grams Dataset. International Journal of Research and Reviews in Computer Science (IJRRCS), 3(1).

Bowers, N. (2015). neilb/Text-Levenshtein. https://github.com/neilb/Text-

Levenshtein Dembitz, Š., Gledec, G., & Randić, M. (2009). Spellchecker Wiley

Encyclopedia of Computer Science and Engineering (pp. 2793–2804). Golding, A. R. (1995). A Bayesian Hybrid Method for Context-Sensitive

Spelling Correction Proceedings of the Third Workshop on Very Large Corpora.

Golding, A. R., & Roth, D. (1999). A Winnow Based-Approach to Context Sensitive Spelling Algorithm. Machine Learning, 34, 107-130.

Golding, A. R., & Schabes, Y. (1996). Combining Trigram-based and feature-based methods for context-sensitive spelling correction. Paper presented at the Proceedings of the 34th annual meeting on Association for Computational Linguistics, Santa Cruz, California.

Hirst, G., & Budanitsky, A. (2005). Correcting real-word spelling errors by restoring lexical cohesion. Natural Language Engineering, 11(1), 87-111. doi:10.1017/S1351324904003560

Islam, A., & Inkpen, D. (2009). Real-Word Spelling Correction using Google Web 1T 3-grams. Paper presented at the 2009 Conference on Empirical Methods in Natural Language Processing, Singapore.

Kaur, J., & Garg, K. (2014). Hybrid Approach for Spell Checker and Grammar Checker for Punjabi. International Journal of Advanced Research in Computer Science and Software Engineering, 4(6).

Kukich, K. (1992). Techniques for automatically correcting words in text. ACM Comput. Surv., 24(4), 377-439. doi:10.1145/146370.146380

Page 79: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

79

Mays, E., Damerau, F. J., & Mercer, R. L. (1991). Context based spelling correction. Inf. Process. Manage., 27(5), 517-522. doi:10.1016/0306-4573(91)90066-u

Mishra, R., & Kaur, N. (2013). A Survey of Spelling Error Detection and Correction Techniques. International Journal of Computer Trends and Technology, 4(3), 372-374.

Mitton, R. (1987). Spelling Checkers, Spelling Correctors and the Misspellings of Poor Spellers. Information Processing and Management, 23(5), 495-505.

S, R. M., Madi, V., D, S., & P, R. K. (2012). A NON-WORD KANNADA SPELL CHECKER USING MORPHOLOGICAL ANALYZER AND DICTIONARY LOOKUP METHOD. International Journal of Engineering Sciences & Emerging Technologies, 2(2), 43-52.

Stehouwer, H. (2011). Statistical langauge models for alternative sequence selection. Tilburg University.

Verberne, S. (2002). Context-sensitive spell checking based on word trigram probabilities. Unpublished master’s thesis, University of Nijmegen.

Wilcox-O'Hearn, L. A. (2014). Detection is the central problem in real-word spelling correction. CoRR, abs/1408.3153.

Page 80: นายพลวัฒน์ ไหลมนูling/thesis/2559MA-Ling-Ponlawat.pdfนายพลว ฒน ไหลมน ว ทยาน พนธ น เป นส วนหน

80

ประวตผเขยนวทยา นพนธ

ประวตผเขยนวทยานพนธ

นาย พลวฒน ไหลมน เกดทจงหวดอดรธาน ส าเรจการศกษาในระดบปรญญาศลปศาสตรบณฑต สาขาวชาภาษาองกฤษ จากมหาวทยาลยเชยงใหม ในปการศกษา 2552 และเขาศกษาตอในหลกสตรอกษรศาสตรมหาบณฑต ภาควชาภาษาศาสตร จฬาลงกรณมหาวทยาลย ในปการศกษา 2556