32
รายงานการวิจัยฉบับสมบูรณ เรื่อง ภาษาไทย: ประสิทธิภาพของฟงกชันความเหมือนตอขั ้นตอนวิธีเพื่อนบานใกลที่สุดเค สําหรับ การจําแนกประเภทขอมูล ภาษาอังกฤษ : The Efficiency of the Similarity Function to the k-Nearest Neighbors Algorithm for Data Classification คณะผูวิจัย อาจารย ดร. สุพจน เฮงพระพรหม นายชนาธิป หมั่นเพียรสุข ไดรับการสนับสนุนงบประมาณรายได จากมหาวิทยาลัยราชภัฏนครปฐม ปงบประมาณ 2558 ปที่วิจัยสําเร็จ 2558 ภายใตโครงการบูรณาการนักศึกษาและอาจารย เพื่อการพัฒนาทองถิ่นและ ความเปนเลิศทางวิชาการ

ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

รายงานการวิจัยฉบับสมบูรณ

เรื่อง

ภาษาไทย: ประสิทธิภาพของฟงกชันความเหมือนตอขั้นตอนวิธีเพ่ือนบานใกลท่ีสุดเค สําหรับ

การจําแนกประเภทขอมูล

ภาษาอั งกฤษ : The Efficiency of the Similarity Function to the k-Nearest Neighbors

Algorithm for Data Classification

คณะผูวิจัย

อาจารย ดร. สุพจน เฮงพระพรหม

นายชนาธิป หมั่นเพียรสุข

ไดรับการสนับสนุนงบประมาณรายได จากมหาวิทยาลัยราชภัฏนครปฐม

ปงบประมาณ 2558 ปท่ีวิจัยสําเร็จ 2558

ภายใตโครงการบูรณาการนักศึกษาและอาจารย เพ่ือการพัฒนาทองถ่ินและ

ความเปนเลิศทางวิชาการ

Page 2: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

งานวิจัยเร่ือง

ภาษาไทย: ประสิทธิภาพของฟงกชันความเหมือนตอข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค สําหรับการ

จําแนกประเภทขอมูล

ภาษาอังกฤษ: The Efficiency of the Similarity Function to the k-Nearest Neighbors

Algorithm for Data Classification

บทคัดยอ งานวิจัยนี้มีวัตถุประสงคเพ่ือศึกษาประสิทธิภาพและเสนอวิธีการปรับปรุปการใชฟงกชัน

ความเหมือนสําหรับการเพ่ิมประสิทธิภาพของการจําแนกประเภทขอมูลดวยข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค (k-Nearest Neighbor Algorithm: KNN) โดยไดทําการทดสอบกับชุดขอมูลเกณฑมาตรฐาน (Benchmark) จํานวน 6 ชุดขอมูล ไดแก ชุดขอมูลแกว (Glass) ชุดขอมูลไวน (Wine) ชุดขอมูลหุบเขา (Hill-Valley) ชุดขอมูลมะเร็งเตานม (Wdbc) ชุดขอมูลมะเร็งตอมน้ําเหลือง (DLBCL) และชุดขอมูลมะเร็งลําไส (Colon Cancer) การเปรียบเทียบประสิทธิภาพของฟงกชันความเหมือนแบบตาง ๆ ไดทําการแบงฟงกชั่นความเหมือนออกเปน 2 กลุม ไดแก 1) ฟงกชันการวัดระยะหาง (Distance Metric) ประกอบดวย ฟงกชั่นระยะหางยูคลิเดียน (Euclidean) และฟงกชันระยะหางแมนฮัตตัน (Manhattan) และ 2) ฟงกชั่นสหสัมพันธ (Coefficient) ประกอบดวย ฟงกชันสหสัมพันธโคไซน (Cosine) และ ฟงกชันสหสัมพันธเพียรสัน (Pearson) จากการทดลอง พบวา ฟงกชันระยะหางแมนฮัตตัน ใหประสิทธิภาพท่ีดีในกลุมฟงกชันการวัดระยะหาง และ ฟงกชันสหสัมพันธโคไซน ใหประสิทธิภาพดีในกลุมฟงกชันสหสัมพันธ ดังนั้นในงานวิจัยนี้จึงไดพัฒนาฟงกชั่นใหมโดยการนําฟงกชันระยะหางแมนฮัตตัน และ ฟงกชันสหสัมพันธโคไซน มาคํานวณรวมกัน ซ่ึงผลการทดลองพบวาฟงกชันท่ีนําเสนอใหประสิทธิภาพในการจําแนกประเภทขอมูลทีดีข้ึนสําหรับการจําแนกประเภทขอมูลดวยข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค

Page 3: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

กิตติกรรมประกาศ

คณะผูวิจัย เรื่อง ประสิทธิภาพของฟงกชันความเหมือนตอข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค สําหรับการจําแนกประเภทขอมูล ขอขอบคุณมหาวิทยาลัยราชภัฏนครปฐมท่ีไดสนับสนุนทุนวิจัยภายใตโครงการบูรณาการนักศึกษาและอาจารย เพ่ือการพัฒนาทองถ่ินและความเปนเลิศทางวิชาการประจํา ปงบประมาณ 2558 และขอขอบคุณหนวยวิจัยอัจฉริยภาพแหงเครื่องจักร (Machine Intelligence Research Unit) ท่ีไดใหการสนับสนุนดานขอมูล สถานท่ีดําเนินการวิจัย ตลอดจนการใหคําปรึกษาตลอดโครงการจนการดําเนินการวิจัยในครั้งนี้สําเร็จลุลวงไปดวยดี

สุพจน เฮงพระพรหม ชนาธิป หม่ันเพียรสุข

Page 4: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

สารบัญ

เรื่อง หนา บทคัดยอ ก

กิตติกรรมประกาศ ข สารบัญ ค

สารบัญตาราง ง

สารบัญรูปภาพ ฉ

บทท่ี 1 บทนํา 1.1 ความเปนมาและความสําคัญของปญหา 1

1.2 แนวคิดในการแกปญหา 2

1.3 วัตถุประสงคของการวิจัย 2

1.4 ขอบเขตการศึกษา 2

1.5 ผลท่ีคาดวาจะไดรับ 3

1.6 ระยะเวลาดําเนินงาน 3

บทท่ี 2 หลักการและทฤษฏีเกี่ยวของ 2.1 ทฤษฎท่ีีเก่ียวของ 4

2.2 งานวิจัยท่ีเก่ียวของ 7

บทท่ี 3 การออบแบบการทดลอง 3.1 ชุดขอมูลท่ีใชในการทดลอง 8

3.2 ฟงกชันความเหมือนท่ีใชในการทดลอง 9

3.3 การทดสอบประสิทธิภาพ 10

บทท่ี 4 ผลการทดลอง 4.1 ผลการทดสอบเพ่ือหาประสิทธิภาพของฟงกชันความเหมือน 11

4.2 ประสิทธิภาพของฟงกชันความเหมือนท่ีนําเสนอ 17

บทท่ี 5 สรุปผลและขอเสนอแนะ 5.1 สรุปผลการดําเนินงาน 24

5.2 ขอเสนอแนะ 24

5.3 แนวทางการนําไปใช 25

เอกสารอางอิง 26

Page 5: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

สารบัญตาราง

ตาราง หนา

ตารางท่ี 1.1 ระยะเวลาดําเนินงาน 3

ตารางท่ี 4.1 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภท 14

ขอมูล Glass

ตารางท่ี 4.2 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภท 14

ขอมูล Wine

ตารางท่ี 4.3 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภท 15

ขอมูล WDBC

ตารางท่ี 4.4 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภท 14

ขอมูล Hill-Valley

ตารางท่ี 4.5 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภท 16

ขอมูล Colon

ตารางท่ี 4.6 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภท 16

ขอมูล DLBCL

ตารางท่ี 4.7 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภท 18

ขอมูล Glass ดวยฟงกชันท่ีนําเสนอ

ตารางท่ี 4.8 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภท 19

ขอมูล Wine ดวยฟงกชันท่ีนําเสนอ

ตารางท่ี 4.9 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภท 20

ขอมูล WDBC ดวยฟงกชันท่ีนําเสนอ

ตารางท่ี 4.10 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภท 21

ขอมูล Hill-Valley ดวยฟงกชันท่ีนําเสนอ

ตารางท่ี 4.11 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภท 22

ขอมูล Colon ดวยฟงกชันท่ีนําเสนอ

Page 6: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

สารบัญตาราง (ตอ)

ตาราง หนา

ตารางท่ี 4.12 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภท 23

ขอมูล DLBCL ดวยฟงกชันท่ีนําเสนอ

Page 7: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

สารบัญภาพ

ภาพท่ี หนา ภาพท่ี 3.1 ภาพรวมของการออกแบบการทดลอง 10 ภาพท่ี 4.1 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Glass 12 ภาพท่ี 4.2 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Wine 12 ภาพท่ี 4.3 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล WDBC 12 ภาพท่ี 4.4 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล 13 Hill-Valley ภาพท่ี 4.5 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Colon 13 ภาพท่ี 4.6 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล DLBCL 13 ภาพท่ี 4.7 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Glass 18 ดวยฟงกชันท่ีนําเสนอ ภาพท่ี 4.8 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Wine 19 ดวยฟงกชันท่ีนําเสนอ ภาพท่ี 4.9 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล WDBC 20 ดวยฟงกชันท่ีนําเสนอ ภาพท่ี 4.10 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล 21 Hill-Valley ดวยฟงกชันท่ีนําเสนอ ภาพท่ี 4.11 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Colon 22 ดวยฟงกชันท่ีนําเสนอ ภาพท่ี 4.12 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล DLBCL 23 ดวยฟงกชันท่ีนําเสนอ

Page 8: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

บทที่ 1

บทนํา

1.1 ความเปนมาและความสําคัญของปญหา

ในปจจุบันข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค (k-Nearest Neighbor Algorithm: KNN) เปนข้ันตอนวิธีการหนึ่งท่ีไดรับความนิยมในศาสตรดานการเรียนรูของเครื่องจักร (Machine Learning) และการทําเหมืองขอมูล (Data Mining) [1] โดยข้ันตอนวิธีการนี้จะทําการคํานวณหาคาความคลายคลึงโดยใชฟงกชันความเหมือน (Similarity Function) ระหวางขอมูลท่ีตองการทํานายกับชุดขอมูลสอน (Training Data) ท่ีมีอยู เพ่ือดูวาขอมูลท่ีตองการทํานายนั้นมีลักษณะคลายกับขอมูลตัวใดมากท่ีสุด เค ตัว และกําหนดประเภทขอมูลตามจํานวนเสียงสวนใหญของขอมูล เค ตัวนั้น

ประสิทธิภาพของวิธีเพ่ือนใกลท่ีสุดเค เกิดจากปจจัยหลักปจจัยหนึ่ง คือ ฟงกชันความเหมือนสําหรับคํานวณหาคาความคลายคลึงของชุดขอมูล ซ่ึงฟงกชันหลักท่ีเปนท่ีนิยมใชมากท่ีสุดคือ การคํานวณหาระยะหางยูคลิเดียน (Euclidean Distance) [2] ซ่ึงเปนการวัดคาความหางระหวางจุด 2 จุดในระบบพิกัดคารทีเซียน ท่ีมาจากทฤษฎีปทาโกรัส ซ่ึงถาขอมูล 2 ตัวมีความคลายกันมาก จุด 2 จุด ซ่ึงแทนขอมูลแตละตัว จะอยูใกลกันมาก จะทําใหคายูคลิเดียนมีคานอย เขาใกลศูนย

ไดมีการศึกษาเพ่ือหาฟงกชันสําหรับการวัดความคลายคลึงกันของขอมูลมาเปนเวลานาน จากหลายหลายวิธีการ [3] โดยมาจากหลากหลายแนวคิด เชน การวัดระยะทาง (ระยะหางยูคลิเดียน, ระยะหางแมนฮัตตัน ฯลฯ) การวัดความคลายคลึงดวย สหสัมพันธ (สหสัมพันธแบบโคไซน: Cosine Coefficient, สหสัมพันธเพียรสัน: Person’s Coefficient ฯลฯ) เปนตน ซ่ึงการวัดความคลายคลึงในแตละวิธีการก็จะมีขอดีขอเสียท่ีแตกตางกันไป

ในการวิจัยนี้จะทําการศึกษาหาประสิทธิภาพของฟงกชันความเหมือนแบบตาง ๆ ท่ีมีผลตอประสิทธิภาพการจําแนกประเภทขอมูลของข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเคและศึกษาหาวิธีการพัฒนาประสิทธิภาพของข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเคสําหรับปญหาการจําแนกประเภทขอมูลดวยฟงกชันความเหมือนท่ีเหมาะสมตอไป

1.2 แนวคิดในการแกปญหา

1.2.1 ในการศึกษาประสิทธิภาพของฟงกชันความเหมือนตอข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค สําหรับการจําแนกประเภทขอมูลนั้น ผูวิจัยจะทําการทดลองปรับฟงกชันความเหมือนท่ีใชกับข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค โดยจะทําการทดสอบประสิทธิภาพของฟงกชันความเหมือนแบบตาง ๆ กับชุดขอมูลเกณฑมาตรฐานท่ีมีจํานวนคุณลักษณะตาง ๆ 1.2.2 ทําการวิเคราะหขอดีขอเสียของฟงกชันแตละแบบ และหาวิธีการผนวกขอดีของแตละ

ฟงกชันเพ่ือพัฒนาประสิทธิภาพของวิธีการจําแนกประเภทขอมูลของข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค

Page 9: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

2

1.3 วัตถุประสงคของการวิจัย

1.3.1 เพ่ือศึกษาประสิทธิภาพของฟงกชันความเหมือนแบบตาง ๆ ตอการจําแนกประเภทขอมูลดวยข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค 1.3.2 เพ่ือเสนอแนวทางการปรับปรุปการใชฟ งกชันความเหมือนสําหรับการเพ่ิมประสิทธิภาพของการจําแนกประเภทขอมูลดวยข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค

1.4 ขอบเขตการศึกษา

1.4.1 การวิจัยนี้ จะทําการทดลองกับขอมูลเกณฑมาตรฐาน (Benchmark) โดยมีตัวแทนของขอมูล3 กลุม ไดแก กลุมท่ีมีจํานวนคุณลักษณะ (Feature) นอย (หลักสิบ) กลุมท่ีมีจํานวนคุณลักษณะปานกลาง (หลักรอย) และ กลุมท่ีมีจํานวนคุณลักษณะมาก (หลักพัน) กลุมละ 1 – 2 ชุดขอมูล

1.4.2 การเปรียบเทียบประสิทธิภาพ จะเปรียบเทียบประสิทธิภาพของฟงกชันความเหมือนจากวิธีการทางสถิติ และทฤษฎีสารสนเทศ (Information Theory) ไดแก สหสัมพันธแบบโคไซน (CosineCoefficient), ส ห สั ม พั น ธ เพี ย ร สั น (Pearson Coefficient), ระ ย ะห า งยู ค ลิ เดี ย น (Euclidean Distant) และ ระยะหางแมนฮัตตัน (Manhattan Distant)

1.5 ผลท่ีคาดวาจะไดรับ

1.5.1 ไดแนวทางสําหรับการเพ่ิมประสิทธิภาพของวิธีการจําแนกขอมูล

1.5.2 ไดฟงกชันความเหมือนสําหรับการเพ่ิมประสิทธิภาพของการจําแนกประเภทขอมูลดวยข้ันตอนวิธีเพ่ือนบานใกลท่ีสุด เค

Page 10: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

3

1.6 ระยะเวลาดําเนนิงาน

ตารางท่ี 1.1 ระยะเวลาการดําเนินงาน

กิจกรรม เม.ย. พ.ค. มิ.ย. ก.ค. ส.ค. ก.ย. ต.ค. พ.ย.

1. ศึกษาทฤษฎีและวรรณกรรมท่ีเก่ียวของกับ

ข้ันตอนวิธีเพ่ือนบานใกลท่ีสุด เค

2. รวบรวมขอ มูล ท่ี จะนํ ามาทดสอบและ

วิเคราะหปญหาในการทดสอบขอมูล

3. ออกแบบการทดลองและทดลองเขียน

อัลกอริทึมตามเง่ือนไขข้ันตอนวิธีเพ่ือนบานใกล

ท่ีสุด เค

4. ทําการทดลองวัดประสิทธิภาพขอมูลและ

รวบรวมผลการทดลอง

5. วิเคราะหผลการทดลอง

6.สรุปผลการทดลองและจัดทํารายงานการวิจัย

7.สงผลงานตีพิมพในงานประชุมวิชาการ

8.จัดสงรายงานการวิจัย

Page 11: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

บทที่2

หลักการและทฤษฎีที่เกีย่วของ

ในการศึกษาและพัฒนาประสิทธิภาพของฟงกชันความเหมือนตอข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค สําหรับการจําแนกประเภทขอมูล ผูพัฒนาไดศึกษาคนควาหลักการและทฤษฎีท่ีเก่ียวของ รวมถึงงานวิจัยท่ีเก่ียวของโดยเนื้อหาจะแบงตามหัวขอ ดังนี้

2.1 ทฤษฎท่ีีเก่ียวของ 2.2 งานวิจัยท่ีเก่ียวของ

2.1 ทฤษฎท่ีีเกี่ยวของ

2.1.1 ข้ันตอนวิธี เพ่ือนบานใกล ท่ีสุดเค (k-Nearest Neighbor Algorithm: KNN) เปนวิธีการท่ีใชในการจําแนกประเภทขอมูล โดยเปรียบเทียบความคลายคลึงกับขอมูลท่ีมีอยูมากท่ีสุด เค ตัว แลวกําหนดกลุมใหกับขอมูลตัวใหมตามเสียงสวนใหญของสมาชิกเคตัวท่ีมีความใกลเคียงท่ีสุดกับขอมูลใหมนี้ ข้ันตอนวิธีการเพ่ือนบานใกลท่ีสุด เค สรุปไดดังนี้

1) กําหนดคาเค (นิยมกําหนดใหเปนจํานวนค่ี) 2) คํานวณความคลายคลึงของขอมูลใหมกับชุดขอมูลตัวอยาง 3) จัดลําดับความคลายคลึงและเลือกขอมูลตัวอยางท่ีมีความคลายคลึงมากท่ีสุด เค

ตัว 4) พิจารณาขอมูลตัวอยางท้ัง เค ตัวเพ่ือดูวาแตละตัวถูกจัดอยูในกลุมใด 5) กําหนดกลุมใหกับขอมูลตัวใหมดวยกลุมท่ีมีจํานวนตัวอยางมากท่ีสุดจากคา เค

ในการคํานวณคาความคลายคลึงของตัวอยาง สามารถใชสูตรคํานวณไดดังตอไปนี้ 2.1.2 ฟ ง ก ชั น ค ว า ม เห มื อ น (Similarity Function) ห รื อ ก า ร วั ด ค ว าม เห มื อ น

(SimilarityMeasure) เปนวิธีการวัดความคลายคลึงของวัตถุ 2 ตัวใด ๆ โดยท่ัวไปจะมีความหมายตรงกันขามกับการวัดระยะหาง (Distance Measure) Brendan J. Frey & Delbert Dueck [4] ไดนิยามฟงกชันความเหมือนดังสมการ (2-1)

2)( kXiXs −= (2-1)

โดยท่ี iX คือ คาของขอมูลตัวท่ี i

kX คือ คาของขอมูลตัวท่ี k

วิธีการนิยามการวัดความเหมือน มีหลากหลายวิธี ซ่ึงวิธีการพ้ืนฐานท่ีนิยมใช มีดังตอไปนี้

Page 12: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

5

1) ระยะหางยูคลิเดียน (Euclidean Distant) เปนการวัดระยะหางปกติระหวางจุด 2 จุดในแนวเสนตรง ซ่ึงอาจวัดไดดวยไมบรรทัด ท่ีไดมาจากทฤษฎีพีทาโกรัส ระยะหางยูคลิเดียน ระหวางจุด p และ จุด q แสดงดวย d(p,q) คํานวณไดดังสมการ (2-2)

2)(2)(2)(),( nqnpiqipiqipqpd −+⋅⋅⋅+−+−=

∑=

−=n

i iqip1

2)( (2-2)

โดยท่ี p = {p1, p2, p3, …, pn} และ q = {q1, q2, q3, …, qn} คือ จุด 2 จุดท่ี

ตองการคํานวณระยะหาง คา d(p,q) นอยแสดงวา 2 จุด p และ q มีความใกลเคียงกันมาก (หากมีคาเปนศูนย

หมายถึง ท้ัง 2 จุด คือจุดจุดเดียวกัน) แตหากมีคามาก แสดงวา 2 จุดนี้ มีความหากกัน หรือแตกตางกันมาก

2) ระยะหางแมนฮัตตัน (Manhattan Distant ) เปนการวัดระยะทางระหวางจุด

สองจุดตามแกนวัดมุมขวา ชื่อลอกเลียนมาจากตารางเคาโครงของถนนในแมนฮัตตัน ซ่ึงทําใหสามารถ

ใชเสนทางท่ีสั้นท่ีสุดระหวางจุดสองจุดในเมือง คํานวณไดดังสมการ (2-3)

∑ −=n

i iYiXd (2-3)

โดยท่ี iX และ iY คือจุด 2 จุดท่ีตองการคํานวณระยะหาง

3) สหสัมพันธโคไซน (Cosine Coefficient) หรือบางครั้งเรียกวา ความคลายคลึงโคไซน (CosineSimilarity) เปนการวัดความคลายคลึงระหวาง 2 เวคเตอร โดยการวัดมุมโคไซนของเวคเตอรท้ังสอง ซ่ึงคํานวณไดจากสมการ (2-4)

)cos(θ=similarity

BABA⋅=

Page 13: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

6

∑ ∑×

∑=

×=

n niBiA

n

i iBiA

2)(2)(

1 (2-4)

โดยท่ี A = {a1, a2, a3, … , an} และ B = {b1, b2, b3, …, bn} คือ 2เวคเตอรท่ีตองการนํามาเปรียบเทียบ

คาสหสัมพันธโคไซนจะมีคาอยูระหวาง -1 ถึง 1 โดยมีความหมายดังนี้ ถาคาเขาใกล 1 หมายถึง ท้ัง 2 เวคเตอรมีความสัมพันธกันมากไปในทิศทางเดียวกัน ถาคาเขาใกล -1 หมายถึง ท้ัง 2 เวคเตอรมีความสัมพันธกันมากไปในทิศทางตรง

ขามกัน ถาคาเขาใกล 0 หมายถึง ท้ัง 2 เวคเตอรไมมีความสัมพันธกัน

4) สหสัมพันธเพียรสัน (Pearson Coefficient) เปนวิธีท่ีใชวัดความสัมพันธระหวาง

ตัวแปร หรือขอมูล 2 ชุด โดยท่ีตัวแปร หรือขอมูล 2 ชุดนั้นจะตองอยูในรูปของขอมูลในมาตราอันตร

ภาคหรืออัตราสวน (Interval or Ratioscale) ซ่ึงคํานวณไดจากสมการ (2-5)

( )( )∑ ∑−∑ ∑−

∑ ∑ ∑−=

2)(22)(2

))((

YYNXXN

YXXYNxyr (2-5)

โดยท่ี xyr เปน คาสัมประสิทธิ์สหสัมพันธแบบเพียรสัน

∑ X เปน ผลรวมของขอมูลท่ีวัดไดจากตัวแปรตัวท่ี 1 (X)

∑Y เปน ผลรวมของขอมูลท่ีวัดไดจากตัวแปรตัวท่ี 2 (Y)

YX∑ เปน ผลรวมของผลคูณระหวางขอมูลตัวแปรท่ี 1 และ 2

2∑ X เปน ผลรวมของกําลังสองของขอมูลท่ีวัดไดจากตัวแปรตัวท่ี 1

2∑Y เปน ผลรวมของกําลังสองของขอมูลท่ีวัดไดจากตัวแปรตัวท่ี 2

N เปน ขนาดของกลุมตัวอยาง

2.2 งานวิจัยท่ีเกี่ยวของ

Xindong Wu และคณะ [1] ไดนําเสนอ 10 ข้ันตอนวิธีท่ีไดรับความนิยมสูงสุดทางดานการทําเหมืองขอมูลท่ีระบุโดยงานประชุมวิชาการนานาชาติ IEEE ดานการทําเหมืองขอมูล (ICDM) เม่ือเดือนธันวาคม ป ค .ศ. 2006 ท่ีผานมา ไดแก C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naïve Bayes และ CART ซ่ึง 10 ข้ันตอนวิธีนี้ เปนข้ันตอนวิธีท่ีมีความสําคัญเปนอยางมากในการทํางานวิจัยทางดานเหมืองขอมูล

Page 14: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

7

Lillian Lee [3] ได ศึกษาวิธีการวัดความคลายคลึ งเชิ งกระจายสํ าหรับการพัฒนาประสิทธิภาพของการประมาณคาความนาจะเปนของเหตุการณท่ีเกิดข้ึนพรอมกันท่ีไมเคยพบมากอน โดยศึกษาเปรียบเทียบประสิทธิภาพของการวัดความเหมือนดวยวิธีการพ้ืนฐานจํานวนหนึ่งสําหรับปญหาการตัดสินใจ และจําแนกกลุมตามคาเฉลี่ยของประสิทธิภาพของฟงกชันความเหมือนแตละตัว จากนั้น ไดพัฒนาวิธีการวัดท่ีชื่อวา “the skew divergence” ซ่ึงทําใหไดประสิทธิภาพของการแกปญหาท่ีดีท่ีสุด

กริช สมกันธา และคณะ [5] ไดพัฒนาระบบทํานายผลการเรียนนักศึกษาออนไลนเพ่ือประเมินผลการเรียนของนักศึกษาโดยใชข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค เปนการประยุกตเทคโนโลยีทางปญญาประดิษฐในการศึกษาเพ่ือเพ่ิมประสิทธิภาพการเรียนของนักศึกษา วิธีการท่ีนําเสนอจะใชคุณลักษณะเดนจํานวน 6 คุณลักษณะเดนในระบบทํานายผลการเรียนนักศึกษา ท้ัง 6 คุณลักษณะเดนถูกสกัดมาจากขอมูลของนักศึกษา หลังจากนั้นคุณลักษณะเดนท้ังหมดจะถูกใชเปนขอมูลเขาสําหรับทํานายในวิธีการของข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค ในการทดสอบประสิทธิภาพ

ภาคิณ สกุลเจริญ [6] ไดพัฒนาระบบแบงกลุมลูกคาอุตสาหกรรมโดยใชเทคนิคเหมืองขอมูล แบบข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค เปนระบบสารสนเทศเพ่ือการจัดการ นําเทคนิคเหมืองขอมูลแบบข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค เพ่ือชวยอานวยความสะดวกใหผูใชงานในดานธุรกิจ ในสวนงานการแบงระดับลูกคาซ่ึงเปนจุดสําคัญของการรักษาลูกคาท่ีทําใหลูกคามีความจงรักภักดีตอบริษัท ลดตนทุนการจัดการกรณีแบงระดับผิดพลาด เพ่ิมยอดขายกรณีท่ีลูกคาท่ีมีความจงรักภักดีแตไมไดถูกเลือกเขาไปท่ีกลุมลูกคาพิเศษ ซ่ึงเปนเหตุใหเสียโอกาสการขาย หรือตอยอดการขายไดมากข้ึน ตามกระบวนการพัฒนาระบบงานคอมพิวเตอร

Page 15: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

บทที3่

การออกแบบการทดลอง

ในการศึกษาประสิทธิภาพของฟงกชันความเหมือนตอข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค

สําหรับการจําแนกประเภทขอมูลนั้น คณะผูวิจัยไดทําการออกแบบการศึกษาประสิทธิภาพของ

ฟงกชันความเหมือนตอข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค โดยฟงกชันความเหมือนแบบตาง ๆ ชุดขอมูล

เกณฑมาตรฐาน (Benchmark) จํานวน 6 ชุดขอมูล โดยมีรายละเอียดดังตอไปนี้

3.1 ชุดขอมูลท่ีใชในการทดลอง

ขอมูลท่ีใชในการทดลองเปนขอมูลเกณฑมาตรฐานชนิดตัวเลขจํานวนจริงท่ีมีจํานวน

คุณลักษณะแตกตางกันตั้งแตระดับสิบถึงระดับพันคุณลักษณะ ประกอบดวย 6 ชุดขอมูล ดังนี ้

1) Glass เปนชุดขอมูลสําหรับการจําแนกประเภทแกว มี 6 ประเภท ประกอบดวยขอมูล

จํานวน 214 ตัวอยาง โดยมี 10 คุณลักษณะ

2) wine เปนชุดขอมูลสําหรับการจําแนกประเภทชนิดของไวน ซ่ึงมี 3 ประเภท

ประกอบดวยขอมูลจํานวน 178 ตัวอยาง โดยมี 13 คุณลักษณะ

3) wdbc เปนชุดขอมูลสําหรับการจําแนกประเภทโรคมะเร็งเตานม มี 2 ประเภท

ประกอบดวยขอมูลจํานวน 569 ตัวอยาง มี 32 คุณลักษณะ

4) Hill-Valley เปนชุดขอมูลสําหรับการจําแนกประเภทหุบเขา มี 1 ประเภท ประกอบดวย

ขอมูลจํานวน 606 ตัวอยาง มี 101 คุณลักษณะ

5) Colon ขอมูลมะเร็งลําไส มี 2 ประเภท ประกอบดวยขอมูล 62 ตัวอยาง จากจํานวน

คุณลักษณะท้ังหมด 2000 คุณลกัษณะ

6) DLBCL ขอมูลมะเร็งตอมน้ําเหลืองกลุมยอยของโรคมะเร็งตอมน้ําเหลือง มี 2 ประเภท

ประกอบดวยขอมูล 47 ตัวอยาง แบงเปน germinal centre B-like จํานวน 24 ตัวอยาง

และ activated B-like จํานวน 23 ตัวอยาง จากจํานวนคุณลักษณะท้ังหมด 4,026

คุณลักษณะ [7]

Page 16: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

9

3.2 ฟงกชันความเหมือนท่ีใชในการทดลอง

การทดสอบใชฟงกชันความเหมือนในการทดลองนี้ ไดแบงฟงกชันความเหมือนออกเปน 2

กลุม ไดแก

1) ฟงกชันการวัดระยะหาง (Distance Metric) ประกอบดวย ฟงกชั่นระยะหางยูคลิเดียน

(Euclidean) และฟงกชันระยะหางแมนฮัตตัน (Manhattan)

2) ฟงกชั่นสหสัมพันธ (Coefficient) ประกอบดวย ฟงกชันสหสัมพันธโคไซน (Cosine)

และ ฟงกชันสหสัมพันธเพียรสัน (Pearson)

จากนั้นจะหาวิธีการท่ีดี ท่ีสุดของแตละกลุม นํามาพัฒนาเปนฟงกชันใหมเพ่ือหาความ

คลายคลึงของตัวอยาง โดยมีวิธีการดังนี้

1) นําผลของคาท่ีไดจากฟงกชันการวัดระยะหาง (ท่ีดีท่ีสุด) ท้ังหมดมาทําการแปลงใหอยูใน

รูปปกติ 0-1 (0-1 Normalization) เขียนแทนดวย Dist01 คาท่ีไดถาเขาใกล 0 จะ

หมายถึงคาท่ีดีท่ีสุด

2) นําผลของคาท่ีไดจากฟงกชันสหสัมพันธ (ท่ีดีท่ีสุด) มาลบออกจาก 1 เขียนแทนดวย (1 -

Coef) คาท่ีไดถาเขาใกล 0 จะหมายถึงคาท่ีดีท่ีสุด

3) หาความเหมือนของขอมูล x และ y แทนดวย Sim(x,y) โดยการนําผลท่ีไดจาก 1) และ

2) มารวมกัน ดังสมการ (3-1) โดยคาท่ีไดถาเขาใกล 0 จะหมายถึงคาท่ีดีท่ีสุด

Sim(x,y) = Dist01 + (1 – Coef) (3-1)

ภาพรวมของการออกแบบการทดลอง แสดงดังภาพท่ี 3-1

Page 17: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

10

ภาพท่ี 3.1 ภาพรวมของการออกแบบการทดลอง

3.3 การทดสอบประสิทธิภาพ

ในการทดสอบประสิทธิภาพของวิธีการท่ีสําเสนอนั้น จะใชวิธีการทดสอบแบบ 10-Folds

cross validation ซ่ึงจะทําการแบงขอมูลออกเปน 10 กลุม ๆ ละเทา ๆ กัน จากนั้นจะทําการนํา

ขอมูล 9 กลุมมาใชเปนชุดขอมูลสอน (Training Data) สวนขอมูลท่ีเหลืออีก 1 กลุม จะใชเปนชุด

ขอมูลทดสอบ (Test Data) โดยจะทําการวนสลับกันเปนชุดขอมูลทดสอบจนครบทุกกลุม ซ่ึงหมายถึง

ในขอมูลแตละชุดจะมีการทดลอง 10 การทดลอง

ในการวัดประสิทธิภาพของวิธีการท่ีนําเสนอนั้น จะนําชุดขอมูลทดสอบแตละรอบการทดลอง

มาทดสอบดวยข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเคดวยฟงกชันความเหมือนแบบตาง ๆ กับชุดขอมูลสอน

แลวหาผลรวมสะสมของคาความถูกตองในการจําแนกประเภทขอมูลท้ัง 10 รอบการทดลองเพ่ือสรุป

เปนประสิทธิภาพของฟงกชันความเหมือนนั้น ๆ

Page 18: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

บทที4่

ผลการทดลอง

ในการศึกษาประสิทธิภาพของฟงกชันความเหมือนตอข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค

สําหรับการจําแนกประเภทขอมูลนั้น จะไดนําเสนอผลการทดลอง โดยจะแบงออกเปน 2 ชวง ไดแก

1. ผลการทดสอบเพ่ือหาประสิทธิภาพของฟงกชันความเหมือน

2. ประสิทธิภาพของฟงกชันความเหมือนท่ีนําเสนอ

4.1 ผลการทดสอบเพ่ือหาประสิทธิภาพของฟงกชันความเหมือน

ในหัวขอนี้ จะทําการศึกษาเปรียบเทียบประสิทธิภาพของฟงกชันความเหมือนแบบตาง ๆ

โดยไดทําการแบงฟงกชั่นความเหมือนออกเปน 2 กลุม ไดแก

1. ฟงกชันการวัดระยะหาง (Distant Metric) ประกอบดวย ฟงกชั่นระยะหาง

ยูคลิเดียน (Euclidean) และฟงกชันระยะหางแมนฮัตตัน (Manhattan)

2. ฟงกชั่นสหสัมพันธ (Correlation) ประกอบดวย ฟงกชันสหสัมพันธโคไซน

(Cosine) และ ฟงกชันสหสัมพันธเพียรสัน (Pearson)

ผลการทดลองเปรียบเทียบประสิทธิภาพแสดงดังภาพท่ี 4.1 – 4.6 โดยรายละเอียดปรากฏ

ดังตารางท่ี 4.1 – 4.6 ซ่ึงจากผลการทดลองแสดงใหเห็นวา การใชฟงกชันการวัดระยะหางนั้น ฟงกชัน

แมนฮัตตันใหประสิทธิภาพท่ีดีสําหรับขอมูลท่ีมีจํานวนคุณลักษณะนอย ๆ แตเม่ือจํานวนคุณลักษณะ

เพ่ิมมากข้ึน ฟงกชันยูคลิเดียนจะใหประสิทธิภาพท่ีดีกวา แตโดยภาพรวมแลวฟงกชันแมนฮัตตันให

ประสิทภาพท่ีดี ในขณะท่ีฟงกชั่นสหสัมพันธ ถาขอมูลมีจํานวนคุณลักษณะนอย ๆ ท้ังเพียรสันและโค

ไชนใหประสิทธิภาพท่ีไมตางกัน แตเม่ือจํานวนคุณลัณษะเพ่ิมมากข้ึน โคไซนจะใหประสิทธิภาพท่ี

ดีกวา

Page 19: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

12

ภาพท่ี 4.1 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Glass

ภาพท่ี 4.2 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Wine

ภาพท่ี 4.3 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล WDBC

55.00%

60.00%

65.00%

70.00%

75.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

Distant

DATA glass Manhattan

DATA glass Euclidian

55.00%

60.00%

65.00%

70.00%

75.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

Correlation

DATA glass Person

DATA glass Cosine

90.00%

95.00%

100.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

Distant

DATA wine Manhattan

DATA wine Euclidian

90.00%

95.00%

100.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

Correation

DATA wine Person

DATA wine Cosine

94.00%

96.00%

98.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

Distant

DATA WDBC Manhattan

DATA WDBC Euclidian

88.00%

90.00%

92.00%

94.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

Correlation

DATA WDBC Person

DATA WDBC Cosine

Page 20: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

13

ภาพท่ี 4.4 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Hill-Valley

ภาพท่ี 4.5 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Colon

ภาพท่ี 4.6 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล DLBCL

45.00%50.00%55.00%60.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

Distant

DATA Hill-Valley Manhattan

DATA Hill-Valley Euclidian

96.00%97.00%98.00%99.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

Correlation

DATA Hill-Valley Person

DATA Hill-Valley Cosine

72.00%74.00%76.00%78.00%80.00%82.00%84.00%86.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

Distant

DATA Colon Manhattan

DATA Colon Euclidian

0.00%

20.00%

40.00%

60.00%

80.00%

100.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

Correlation

DATA Colon Pearson

DATA Colon Cosine

70.00%

75.00%

80.00%

85.00%

90.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

Distant

DATA DLBCL Manhattan

DATA DLBCL Euclidian

0.00%20.00%40.00%60.00%80.00%

100.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

Correlation

DATA DLBCL Pearson

DATA DLBCL Cosine

Page 21: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

14

ตารางท่ี 4.1 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Glass

ตารางท่ี 4.2 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Wine

Page 22: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

15

ตารางท่ี 4.3 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล WDBC

ตารางท่ี 4.4 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Hill-Valley

Page 23: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

16

ตารางท่ี 4.5 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Colon

ตารางท่ี 4.6 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล DLBCL

Page 24: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

17

4.2 ประสิทธิภาพของฟงกชันความเหมือนท่ีนําเสนอ ในหัวขอนี้จะนําเสนอประสิทธิภาพของฟงกชันความเหมือนท่ีผูวิจัยไดพัฒนาข้ึน ซ่ึงจากหัวขอ 4.1 พบวา ฟงกชันแมนฮัตตัน และฟงกชันโคไซนใหประสิทธิภาพท่ีดีท่ีสุดในแตละกลุม ในการทดลองตอไป จึงเลือกฟงกชันแมนฮัตตัน และ โคไซนมาใชงานรวมกัน ตามรายละเอียดท่ีแสดงในสมการท่ี (3-1) ในบทท่ี 3 โดยประสิทธิภาพของฟงกชันท่ีนําเสนอจะเปรียบเทียบกับฟงกชันแมนฮัตตันและฟงกชันโคไซน ผลการทดลองเปรียบเทียบประสิทธิภาพแสดงดังภาพท่ี 4.7 – 4.12 และรายละเอียดการเปรียบเทียบแสดงดังตารางท่ี 4.7 – 4.12 จากภาพ เสนประคือการใชฟงกชันแมนฮัตตัน เสนทึบเทาคือการใชฟงกชันโคไซน และ เสนทึบดําคือการนําท้ัง 2 ฟงกชันมารวมกันตามวิธีการท่ีนําเสนอ จากผลการทดลองพบวาใหประสิทธิภาพท่ีดีท่ีสุดสําหรับ 3 ชุดขอมูลแรก (ท่ีมีจํานวนคุณลักษณะนอย) ไดแก Glass, Wine และ WDBC ในขณะท่ีชุดขอมูลท่ีมีจํานวนคุณลักษณะสูงข้ึน ประสิทธิภาพของวิธีการท่ีนําเสนอจะไมดีท่ีสุดแตจะไมใหประสิทธิภาพท่ีต่ําท่ีสุด

ภาพท่ี 4.7 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Glass ดวยฟงกชันท่ี

นําเสนอ

55.00%

60.00%

65.00%

70.00%

75.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

Glass

DATA glass Manhattan DATA glass Cosine

DATA glass CosineManNew

Page 25: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

18

ตารางท่ี 4.7 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Glass ดวยฟงกชันท่ีนําเสนอ

ภาพท่ี 4.8 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Wine ดวยฟงกชันท่ี

นําเสนอ

90.00%91.00%92.00%93.00%94.00%95.00%96.00%97.00%98.00%99.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

Wine

DATA wine Manhattan DATA wine Cosine

DATA wine CosineManNew

ตารางแสดงสรุปผล Glass

คา K Manhattan Cosine Cosine+Man

1 72.71% 70.19% 72.90%

2 72.38% 69.91% 72.06%

3 71.40% 68.97% 71.40%

4 72.52% 69.11% 72.66%

5 70.70% 67.38% 70.84%

6 69.44% 65.70% 70.00%

7 69.16% 64.21% 68.88%

8 68.88% 62.43% 69.20%

9 67.01% 63.18% 67.67%

10 67.99% 63.27% 68.04%

Page 26: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

19

ตารางท่ี 4.8 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Wine ดวยฟงกชันท่ีนําเสนอ

ภาพท่ี 4.9 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล WDBC ดวยฟงกชันท่ี

นําเสนอ

86.00%

88.00%

90.00%

92.00%

94.00%

96.00%

98.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

WDBC

DATA WDBC Manhattan DATA WDBC Cosine

DATA WDBC CosineMannew

ตารางแสดงสรุปผล Wine คา K Manhattan Cosine Cosine+Man

1 96.24% 96.74% 96.57%

2 96.01% 96.41% 96.41%

3 96.85% 96.01% 96.97%

4 96.35% 96.18% 96.85%

5 96.63% 94.89% 96.85%

6 96.57% 95.39% 97.02%

7 96.97% 94.61% 97.02%

8 96.91% 94.61% 97.25%

9 98.03% 92.81% 97.58%

10 97.64% 93.48% 97.64%

Page 27: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

20

ตารางท่ี 4.9 รายละเอียดการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล WDBC ดวยฟงกชันท่ีนําเสนอ

ภาพท่ี 4.10 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Hill-Valley ดวย

ฟงกชันท่ีนําเสนอ

0.00%

20.00%

40.00%

60.00%

80.00%

100.00%

120.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

Hill-Valley

DATA Hill-Valley Manhattan DATA Hill-Valley Cosine

DATA Hill-Valley CosineManNew

ตารางแสดงสรุปผล WDBC

คา K Manhattan Cosine Cosine+Man

1 95.34% 90.05% 95.40%

2 95.24% 89.89% 95.17%

3 97.12% 91.04% 97.10%

4 96.93% 91.32% 97.13%

5 97.05% 92.23% 97.07%

6 97.10% 92.69% 97.19%

7 97.03% 92.16% 96.96%

8 97.12% 92.36% 97.03%

9 96.75% 92.13% 96.77%

10 96.89% 92.00% 96.98%

Page 28: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

21

ตารางท่ี 4.10 รายละเอียดการเปรยีบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Hill-Valley ดวยฟงกชันท่ีนําเสนอ

ภาพท่ี 4.11 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Colon ดวยฟงกชันท่ี

นําเสนอ

72.00%

74.00%

76.00%

78.00%

80.00%

82.00%

84.00%

86.00%

88.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

Colon

DATA Colon Manhattan DATA Colon Cosine

DATA Colon CosineManNew

ตารางแสดงสรุปผล Hill-Valley

คา K Manhattan Cosine Cosine+Man

1 56.06% 98.37% 65.17%

2 55.68% 98.33% 65.07%

3 54.16% 98.53% 69.70%

4 56.01% 98.56% 65.46%

5 53.30% 98.20% 60.81%

6 53.47% 98.43% 62.91%

7 52.26% 97.92% 60.83%

8 52.11% 98.25% 61.77%

9 51.22% 97.42% 60.79%

10 52.31% 97.75% 62.59%

Page 29: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

22

ตารางท่ี 4.11 รายละเอียดการเปรยีบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล Colon ดวยฟงกชันท่ีนําเสนอ

ภาพท่ี 4.12 ผลการเปรียบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล DLBCL ดวยฟงกชันท่ี

นําเสนอ

0.00%

20.00%

40.00%

60.00%

80.00%

100.00%

k1 k2 k3 k4 k5 k6 k7 k8 k9 k10

DLBCL

DATA DLBCL Manhattan DATA DLBCL Cosine

DATA DLBCL CosineManNew

ตารางแสดงสรุปผล Colon

คา K Manhattan Cosine Cosine+Man

1 80.32% 77.74% 77.10%

2 78.71% 76.94% 77.74%

3 80.81% 81.45% 83.39%

4 79.03% 80.81% 80.00%

5 79.36% 85.16% 80.97%

6 78.07% 84.35% 79.36%

7 80.32% 85.32% 80.16%

8 80.65% 86.45% 82.10%

9 79.52% 85.64% 79.20%

10 77.42% 86.78% 79.03%

Page 30: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

23

ตารางท่ี 4.12 รายละเอียดการเปรยีบเทียบประสิทธิภาพของการจําแนกประเภทขอมูล DLBCL ดวยฟงกชันท่ีนําเสนอ

ตารางแสดงสรุปผล DLBCL

คา K Manhattan Cosine Cosine+Man

1 77.45% 74.26% 79.15%

2 77.24% 74.26% 81.70%

3 77.45% 83.19% 80.00%

4 77.87% 77.23% 80.00%

5 77.66% 87.02% 85.11%

6 76.17% 84.68% 82.55%

7 81.70% 92.13% 84.04%

8 81.70% 85.96% 85.53%

9 84.47% 87.23% 85.11%

10 84.89% 85.11% 84.47%

Page 31: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

บทที5่

สรุปผลและขอเสนอแนะ

5.1 สรุปผลการดําเนินงาน

งานวิจัยนี้ไดทําการศึกษาหาประสิทธิภาพของฟงกชันความเหมือนแบบตาง ๆ ท่ีมีผลตอ

ประสิทธิภาพการจําแนกประเภทขอมูลของข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค และศึกษาหาวิธีการ

พัฒนาประสิทธิภาพของข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเคสําหรับปญหาการจําแนกประเภทขอมูลโดย

ในการทดลองไดทําการแบงฟงกชั่นความเหมือนออกเปน 2 ประเภท ไดแก 1) ฟงกชันความเหมือนท่ี

วัดดวยการวัดระยะหาง ประกอบดวย ฟงกชั่นระยะหางยูคลิเดียน (Euclidean Distant) ,ฟงกชัน

ระยะหางแมนฮัตตัน (Manhattan Distant ) และ 2) ฟงกชั่นความเหมือนท่ีวัดดวยความคลายคลึง

ประกอบดวย ฟงกชันสหสัมพันธแบบโคไซน (Cosine Coefficient) , ฟงกชันสหสัมพันธเพียรสัน

(Pearson Coefficient) กับขอมูลเกณฑมาตรฐาน (benchmark) จํานวน 6 ชุด ไดแก Glass, wine,

wdbc, Hill-Valley , Colon และ DLBCL ซ่ึ งคัดลอกมาจากเว็บไซตของ UC Irvine Machine

Learning Repository

จากการทดลองเปรียบเทียบประสิทธิภาพของฟงกชั่นความเหมือนท่ีมีผลตอประสิทธิภาพการจําแนกประเภทขอมูลของข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค พบวา ฟงกชันความเหมือนท่ีวัดดวยการวัดระยะหาง ฟงกชันระยะหางแมนฮัตตัน (Manhattan Distant ) ใหประสิทธิภาพดีท่ีสุด และ ฟงกชั่นความเหมือนท่ีวัดดวยสหสัมพันธ ฟงกชันสหสัมพันธแบบโคไซน (Cosine Coefficient) ใหประสิทธิภาพดีท่ีสุด โดยในการทดลองไดทําการพัฒนาฟงกชันใหมโดยการนําฟงกชันท้ัง 2 กลุมมาคํานวณรวมกัน โดยผลการทดลองพบวาวิธีการท่ีนําเสนอใหประสิทธิภาพท่ีดี โดยเฉพาะกับชุดขอมูลท่ีมีจํานวนคุณลักษณะไมมาก 5.2 ขอเสนอแนะ

เพ่ือใหข้ันตอนการศึกษาหาประสิทธิภาพของฟงกชันความเหมือนแบบตาง ๆดวยข้ันตอนวิธีเพ่ือนบานใกลท่ีสุดเค มีประสิทธิภาพเพ่ิมมากข้ึนควรเลือกใชฟงกชั่นในการทํางานใหเหมาะสมกับขอมูลท่ีใชในการทดสอบเพ่ือท่ีจะไดประสิทธิภาพท่ีดีข้ึน

5.3 แนวทางการนําไปใช ฟงกชั่นใหมท่ีไดสามารถนํามาประยุกตใชงานในการพัฒนาเว็บแอพพลิเคชั่นในการทํานาย

ขอมูลและไดข้ันตอนวิธีการสําหรับการตัวจําแนกประเภทขอมูลดวยข้ันตอนวิธีการเพ่ือนบานใกลท่ีสุด

เค

Page 32: ภาษาอังกฤษ The Efficiency of the Similarity Function to ...home.npru.ac.th/supoj/research/FullReport/... · The Efficiency of the Similarity Function to the kNearest

เอกสารอางอิง

[1] Xindong Wu , Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda,

Geoffrey J. McLachlan, Angus Ng, Bing Liu, Philip S. Yu, Zhi-Hua Zhou, Michael Steinbach,

David J. Hand and Dan Steinberg. (2008). “Top 10 algorithms in data mining.” Knowledge

and Information Systems, 14(1), 1-37.

[2] Per-Erik Danielsson. (1980). “Euclidean distance mapping.” Computer Graphics and Image

Processing, 14(3), 227–248.

[3] Lillian Lee. (1999) “Measures of distributional similarity.” Proceedings of the 37th annual

meeting of the Association for Computational Linguistics on Computational Linguistics,

pp. 25-32, 1999.

[4] Brendan J. Frey; Delbert Dueck (2007). "Clustering by passing messages between data

points". Science 315: 972–976. doi:10.1126/science.1136800

[5] กริช สมกันธา, วิไลพร กุลตังวัฒนา, ธีระวัฒน หัสโก และ จิระพงศ รอดชมภ ู(2532) “Online Student

Forecast System by Using K-Nearest Neighbor.” Knowledge and Smart Technologies 1-7.

[6] ภาคิณ สกุลเจริญ (2554) “Market Segmentation of Industrial Customer Data using K-Nearest Neighbor (KNN) Data Mining Algorithm.” Artificial Intelligence 1-113.

[7] Alizadeh A.A., Eisen M.B., Davis R.E., Ma C., Lossos I.S., Rosenwald A., Boldrick J.C., Sabet

H., Tran T., Yu X., Powell J.I., Yang L., Marti G.E., Moore T., J. Hudson J.JR., Lu L., Lewis

D.B., Tibshirani R., Sherlock G., Chan W.C., Greiner T.C., Weisenburger D.D., Armitage J.O.,

Warnke R., Levy R., Wilson W., Grever M.R., Byrd J.C., Botstein D., Brown P.O. and Staudt

L.M. (2000). Distinct type of diffuse large B-cell lymphoma identified by gene expression

profiling. Nature 403: 503-511.